vaex
Analiza conjuntos de datos masivos con Vaex
También disponible en: davila7
Procesar grandes conjuntos de datos tabulares que exceden la RAM requiere herramientas especializadas. Vaex permite operaciones DataFrame fuera de memoria, evaluación diferida y procesamiento de mil millones de filas por segundo en conjuntos de datos demasiado grandes para la memoria. Perfecto para datos astronómicos, series temporales financieras y análisis científico a gran escala.
Descargar el ZIP de la skill
Subir en Claude
Ve a Configuración → Capacidades → Skills → Subir skill
Activa y empieza a usar
Pruébalo
Usando "vaex". Carga mi archivo parquet y muestra estadísticas
Resultado esperado:
- Forma del DataFrame: (10,000,000, 15) filas x columnas
- Tipos de columnas: int64 (5), float64 (7), string (3)
- Uso de memoria: 0.5 GB (columnas virtuales)
- Media age: 34.2 | Std income: 45200.5
Usando "vaex". Filtrar y agrupar datos
Resultado esperado:
- Filtrado a 2.3 millones de filas (age > 25)
- Resultados de agrupar por categoría:
- - Electronics: 450K filas, media $52,000
- - Clothing: 890K filas, media $31,000
- - Home: 960K filas, media $42,000
Usando "vaex". Convertir CSV a HDF5 para rendimiento
Resultado esperado:
- CSV original: 15 GB, 45 minutos para cargar
- HDF5 convertido: 8 GB, carga instantánea
- Acceso mapeado en memoria - cero RAM para exploración
Auditoría de seguridad
SeguroThis is a pure documentation skill for the Vaex Python library. All 498 static findings are false positives caused by markdown code block formatting. The scanner misinterpreted backticks in code examples as Ruby/shell commands, flagged memory-mapping as filesystem access, and misidentified DataFrame inspection methods as reconnaissance. No executable code, credential handling, or malicious patterns exist.
Factores de riesgo
⚙️ Comandos externos (7)
📁 Acceso al sistema de archivos (3)
🌐 Acceso a red (2)
Puntuación de calidad
Lo que puedes crear
Explorar conjuntos de datos de mil millones de filas
Analiza conjuntos de datos masivos CSV/HDF5 de forma interactiva sin restricciones de memoria ni preprocesamiento.
Procesar datos astronómicos
Trabaja con conjuntos de datos científicos a escala de terabytes usando computación fuera de memoria y evaluación diferida.
Construir pipelines escalables
Crea flujos de trabajo de ingeniería de características y ML que manejan conjuntos de datos que exceden la RAM disponible.
Prueba estos prompts
Usa Vaex para abrir mi archivo HDF5 en data/large_dataset.hdf5 y muestra su estructura, tipos de columnas y cantidad de filas.
Filtra el conjunto de datos para registros donde age > 25 y calcula la media y desviación estándar de income agrupado por category.
Crea un mapa de calor mostrando la relación entre las coordenadas x e y con 100 bins en cada eje.
Usa Vaex ML para crear un StandardScaler para las características age e income, luego aplica PCA para reducción de dimensionalidad.
Mejores prácticas
- Usa formatos HDF5 o Apache Arrow para carga instantánea mapeada en memoria en lugar de CSV
- Aprovecha las columnas virtuales y expresiones para cálculos sin materializar datos
- Agrupa operaciones con delay=True al realizar múltiples agregaciones para mayor eficiencia
Evitar
- Evita cargar conjuntos de datos completos en RAM - usa vaex.open() para acceso mapeado en memoria
- No conviertas grandes conjuntos de datos a pandas - usa operaciones de Vaex en todo el pipeline
- Evita múltiples exportaciones pequeñas - agrupa escrituras y usa formatos eficientes como HDF5