📊

vaex

Name: vaex
Author: K-Dense-AI

Seguro ⚙️ Comandos externos📁 Acceso al sistema de archivos🌐 Acceso a red

Analiza conjuntos de datos masivos con Vaex

También disponible en: davila7

Procesar grandes conjuntos de datos tabulares que exceden la RAM requiere herramientas especializadas. Vaex permite operaciones DataFrame fuera de memoria, evaluación diferida y procesamiento de mil millones de filas por segundo en conjuntos de datos demasiado grandes para la memoria. Perfecto para datos astronómicos, series temporales financieras y análisis científico a gran escala.

Soporta: Claude Codex Code(CC)

🥉 72 Bronce

Descargar el ZIP de la skill

Subir en Claude

Ve a Configuración → Capacidades → Skills → Subir skill

Activa y empieza a usar

Pruébalo

Usando "vaex". Carga mi archivo parquet y muestra estadísticas

Resultado esperado:

Forma del DataFrame: (10,000,000, 15) filas x columnas
Tipos de columnas: int64 (5), float64 (7), string (3)
Uso de memoria: 0.5 GB (columnas virtuales)
Media age: 34.2 | Std income: 45200.5

Usando "vaex". Filtrar y agrupar datos

Resultado esperado:

Filtrado a 2.3 millones de filas (age > 25)
Resultados de agrupar por categoría:
- Electronics: 450K filas, media $52,000
- Clothing: 890K filas, media $31,000
- Home: 960K filas, media $42,000

Usando "vaex". Convertir CSV a HDF5 para rendimiento

Resultado esperado:

CSV original: 15 GB, 45 minutos para cargar
HDF5 convertido: 8 GB, carga instantánea
Acceso mapeado en memoria - cero RAM para exploración

Auditoría de seguridad

Seguro

v4 • 1/17/2026

This is a pure documentation skill for the Vaex Python library. All 498 static findings are false positives caused by markdown code block formatting. The scanner misinterpreted backticks in code examples as Ruby/shell commands, flagged memory-mapping as filesystem access, and misidentified DataFrame inspection methods as reconnaissance. No executable code, credential handling, or malicious patterns exist.

Archivos escaneados

6,268

Líneas analizadas

hallazgos

Auditorías totales

Factores de riesgo

⚙️ Comandos externos (7)

SKILL.md:32-178 references/core_dataframes.md:15-156 references/data_processing.md:11-554 references/io_operations.md:19-702 references/machine_learning.md:7-727 references/performance.md:11-570 references/visualization.md:20-612

📁 Acceso al sistema de archivos (3)

references/io_operations.md:10-13 references/io_operations.md:22-48 references/performance.md:259-262

🌐 Acceso a red (2)

references/io_operations.md:474 skill-report.json:6

Auditado por: claude Ver historial de auditorías →

Puntuación de calidad

Arquitectura

100

Mantenibilidad

Contenido

Comunidad

100

Seguridad

Cumplimiento de la especificación

Lo que puedes crear

Explorar conjuntos de datos de mil millones de filas

Analiza conjuntos de datos masivos CSV/HDF5 de forma interactiva sin restricciones de memoria ni preprocesamiento.

Procesar datos astronómicos

Trabaja con conjuntos de datos científicos a escala de terabytes usando computación fuera de memoria y evaluación diferida.

Construir pipelines escalables

Crea flujos de trabajo de ingeniería de características y ML que manejan conjuntos de datos que exceden la RAM disponible.

Prueba estos prompts

Cargar conjunto de datos grande

Usa Vaex para abrir mi archivo HDF5 en data/large_dataset.hdf5 y muestra su estructura, tipos de columnas y cantidad de filas.

Filtrar y agregar

Filtra el conjunto de datos para registros donde age > 25 y calcula la media y desviación estándar de income agrupado por category.

Crear visualización

Crea un mapa de calor mostrando la relación entre las coordenadas x e y con 100 bins en cada eje.

Construir pipeline de ML

Usa Vaex ML para crear un StandardScaler para las características age e income, luego aplica PCA para reducción de dimensionalidad.

Mejores prácticas

Usa formatos HDF5 o Apache Arrow para carga instantánea mapeada en memoria en lugar de CSV
Aprovecha las columnas virtuales y expresiones para cálculos sin materializar datos
Agrupa operaciones con delay=True al realizar múltiples agregaciones para mayor eficiencia

Evitar

Evita cargar conjuntos de datos completos en RAM - usa vaex.open() para acceso mapeado en memoria
No conviertas grandes conjuntos de datos a pandas - usa operaciones de Vaex en todo el pipeline
Evita múltiples exportaciones pequeñas - agrupa escrituras y usa formatos eficientes como HDF5

Preguntas frecuentes

¿Qué hace diferente a Vaex de pandas?

Vaex usa evaluación diferida y mapeo en memoria para procesar conjuntos de datos más grandes que la RAM sin cargar todo en memoria.

¿Qué formatos de archivo soporta Vaex?

Vaex soporta formatos HDF5, Apache Arrow, Parquet, CSV y FITS con carga mapeada en memoria para acceso eficiente.

¿Puede Vaex manejar conjuntos de datos de mil millones de filas?

Sí, Vaex puede procesar más de mil millones de filas por segundo usando operaciones C++ optimizadas y computación fuera de memoria.

¿Vaex soporta aprendizaje automático?

Vaex ML proporciona transformadores, codificadores, PCA, K-means e integración con scikit-learn, XGBoost y LightGBM.

¿Cómo funciona la evaluación diferida?

Las operaciones no se ejecutan hasta que se necesitan los resultados, permitiendo agrupación eficiente y uso mínimo de memoria.

¿Puede Vaex acceder al almacenamiento en la nube?

Vaex puede leer desde S3, GCS y otros almacenamientos en la nube usando protocolos como prefijos s3:// y gs://.

Detalles del desarrollador

Autor

K-Dense-AI

Licencia

MIT license

Repositorio

https://github.com/K-Dense-AI/claude-scientific-skills/tree/main/scientific-skills/vaex

Ref.

main

Estructura de archivos

📁 references/

📄 core_dataframes.md

📄 data_processing.md

📄 io_operations.md

📄 machine_learning.md

📄 performance.md

📄 visualization.md

📄 SKILL.md