📊

vaex

Sûr ⚙️ Commandes externes📁 Accès au système de fichiers🌐 Accès réseau

Analise conjuntos de dados massivos com Vaex

Également disponible depuis: davila7

Processar grandes conjuntos de dados tabulares que excedem a RAM exige ferramentas especializadas. O Vaex permite operacoes de DataFrame fora da memoria, avaliacao preguiçosa e processamento de bilhoes de linhas por segundo em conjuntos de dados grandes demais para a memoria. Perfeito para dados astronomicos, series temporais financeiras e analise cientifica em larga escala.

Prend en charge: Claude Codex Code(CC)
🥉 72 Bronze
1

Télécharger le ZIP du skill

2

Importer dans Claude

Allez dans Paramètres → Capacités → Skills → Importer un skill

3

Activez et commencez à utiliser

Tester

Utilisation de "vaex". Load my parquet file and show statistics

Résultat attendu:

  • DataFrame shape: (10,000,000, 15) rows x columns
  • Column types: int64 (5), float64 (7), string (3)
  • Memory usage: 0.5 GB (virtual columns)
  • Mean age: 34.2 | Std income: 45200.5

Utilisation de "vaex". Filter and group data

Résultat attendu:

  • Filtered to 2.3 million rows (age > 25)
  • Group by category results:
  • - Electronics: 450K rows, mean $52,000
  • - Clothing: 890K rows, mean $31,000
  • - Home: 960K rows, mean $42,000

Utilisation de "vaex". Convert CSV to HDF5 for performance

Résultat attendu:

  • Original CSV: 15 GB, 45 minutes to load
  • Converted HDF5: 8 GB, instant loading
  • Memory-mapped access - zero RAM for exploration

Audit de sécurité

Sûr
v4 • 1/17/2026

This is a pure documentation skill for the Vaex Python library. All 498 static findings are false positives caused by markdown code block formatting. The scanner misinterpreted backticks in code examples as Ruby/shell commands, flagged memory-mapping as filesystem access, and misidentified DataFrame inspection methods as reconnaissance. No executable code, credential handling, or malicious patterns exist.

8
Fichiers analysés
6,268
Lignes analysées
3
résultats
4
Total des audits

Score de qualité

45
Architecture
100
Maintenabilité
87
Contenu
22
Communauté
100
Sécurité
91
Conformité aux spécifications

Ce que vous pouvez construire

Explorar conjuntos de dados com bilhoes de linhas

Analise conjuntos de dados CSV/HDF5 massivos de forma interativa sem restricoes de memoria ou pre-processamento.

Processar dados astronomicos

Trabalhe com conjuntos de dados cientificos em escala de terabytes usando computacao fora da memoria e avaliacao preguiçosa.

Construir pipelines escalaveis

Crie fluxos de engenharia de atributos e ML que lidam com conjuntos de dados que excedem a RAM disponivel.

Essayez ces prompts

Carregar conjunto de dados grande
Use Vaex to open my HDF5 file at data/large_dataset.hdf5 and show its structure, column types, and row count.
Filtrar e agregar
Filter the dataset for records where age > 25 and calculate the mean and standard deviation of income grouped by category.
Criar visualizacao
Create a heatmap showing the relationship between x and y coordinates with 100 bins on each axis.
Construir pipeline de ML
Use Vaex ML to create a StandardScaler for features age and income, then apply PCA for dimensionality reduction.

Bonnes pratiques

  • Use formatos HDF5 ou Apache Arrow para carregamento instantaneo com memory-mapped em vez de CSV
  • Aproveite colunas virtuais e expressoes para computacoes sem materializar dados
  • Agrupe operacoes com delay=True ao realizar varias agregacoes para eficiencia

Éviter

  • Evite carregar conjuntos de dados inteiros na RAM - use vaex.open() para acesso com memory-mapped
  • Nao converta grandes conjuntos de dados para pandas - use operacoes Vaex em todo o pipeline
  • Evite varias exportacoes pequenas - agrupe escritas e use formatos eficientes como HDF5

Foire aux questions

O que torna o Vaex diferente do pandas?
O Vaex usa avaliacao preguiçosa e memory-mapping para processar conjuntos de dados maiores que a RAM sem carregar tudo na memoria.
Quais formatos de arquivo o Vaex suporta?
O Vaex suporta formatos HDF5, Apache Arrow, Parquet, CSV e FITS com carregamento memory-mapped para acesso eficiente.
O Vaex lida com conjuntos de dados com bilhoes de linhas?
Sim, o Vaex pode processar mais de um bilhao de linhas por segundo usando operacoes C++ otimizadas e computacao fora da memoria.
O Vaex oferece suporte a machine learning?
O Vaex ML oferece transformers, encoders, PCA, K-means e integracao com scikit-learn, XGBoost e LightGBM.
Como funciona a avaliacao preguiçosa?
As operacoes nao sao executadas ate que os resultados sejam necessarios, permitindo agrupamento eficiente e uso minimo de memoria.
O Vaex pode acessar armazenamento em nuvem?
O Vaex pode ler de S3, GCS e outros armazenamentos em nuvem usando protocolos como os prefixos s3:// e gs://.