📊

vaex

Name: vaex
Author: K-Dense-AI

Sûr ⚙️ Commandes externes📁 Accès au système de fichiers🌐 Accès réseau

Analyser des ensembles de données massifs avec Vaex

Également disponible depuis: davila7

Le traitement de grands ensembles de données tabulaires qui dépassent la RAM nécessite des outils spécialisés. Vaex permet des opérations DataFrame hors cœur, une évaluation paresseuse et un traitement de milliards de lignes par seconde sur des ensembles de données trop volumineux pour la mémoire. Parfait pour les données astronomiques, les séries temporelles financières et l'analyse scientifique à grande échelle.

Prend en charge: Claude Codex Code(CC)

🥉 72 Bronze

Télécharger le ZIP du skill

Importer dans Claude

Allez dans Paramètres → Capacités → Skills → Importer un skill

Activez et commencez à utiliser

Tester

Utilisation de "vaex". Charger mon fichier parquet et afficher les statistiques

Résultat attendu:

DataFrame shape: (10,000,000, 15) rows x columns
Column types: int64 (5), float64 (7), string (3)
Memory usage: 0.5 GB (virtual columns)
Mean age: 34.2 | Std income: 45200.5

Utilisation de "vaex". Filtrer et grouper les données

Résultat attendu:

Filtré à 2.3 millions de lignes (age > 25)
Résultats du group by catégorie:
- Electronics: 450K lignes, mean $52,000
- Clothing: 890K lignes, mean $31,000
- Home: 960K lignes, mean $42,000

Utilisation de "vaex". Convertir CSV en HDF5 pour les performances

Résultat attendu:

CSV original: 15 GB, 45 minutes à charger
HDF5 converti: 8 GB, chargement instantané
Accès mémoire-mappé - zéro RAM pour l'exploration

Audit de sécurité

Sûr

v4 • 1/17/2026

This is a pure documentation skill for the Vaex Python library. All 498 static findings are false positives caused by markdown code block formatting. The scanner misinterpreted backticks in code examples as Ruby/shell commands, flagged memory-mapping as filesystem access, and misidentified DataFrame inspection methods as reconnaissance. No executable code, credential handling, or malicious patterns exist.

Fichiers analysés

6,268

Lignes analysées

résultats

Total des audits

Facteurs de risque

⚙️ Commandes externes (7)

SKILL.md:32-178 references/core_dataframes.md:15-156 references/data_processing.md:11-554 references/io_operations.md:19-702 references/machine_learning.md:7-727 references/performance.md:11-570 references/visualization.md:20-612

📁 Accès au système de fichiers (3)

references/io_operations.md:10-13 references/io_operations.md:22-48 references/performance.md:259-262

🌐 Accès réseau (2)

references/io_operations.md:474 skill-report.json:6

Audité par: claude Voir l’historique des audits →

Score de qualité

Architecture

100

Maintenabilité

Contenu

Communauté

100

Sécurité

Conformité aux spécifications

Ce que vous pouvez construire

Explorer des ensembles de données de milliards de lignes

Analyser interactivement des ensembles de données CSV/HDF5 massifs sans contraintes de mémoire ni prétraitement.

Traiter des données astronomiques

Travailler avec des ensembles de données scientifiques à l'échelle du téraoctet utilisant le calcul hors cœur et l'évaluation paresseuse.

Construire des pipelines évolutifs

Créer des workflows de feature engineering et ML qui gèrent des ensembles de données dépassant la RAM disponible.

Essayez ces prompts

Charger un grand ensemble de données

Utiliser Vaex pour ouvrir mon fichier HDF5 à data/large_dataset.hdf5 et afficher sa structure, les types de colonnes et le nombre de lignes.

Filtrer et agréger

Filtrer l'ensemble de données pour les enregistrements où age > 25 et calculer la moyenne et l'écart-type du revenu groupé par catégorie.

Créer une visualisation

Créer une carte de chaleur montrant la relation entre les coordonnées x et y avec 100 bins sur chaque axe.

Construire un pipeline ML

Utiliser Vaex ML pour créer un StandardScaler pour les caractéristiques age et income, puis appliquer PCA pour la réduction de dimensionnalité.

Bonnes pratiques

Utiliser les formats HDF5 ou Apache Arrow pour un chargement mémoire-mappé instantané au lieu de CSV
Exploiter les colonnes virtuelles et les expressions pour les calculs sans matérialiser les données
Grouper les opérations avec delay=True lors de l'exécution de plusieurs agrégations pour l'efficacité

Éviter

Éviter de charger des ensembles de données entiers dans la RAM - utiliser vaex.open() pour l'accès mémoire-mappé
Ne pas convertir de grands ensembles de données en pandas - utiliser les opérations Vaex tout au long du pipeline
Éviter les multiples petites exports - grouper les écritures et utiliser des formats efficaces comme HDF5

Foire aux questions

Qu'est-ce qui différencie Vaex de pandas ?

Vaex utilise l'évaluation paresseuse et le mémoire-mappage pour traiter des ensembles de données plus grands que la RAM sans tout charger en mémoire.

Quels formats de fichiers Vaex supporte-t-il ?

Vaex prend en charge les formats HDF5, Apache Arrow, Parquet, CSV et FITS avec un chargement mémoire-mappé pour un accès efficace.

Vaex peut-il gérer des ensembles de données de milliards de lignes ?

Oui, Vaex peut traiter plus d'un milliard de lignes par seconde en utilisant des opérations C++ optimisées et un calcul hors cœur.

Vaex supporte-t-il l'apprentissage automatique ?

Vaex ML fournit des transformateurs, des encodeurs, PCA, K-means et une intégration avec scikit-learn, XGBoost et LightGBM.

Comment fonctionne l'évaluation paresseuse ?

Les opérations ne sont pas exécutées tant que les résultats ne sont pas nécessaires, permettant un regroupement efficace et une utilisation minimale de la mémoire.

Vaex peut-il accéder au stockage cloud ?

Vaex peut lire depuis S3, GCS et d'autres stockages cloud en utilisant des protocoles comme les préfixes s3:// et gs://.