vaex
Analyser des ensembles de données massifs avec Vaex
Également disponible depuis: davila7
Le traitement de grands ensembles de données tabulaires qui dépassent la RAM nécessite des outils spécialisés. Vaex permet des opérations DataFrame hors cœur, une évaluation paresseuse et un traitement de milliards de lignes par seconde sur des ensembles de données trop volumineux pour la mémoire. Parfait pour les données astronomiques, les séries temporelles financières et l'analyse scientifique à grande échelle.
Télécharger le ZIP du skill
Importer dans Claude
Allez dans Paramètres → Capacités → Skills → Importer un skill
Activez et commencez à utiliser
Tester
Utilisation de "vaex". Charger mon fichier parquet et afficher les statistiques
Résultat attendu:
- DataFrame shape: (10,000,000, 15) rows x columns
- Column types: int64 (5), float64 (7), string (3)
- Memory usage: 0.5 GB (virtual columns)
- Mean age: 34.2 | Std income: 45200.5
Utilisation de "vaex". Filtrer et grouper les données
Résultat attendu:
- Filtré à 2.3 millions de lignes (age > 25)
- Résultats du group by catégorie:
- - Electronics: 450K lignes, mean $52,000
- - Clothing: 890K lignes, mean $31,000
- - Home: 960K lignes, mean $42,000
Utilisation de "vaex". Convertir CSV en HDF5 pour les performances
Résultat attendu:
- CSV original: 15 GB, 45 minutes à charger
- HDF5 converti: 8 GB, chargement instantané
- Accès mémoire-mappé - zéro RAM pour l'exploration
Audit de sécurité
SûrThis is a pure documentation skill for the Vaex Python library. All 498 static findings are false positives caused by markdown code block formatting. The scanner misinterpreted backticks in code examples as Ruby/shell commands, flagged memory-mapping as filesystem access, and misidentified DataFrame inspection methods as reconnaissance. No executable code, credential handling, or malicious patterns exist.
Facteurs de risque
⚙️ Commandes externes (7)
📁 Accès au système de fichiers (3)
🌐 Accès réseau (2)
Score de qualité
Ce que vous pouvez construire
Explorer des ensembles de données de milliards de lignes
Analyser interactivement des ensembles de données CSV/HDF5 massifs sans contraintes de mémoire ni prétraitement.
Traiter des données astronomiques
Travailler avec des ensembles de données scientifiques à l'échelle du téraoctet utilisant le calcul hors cœur et l'évaluation paresseuse.
Construire des pipelines évolutifs
Créer des workflows de feature engineering et ML qui gèrent des ensembles de données dépassant la RAM disponible.
Essayez ces prompts
Utiliser Vaex pour ouvrir mon fichier HDF5 à data/large_dataset.hdf5 et afficher sa structure, les types de colonnes et le nombre de lignes.
Filtrer l'ensemble de données pour les enregistrements où age > 25 et calculer la moyenne et l'écart-type du revenu groupé par catégorie.
Créer une carte de chaleur montrant la relation entre les coordonnées x et y avec 100 bins sur chaque axe.
Utiliser Vaex ML pour créer un StandardScaler pour les caractéristiques age et income, puis appliquer PCA pour la réduction de dimensionnalité.
Bonnes pratiques
- Utiliser les formats HDF5 ou Apache Arrow pour un chargement mémoire-mappé instantané au lieu de CSV
- Exploiter les colonnes virtuelles et les expressions pour les calculs sans matérialiser les données
- Grouper les opérations avec delay=True lors de l'exécution de plusieurs agrégations pour l'efficacité
Éviter
- Éviter de charger des ensembles de données entiers dans la RAM - utiliser vaex.open() pour l'accès mémoire-mappé
- Ne pas convertir de grands ensembles de données en pandas - utiliser les opérations Vaex tout au long du pipeline
- Éviter les multiples petites exports - grouper les écritures et utiliser des formats efficaces comme HDF5