📊

vaex

Sûr ⚙️ Commandes externes📁 Accès au système de fichiers🌐 Accès réseau

Analyser des ensembles de données massifs avec Vaex

Également disponible depuis: davila7

Le traitement de grands ensembles de données tabulaires qui dépassent la RAM nécessite des outils spécialisés. Vaex permet des opérations DataFrame hors cœur, une évaluation paresseuse et un traitement de milliards de lignes par seconde sur des ensembles de données trop volumineux pour la mémoire. Parfait pour les données astronomiques, les séries temporelles financières et l'analyse scientifique à grande échelle.

Prend en charge: Claude Codex Code(CC)
📊 71 Adéquat
1

Télécharger le ZIP du skill

2

Importer dans Claude

Allez dans Paramètres → Capacités → Skills → Importer un skill

3

Activez et commencez à utiliser

Tester

Utilisation de "vaex". Charger mon fichier parquet et afficher les statistiques

Résultat attendu:

  • DataFrame shape: (10,000,000, 15) rows x columns
  • Column types: int64 (5), float64 (7), string (3)
  • Memory usage: 0.5 GB (virtual columns)
  • Mean age: 34.2 | Std income: 45200.5

Utilisation de "vaex". Filtrer et grouper les données

Résultat attendu:

  • Filtré à 2.3 millions de lignes (age > 25)
  • Résultats du group by catégorie:
  • - Electronics: 450K lignes, mean $52,000
  • - Clothing: 890K lignes, mean $31,000
  • - Home: 960K lignes, mean $42,000

Utilisation de "vaex". Convertir CSV en HDF5 pour les performances

Résultat attendu:

  • CSV original: 15 GB, 45 minutes à charger
  • HDF5 converti: 8 GB, chargement instantané
  • Accès mémoire-mappé - zéro RAM pour l'exploration

Audit de sécurité

Sûr
v4 • 1/17/2026

This is a pure documentation skill for the Vaex Python library. All 498 static findings are false positives caused by markdown code block formatting. The scanner misinterpreted backticks in code examples as Ruby/shell commands, flagged memory-mapping as filesystem access, and misidentified DataFrame inspection methods as reconnaissance. No executable code, credential handling, or malicious patterns exist.

8
Fichiers analysés
6,268
Lignes analysées
3
résultats
4
Total des audits

Score de qualité

45
Architecture
100
Maintenabilité
87
Contenu
21
Communauté
100
Sécurité
91
Conformité aux spécifications

Ce que vous pouvez construire

Explorer des ensembles de données de milliards de lignes

Analyser interactivement des ensembles de données CSV/HDF5 massifs sans contraintes de mémoire ni prétraitement.

Traiter des données astronomiques

Travailler avec des ensembles de données scientifiques à l'échelle du téraoctet utilisant le calcul hors cœur et l'évaluation paresseuse.

Construire des pipelines évolutifs

Créer des workflows de feature engineering et ML qui gèrent des ensembles de données dépassant la RAM disponible.

Essayez ces prompts

Charger un grand ensemble de données
Utiliser Vaex pour ouvrir mon fichier HDF5 à data/large_dataset.hdf5 et afficher sa structure, les types de colonnes et le nombre de lignes.
Filtrer et agréger
Filtrer l'ensemble de données pour les enregistrements où age > 25 et calculer la moyenne et l'écart-type du revenu groupé par catégorie.
Créer une visualisation
Créer une carte de chaleur montrant la relation entre les coordonnées x et y avec 100 bins sur chaque axe.
Construire un pipeline ML
Utiliser Vaex ML pour créer un StandardScaler pour les caractéristiques age et income, puis appliquer PCA pour la réduction de dimensionnalité.

Bonnes pratiques

  • Utiliser les formats HDF5 ou Apache Arrow pour un chargement mémoire-mappé instantané au lieu de CSV
  • Exploiter les colonnes virtuelles et les expressions pour les calculs sans matérialiser les données
  • Grouper les opérations avec delay=True lors de l'exécution de plusieurs agrégations pour l'efficacité

Éviter

  • Éviter de charger des ensembles de données entiers dans la RAM - utiliser vaex.open() pour l'accès mémoire-mappé
  • Ne pas convertir de grands ensembles de données en pandas - utiliser les opérations Vaex tout au long du pipeline
  • Éviter les multiples petites exports - grouper les écritures et utiliser des formats efficaces comme HDF5

Foire aux questions

Qu'est-ce qui différencie Vaex de pandas ?
Vaex utilise l'évaluation paresseuse et le mémoire-mappage pour traiter des ensembles de données plus grands que la RAM sans tout charger en mémoire.
Quels formats de fichiers Vaex supporte-t-il ?
Vaex prend en charge les formats HDF5, Apache Arrow, Parquet, CSV et FITS avec un chargement mémoire-mappé pour un accès efficace.
Vaex peut-il gérer des ensembles de données de milliards de lignes ?
Oui, Vaex peut traiter plus d'un milliard de lignes par seconde en utilisant des opérations C++ optimisées et un calcul hors cœur.
Vaex supporte-t-il l'apprentissage automatique ?
Vaex ML fournit des transformateurs, des encodeurs, PCA, K-means et une intégration avec scikit-learn, XGBoost et LightGBM.
Comment fonctionne l'évaluation paresseuse ?
Les opérations ne sont pas exécutées tant que les résultats ne sont pas nécessaires, permettant un regroupement efficace et une utilisation minimale de la mémoire.
Vaex peut-il accéder au stockage cloud ?
Vaex peut lire depuis S3, GCS et d'autres stockages cloud en utilisant des protocoles comme les préfixes s3:// et gs://.