📊

vaex

Sicher ⚙️ Externe Befehle📁 Dateisystemzugriff🌐 Netzwerkzugriff

Analysieren Sie massive Datensätze mit Vaex

Auch verfügbar von: davila7

Die Verarbeitung großer tabellarischer Datensätze, die den RAM übersteigen, erfordert spezialisierte Tools. Vaex ermöglicht Out-of-Core-DataFrame-Operationen, lazy Evaluation und Milliarden-Zeilen-pro-Sekunde-Verarbeitung für Datensätze, die zu groß für den Speicher sind. Perfekt für astronomische Daten, Finanz-Zeitreihen und großangelegte wissenschaftliche Analysen.

Unterstützt: Claude Codex Code(CC)
📊 71 Angemessen
1

Die Skill-ZIP herunterladen

2

In Claude hochladen

Gehe zu Einstellungen → Fähigkeiten → Skills → Skill hochladen

3

Einschalten und loslegen

Teste es

Verwendung von "vaex". Laden Sie meine Parquet-Datei und zeigen Sie Statistiken

Erwartetes Ergebnis:

  • DataFrame-Form: (10.000.000, 15) Zeilen x Spalten
  • Spaltentypen: int64 (5), float64 (7), string (3)
  • Speicherverbrauch: 0,5 GB (virtuelle Spalten)
  • Mittelwert age: 34,2 | Std income: 45200,5

Verwendung von "vaex". Daten filtern und gruppieren

Erwartetes Ergebnis:

  • Gefiltert auf 2,3 Millionen Zeilen (age > 25)
  • Group-by-Ergebnisse nach category:
  • - Electronics: 450K Zeilen, mean $52.000
  • - Clothing: 890K Zeilen, mean $31.000
  • - Home: 960K Zeilen, mean $42.000

Verwendung von "vaex". CSV zu HDF5 für Performance konvertieren

Erwartetes Ergebnis:

  • Original CSV: 15 GB, 45 Minuten zum Laden
  • Konvertiertes HDF5: 8 GB, sofortiges Laden
  • Memory-mapped Zugriff - null RAM zum Erkunden

Sicherheitsaudit

Sicher
v4 • 1/17/2026

This is a pure documentation skill for the Vaex Python library. All 498 static findings are false positives caused by markdown code block formatting. The scanner misinterpreted backticks in code examples as Ruby/shell commands, flagged memory-mapping as filesystem access, and misidentified DataFrame inspection methods as reconnaissance. No executable code, credential handling, or malicious patterns exist.

8
Gescannte Dateien
6,268
Analysierte Zeilen
3
befunde
4
Gesamtzahl Audits
Auditiert von: claude Audit-Verlauf anzeigen →

Qualitätsbewertung

45
Architektur
100
Wartbarkeit
87
Inhalt
21
Community
100
Sicherheit
91
Spezifikationskonformität

Was du bauen kannst

Milliarden-Zeilen-Datensätze erkunden

Analysieren Sie massive CSV/HDF5-Datensätze interaktiv ohne Speicherbeschränkungen oder Vorverarbeitung.

Astronomische Daten verarbeiten

Arbeiten Sie mit Terabyte-skalierten wissenschaftlichen Datensätzen mit Out-of-Core-Berechnung und lazy Evaluation.

Skalierbare Pipelines erstellen

Erstellen Sie Feature-Engineering und ML-Workflows, die Datensätze verarbeiten, die den verfügbaren RAM übersteigen.

Probiere diese Prompts

Großen Datensatz laden
Verwenden Sie Vaex, um meine HDF5-Datei unter data/large_dataset.hdf5 zu öffnen, und zeigen Sie deren Struktur, Spaltentypen und Zeilenanzahl.
Filtern und aggregieren
Filtern Sie den Datensatz nach Datensätzen, wobei age > 25 ist, und berechnen Sie den Mittelwert und die Standardabweichung von income, gruppiert nach category.
Visualisierung erstellen
Erstellen Sie eine Heatmap, die die Beziehung zwischen x- und y-Koordinaten mit 100 Bins auf jeder Achse zeigt.
ML-Pipeline erstellen
Verwenden Sie Vaex ML, um einen StandardScaler für die Features age und income zu erstellen, und wenden Sie dann PCA zur Dimensionsreduktion an.

Bewährte Verfahren

  • Verwenden Sie HDF5 oder Apache Arrow-Formate für instant memory-mapped Laden statt CSV
  • Nutzen Sie virtuelle Spalten und Ausdrücke für Berechnungen ohne Materialisierung von Daten
  • Stapeln Sie Operationen mit delay=True, wenn Sie mehrere Aggregationen für Effizienz durchführen

Vermeiden

  • Vermeiden Sie das Laden ganzer Datensätze in den RAM - verwenden Sie vaex.open() für memory-mapped Zugriff
  • Konvertieren Sie große Datensätze nicht zu pandas - verwenden Sie Vaex-Operationen durch die gesamte Pipeline
  • Vermeiden Sie mehrere kleine Exporte - stapeln Sie Schreibvorgänge und verwenden Sie effiziente Formate wie HDF5

Häufig gestellte Fragen

Was macht Vaex anders als pandas?
Vaex verwendet lazy Evaluation und Memory-Mapping, um Datensätze zu verarbeiten, die größer als der RAM sind, ohne alles in den Speicher zu laden.
Welche Dateiformate unterstützt Vaex?
Vaex unterstützt HDF5, Apache Arrow, Parquet, CSV und FITS-Formate mit memory-mapped Laden für effizienten Zugriff.
Kann Vaex Milliarden-Zeilen-Datensätze verarbeiten?
Ja, Vaex kann über eine Milliarde Zeilen pro Sekunde verarbeiten mit optimierten C++-Operationen und Out-of-Core-Berechnung.
Unterstützt Vaex maschinelles Lernen?
Vaex ML bietet Transformer, Encoder, PCA, K-means und Integration mit scikit-learn, XGBoost und LightGBM.
Wie funktioniert lazy Evaluation?
Operationen werden nicht ausgeführt, bis Ergebnisse benötigt werden, was effizientes Batching und minimale Speichernutzung ermöglicht.
Kann Vaex auf Cloud-Speicher zugreifen?
Vaex kann von S3, GCS und anderen Cloud-Speichern lesen mit Protokollen wie s3:// und gs:// Präfixen.