📊

vaex

Name: vaex
Author: K-Dense-AI

Sicher ⚙️ Externe Befehle📁 Dateisystemzugriff🌐 Netzwerkzugriff

Analysieren Sie massive Datensätze mit Vaex

Auch verfügbar von: davila7

Die Verarbeitung großer tabellarischer Datensätze, die den RAM übersteigen, erfordert spezialisierte Tools. Vaex ermöglicht Out-of-Core-DataFrame-Operationen, lazy Evaluation und Milliarden-Zeilen-pro-Sekunde-Verarbeitung für Datensätze, die zu groß für den Speicher sind. Perfekt für astronomische Daten, Finanz-Zeitreihen und großangelegte wissenschaftliche Analysen.

Unterstützt: Claude Codex Code(CC)

🥉 72 Bronze

Die Skill-ZIP herunterladen

In Claude hochladen

Gehe zu Einstellungen → Fähigkeiten → Skills → Skill hochladen

Einschalten und loslegen

Teste es

Verwendung von "vaex". Laden Sie meine Parquet-Datei und zeigen Sie Statistiken

Erwartetes Ergebnis:

DataFrame-Form: (10.000.000, 15) Zeilen x Spalten
Spaltentypen: int64 (5), float64 (7), string (3)
Speicherverbrauch: 0,5 GB (virtuelle Spalten)
Mittelwert age: 34,2 | Std income: 45200,5

Verwendung von "vaex". Daten filtern und gruppieren

Erwartetes Ergebnis:

Gefiltert auf 2,3 Millionen Zeilen (age > 25)
Group-by-Ergebnisse nach category:
- Electronics: 450K Zeilen, mean $52.000
- Clothing: 890K Zeilen, mean $31.000
- Home: 960K Zeilen, mean $42.000

Verwendung von "vaex". CSV zu HDF5 für Performance konvertieren

Erwartetes Ergebnis:

Original CSV: 15 GB, 45 Minuten zum Laden
Konvertiertes HDF5: 8 GB, sofortiges Laden
Memory-mapped Zugriff - null RAM zum Erkunden

Sicherheitsaudit

Sicher

v4 • 1/17/2026

This is a pure documentation skill for the Vaex Python library. All 498 static findings are false positives caused by markdown code block formatting. The scanner misinterpreted backticks in code examples as Ruby/shell commands, flagged memory-mapping as filesystem access, and misidentified DataFrame inspection methods as reconnaissance. No executable code, credential handling, or malicious patterns exist.

Gescannte Dateien

6,268

Analysierte Zeilen

befunde

Gesamtzahl Audits

Risikofaktoren

⚙️ Externe Befehle (7)

SKILL.md:32-178 references/core_dataframes.md:15-156 references/data_processing.md:11-554 references/io_operations.md:19-702 references/machine_learning.md:7-727 references/performance.md:11-570 references/visualization.md:20-612

📁 Dateisystemzugriff (3)

references/io_operations.md:10-13 references/io_operations.md:22-48 references/performance.md:259-262

🌐 Netzwerkzugriff (2)

references/io_operations.md:474 skill-report.json:6

Auditiert von: claude Audit-Verlauf anzeigen →

Qualitätsbewertung

Architektur

100

Wartbarkeit

Inhalt

Community

100

Sicherheit

Spezifikationskonformität

Was du bauen kannst

Milliarden-Zeilen-Datensätze erkunden

Analysieren Sie massive CSV/HDF5-Datensätze interaktiv ohne Speicherbeschränkungen oder Vorverarbeitung.

Astronomische Daten verarbeiten

Arbeiten Sie mit Terabyte-skalierten wissenschaftlichen Datensätzen mit Out-of-Core-Berechnung und lazy Evaluation.

Skalierbare Pipelines erstellen

Erstellen Sie Feature-Engineering und ML-Workflows, die Datensätze verarbeiten, die den verfügbaren RAM übersteigen.

Probiere diese Prompts

Großen Datensatz laden

Verwenden Sie Vaex, um meine HDF5-Datei unter data/large_dataset.hdf5 zu öffnen, und zeigen Sie deren Struktur, Spaltentypen und Zeilenanzahl.

Filtern und aggregieren

Filtern Sie den Datensatz nach Datensätzen, wobei age > 25 ist, und berechnen Sie den Mittelwert und die Standardabweichung von income, gruppiert nach category.

Visualisierung erstellen

Erstellen Sie eine Heatmap, die die Beziehung zwischen x- und y-Koordinaten mit 100 Bins auf jeder Achse zeigt.

ML-Pipeline erstellen

Verwenden Sie Vaex ML, um einen StandardScaler für die Features age und income zu erstellen, und wenden Sie dann PCA zur Dimensionsreduktion an.

Bewährte Verfahren

Verwenden Sie HDF5 oder Apache Arrow-Formate für instant memory-mapped Laden statt CSV
Nutzen Sie virtuelle Spalten und Ausdrücke für Berechnungen ohne Materialisierung von Daten
Stapeln Sie Operationen mit delay=True, wenn Sie mehrere Aggregationen für Effizienz durchführen

Vermeiden

Vermeiden Sie das Laden ganzer Datensätze in den RAM - verwenden Sie vaex.open() für memory-mapped Zugriff
Konvertieren Sie große Datensätze nicht zu pandas - verwenden Sie Vaex-Operationen durch die gesamte Pipeline
Vermeiden Sie mehrere kleine Exporte - stapeln Sie Schreibvorgänge und verwenden Sie effiziente Formate wie HDF5

Häufig gestellte Fragen

Was macht Vaex anders als pandas?

Vaex verwendet lazy Evaluation und Memory-Mapping, um Datensätze zu verarbeiten, die größer als der RAM sind, ohne alles in den Speicher zu laden.

Welche Dateiformate unterstützt Vaex?

Vaex unterstützt HDF5, Apache Arrow, Parquet, CSV und FITS-Formate mit memory-mapped Laden für effizienten Zugriff.

Kann Vaex Milliarden-Zeilen-Datensätze verarbeiten?

Ja, Vaex kann über eine Milliarde Zeilen pro Sekunde verarbeiten mit optimierten C++-Operationen und Out-of-Core-Berechnung.

Unterstützt Vaex maschinelles Lernen?

Vaex ML bietet Transformer, Encoder, PCA, K-means und Integration mit scikit-learn, XGBoost und LightGBM.

Wie funktioniert lazy Evaluation?

Operationen werden nicht ausgeführt, bis Ergebnisse benötigt werden, was effizientes Batching und minimale Speichernutzung ermöglicht.

Kann Vaex auf Cloud-Speicher zugreifen?

Vaex kann von S3, GCS und anderen Cloud-Speichern lesen mit Protokollen wie s3:// und gs:// Präfixen.

Entwicklerdetails

Autor

K-Dense-AI

Lizenz

MIT license

Repository

https://github.com/K-Dense-AI/claude-scientific-skills/tree/main/scientific-skills/vaex

Ref

main

Dateistruktur

📁 references/

📄 core_dataframes.md

📄 data_processing.md

📄 io_operations.md

📄 machine_learning.md

📄 performance.md

📄 visualization.md

📄 SKILL.md