处理超出 RAM 容量的大型表格数据集需要专门的工具。Vaex 支持核心外 DataFrame 操作、延迟求值,以及在超出内存容量的数据集上实现每秒十亿行的处理速度。非常适合天文数据、金融时间序列和大规模科学分析。
スキルZIPをダウンロード
Claudeでアップロード
設定 → 機能 → スキル → スキルをアップロードへ移動
オンにして利用開始
テストする
「vaex」を使用しています。 Load my parquet file and show statistics
期待される結果:
- DataFrame shape: (10,000,000, 15) rows x columns
- Column types: int64 (5), float64 (7), string (3)
- Memory usage: 0.5 GB (virtual columns)
- Mean age: 34.2 | Std income: 45200.5
「vaex」を使用しています。 Filter and group data
期待される結果:
- Filtered to 2.3 million rows (age > 25)
- Group by category results:
- - Electronics: 450K rows, mean $52,000
- - Clothing: 890K rows, mean $31,000
- - Home: 960K rows, mean $42,000
「vaex」を使用しています。 Convert CSV to HDF5 for performance
期待される結果:
- Original CSV: 15 GB, 45 minutes to load
- Converted HDF5: 8 GB, instant loading
- Memory-mapped access - zero RAM for exploration
セキュリティ監査
安全This is a pure documentation skill for the Vaex Python library. All 498 static findings are false positives caused by markdown code block formatting. The scanner misinterpreted backticks in code examples as Ruby/shell commands, flagged memory-mapping as filesystem access, and misidentified DataFrame inspection methods as reconnaissance. No executable code, credential handling, or malicious patterns exist.
リスク要因
⚙️ 外部コマンド (7)
📁 ファイルシステムへのアクセス (3)
🌐 ネットワークアクセス (2)
品質スコア
作れるもの
探索十亿行数据集
无需内存限制或预处理,交互式分析大型 CSV/HDF5 数据集。
处理天文数据
使用核心外计算和延迟求值处理太字节规模的科学数据集。
构建可扩展管道
创建特征工程和 ML 工作流,处理超出可用 RAM 的数据集。
これらのプロンプトを試す
Use Vaex to open my HDF5 file at data/large_dataset.hdf5 and show its structure, column types, and row count.
Filter the dataset for records where age > 25 and calculate the mean and standard deviation of income grouped by category.
Create a heatmap showing the relationship between x and y coordinates with 100 bins on each axis.
Use Vaex ML to create a StandardScaler for features age and income, then apply PCA for dimensionality reduction.
ベストプラクティス
- 使用 HDF5 或 Apache Arrow 格式实现即时内存映射加载,而非 CSV
- 利用虚拟列和表达式进行计算,无需实例化数据
- 使用 delay=True 执行批量操作以提高多个聚合的效率
回避
- 避免将整个数据集加载到 RAM 中 - 使用 vaex.open() 进行内存映射访问
- 不要将大型数据集转换为 pandas - 在整个管道中使用 Vaex 操作
- 避免多次小规模导出 - 批量写入并使用高效的 HDF5 等格式