處理超過 RAM 容量的大型資料集會導致記憶體錯誤和效能緩慢。Vaex 使用延遲評估和記憶體映射技術,無需將資料載入記憶體即可即時處理數十億行資料。
スキルZIPをダウンロード
Claudeでアップロード
設定 → 機能 → スキル → スキルをアップロードへ移動
オンにして利用開始
テストする
「vaex」を使用しています。 載入我的 10GB 銷售資料檔案並顯示各地區的收入分佈
期待される結果:
- 資料集形狀:150,000,000 行 × 25 欄
- 記憶體使用量:0 位元組(記憶體映射 HDF5)
- 各地區收入:
- • 北部:$12.5B(平均:$245)
- • 南部:$8.3B(平均:$198)
「vaex」を使用しています。 從身高和體重欄位建立 BMI 虛擬欄位
期待される結果:
- 已建立虛擬欄位:df['bmi']
- 記憶體開銷:0 位元組
- 公式:df.weight_kg / (df.height_m ^ 2)
- 已準備好進行聚合和篩選。
「vaex」を使用しています。 顯示總購買金額前 10 名的客戶
期待される結果:
- 客戶分析:
- • 最高消費客戶:總計 $1.2M
- • 前 10 名客戶:合計 $8.5M
- • 處理時間:0.3 秒(延遲評估)
セキュリティ監査
安全This is a pure documentation skill containing only reference guides and Python code examples for the Vaex library. All 501 static findings are false positives triggered by documentation patterns. The analyzer misinterprets markdown code examples, placeholder credential documentation, and legitimate feature descriptions as security issues. No executable code, network operations, or credential exposure exists.
リスク要因
⚙️ 外部コマンド (444)
🌐 ネットワークアクセス (2)
📁 ファイルシステムへのアクセス (16)
🔑 環境変数 (1)
品質スコア
作れるもの
分析海量資料集
探索和分析數十億行資料集,無需擔心記憶體錯誤或抽樣問題。
在大數據上訓練模型
在傳統工具無法處理的大型資料集上建立和部署機器學習管線。
處理時間序列資料
處理大型金融時間序列資料以進行風險分析和預測。
これらのプロンプトを試す
使用 Vaex 載入大型 HDF5/Parquet 檔案,並顯示基本統計資訊和欄位資訊。
根據條件篩選資料集,並高效執行分組聚合運算。
為大型資料集建立熱圖或直方圖視覺化。
使用 Vaex ML 轉換器預處理特徵並訓練 XGBoost 模型。
ベストプラクティス
- 將 CSV 檔案轉換為 HDF5 或 Arrow 格式以實現即時載入
- 使用虛擬欄位而非實體化資料以節省記憶體
- 使用 delay=True 批次處理多個操作以實現單次運算
- 使用選擇功能而非建立新的 DataFrame 來進行篩選
回避
- 在大型資料集上使用 .to_pandas_df() 會失去 Vaex 的優勢
- 在不需要時使用 .values 將資料轉換為 NumPy 陣列
- 重複匯出為 CSV 而非使用 HDF5/Arrow
- 無充分理由地實體化虛擬欄位