📊

vaex

安全 ⚙️ 外部コマンド📁 ファイルシステムへのアクセス🌐 ネットワークアクセス

Vaexで大規模なデータセットを分析する

こちらからも入手できます: davila7

RAMを超える大きな表形式データセットを処理するには、専用のツールが必要です。Vaexはコア外DataFrame操作、遅延評価、メモリに収まらないデータセットでの每秒10億行処理を可能にします。天文学データ、金融時系列、大規模な科学分析に最適です。

対応: Claude Codex Code(CC)
📊 71 十分
1

スキルZIPをダウンロード

2

Claudeでアップロード

設定 → 機能 → スキル → スキルをアップロードへ移動

3

オンにして利用開始

テストする

「vaex」を使用しています。 Parquetファイルをロードして統計を表示する

期待される結果:

  • DataFrame shape: (10,000,000, 15) rows x columns
  • Column types: int64 (5), float64 (7), string (3)
  • Memory usage: 0.5 GB (virtual columns)
  • Mean age: 34.2 | Std income: 45200.5

「vaex」を使用しています。 データをフィルタリングしてグループ化する

期待される結果:

  • 2.3 million rowsにフィルタリング(age > 25)
  • カテゴリ別グループバイ結果:
  • - Electronics: 450K行、mean $52,000
  • - Clothing: 890K行、mean $31,000
  • - Home: 960K行、mean $42,000

「vaex」を使用しています。 パフォーマンスのためにCSVをHDF5に変換する

期待される結果:

  • 元データCSV: 15 GB、ロードに45分かかる
  • 変換後HDF5: 8 GB、即座にロード完了
  • メモリマップアクセス - 探索時はRAMを一切使用しない

セキュリティ監査

安全
v4 • 1/17/2026

This is a pure documentation skill for the Vaex Python library. All 498 static findings are false positives caused by markdown code block formatting. The scanner misinterpreted backticks in code examples as Ruby/shell commands, flagged memory-mapping as filesystem access, and misidentified DataFrame inspection methods as reconnaissance. No executable code, credential handling, or malicious patterns exist.

8
スキャンされたファイル
6,268
解析された行数
3
検出結果
4
総監査数
監査者: claude 監査履歴を表示 →

品質スコア

45
アーキテクチャ
100
保守性
87
コンテンツ
21
コミュニティ
100
セキュリティ
91
仕様準拠

作れるもの

数十億行のデータセットを探索する

メモリ制約や前処理なしで、巨大なCSV/HDF5データセットをインタラクティブに分析する。

天文学データを処理する

コア外計算と遅延評価を使用して、テラバイト規模の科学データセットを操作する。

スケーラブルなパイプラインを構築する

利用可能なRAMを超えるデータセットを処理するフィーチャーエンジニアリングとMLワークフローを作成する。

これらのプロンプトを試す

大規模なデータセットをロードする
data/large_dataset.hdf5にあるHDF5ファイルをVaexで開いて、構造、カラムタイプ、行数を表示してください。
フィルタリングと集約
age > 25のレコードをフィルタリングして、categoryでグループ化したincomeの平均と標準偏差を計算してください。
可視化を作成する
x座標とy座標の関係を示すヒートマップを、各軸100ビンバイナリーで作成してください。
MLパイプラインを構築する
Vaex MLを使用して、ageとincomeの特徴に対するStandardScalerを作成し、次元削減のためにPCAを適用してください。

ベストプラクティス

  • CSVの代わりにHDF5またはApache Arrowフォーマットを使用して、インスタントなメモリマップドロードを活用する
  • データを具体化せずに計算を行うために、仮想カラムと式を活用する
  • 効率性のために複数の集約を実行する場合はdelay=Trueでバッチ操作を行う

回避

  • データセット全体をRAMにロードしない - メモリマップドアクセスにはvaex.open()を使用する
  • 大きなデータセットをpandasに変換しない - パイプライン全体を通じてVaex操作を使用する
  • 複数の小さなエクスポートを避ける - バッチ書き込みとHDF5などの効率的なフォーマットを使用する

よくある質問

Vaexはpandasと何が異なりますか?
Vaexは遅延評価とメモリマッピングを使用して、すべてをメモリにロードせずにRAMを超えるデータセットを処理します。
Vaexはどのようなファイルフォーマットをサポートしていますか?
VaexはHDF5、Apache Arrow、Parquet、CSV、FITSフォーマットをサポートしており、効率的なアクセスためにメモリマップドロードを提供します。
Vaexは数十億行のデータセットを処理できますか?
はい、Vaexは最適化されたC++操作とコア外計算を使用して、每秒10億行以上を処理できます。
Vaexは機械学習をサポートしていますか?
Vaex MLはトランスフォーマー、エンコーダー、PCA、K-meansを提供し、scikit-learn、XGBoost、LightGBMとの統合をサポートしています。
遅延評価はどのように機能しますか?
操作は結果が必要になるまで実行されないため、効率的なバッチ処理と最小限のメモリ使用が可能になります。
Vaexはクラウドストレージにアクセスできますか?
Vaexはs3://やgs://などのプロトコルを使用して、S3、GCS、その他のクラウドストレージから読み取ることができます。

開発者の詳細

作成者

K-Dense-AI

ライセンス

MIT license

参照

main