📊

vaex

Name: vaex
Author: K-Dense-AI

安全 ⚙️ 外部コマンド📁 ファイルシステムへのアクセス🌐 ネットワークアクセス

Vaexで大規模なデータセットを分析する

こちらからも入手できます: davila7

RAMを超える大きな表形式データセットを処理するには、専用のツールが必要です。Vaexはコア外DataFrame操作、遅延評価、メモリに収まらないデータセットでの每秒10億行処理を可能にします。天文学データ、金融時系列、大規模な科学分析に最適です。

対応: Claude Codex Code(CC)

🥉 72 ブロンズ

スキルZIPをダウンロード

Claudeでアップロード

設定 → 機能 → スキル → スキルをアップロードへ移動

オンにして利用開始

テストする

「vaex」を使用しています。 Parquetファイルをロードして統計を表示する

期待される結果:

DataFrame shape: (10,000,000, 15) rows x columns
Column types: int64 (5), float64 (7), string (3)
Memory usage: 0.5 GB (virtual columns)
Mean age: 34.2 | Std income: 45200.5

「vaex」を使用しています。データをフィルタリングしてグループ化する

期待される結果:

2.3 million rowsにフィルタリング（age > 25）
カテゴリ別グループバイ結果:
- Electronics: 450K行、mean $52,000
- Clothing: 890K行、mean $31,000
- Home: 960K行、mean $42,000

「vaex」を使用しています。パフォーマンスのためにCSVをHDF5に変換する

期待される結果:

元データCSV: 15 GB、ロードに45分かかる
変換後HDF5: 8 GB、即座にロード完了
メモリマップアクセス - 探索時はRAMを一切使用しない

セキュリティ監査

安全

v4 • 1/17/2026

This is a pure documentation skill for the Vaex Python library. All 498 static findings are false positives caused by markdown code block formatting. The scanner misinterpreted backticks in code examples as Ruby/shell commands, flagged memory-mapping as filesystem access, and misidentified DataFrame inspection methods as reconnaissance. No executable code, credential handling, or malicious patterns exist.

スキャンされたファイル

6,268

解析された行数

検出結果

総監査数

リスク要因

⚙️ 外部コマンド (7)

SKILL.md:32-178 references/core_dataframes.md:15-156 references/data_processing.md:11-554 references/io_operations.md:19-702 references/machine_learning.md:7-727 references/performance.md:11-570 references/visualization.md:20-612

📁 ファイルシステムへのアクセス (3)

references/io_operations.md:10-13 references/io_operations.md:22-48 references/performance.md:259-262

🌐 ネットワークアクセス (2)

references/io_operations.md:474 skill-report.json:6

監査者: claude 監査履歴を表示 →

品質スコア

アーキテクチャ

100

保守性

コンテンツ

コミュニティ

100

セキュリティ

仕様準拠

作れるもの

数十億行のデータセットを探索する

メモリ制約や前処理なしで、巨大なCSV/HDF5データセットをインタラクティブに分析する。

天文学データを処理する

コア外計算と遅延評価を使用して、テラバイト規模の科学データセットを操作する。

スケーラブルなパイプラインを構築する

利用可能なRAMを超えるデータセットを処理するフィーチャーエンジニアリングとMLワークフローを作成する。

これらのプロンプトを試す

大規模なデータセットをロードする

data/large_dataset.hdf5にあるHDF5ファイルをVaexで開いて、構造、カラムタイプ、行数を表示してください。

フィルタリングと集約

age > 25のレコードをフィルタリングして、categoryでグループ化したincomeの平均と標準偏差を計算してください。

可視化を作成する

x座標とy座標の関係を示すヒートマップを、各軸100ビンバイナリーで作成してください。

MLパイプラインを構築する

Vaex MLを使用して、ageとincomeの特徴に対するStandardScalerを作成し、次元削減のためにPCAを適用してください。

ベストプラクティス

CSVの代わりにHDF5またはApache Arrowフォーマットを使用して、インスタントなメモリマップドロードを活用する
データを具体化せずに計算を行うために、仮想カラムと式を活用する
効率性のために複数の集約を実行する場合はdelay=Trueでバッチ操作を行う

回避

データセット全体をRAMにロードしない - メモリマップドアクセスにはvaex.open()を使用する
大きなデータセットをpandasに変換しない - パイプライン全体を通じてVaex操作を使用する
複数の小さなエクスポートを避ける - バッチ書き込みとHDF5などの効率的なフォーマットを使用する

よくある質問

Vaexはpandasと何が異なりますか？

Vaexは遅延評価とメモリマッピングを使用して、すべてをメモリにロードせずにRAMを超えるデータセットを処理します。

Vaexはどのようなファイルフォーマットをサポートしていますか？

VaexはHDF5、Apache Arrow、Parquet、CSV、FITSフォーマットをサポートしており、効率的なアクセスためにメモリマップドロードを提供します。

Vaexは数十億行のデータセットを処理できますか？

はい、Vaexは最適化されたC++操作とコア外計算を使用して、每秒10億行以上を処理できます。

Vaexは機械学習をサポートしていますか？

Vaex MLはトランスフォーマー、エンコーダー、PCA、K-meansを提供し、scikit-learn、XGBoost、LightGBMとの統合をサポートしています。

遅延評価はどのように機能しますか？

操作は結果が必要になるまで実行されないため、効率的なバッチ処理と最小限のメモリ使用が可能になります。

Vaexはクラウドストレージにアクセスできますか？

Vaexはs3://やgs://などのプロトコルを使用して、S3、GCS、その他のクラウドストレージから読み取ることができます。

開発者の詳細

作成者

K-Dense-AI

ライセンス

MIT license

リポジトリ

https://github.com/K-Dense-AI/claude-scientific-skills/tree/main/scientific-skills/vaex

参照

main

ファイル構成

📁 references/

📄 core_dataframes.md

📄 data_processing.md

📄 io_operations.md

📄 machine_learning.md

📄 performance.md

📄 visualization.md

📄 SKILL.md