📊

vaex

Name: vaex
Author: K-Dense-AI

Безопасно ⚙️ Внешние команды📁 Доступ к файловой системе🌐 Доступ к сети

Анализируйте массивные наборы данных с Vaex

Также доступно от: davila7

Обработка больших табличных наборов данных, превышающих объём оперативной памяти, требует специализированных инструментов. Vaex обеспечивает операции DataFrame за пределами ядра, ленивые вычисления и обработку миллиарда строк в секунду для наборов данных, слишком больших для памяти. Идеально подходит для астрономических данных, финансовых временных рядов и крупномасштабного научного анализа.

Поддерживает: Claude Codex Code(CC)

📊 71 Адекватно

Скачать ZIP навыка

Загрузить в Claude

Перейдите в Settings → Capabilities → Skills → Upload skill

Включите и начните использовать

Протестировать

Использование «vaex». Load my parquet file and show statistics

Ожидаемый результат:

DataFrame shape: (10,000,000, 15) rows x columns
Column types: int64 (5), float64 (7), string (3)
Memory usage: 0.5 GB (virtual columns)
Mean age: 34.2 | Std income: 45200.5

Использование «vaex». Filter and group data

Ожидаемый результат:

Filtered to 2.3 million rows (age > 25)
Group by category results:
- Electronics: 450K rows, mean $52,000
- Clothing: 890K rows, mean $31,000
- Home: 960K rows, mean $42,000

Использование «vaex». Convert CSV to HDF5 for performance

Ожидаемый результат:

Original CSV: 15 GB, 45 minutes to load
Converted HDF5: 8 GB, instant loading
Memory-mapped access - zero RAM for exploration

Аудит безопасности

Безопасно

v4 • 1/17/2026

This is a pure documentation skill for the Vaex Python library. All 498 static findings are false positives caused by markdown code block formatting. The scanner misinterpreted backticks in code examples as Ruby/shell commands, flagged memory-mapping as filesystem access, and misidentified DataFrame inspection methods as reconnaissance. No executable code, credential handling, or malicious patterns exist.

Просканировано файлов

6,268

Проанализировано строк

находки

Всего аудитов

Факторы риска

⚙️ Внешние команды (7)

SKILL.md:32-178 references/core_dataframes.md:15-156 references/data_processing.md:11-554 references/io_operations.md:19-702 references/machine_learning.md:7-727 references/performance.md:11-570 references/visualization.md:20-612

📁 Доступ к файловой системе (3)

references/io_operations.md:10-13 references/io_operations.md:22-48 references/performance.md:259-262

🌐 Доступ к сети (2)

references/io_operations.md:474 skill-report.json:6

Проверено: claude Посмотреть историю аудитов →

Оценка качества

Архитектура

100

Сопровождаемость

Контент

Сообщество

100

Безопасность

Соответствие спецификации

Что вы можете построить

Исследование наборов данных с миллиардами строк

Анализируйте массивные наборы данных CSV/HDF5 в интерактивном режиме без ограничений памяти или предварительной обработки.

Обработка астрономических данных

Работайте с терабайтными масштабами научных наборов данных с использованием вычислений за пределами ядра и ленивых вычислений.

Создание масштабируемых конвейеров

Создавайте конвейеры конструирования признаков и машинного обучения, которые работают с наборами данных, превышающими доступную оперативную память.

Попробуйте эти промпты

Загрузка большого набора данных

Use Vaex to open my HDF5 file at data/large_dataset.hdf5 and show its structure, column types, and row count.

Фильтрация и агрегация

Filter the dataset for records where age > 25 and calculate the mean and standard deviation of income grouped by category.

Создание визуализации

Create a heatmap showing the relationship between x and y coordinates with 100 bins on each axis.

Создание конвейера ML

Use Vaex ML to create a StandardScaler for features age and income, then apply PCA for dimensionality reduction.

Лучшие практики

Используйте форматы HDF5 или Apache Arrow для мгновенной загрузки с отображением в память вместо CSV
Используйте виртуальные столбцы и выражения для вычислений без материализации данных
Группируйте операции с delay=True при выполнении нескольких агрегаций для повышения эффективности

Избегать

Избегайте загрузки целых наборов данных в оперативную память - используйте vaex.open() для доступа с отображением в память
Не конвертируйте большие наборы данных в pandas - используйте операции Vaex на протяжении всего конвейера
Избегайте множественных мелких экспортов - группируйте записи и используйте эффективные форматы, такие как HDF5

Часто задаваемые вопросы

Чем Vaex отличается от pandas?

Vaex использует ленивые вычисления и отображение в память для обработки наборов данных, превышающих объём RAM, без загрузки всего в память.

Какие форматы файлов поддерживает Vaex?

Vaex поддерживает форматы HDF5, Apache Arrow, Parquet, CSV и FITS с загрузкой с отображением в память для эффективного доступа.

Может ли Vaex обрабатывать наборы данных с миллиардами строк?

Да, Vaex может обрабатывать более миллиарда строк в секунду, используя оптимизированные операции C++ и вычисления за пределами ядра.

Поддерживает ли Vaex машинное обучение?

Vaex ML предоставляет трансформеры, кодировщики, PCA, K-means и интеграцию со scikit-learn, XGBoost и LightGBM.

Как работают ленивые вычисления?

Операции не выполняются до тех пор, пока не понадобятся результаты, что обеспечивает эффективную группировку и минимальное использование памяти.

Может ли Vaex обращаться к облачным хранилищам?

Vaex может читать из S3, GCS и других облачных хранилищ, используя протоколы s3:// и gs://.

Сведения для разработчиков

Автор

K-Dense-AI

Лицензия

MIT license

Репозиторий

https://github.com/K-Dense-AI/claude-scientific-skills/tree/main/scientific-skills/vaex

Ссылка

main

Структура файлов

📁 references/

📄 core_dataframes.md

📄 data_processing.md

📄 io_operations.md

📄 machine_learning.md

📄 performance.md

📄 visualization.md

📄 SKILL.md