vaex
Анализируйте массивные наборы данных с Vaex
Также доступно от: davila7
Обработка больших табличных наборов данных, превышающих объём оперативной памяти, требует специализированных инструментов. Vaex обеспечивает операции DataFrame за пределами ядра, ленивые вычисления и обработку миллиарда строк в секунду для наборов данных, слишком больших для памяти. Идеально подходит для астрономических данных, финансовых временных рядов и крупномасштабного научного анализа.
Скачать ZIP навыка
Загрузить в Claude
Перейдите в Settings → Capabilities → Skills → Upload skill
Включите и начните использовать
Протестировать
Использование «vaex». Load my parquet file and show statistics
Ожидаемый результат:
- DataFrame shape: (10,000,000, 15) rows x columns
- Column types: int64 (5), float64 (7), string (3)
- Memory usage: 0.5 GB (virtual columns)
- Mean age: 34.2 | Std income: 45200.5
Использование «vaex». Filter and group data
Ожидаемый результат:
- Filtered to 2.3 million rows (age > 25)
- Group by category results:
- - Electronics: 450K rows, mean $52,000
- - Clothing: 890K rows, mean $31,000
- - Home: 960K rows, mean $42,000
Использование «vaex». Convert CSV to HDF5 for performance
Ожидаемый результат:
- Original CSV: 15 GB, 45 minutes to load
- Converted HDF5: 8 GB, instant loading
- Memory-mapped access - zero RAM for exploration
Аудит безопасности
БезопасноThis is a pure documentation skill for the Vaex Python library. All 498 static findings are false positives caused by markdown code block formatting. The scanner misinterpreted backticks in code examples as Ruby/shell commands, flagged memory-mapping as filesystem access, and misidentified DataFrame inspection methods as reconnaissance. No executable code, credential handling, or malicious patterns exist.
Факторы риска
⚙️ Внешние команды (7)
📁 Доступ к файловой системе (3)
🌐 Доступ к сети (2)
Оценка качества
Что вы можете построить
Исследование наборов данных с миллиардами строк
Анализируйте массивные наборы данных CSV/HDF5 в интерактивном режиме без ограничений памяти или предварительной обработки.
Обработка астрономических данных
Работайте с терабайтными масштабами научных наборов данных с использованием вычислений за пределами ядра и ленивых вычислений.
Создание масштабируемых конвейеров
Создавайте конвейеры конструирования признаков и машинного обучения, которые работают с наборами данных, превышающими доступную оперативную память.
Попробуйте эти промпты
Use Vaex to open my HDF5 file at data/large_dataset.hdf5 and show its structure, column types, and row count.
Filter the dataset for records where age > 25 and calculate the mean and standard deviation of income grouped by category.
Create a heatmap showing the relationship between x and y coordinates with 100 bins on each axis.
Use Vaex ML to create a StandardScaler for features age and income, then apply PCA for dimensionality reduction.
Лучшие практики
- Используйте форматы HDF5 или Apache Arrow для мгновенной загрузки с отображением в память вместо CSV
- Используйте виртуальные столбцы и выражения для вычислений без материализации данных
- Группируйте операции с delay=True при выполнении нескольких агрегаций для повышения эффективности
Избегать
- Избегайте загрузки целых наборов данных в оперативную память - используйте vaex.open() для доступа с отображением в память
- Не конвертируйте большие наборы данных в pandas - используйте операции Vaex на протяжении всего конвейера
- Избегайте множественных мелких экспортов - группируйте записи и используйте эффективные форматы, такие как HDF5