📊

dask

Name: dask
Author: K-Dense-AI

Безопасно ⚙️ Внешние команды📁 Доступ к файловой системе🌐 Доступ к сети

Масштабирование pandas и NumPy с помощью распределённых вычислений Dask

Также доступно от: davila7

Обрабатывайте наборы данных, превышающие объём доступной оперативной памяти, с помощью параллельных вычислений. Преобразуйте рабочие процессы pandas и NumPy с одной машины для запуска на нескольких ядрах или распределённых кластерах без переписывания кода.

Поддерживает: Claude Codex Code(CC)

📊 71 Адекватно

Скачать ZIP навыка

Загрузить в Claude

Перейдите в Settings → Capabilities → Skills → Upload skill

Включите и начните использовать

Протестировать

Использование «dask». How do I read multiple CSV files and combine them into one Dask DataFrame?

Ожидаемый результат:

Use dd.read_csv with a glob pattern to read multiple files: ddf = dd.read_csv('data/2024-*.csv')
The read_csv function is lazy - it builds a task graph without loading data
After combining, perform operations like groupby and aggregations lazily
Call .compute() only when you need the final results

Использование «dask». When should I use Dask Arrays vs Dask DataFrames?

Ожидаемый результат:

Use Arrays for numeric data that fits NumPy operations - scientific computing, image processing, matrix operations
Use DataFrames for tabular data with named columns - database-like operations, CSV processing, structured data
Bags handle unstructured data like text and JSON before converting to Arrays or DataFrames
Futures give fine-grained control for dynamic, interactive parallel workflows

Использование «dask». How do I avoid memory errors with Dask?

Ожидаемый результат:

Choose chunk sizes of approximately 100 MB per chunk or 10 chunks per core
Never load data into pandas first then convert - use Dask readers directly
Avoid calling .compute() repeatedly in loops - use dask.compute() for multiple results at once
Use the dashboard to monitor memory usage and identify problematic tasks

Аудит безопасности

Безопасно

v4 • 1/17/2026

Pure documentation skill with no executable code. All 448 static findings are false positives. The analyzer misinterpreted markdown inline code formatting (backticks like `dask.compute()`) as shell execution, and flagged legitimate computing terms like 'md5', 'command', 'control', 'connect' as security threats. This is standard Dask library documentation teaching parallel computing patterns.

Просканировано файлов

5,369

Проанализировано строк

находки

Всего аудитов

Факторы риска

⚙️ Внешние команды (3)

SKILL.md:44-286 references/arrays.md:1-498 references/bags.md:1-500

📁 Доступ к файловой системе (1)

references/bags.md:103

🌐 Доступ к сети (1)

skill-report.json:6

Проверено: claude Посмотреть историю аудитов →

Оценка качества

Архитектура

100

Сопровождаемость

Контент

Сообщество

100

Безопасность

Соответствие спецификации

Что вы можете построить

Масштабирование рабочих процессов pandas

Преобразуйте код pandas для работы с наборами данных, превышающими объём ОЗУ, заменив импорт и используя Dask DataFrames с минимальными изменениями в коде.

Параллельное обучение моделей

Распределите предобработку данных и вывод моделей между несколькими рабочими узлами с помощью Dask Futures для перебора гиперпараметров.

Обработка больших массивов

Работайте с нау��ными наборами данных из файлов HDF5 или Zarr, превышающими объём памяти, используя Dask Arrays с пофрагментными операциями.

Попробуйте эти промпты

Базовое масштабирование DataFrame

Покажите, как преобразовать мой код pandas DataFrame для использования Dask с наборами данных, превышающими ОЗУ, включая чтение нескольких CSV-файлов и выполнение операций groupby.

Фрагментирование массивов

Объясните, как создавать и обрабатывать Dask Arrays из файлов HDF5 или Zarr с оптимальными размерами фрагментов, включая выбор размеров фрагментов и выполнение редукций.

Параллельные futures

Продемонстрируйте, как использовать Dask Futures для динамической отправки задач, включая настройку локального кластера, распределение больших данных и получение результатов из зависимых задач.

Оптимизация производительности

Помогите оптимизировать мой рабочий процесс Dask - я хочу понять, как выбрать правильный планировщик, выявить узкие места с помощью панели мониторинга и исправить проблемы с памятью из-за неправильного размера фрагментов.

Лучшие практики

Позвольте Dask обрабатывать загрузку данных с самого начала - избегайте создания объектов pandas локально перед преобразованием в коллекции Dask
Цельтесь на размер фрагментов около 100 МБ и 10 фрагментов на ядро рабочего узла для сбалансированного параллелизма и использования памяти
Используйте map_partitions или map_blocks для объединения нескольких операций в отдельные задачи и снижения накладных расходов на планирование

Избегать

Вызов .compute() внутри циклов создаёт отдельные графы задач для каждой итерации - используйте dask.compute(*computations) вместо этого
Загрузка целых наборов данных в pandas перед передачей в Dask противоречит цели - используйте средства чтения Dask напрямую
Использование планировщика с потоками для чистого Python-кода (обработка текста, пользовательские функции) - переключитесь на процессы, чтобы избежать контензии GIL

Часто задаваемые вопросы

Что такое Dask?

Dask - это библиотека Python для параллельных и распределённых вычислений, которая масштабирует рабочие процессы pandas и NumPy для больших наборов данных.

Нужен ли мне кластер для использования Dask?

Нет - Dask работает на одной машине, используя несколько ядер. Распределённые кластеры опциональны для очень больших рабочих нагрузок.

Какой объём памяти нужен для Dask?

Dask обрабатывает наборы данных, превышающие объём ОЗУ, с помощью обработки по фрагментам. Стремитесь к 10 фрагментам на ядро рабочего узла размером около 100 МБ каждый.

Можно ли использовать Dask с pandas?

Да - Dask DataFrames имитируют API pandas. Многие операции pandas работают напрямую с минимальными или без изменений кода.

Какой планировщик мне выбрать?

Потоки лучше всего подходят для pandas/NumPy (освобождают GIL). Используйте процессы для чистого Python-кода. Используйте синхронный режим для отладки.

Заменяет ли Dask pandas?

Нет - Dask расширяет pandas для больших данных. Для данных, помещающихся в память, pandas один проще и быстрее.