📊

dask

Name: dask
Author: K-Dense-AI

Seguro ⚙️ Comandos externos📁 Acceso al sistema de archivos🌐 Acceso a red

Escala pandas y NumPy con computación distribuida Dask

También disponible en: davila7

Procesa conjuntos de datos más grandes que la RAM disponible usando computación paralela. Transforma flujos de trabajo de pandas y NumPy de una sola máquina para ejecutarse en múltiples núcleos o clusters distribuidos sin reescribir tu código.

Soporta: Claude Codex Code(CC)

📊 71 Adecuado

Descargar el ZIP de la skill

Subir en Claude

Ve a Configuración → Capacidades → Skills → Subir skill

Activa y empieza a usar

Pruébalo

Usando "dask". How do I read multiple CSV files and combine them into one Dask DataFrame?

Resultado esperado:

Use dd.read_csv with a glob pattern to read multiple files: ddf = dd.read_csv('data/2024-*.csv')
The read_csv function is lazy - it builds a task graph without loading data
After combining, perform operations like groupby and aggregations lazily
Call .compute() only when you need the final results

Usando "dask". When should I use Dask Arrays vs Dask DataFrames?

Resultado esperado:

Use Arrays for numeric data that fits NumPy operations - scientific computing, image processing, matrix operations
Use DataFrames for tabular data with named columns - database-like operations, CSV processing, structured data
Bags handle unstructured data like text and JSON before converting to Arrays or DataFrames
Futures give fine-grained control for dynamic, interactive parallel workflows

Usando "dask". How do I avoid memory errors with Dask?

Resultado esperado:

Choose chunk sizes of approximately 100 MB per chunk or 10 chunks per core
Never load data into pandas first then convert - use Dask readers directly
Avoid calling .compute() repeatedly in loops - use dask.compute() for multiple results at once
Use the dashboard to monitor memory usage and identify problematic tasks

Auditoría de seguridad

Seguro

v4 • 1/17/2026

Pure documentation skill with no executable code. All 448 static findings are false positives. The analyzer misinterpreted markdown inline code formatting (backticks like `dask.compute()`) as shell execution, and flagged legitimate computing terms like 'md5', 'command', 'control', 'connect' as security threats. This is standard Dask library documentation teaching parallel computing patterns.

Archivos escaneados

5,369

Líneas analizadas

hallazgos

Auditorías totales

Factores de riesgo

⚙️ Comandos externos (3)

SKILL.md:44-286 references/arrays.md:1-498 references/bags.md:1-500

📁 Acceso al sistema de archivos (1)

references/bags.md:103

🌐 Acceso a red (1)

skill-report.json:6

Auditado por: claude Ver historial de auditorías →

Puntuación de calidad

Arquitectura

100

Mantenibilidad

Contenido

Comunidad

100

Seguridad

Cumplimiento de la especificación

Lo que puedes crear

Escala flujos de trabajo de pandas

Transforma código de pandas para manejar conjuntos de datos más grandes que RAM cambiando el import y usando Dask DataFrames con cambios mínimos de código.

Entrenamiento de modelos en paralelo

Distribuye preprocesamiento de datos e inferencia de modelos en múltiples workers usando Dask Futures para barridos de hiperparámetros.

Procesa arrays grandes

Trabaja con conjuntos de datos científicos de archivos HDF5 o Zarr que exceden la memoria usando Dask Arrays con operaciones fragmentadas.

Prueba estos prompts

Escalado básico de DataFrame

Muéstrame cómo convertir mi código de pandas DataFrame para usar Dask en conjuntos de datos que exceden RAM, incluyendo leer múltiples archivos CSV y realizar operaciones groupby.

Fragmentación de arrays

Explica cómo crear y procesar Dask Arrays desde archivos HDF5 o Zarr con tamaños de chunk óptimos, incluyendo cómo elegir tamaños de chunk y realizar reducciones.

Futures paralelos

Demuestra cómo usar Dask Futures para envío dinámico de tareas, incluyendo configurar un cluster local, scattering de datos grandes, y gathering de resultados de tareas dependientes.

Optimización de rendimiento

Ayúdame a optimizar mi flujo de trabajo de Dask - quiero entender cómo elegir el scheduler correcto, identificar cuellos de botella usando el dashboard, y solucionar problemas de memoria por tamaño incorrecto de chunks.

Mejores prácticas

Deja que Dask maneje la carga de datos desde el principio - evita crear objetos pandas localmente antes de convertir a colecciones Dask
Apunta a tamaños de chunk de 100 MB y 10 chunks por core de worker para paralelismo equilibrado y uso de memoria
Usa map_partitions o map_blocks para fusionar múltiples operaciones en tareas únicas y reducir overhead de scheduling

Evitar

Llamar .compute() dentro de loops crea grafos de tareas separados para cada iteración - usa dask.compute(*computations) en su lugar
Cargar conjuntos de datos completos en pandas antes de pasar a Dask defeats the purpose - usa lectores Dask directamente
Usar el scheduler threaded para código Python puro (procesamiento de texto, funciones personalizadas) - cambia a procesos para evitar contención del GIL

Preguntas frecuentes

¿Qué es Dask?

Dask es una biblioteca de Python para computación paralela y distribuida que escala flujos de trabajo de pandas y NumPy a conjuntos de datos más grandes.

¿Necesito un cluster para usar Dask?

No - Dask funciona en una sola máquina usando múltiples núcleos. Los clusters distribuidos son opcionales para cargas de trabajo muy grandes.

¿Cuánta memoria necesito para Dask?

Dask maneja conjuntos de datos más grandes que RAM procesando en chunks. Apunta a 10 chunks por core de worker a ~100 MB cada uno.

¿Puedo usar Dask con pandas?

Sí - Dask DataFrames imita la API de pandas. Muchas operaciones de pandas funcionan directamente con cambios mínimos o sin cambios de código.

¿Qué scheduler debo elegir?

Los hilos funcionan mejor para pandas/NumPy (libera GIL). Usa procesos para código Python puro. Usa síncrono para depuración.

¿Dask reemplaza a pandas?

No - Dask extiende pandas para datos más grandes. Para datos que caben en memoria, pandas solo es más simple y rápido.

Detalles del desarrollador

Autor

K-Dense-AI

Licencia

BSD-3-Clause license

Repositorio

https://github.com/K-Dense-AI/claude-scientific-skills/tree/main/scientific-skills/dask

Ref.

main

Estructura de archivos

📁 references/

📄 arrays.md

📄 bags.md

📄 best-practices.md

📄 dataframes.md

📄 futures.md

📄 schedulers.md

📄 SKILL.md