📊

dask

Seguro ⚙️ Comandos externos📁 Acceso al sistema de archivos🌐 Acceso a red

Escala pandas y NumPy con computación distribuida Dask

También disponible en: davila7

Procesa conjuntos de datos más grandes que la RAM disponible usando computación paralela. Transforma flujos de trabajo de pandas y NumPy de una sola máquina para ejecutarse en múltiples núcleos o clusters distribuidos sin reescribir tu código.

Soporta: Claude Codex Code(CC)
📊 71 Adecuado
1

Descargar el ZIP de la skill

2

Subir en Claude

Ve a Configuración → Capacidades → Skills → Subir skill

3

Activa y empieza a usar

Pruébalo

Usando "dask". How do I read multiple CSV files and combine them into one Dask DataFrame?

Resultado esperado:

  • Use dd.read_csv with a glob pattern to read multiple files: ddf = dd.read_csv('data/2024-*.csv')
  • The read_csv function is lazy - it builds a task graph without loading data
  • After combining, perform operations like groupby and aggregations lazily
  • Call .compute() only when you need the final results

Usando "dask". When should I use Dask Arrays vs Dask DataFrames?

Resultado esperado:

  • Use Arrays for numeric data that fits NumPy operations - scientific computing, image processing, matrix operations
  • Use DataFrames for tabular data with named columns - database-like operations, CSV processing, structured data
  • Bags handle unstructured data like text and JSON before converting to Arrays or DataFrames
  • Futures give fine-grained control for dynamic, interactive parallel workflows

Usando "dask". How do I avoid memory errors with Dask?

Resultado esperado:

  • Choose chunk sizes of approximately 100 MB per chunk or 10 chunks per core
  • Never load data into pandas first then convert - use Dask readers directly
  • Avoid calling .compute() repeatedly in loops - use dask.compute() for multiple results at once
  • Use the dashboard to monitor memory usage and identify problematic tasks

Auditoría de seguridad

Seguro
v4 • 1/17/2026

Pure documentation skill with no executable code. All 448 static findings are false positives. The analyzer misinterpreted markdown inline code formatting (backticks like `dask.compute()`) as shell execution, and flagged legitimate computing terms like 'md5', 'command', 'control', 'connect' as security threats. This is standard Dask library documentation teaching parallel computing patterns.

8
Archivos escaneados
5,369
Líneas analizadas
3
hallazgos
4
Auditorías totales

Factores de riesgo

⚙️ Comandos externos (3)
📁 Acceso al sistema de archivos (1)
🌐 Acceso a red (1)

Puntuación de calidad

45
Arquitectura
100
Mantenibilidad
87
Contenido
21
Comunidad
100
Seguridad
91
Cumplimiento de la especificación

Lo que puedes crear

Escala flujos de trabajo de pandas

Transforma código de pandas para manejar conjuntos de datos más grandes que RAM cambiando el import y usando Dask DataFrames con cambios mínimos de código.

Entrenamiento de modelos en paralelo

Distribuye preprocesamiento de datos e inferencia de modelos en múltiples workers usando Dask Futures para barridos de hiperparámetros.

Procesa arrays grandes

Trabaja con conjuntos de datos científicos de archivos HDF5 o Zarr que exceden la memoria usando Dask Arrays con operaciones fragmentadas.

Prueba estos prompts

Escalado básico de DataFrame
Muéstrame cómo convertir mi código de pandas DataFrame para usar Dask en conjuntos de datos que exceden RAM, incluyendo leer múltiples archivos CSV y realizar operaciones groupby.
Fragmentación de arrays
Explica cómo crear y procesar Dask Arrays desde archivos HDF5 o Zarr con tamaños de chunk óptimos, incluyendo cómo elegir tamaños de chunk y realizar reducciones.
Futures paralelos
Demuestra cómo usar Dask Futures para envío dinámico de tareas, incluyendo configurar un cluster local, scattering de datos grandes, y gathering de resultados de tareas dependientes.
Optimización de rendimiento
Ayúdame a optimizar mi flujo de trabajo de Dask - quiero entender cómo elegir el scheduler correcto, identificar cuellos de botella usando el dashboard, y solucionar problemas de memoria por tamaño incorrecto de chunks.

Mejores prácticas

  • Deja que Dask maneje la carga de datos desde el principio - evita crear objetos pandas localmente antes de convertir a colecciones Dask
  • Apunta a tamaños de chunk de 100 MB y 10 chunks por core de worker para paralelismo equilibrado y uso de memoria
  • Usa map_partitions o map_blocks para fusionar múltiples operaciones en tareas únicas y reducir overhead de scheduling

Evitar

  • Llamar .compute() dentro de loops crea grafos de tareas separados para cada iteración - usa dask.compute(*computations) en su lugar
  • Cargar conjuntos de datos completos en pandas antes de pasar a Dask defeats the purpose - usa lectores Dask directamente
  • Usar el scheduler threaded para código Python puro (procesamiento de texto, funciones personalizadas) - cambia a procesos para evitar contención del GIL

Preguntas frecuentes

¿Qué es Dask?
Dask es una biblioteca de Python para computación paralela y distribuida que escala flujos de trabajo de pandas y NumPy a conjuntos de datos más grandes.
¿Necesito un cluster para usar Dask?
No - Dask funciona en una sola máquina usando múltiples núcleos. Los clusters distribuidos son opcionales para cargas de trabajo muy grandes.
¿Cuánta memoria necesito para Dask?
Dask maneja conjuntos de datos más grandes que RAM procesando en chunks. Apunta a 10 chunks por core de worker a ~100 MB cada uno.
¿Puedo usar Dask con pandas?
Sí - Dask DataFrames imita la API de pandas. Muchas operaciones de pandas funcionan directamente con cambios mínimos o sin cambios de código.
¿Qué scheduler debo elegir?
Los hilos funcionan mejor para pandas/NumPy (libera GIL). Usa procesos para código Python puro. Usa síncrono para depuración.
¿Dask reemplaza a pandas?
No - Dask extiende pandas para datos más grandes. Para datos que caben en memoria, pandas solo es más simple y rápido.

Detalles del desarrollador

Estructura de archivos