📊

dask

Name: dask
Author: K-Dense-AI

Sicher ⚙️ Externe Befehle📁 Dateisystemzugriff🌐 Netzwerkzugriff

Escalar pandas e NumPy com computação distribuída Dask

Auch verfügbar von: davila7

Processe conjuntos de dados maiores que a RAM disponível usando computação paralela. Transforme fluxos de trabalho de pandas e NumPy de máquina única para executar em múltiplos núcleos ou clusters distribuídos sem reescrever seu código.

Unterstützt: Claude Codex Code(CC)

📊 71 Angemessen

Die Skill-ZIP herunterladen

In Claude hochladen

Gehe zu Einstellungen → Fähigkeiten → Skills → Skill hochladen

Einschalten und loslegen

Teste es

Verwendung von "dask". How do I read multiple CSV files and combine them into one Dask DataFrame?

Erwartetes Ergebnis:

Use dd.read_csv with a glob pattern to read multiple files: ddf = dd.read_csv('data/2024-*.csv')
The read_csv function is lazy - it builds a task graph without loading data
After combining, perform operations like groupby and aggregations lazily
Call .compute() only when you need the final results

Verwendung von "dask". When should I use Dask Arrays vs Dask DataFrames?

Erwartetes Ergebnis:

Use Arrays for numeric data that fits NumPy operations - scientific computing, image processing, matrix operations
Use DataFrames for tabular data with named columns - database-like operations, CSV processing, structured data
Bags handle unstructured data like text and JSON before converting to Arrays or DataFrames
Futures give fine-grained control for dynamic, interactive parallel workflows

Verwendung von "dask". How do I avoid memory errors with Dask?

Erwartetes Ergebnis:

Choose chunk sizes of approximately 100 MB per chunk or 10 chunks per core
Never load data into pandas first then convert - use Dask readers directly
Avoid calling .compute() repeatedly in loops - use dask.compute() for multiple results at once
Use the dashboard to monitor memory usage and identify problematic tasks

Sicherheitsaudit

Sicher

v4 • 1/17/2026

Pure documentation skill with no executable code. All 448 static findings are false positives. The analyzer misinterpreted markdown inline code formatting (backticks like `dask.compute()`) as shell execution, and flagged legitimate computing terms like 'md5', 'command', 'control', 'connect' as security threats. This is standard Dask library documentation teaching parallel computing patterns.

Gescannte Dateien

5,369

Analysierte Zeilen

befunde

Gesamtzahl Audits

Risikofaktoren

⚙️ Externe Befehle (3)

SKILL.md:44-286 references/arrays.md:1-498 references/bags.md:1-500

📁 Dateisystemzugriff (1)

references/bags.md:103

🌐 Netzwerkzugriff (1)

skill-report.json:6

Auditiert von: claude Audit-Verlauf anzeigen →

Qualitätsbewertung

Architektur

100

Wartbarkeit

Inhalt

Community

100

Sicherheit

Spezifikationskonformität

Was du bauen kannst

Escalar fluxos de trabalho pandas

Transforme código pandas para lidar com conjuntos de dados maiores que RAM trocando a importação e usando Dask DataFrames com alterações mínimas de código.

Treinamento de modelo paralelo

Distribua pré-processamento de dados e inferência de modelo em múltiplos trabalhadores usando Dask Futures para varreduras de hiperparâmetros.

Processar arrays grandes

Trabalhe com conjuntos de dados científicos de arquivos HDF5 ou Zarr que excedem memória usando Dask Arrays com operações em blocos.

Probiere diese Prompts

Escalonamento básico de DataFrame

Mostre-me como converter meu código de DataFrame pandas para usar Dask para conjuntos de dados que excedem RAM, incluindo ler múltiplos arquivos CSV e realizar operações groupby.

Divisão de arrays em blocos

Explique como criar e processar Dask Arrays de arquivos HDF5 ou Zarr com tamanhos de bloco ótimos, incluindo como escolher tamanhos de bloco e realizar reduções.

Futures paralelos

Demonstre como usar Dask Futures para submissão dinâmica de tarefas, incluindo configurar um cluster local, distribuir dados grandes e coletar resultados de tarefas dependentes.

Otimização de desempenho

Ajude-me a otimizar meu fluxo de trabalho Dask - quero entender como escolher o agendador certo, identificar gargalos usando o dashboard e corrigir problemas de memória de dimensionamento incorreto de blocos.

Bewährte Verfahren

Deixe Dask lidar com carregamento de dados desde o início - evite criar objetos pandas localmente antes de converter para coleções Dask
Alvo para tamanhos de bloco de 100 MB e 10 blocos por núcleo de trabalho para paralelismo equilibrado e uso de memória
Use map_partitions ou map_blocks para fundir múltiplas operações em tarefas únicas e reduzir overhead de agendamento

Vermeiden

Chamar .compute() dentro de loops cria grafos de tarefas separados para cada iteração - use dask.compute(*computations) em vez disso
Carregar conjuntos de dados inteiros em pandas antes de passar para Dask derrota o propósito - use leitores Dask diretamente
Usar o agendador threaded para código Python puro (processamento de texto, funções personalizadas) - troque para processos para evitar contenção do GIL

Häufig gestellte Fragen

O que é Dask?

Dask é uma biblioteca Python para computação paralela e distribuída que escala fluxos de trabalho de pandas e NumPy para conjuntos de dados maiores.

Preciso de um cluster para usar Dask?

Não - Dask funciona em uma única máquina usando múltiplos núcleos. Clusters distribuídos são opcionais para cargas de trabalho muito grandes.

Quanta memória preciso para Dask?

Dask lida com conjuntos de dados maiores que RAM processando em blocos. Mire em 10 blocos por núcleo de trabalho com cerca de 100 MB cada.

Posso usar Dask com pandas?

Sim - Dask DataFrames imitam a API pandas. Muitas operações pandas funcionam diretamente com alterações mínimas ou nenhuma alteração de código.

Qual agendador devo escolher?

Threads funcionam melhor para pandas/NumPy (libera GIL). Use processos para código Python puro. Use síncrono para depuração.

Dask substitui pandas?

Não - Dask estende pandas para dados maiores. Para dados que cabem na memória, pandas sozinho é mais simples e rápido.

Entwicklerdetails

Autor

K-Dense-AI

Lizenz

BSD-3-Clause license

Repository

https://github.com/K-Dense-AI/claude-scientific-skills/tree/main/scientific-skills/dask

Ref

main

Dateistruktur

📁 references/

📄 arrays.md

📄 bags.md

📄 best-practices.md

📄 dataframes.md

📄 futures.md

📄 schedulers.md

📄 SKILL.md