Habilidades spark-optimization

⚡

spark-optimization

Name: spark-optimization
Author: wshobson

Seguro 🌐 Acesso à rede⚙️ Comandos externos

Melhorar o Desempenho do Spark para Pipelines Grandes

Também disponível em: sickn33

Trabalhos Spark lentos desperdiçam tempo do cluster e atrasam análises. Esta skill fornece padrões comprovados de tuning para particionamento, caching, joins e memória para melhorar o desempenho.

Suporta: Claude Codex Code(CC)

📊 69 Adequado

Baixar o ZIP da skill

Upload no Claude

Vá em Configurações → Capacidades → Skills → Upload skill

Ative e comece a usar

Testar

A utilizar "spark-optimization". Sugira otimizações Spark para um join lento e alto shuffle spill.

Resultado esperado:

Habilite AQE e tratamento de skew join para dividir partições quentes.
Broadcast da tabela de dimensão pequena para evitar shuffle nesse lado.
Diminua o tamanho de shuffle partition e habilite compressão para reduzir spill.

A utilizar "spark-optimization". Como otimizo particionamento para 500GB de dados diários?

Resultado esperado:

Alvo de 128-256 MB por partição para paralelismo balanceado.
Para 500GB, use aproximadamente 2000-4000 partições inicialmente.
Ajuste baseado na duração real da task no Spark UI.
Considere partitionBy em colunas de data para leituras pruneáveis.

A utilizar "spark-optimization". Meu cache não está melhorando desempenho. O que estou fazendo errado?

Resultado esperado:

Garanta que você chama count() ou uma action para materializar o cache.
Verifique se você está reutilizando o DataFrame múltiplas vezes.
Verifique se o DataFrame cabe na memória sem spilling excessivo.
Use unpersist() quando terminar para liberar memória para outras operações.

Auditoria de Segurança

Seguro

v4 • 1/17/2026

Pure documentation skill containing only markdown content with Apache Spark tuning guidance. No executable code, credential access, network calls, or malicious patterns detected. All 43 static findings are false positives triggered by misidentified Spark terminology.

Arquivos analisados

590

Linhas analisadas

achados

Total de auditorias

Auditado por: claude Ver Histórico de Auditoria →

Pontuação de qualidade

Arquitetura

100

Manutenibilidade

Conteúdo

Comunidade

100

Segurança

Conformidade com especificações

O Que Você Pode Construir

Reduzir tempo de job noturno

Analise um pipeline batch lento e obtenha passos de tuning para partições, joins e caching.

Corrigir joins assimétricos

Aplique orientação de AQE e salting para remover tasks de longa duração.

Padronizar configurações Spark

Criar uma configuração baseline de executor e shuffle para novos clusters.

Tente Estes Prompts

Acelerar meu job

Meu trabalho Spark leva 2 horas e usa groupBy em tabelas grandes. Sugira quick wins para partições, caching e joins.

Dimensionamento de partição

Processo 1 TB de dados parquet diariamente. Recomende contagem de partições e tamanhos de arquivo, e explique como ajustar shuffle partitions.

Diagnóstico de assimetria

Um join em customer_id tem algumas hot keys e tasks longas. Forneça configurações AQE e uma abordagem manual de salting.

Tuning de memória

Usamos executors de 8g e vemos spills frequentes. Proponha memória, overhead e configurações de shuffle com rationale.

Melhores Práticas

Use AQE e monitore Spark UI para skew e spills.
Alvo de 128 a 256 MB por partição para paralelismo balanceado.
Prefira funções built-in sobre UDFs para melhor otimização.

Evitar

Coletar datasets grandes para o driver.
Fazer caching excessivo de múltiplos DataFrames grandes sem unpersist.
Usar shuffles amplos para agregações simples sem pré-agregação.

Perguntas Frequentes

É compatível com PySpark e Spark SQL?

Sim. A orientação cobre PySpark DataFrame e configurações Spark SQL.

Quais são os limites das recomendações?

São padrões gerais e requerem validação contra seu tamanho de dados e restrições de cluster.

Pode integrar com Databricks ou EMR?

Sim. Você pode aplicar as mesmas configurações Spark e passos de otimização nessas plataformas.

Acessa meus dados ou cluster?

Não. Fornece apenas orientação e não conecta aos seus sistemas.

E se o desempenho não melhorar?

Forneça métricas Spark UI, query plans e tamanhos de dados para refinar as recomendações.

Como se compara a advice de tuning genérico?

Foca em estágios específicos de execução Spark, shuffles e comportamento de memória com exemplos concretos de configuração.

Detalhes do Desenvolvedor

Autor

wshobson

Licença

MIT

Repositório

https://github.com/wshobson/agents/tree/main/plugins/data-engineering/skills/spark-optimization

Referência

main

Estrutura de arquivos

📄 SKILL.md

spark-optimization

Testar

Auditoria de Segurança

Fatores de risco

Pontuação de qualidade

O Que Você Pode Construir

Reduzir tempo de job noturno

Corrigir joins assimétricos

Padronizar configurações Spark

Tente Estes Prompts

Melhores Práticas

Evitar

Perguntas Frequentes

Detalhes do Desenvolvedor