Habilidades spark-optimization

⚡

spark-optimization

Name: spark-optimization
Author: wshobson

Seguro 🌐 Acceso a red⚙️ Comandos externos

Mejorar el Rendimiento de Spark para Pipelines Grandes

También disponible en: sickn33

Los trabajos lentos de Spark desperdician tiempo del cluster y retrasan los análisis. Esta habilidad proporciona patrones probados de ajuste para particionamiento, caché, uniones y memoria para mejorar el rendimiento.

Soporta: Claude Codex Code(CC)

📊 69 Adecuado

Descargar el ZIP de la skill

Subir en Claude

Ve a Configuración → Capacidades → Skills → Subir skill

Activa y empieza a usar

Pruébalo

Usando "spark-optimization". Suggest Spark optimizations for a slow join and high shuffle spill.

Resultado esperado:

Enable AQE and skew join handling to split hot partitions.
Broadcast the small dimension table to avoid shuffle on that side.
Lower shuffle partition size and enable compression to reduce spill.

Usando "spark-optimization". How do I optimize partitioning for 500GB of daily data?

Resultado esperado:

Target 128-256 MB per partition for balanced parallelism.
For 500GB, use roughly 2000-4000 partitions initially.
Adjust based on actual task duration in Spark UI.
Consider partitionBy on date columns for pruneable reads.

Usando "spark-optimization". My cache is not improving performance. What am I doing wrong?

Resultado esperado:

Ensure you call count() or an action to materialize the cache.
Check that you are reusing the DataFrame multiple times.
Verify the DataFrame fits in memory without excessive spilling.
Use unpersist() when done to free memory for other operations.

Auditoría de seguridad

Seguro

v4 • 1/17/2026

Pure documentation skill containing only markdown content with Apache Spark tuning guidance. No executable code, credential access, network calls, or malicious patterns detected. All 43 static findings are false positives triggered by misidentified Spark terminology.

Archivos escaneados

590

Líneas analizadas

hallazgos

Auditorías totales

Auditado por: claude Ver historial de auditorías →

Puntuación de calidad

Arquitectura

100

Mantenibilidad

Contenido

Comunidad

100

Seguridad

Cumplimiento de la especificación

Lo que puedes crear

Reducir tiempo de trabajo nocturno

Analizar un pipeline por lotes lento y obtener pasos de ajuste para particiones, uniones y caché.

Corregir uniones asimétricas

Aplicar guía de AQE y salting para eliminar tareas de larga duración.

Estandarizar configuraciones de Spark

Crear una configuración base de ejecutor y shuffle para nuevos clusters.

Prueba estos prompts

Acelerar mi trabajo

Mi trabajo de Spark tarda 2 horas y usa groupBy en tablas grandes. Sugerir victorias rápidas para particiones, caché y uniones.

Dimensionamiento de particiones

Proceso 1 TB de datos parquet diariamente. Recomendar conteo de particiones y tamaños de archivos, y explicar cómo ajustar las particiones de shuffle.

Diagnóstico de asimetría

Una unión en customer_id tiene algunas claves calientes y tareas largas. Proporcionar configuraciones de AQE y un enfoque manual de salting.

Ajuste de memoria

Usamos ejecutores de 8g y vemos derrames frecuentes. Proponer configuraciones de memoria, overhead y shuffle con justificación.

Mejores prácticas

Usar AQE y monitorear Spark UI para asimetría y derrames.
Apuntar a tamaños de partición de 128 a 256 MB para paralelismo equilibrado.
Preferir funciones integradas sobre UDFs para mejor optimización.

Evitar

Recolectar conjuntos de datos grandes al driver.
Sobrecachar múltiples DataFrames grandes sin unpersist.
Usar shuffles amplios para agregados simples sin pre-agregación.

Preguntas frecuentes

¿Es esto compatible con PySpark y Spark SQL?

Sí. La guía cubre configuraciones de DataFrame de PySpark y Spark SQL.

¿Cuáles son los límites de las recomendaciones?

Son patrones generales y requieren validación contra su tamaño de datos y restricciones del cluster.

¿Puede integrarse con Databricks o EMR?

Sí. Puede aplicar las mismas configuraciones de Spark y pasos de optimización en esas plataformas.

¿Accede a mis datos o cluster?

No. Proporciona solo guía y no se conecta a sus sistemas.

¿Y si el rendimiento no mejora?

Proporcione métricas de Spark UI, planes de consulta y tamaños de datos para refinar las recomendaciones.

¿Cómo se compara con consejos de ajuste genéricos?

Se enfoca en etapas de ejecución específicas de Spark, shuffles y comportamiento de memoria con ejemplos concretos de configuración.

Detalles del desarrollador

Autor

wshobson

Licencia

MIT

Repositorio

https://github.com/wshobson/agents/tree/main/plugins/data-engineering/skills/spark-optimization

Ref.

main

Estructura de archivos

📄 SKILL.md

spark-optimization

Pruébalo

Auditoría de seguridad

Factores de riesgo

Puntuación de calidad

Lo que puedes crear

Reducir tiempo de trabajo nocturno

Corregir uniones asimétricas

Estandarizar configuraciones de Spark

Prueba estos prompts

Mejores prácticas

Evitar

Preguntas frecuentes

Detalles del desarrollador