Compétences spark-optimization

spark-optimization

Sûr 🌐 Accès réseau⚙️ Commandes externes

Mejorar el Rendimiento de Spark para Pipelines Grandes

Los trabajos lentos de Spark desperdician tiempo del cluster y retrasan los análisis. Esta habilidad proporciona patrones probados de ajuste para particionamiento, caché, uniones y memoria para mejorar el rendimiento.

Prend en charge: Claude Codex Code(CC)
📊 69 Adéquat
1

Télécharger le ZIP du skill

2

Importer dans Claude

Allez dans Paramètres → Capacités → Skills → Importer un skill

3

Activez et commencez à utiliser

Tester

Utilisation de "spark-optimization". Suggest Spark optimizations for a slow join and high shuffle spill.

Résultat attendu:

  • Enable AQE and skew join handling to split hot partitions.
  • Broadcast the small dimension table to avoid shuffle on that side.
  • Lower shuffle partition size and enable compression to reduce spill.

Utilisation de "spark-optimization". How do I optimize partitioning for 500GB of daily data?

Résultat attendu:

  • Target 128-256 MB per partition for balanced parallelism.
  • For 500GB, use roughly 2000-4000 partitions initially.
  • Adjust based on actual task duration in Spark UI.
  • Consider partitionBy on date columns for pruneable reads.

Utilisation de "spark-optimization". My cache is not improving performance. What am I doing wrong?

Résultat attendu:

  • Ensure you call count() or an action to materialize the cache.
  • Check that you are reusing the DataFrame multiple times.
  • Verify the DataFrame fits in memory without excessive spilling.
  • Use unpersist() when done to free memory for other operations.

Audit de sécurité

Sûr
v4 • 1/17/2026

Pure documentation skill containing only markdown content with Apache Spark tuning guidance. No executable code, credential access, network calls, or malicious patterns detected. All 43 static findings are false positives triggered by misidentified Spark terminology.

2
Fichiers analysés
590
Lignes analysées
2
résultats
4
Total des audits

Score de qualité

38
Architecture
100
Maintenabilité
85
Contenu
21
Communauté
100
Sécurité
91
Conformité aux spécifications

Ce que vous pouvez construire

Reducir tiempo de trabajo nocturno

Analizar un pipeline por lotes lento y obtener pasos de ajuste para particiones, uniones y caché.

Corregir uniones asimétricas

Aplicar guía de AQE y salting para eliminar tareas de larga duración.

Estandarizar configuraciones de Spark

Crear una configuración base de ejecutor y shuffle para nuevos clusters.

Essayez ces prompts

Acelerar mi trabajo
Mi trabajo de Spark tarda 2 horas y usa groupBy en tablas grandes. Sugerir victorias rápidas para particiones, caché y uniones.
Dimensionamiento de particiones
Proceso 1 TB de datos parquet diariamente. Recomendar conteo de particiones y tamaños de archivos, y explicar cómo ajustar las particiones de shuffle.
Diagnóstico de asimetría
Una unión en customer_id tiene algunas claves calientes y tareas largas. Proporcionar configuraciones de AQE y un enfoque manual de salting.
Ajuste de memoria
Usamos ejecutores de 8g y vemos derrames frecuentes. Proponer configuraciones de memoria, overhead y shuffle con justificación.

Bonnes pratiques

  • Usar AQE y monitorear Spark UI para asimetría y derrames.
  • Apuntar a tamaños de partición de 128 a 256 MB para paralelismo equilibrado.
  • Preferir funciones integradas sobre UDFs para mejor optimización.

Éviter

  • Recolectar conjuntos de datos grandes al driver.
  • Sobrecachar múltiples DataFrames grandes sin unpersist.
  • Usar shuffles amplios para agregados simples sin pre-agregación.

Foire aux questions

¿Es esto compatible con PySpark y Spark SQL?
Sí. La guía cubre configuraciones de DataFrame de PySpark y Spark SQL.
¿Cuáles son los límites de las recomendaciones?
Son patrones generales y requieren validación contra su tamaño de datos y restricciones del cluster.
¿Puede integrarse con Databricks o EMR?
Sí. Puede aplicar las mismas configuraciones de Spark y pasos de optimización en esas plataformas.
¿Accede a mis datos o cluster?
No. Proporciona solo guía y no se conecta a sus sistemas.
¿Y si el rendimiento no mejora?
Proporcione métricas de Spark UI, planes de consulta y tamaños de datos para refinar las recomendaciones.
¿Cómo se compara con consejos de ajuste genéricos?
Se enfoca en etapas de ejecución específicas de Spark, shuffles y comportamiento de memoria con ejemplos concretos de configuración.

Détails du développeur

Structure de fichiers

📄 SKILL.md