Compétences spark-optimization

spark-optimization

Sûr 🌐 Accès réseau⚙️ Commandes externes

Améliorer les performances Spark pour les grands pipelines

Les jobs Spark lents gaspillent le temps du cluster et retardent les analyses. Cette skill fournit des modèles de réglage éprouvés pour le partitionnement, la mise en cache, les jointures et la mémoire afin d'améliorer les performances.

Prend en charge: Claude Codex Code(CC)
📊 69 Adéquat
1

Télécharger le ZIP du skill

2

Importer dans Claude

Allez dans Paramètres → Capacités → Skills → Importer un skill

3

Activez et commencez à utiliser

Tester

Utilisation de "spark-optimization". Suggest Spark optimizations for a slow join and high shuffle spill.

Résultat attendu:

  • Activez AQE et la gestion des jointures déséquilibrées pour diviser les partitions chaudes.
  • Diffusez la petite table de dimension pour éviter le shuffle de ce côté.
  • Réduisez la taille des partitions de shuffle et activez la compression pour réduire les déversements.

Utilisation de "spark-optimization". How do I optimize partitioning for 500GB of daily data?

Résultat attendu:

  • Visez 128-256 Mo par partition pour un parallélisme équilibré.
  • Pour 500 Go, utilisez environ 2000-4000 partitions initialement.
  • Ajustez en fonction de la durée réelle des tâches dans Spark UI.
  • Envisagez partitionBy sur les colonnes de date pour des lectures élaguables.

Utilisation de "spark-optimization". My cache is not improving performance. What am I doing wrong?

Résultat attendu:

  • Assurez-vous d'appeler count() ou une action pour matérialiser le cache.
  • Vérifiez que vous réutilisez le DataFrame plusieurs fois.
  • Confirmez que le DataFrame tient en mémoire sans déversements excessifs.
  • Utilisez unpersist() une fois terminé pour libérer la mémoire pour d'autres opérations.

Audit de sécurité

Sûr
v4 • 1/17/2026

Pure documentation skill containing only markdown content with Apache Spark tuning guidance. No executable code, credential access, network calls, or malicious patterns detected. All 43 static findings are false positives triggered by misidentified Spark terminology.

2
Fichiers analysés
590
Lignes analysées
2
résultats
4
Total des audits

Score de qualité

38
Architecture
100
Maintenabilité
85
Contenu
21
Communauté
100
Sécurité
91
Conformité aux spécifications

Ce que vous pouvez construire

Réduire le temps du job nocturne

Analysez un pipeline batch lent et obtenez les étapes de réglage pour les partitions, les jointures et la mise en cache.

Corriger les jointures déséquilibrées

Appliquez les recommandations AQE et de salting pour supprimer les tâches à longue durée d'exécution.

Standardiser les configs Spark

Créez une configuration de base pour les exécutors et le shuffle pour les nouveaux clusters.

Essayez ces prompts

Accélérer mon job
Mon job Spark prend 2 heures et utilise groupBy sur de grandes tables. Suggérez des gains rapides pour les partitions, la mise en cache et les jointures.
Dimensionnement des partitions
Je traite 1 TB de données parquet quotidiennement. Recommandez les nombres de partitions et les tailles de fichiers, et expliquez comment ajuster les partitions de shuffle.
Diagnostic du déséquilibre
Une jointure sur customer_id a quelques clés chaudes et des tâches longues. Fournissez les paramètres AQE et une approche manuelle de salting.
Réglage de la mémoire
Nous utilisons des exécutors de 8g et voyons des déversements fréquents. Proposez des paramètres de mémoire, de surcharge et de shuffle avec leur justification.

Bonnes pratiques

  • Utilisez AQE et surveillez Spark UI pour détecter les déséquilibres et les déversements.
  • Visez des tailles de partition de 128 à 256 Mo pour un parallélisme équilibré.
  • Préférez les fonctions natives aux UDFs pour une meilleure optimisation.

Éviter

  • Collecter de grands ensembles de données vers le driver.
  • Mettre en cache plusieurs grands DataFrames sans unpersist.
  • Utiliser des shuffles larges pour des agrégats simples sans pré-agrégation.

Foire aux questions

Est-ce compatible avec PySpark et Spark SQL ?
Oui. Les recommandations couvrent les configurations PySpark DataFrame et Spark SQL.
Quelles sont les limites des recommandations ?
Ce sont des modèles généraux et nécessitent une validation selon la taille de vos données et les contraintes du cluster.
Peut-on l'intégrer avec Databricks ou EMR ?
Oui. Vous pouvez appliquer les mêmes configs Spark et étapes d'optimisation dans ces plateformes.
Accède-t-il à mes données ou à mon cluster ?
Non. Il fournit uniquement des recommandations et ne se connecte pas à vos systèmes.
Que faire si les performances ne s'améliorent pas ?
Fournissez les métriques Spark UI, les plans de requête et les tailles de données pour affiner les recommandations.
Comment cela se compare-t-il aux conseils de réglage génériques ?
Il se concentre sur les étapes d'exécution spécifiques à Spark, les shuffles et le comportement mémoire avec des exemples de configuration concrets.

Détails du développeur

Structure de fichiers

📄 SKILL.md