Question 1

Quelle est la taille optimale de partition pour Spark ?

Accepted Answer

128 Mo à 256 Mo par partition offre le meilleur équilibre entre parallélisme et surcharge de planification des tâches. Trop peu de partitions causent une sous-utilisation ; trop nombreuses augmentent la surcharge de planification.

Question 2

Quand dois-je utiliser cache() vs persist() ?

Accepted Answer

Utilisez cache() pour un stockage simple en mémoire. Utilisez persist() avec un StorageLevel spécifique lorsque vous avez besoin du débordement sur disque (MEMORY_AND_DISK) ou de la sérialisation (MEMORY_ONLY_SER) pour l'efficacité de la mémoire.

Question 3

Comment savoir si ma tâche a un déséquilibre de données ?

Accepted Answer

Vérifiez l'interface utilisateur Spark pour les tâches avec une durée nettement plus longue que la moyenne. Un ratio de skew (temps de tâche max/moyen) supérieur à 2x indique un skew problématique nécessitant un salting ou AQE.

Question 4

Qu'est-ce qu'Adaptive Query Execution (AQE) ?

Accepted Answer

AQE optimise automatiquement les requêtes au moment de l'exécution en fusionnant les partitions, gérant les skew joins et optimisant les agrégats. Activez avec spark.sql.adaptive.enabled=true (Spark 3.0+).

Question 5

Dois-je utiliser Parquet ou Delta Lake ?

Accepted Answer

Delta Lake s'appuie sur Parquet avec des transactions ACID, l'application de schéma et le voyage dans le temps. Utilisez Delta pour les charges de travail de production nécessitant une fiabilité ; Parquet pour les charges de travail simples à lecture intensive.

Question 6

Comment puis-je réduire la pression mémoire du shuffle ?

Accepted Answer

Activez la compression shuffle (spark.shuffle.compress=true), utilisez AQE pour réduire les partitions, pré-agrégez avant les transformations larges et augmentez spark.memory.fraction si des débordements se produisent.

spark-optimization

Tester

Audit de sécurité

Score de qualité

Ce que vous pouvez construire

Ingénieur de données optimisant un pipeline ETL

Équipe d'analytique faisant évoluer les rapports

Développeur déboguant des requêtes lentes

Essayez ces prompts

Bonnes pratiques

Éviter

Foire aux questions

Détails du développeur