Compétences spark-optimization
📦

spark-optimization

Sûr

Apache Spark 성능 최적화

Également disponible depuis: wshobson

느린 Spark 작업은 리소스를 낭비하고 인사이트를 지연시킵니다. 이 스킬은 데이터 파이프라인을 가속화하기 위한 파티셔닝, 캐싱, 셔플 최적화 및 메모리 튜닝에 대한 검증된 패턴을 제공합니다.

Prend en charge: Claude Codex Code(CC)
📊 71 Adéquat
1

Télécharger le ZIP du skill

2

Importer dans Claude

Allez dans Paramètres → Capacités → Skills → Importer un skill

3

Activez et commencez à utiliser

Tester

Utilisation de "spark-optimization". 빈번한 캐싱이 있는 100GB 데이터셋을 위한 Spark 구성

Résultat attendu:

  • spark.executor.memory: 8g
  • spark.executor.memoryOverhead: 2g
  • spark.memory.fraction: 0.6
  • spark.sql.shuffle.partitions: 200
  • spark.sql.adaptive.enabled: true
  • 권장: 캐시 영속성을 위해 MEMORY_AND_DISK_SER 사용

Utilisation de "spark-optimization". 100 배 데이터 편향이 있는 느린 조인 수정

Résultat attendu:

  • 감지됨: 파티션 편향 비율 15.3x (임계값: 2x)
  • 해결책: 10 개의 버킷으로 솔트 조인 기법 적용
  • 대안: AQE 편향 조인 처리 활성화
  • 예상 개선: 완료 시간 5-8 배 빨라짐

Audit de sécurité

Sûr
v1 • 2/25/2026

All static analyzer findings were false positives. The skill contains Python/PySpark code examples for Apache Spark optimization. External command detections misidentified Python code as Ruby/shell execution. Network findings were documentation URLs. No actual security risks detected.

1
Fichiers analysés
430
Lignes analysées
0
résultats
1
Total des audits
Aucun problème de sécurité trouvé
Audité par: claude

Score de qualité

38
Architecture
100
Maintenabilité
87
Contenu
22
Communauté
100
Sécurité
100
Conformité aux spécifications

Ce que vous pouvez construire

ETL 파이프라인 최적화하는 데이터 엔지니어

파티션 프루닝, 브로드캐스트 조인 및 메모리 튜닝을 구현하여 야간 배치 작업 런타임을 4 시간에서 45 분으로 단축.

리포트를 확장하는 분석 팀

AQE, 적절한 캐싱 전략 및 Z-ordering 을 적용하여 추가 인프라 없이 10 배 데이터 증가 처리.

느린 쿼리 디버깅하는 개발자

파티션 분석 및 편향 감지 유틸리티를 사용하여 스트래글러 작업을 유발하는 데이터 편향 문제 식별 및 수정.

Essayez ces prompts

기본 Spark 구성
매일 500GB 의 데이터를 처리하는 프로덕션 ETL 작업을 위한 Spark 세션을 구성하는 데 도움을 주세요. 파티셔닝과 메모리에 어떤 설정을 사용해야 하나요?
조인 성능 문제
5TB 테이블과 5MB 룩업 테이블 간의 조인이 매우 느립니다. 어떻게 최적화할 수 있나요?
데이터 편향 디버깅
groupBy 작업에서 일부 작업이 다른 작업보다 10 배 더 오래 걸립니다. Spark 작업의 데이터 편향을 감지하고 수정하는 데 도움을 주세요.
전체 파이프라인 최적화
Spark 파이프라인을 검토해주세요: 1TB Parquet 읽기, 3 개 테이블 조인, 날짜 및 지역별 애그리게이션, 파티션된 출력 쓰기. AQE, 메모리 및 셔플 설정을 포함한 완전한 최적화 전략을 제공해주세요.

Bonnes pratiques

  • 자동 파티션 병합 및 편향 처리를 위해 Adaptive Query Execution (AQE) 활성화
  • 셔플 오버헤드를 제거하기 위해 50MB 미만 테이블에 브로드캐스트 조인 사용
  • 스케줄링 오버헤드 없이 최적의 병렬 처리를 위해 파티션을 128MB-256MB 로 적절히 크기 조정

Éviter

  • 대규모 DataFrame 에서 collect() 사용으로 인한 드라이버 OOM 오류
  • 한 번만 사용되는 DataFrame 을 과도하게 캐싱하여 메모리 낭비
  • 스트래글러 작업 및 작업 시간 초과를 유발하는 데이터 편향 무시

Foire aux questions

Spark 의 최적 파티션 크기는 무엇인가요?
파티션당 128MB~256MB 가 병렬 처리와 작업 스케줄링 오버헤드 간의 최적 균형을 제공합니다. 파티션이 너무 적으면 활용도가 낮아지고, 너무 많으면 스케줄링 오버헤드가 증가합니다.
cache() 와 persist() 는 언제 사용해야 하나요?
간단한 인메모리 저장을 위해서는 cache() 를 사용하세요. 메모리 효율성을 위해 디스크 스폴링 (MEMORY_AND_DISK) 이나 직렬화 (MEMORY_ONLY_SER) 가 필요한 경우 특정 StorageLevel 과 함께 persist() 를 사용하세요.
작업에 데이터 편향이 있는지 어떻게 알 수 있나요?
Spark UI 에서 평균보다 현저히 긴 지속 시간을 가진 작업을 확인하세요. 편향 비율 (최대/평균 작업 시간) 이 2x 를 초과하면 솔팅이나 AQE 가 필요한 문제 있는 편향을 나타냅니다.
Adaptive Query Execution (AQE) 이란 무엇인가요?
AQE 는 런타임에 파티션을 병합하고 편향 조인을 처리하며 애그리게이션을 최적화하여 쿼리를 자동으로 최적화합니다. spark.sql.adaptive.enabled=true 로 활성화합니다 (Spark 3.0+).
Parquet 와 Delta Lake 중 무엇을 사용해야 하나요?
Delta Lake 는 ACID 트랜잭션, 스키마 강제 및 시간 여행 기능을 갖춘 Parquet 의 확장입니다. 신뢰성이 필요한 프로덕션 워크로드에는 Delta 를, 간단한 읽기 중심 워크로드에는 Parquet 를 사용하세요.
셔플 메모리 압력을 어떻게 줄일 수 있나요?
셔플 압축 (spark.shuffle.compress=true) 을 활성화하고, AQE 를 사용하여 파티션을 줄이며, 와이드 변환 전에 프리 - 애그리게이션을 수행하고, 스폴이 발생하면 spark.memory.fraction 을 늘리세요.

Détails du développeur

Structure de fichiers

📄 SKILL.md