스킬 dask
📊

dask

안전 ⚙️ 외부 명령어📁 파일 시스템 액세스🌐 네트워크 접근

Dask 분산 컴퓨팅으로 pandas 및 NumPy 확장

또한 다음에서 사용할 수 있습니다: davila7

병렬 컴퓨팅을 사용하여 RAM보다 큰 데이터셋을 처리합니다. 코드를 다시 작성하지 않고 단일 시스템의 pandas 및 NumPy 워크플로우를 다중 코어 또는 분산 클러스터에서 실행하도록 변환합니다.

지원: Claude Codex Code(CC)
📊 71 적절함
1

스킬 ZIP 다운로드

2

Claude에서 업로드

설정 → 기능 → 스킬 → 스킬 업로드로 이동

3

토글을 켜고 사용 시작

테스트해 보기

"dask" 사용 중입니다. 여러 CSV 파일을 읽어 하나의 Dask DataFrame으로 결합하려면 어떻게 해야 합니까?

예상 결과:

  • glob 패턴과 함께 dd.read_csv를 사용하여 여러 파일 읽기: ddf = dd.read_csv('data/2024-*.csv')
  • read_csv 함수는 지연됩니다 - 데이터를 로드하지 않고 작업 그래프를 구축합니다
  • 결합 후, groupby 및 집계와 같은 작업을 지연해서 수행합니다
  • 최종 결과가 필요한 경우에만 .compute()를 호출하세요

"dask" 사용 중입니다. Dask Array와 Dask DataFrame은 언제 사용해야 합니까?

예상 결과:

  • NumPy 연산에 적합한 숫자 데이터에는 Array 사용 - 과학적 컴퓨팅, 이미지 처리, 행렬 연산
  • 명명된 열이 있는 테이블 데이터에는 DataFrame 사용 - 데이터베이스 유사 작업, CSV 처리, 구조화된 데이터
  • Arrays 또는 DataFrames으로 변환하기 전에 비정형 데이터(텍스트, JSON)를 처리하려면 Bags 사용
  • Futures는 동적이고 대화형인 병렬 워크플로우에 대한 세부적인 제어 제공

"dask" 사용 중입니다. Dask로 메모리 오류를 피하려면 어떻게 해야 합니까?

예상 결과:

  • 약 100MB당 청크 또는 코어당 10개 청크 크기 선택
  • 먼저 pandas에 데이터를 로드한 후 변환하지 마세요 - Dask 리더를 직접 사용하세요
  • 루프 내에서 .compute()를 반복 호출하지 마세요 - 대신 여러 결과에 대해 dask.compute() 사용
  • 대시보드를 사용하여 메모리 사용량을 모니터링하고 문제가 있는 작업 식별

보안 감사

안전
v4 • 1/17/2026

Pure documentation skill with no executable code. All 448 static findings are false positives. The analyzer misinterpreted markdown inline code formatting (backticks like `dask.compute()`) as shell execution, and flagged legitimate computing terms like 'md5', 'command', 'control', 'connect' as security threats. This is standard Dask library documentation teaching parallel computing patterns.

8
스캔된 파일
5,369
분석된 줄 수
3
발견 사항
4
총 감사 수

위험 요인

⚙️ 외부 명령어 (3)
📁 파일 시스템 액세스 (1)
🌐 네트워크 접근 (1)
감사자: claude 감사 이력 보기 →

품질 점수

45
아키텍처
100
유지보수성
87
콘텐츠
21
커뮤니티
100
보안
91
사양 준수

만들 수 있는 것

pandas 워크플로우 확장

가져오기 전환 및 최소한의 코드 변경으로 Dask DataFrames을 사용하여 RAM보다 큰 데이터셋을 처리하도록 pandas 코드를 변환합니다.

병렬 모델 학습

Dask Futures를 사용하여 하이퍼파라미터 스윕을 위해 다중 워커에 데이터 전처리 및 모델 추론을 분산합니다.

대규모 배열 처리

Dask Arrays와 청크 작업을 사용하여 메모리를 초과하는 HDF5 또는 Zarr 파일의 과학 데이터셋을 작업합니다.

이 프롬프트를 사용해 보세요

기본 DataFrame 확장
RAM을 초과하는 데이터셋에 Dask를 사용하도록 pandas DataFrame 코드를 변환하는 방법을 보여주세요. 여러 CSV 파일 읽기와 groupby 작업 포함.
배열 청킹
HDF5 또는 Zarr 파일에서 최적의 청크 크기로 Dask Array를 생성하고 처리하는 방법을 설명하세요. 청크 크기 선택 방법과 감소 작업 수행 방법 포함.
병렬 Futures
로컬 클러스터 설정, 큰 데이터 분산, 종속 작업에서 결과 수집을 포함한 동적 작업 제출에 Dask Futures를 사용하는 방법을 보여주세요.
성능 최적화
내 Dask 워크플로우 최적화를 도와주세요. 올바른 스케줄러 선택 방법, 대시보드를 사용한 병목 현상 식별, 잘못된 청크 크기에서 발생하는 메모리 문제 해결을 이해하고 싶습니다.

모범 사례

  • 처음부터 Dask가 데이터 로드를 처리하도록 하세요 - Dask 컬렉션으로 변환하기 전에 로컬에서 pandas 객체를 생성하지 마세요
  • 균형 잡힌 병렬 처리와 메모리 사용을 위해 100MB 청크 크기와 워커 코어당 10개 청크를 목표로 하세요
  • map_partitions 또는 map_blocks를 사용하여 여러 작업을 단일 작업으로 융합하고 스케줄링 오버헤드 줄이기

피하기

  • 루프 내에서 .compute()를 호출하면 각 반복에 대해 별도의 작업 그래프가 생성됩니다 - 대신 dask.compute(*computations) 사용
  • pandas에 전체 데이터셋을 로드한 후 Dask에 전달하면 목적이 무효화됩니다 - Dask 리더를 직접 사용하세요
  • 순수 Python 코드(텍색스트 처리, 사용자 정의 함수)에 스레드 스케줄러 사용 - GIL 경합을 피하기 위해 프로세스로 전환

자주 묻는 질문

Dask란 무엇입니까?
Dask는 pandas 및 NumPy 워크플로우를 더 큰 데이터셋으로 확장하기 위한 병렬 및 분산 컴퓨팅용 Python 라이브러리입니다.
아니요 - Dask는 다중 코어를 사용하여 단일 시스템에서 작동합니다. 분산 클러스터는 매우 큰 워크로드에 선택 사항입니다.
Dask에 얼마나 많은 메모리가 필요합니까?
Dask는 청크로 처리하여 RAM보다 큰 데이터셋을 처리합니다. 워커 코어당 약 100MB의 10개 청크를 목표로 하세요.
Dask를 pandas와 함께 사용할 수 있습니까?
네 - Dask DataFrames은 pandas API를 모방합니다. 많은 pandas 작업이 최소한의 코드 변경 또는 변경 없이 직접 작동합니다.
어떤 스케줄러를 선택해야 합니까?
스레드는 pandas/NumPy에 가장 적합합니다(GIL 해제). 순수 Python 코드에는 프로세스를 사용하세요. 디버깅에는 동기식을 사용하세요.
Dask는 pandas를 대체합니까?
아니요 - Dask는 더 큰 데이터에 대해 pandas를 확장합니다. 메모리에 맞는 데이터의 경우 pandas만 더 간단하고 빠릅니다.

개발자 세부 정보

작성자

K-Dense-AI

라이선스

BSD-3-Clause license

참조

main

파일 구조