스킬 dask

📊

dask

Name: dask
Author: K-Dense-AI

안전 ⚙️ 외부 명령어📁 파일 시스템 액세스🌐 네트워크 접근

Dask 분산 컴퓨팅으로 pandas 및 NumPy 확장

또한 다음에서 사용할 수 있습니다: davila7

병렬 컴퓨팅을 사용하여 RAM보다 큰 데이터셋을 처리합니다. 코드를 다시 작성하지 않고 단일 시스템의 pandas 및 NumPy 워크플로우를 다중 코어 또는 분산 클러스터에서 실행하도록 변환합니다.

지원: Claude Codex Code(CC)

📊 71 적절함

스킬 ZIP 다운로드

Claude에서 업로드

설정 → 기능 → 스킬 → 스킬 업로드로 이동

토글을 켜고 사용 시작

테스트해 보기

"dask" 사용 중입니다. 여러 CSV 파일을 읽어 하나의 Dask DataFrame으로 결합하려면 어떻게 해야 합니까?

예상 결과:

glob 패턴과 함께 dd.read_csv를 사용하여 여러 파일 읽기: ddf = dd.read_csv('data/2024-*.csv')
read_csv 함수는 지연됩니다 - 데이터를 로드하지 않고 작업 그래프를 구축합니다
결합 후, groupby 및 집계와 같은 작업을 지연해서 수행합니다
최종 결과가 필요한 경우에만 .compute()를 호출하세요

"dask" 사용 중입니다. Dask Array와 Dask DataFrame은 언제 사용해야 합니까?

예상 결과:

NumPy 연산에 적합한 숫자 데이터에는 Array 사용 - 과학적 컴퓨팅, 이미지 처리, 행렬 연산
명명된 열이 있는 테이블 데이터에는 DataFrame 사용 - 데이터베이스 유사 작업, CSV 처리, 구조화된 데이터
Arrays 또는 DataFrames으로 변환하기 전에 비정형 데이터(텍스트, JSON)를 처리하려면 Bags 사용
Futures는 동적이고 대화형인 병렬 워크플로우에 대한 세부적인 제어 제공

"dask" 사용 중입니다. Dask로 메모리 오류를 피하려면 어떻게 해야 합니까?

예상 결과:

약 100MB당 청크 또는 코어당 10개 청크 크기 선택
먼저 pandas에 데이터를 로드한 후 변환하지 마세요 - Dask 리더를 직접 사용하세요
루프 내에서 .compute()를 반복 호출하지 마세요 - 대신 여러 결과에 대해 dask.compute() 사용
대시보드를 사용하여 메모리 사용량을 모니터링하고 문제가 있는 작업 식별

보안 감사

안전

v4 • 1/17/2026

Pure documentation skill with no executable code. All 448 static findings are false positives. The analyzer misinterpreted markdown inline code formatting (backticks like `dask.compute()`) as shell execution, and flagged legitimate computing terms like 'md5', 'command', 'control', 'connect' as security threats. This is standard Dask library documentation teaching parallel computing patterns.

스캔된 파일

5,369

분석된 줄 수

발견 사항

총 감사 수

위험 요인

⚙️ 외부 명령어 (3)

SKILL.md:44-286 references/arrays.md:1-498 references/bags.md:1-500

📁 파일 시스템 액세스 (1)

references/bags.md:103

🌐 네트워크 접근 (1)

skill-report.json:6

감사자: claude 감사 이력 보기 →

품질 점수

아키텍처

100

유지보수성

콘텐츠

커뮤니티

100

보안

사양 준수

만들 수 있는 것

pandas 워크플로우 확장

가져오기 전환 및 최소한의 코드 변경으로 Dask DataFrames을 사용하여 RAM보다 큰 데이터셋을 처리하도록 pandas 코드를 변환합니다.

병렬 모델 학습

Dask Futures를 사용하여 하이퍼파라미터 스윕을 위해 다중 워커에 데이터 전처리 및 모델 추론을 분산합니다.

대규모 배열 처리

Dask Arrays와 청크 작업을 사용하여 메모리를 초과하는 HDF5 또는 Zarr 파일의 과학 데이터셋을 작업합니다.

이 프롬프트를 사용해 보세요

기본 DataFrame 확장

RAM을 초과하는 데이터셋에 Dask를 사용하도록 pandas DataFrame 코드를 변환하는 방법을 보여주세요. 여러 CSV 파일 읽기와 groupby 작업 포함.

배열 청킹

HDF5 또는 Zarr 파일에서 최적의 청크 크기로 Dask Array를 생성하고 처리하는 방법을 설명하세요. 청크 크기 선택 방법과 감소 작업 수행 방법 포함.

병렬 Futures

로컬 클러스터 설정, 큰 데이터 분산, 종속 작업에서 결과 수집을 포함한 동적 작업 제출에 Dask Futures를 사용하는 방법을 보여주세요.

성능 최적화

내 Dask 워크플로우 최적화를 도와주세요. 올바른 스케줄러 선택 방법, 대시보드를 사용한 병목 현상 식별, 잘못된 청크 크기에서 발생하는 메모리 문제 해결을 이해하고 싶습니다.

모범 사례

처음부터 Dask가 데이터 로드를 처리하도록 하세요 - Dask 컬렉션으로 변환하기 전에 로컬에서 pandas 객체를 생성하지 마세요
균형 잡힌 병렬 처리와 메모리 사용을 위해 100MB 청크 크기와 워커 코어당 10개 청크를 목표로 하세요
map_partitions 또는 map_blocks를 사용하여 여러 작업을 단일 작업으로 융합하고 스케줄링 오버헤드 줄이기

피하기

루프 내에서 .compute()를 호출하면 각 반복에 대해 별도의 작업 그래프가 생성됩니다 - 대신 dask.compute(*computations) 사용
pandas에 전체 데이터셋을 로드한 후 Dask에 전달하면 목적이 무효화됩니다 - Dask 리더를 직접 사용하세요
순수 Python 코드(텍색스트 처리, 사용자 정의 함수)에 스레드 스케줄러 사용 - GIL 경합을 피하기 위해 프로세스로 전환