스킬 vaex

📊

vaex

Name: vaex
Author: davila7

안전 ⚙️ 외부 명령어🌐 네트워크 접근📁 파일 시스템 액세스🔑 환경 변수

수십억 행의 데이터셋을 효율적으로 처리

또한 다음에서 사용할 수 있습니다: K-Dense-AI

RAM을 초과하는 대용량 데이터셋 작업 시 메모리 오류와 느린 성능이 발생합니다. Vaex는 지연 평가와 메모리 매핑을 사용하여 데이터를 메모리에 로드하지 않고도 수십억 행을 즉시 처리합니다.

지원: Claude Codex Code(CC)

📊 71 적절함

스킬 ZIP 다운로드

Claude에서 업로드

설정 → 기능 → 스킬 → 스킬 업로드로 이동

토글을 켜고 사용 시작

테스트해 보기

"vaex" 사용 중입니다. 10GB 판매 데이터 파일을 로드하고 지역별 매출 분포를 보여줘

예상 결과:

데이터셋 크기: 150,000,000 행 × 25 열
메모리 사용량: 0 bytes (memory-mapped HDF5)
지역별 매출:
• North: $12.5B (평균: $245)
• South: $8.3B (평균: $198)

"vaex" 사용 중입니다. 키와 몸무게 컬럼으로 BMI 가상 컬럼을 만들어줘

예상 결과:

가상 컬럼 생성됨: df['bmi']
메모리 오버헤드: 0 bytes
수식: df.weight_kg / (df.height_m ^ 2)
집계 및 필터링 준비 완료.

"vaex" 사용 중입니다. 총 구매 금액 기준 상위 10명 고객을 보여줘

예상 결과:

고객 분석:
• 최상위 고객: $1.2M 총액
• 상위 10명 고객: $8.5M 합계
• 처리 시간: 0.3초 (지연 평가)

보안 감사

안전

v5 • 1/17/2026

This is a pure documentation skill containing only reference guides and Python code examples for the Vaex library. All 501 static findings are false positives triggered by documentation patterns. The analyzer misinterprets markdown code examples, placeholder credential documentation, and legitimate feature descriptions as security issues. No executable code, network operations, or credential exposure exists.

스캔된 파일

3,938

분석된 줄 수

발견 사항

총 감사 수

위험 요인

⚙️ 외부 명령어 (444)

🌐 네트워크 접근 (2)

references/io_operations.md:474 skill-report.json:6

📁 파일 시스템 액세스 (16)

references/io_operations.md:10 references/io_operations.md:13 references/io_operations.md:22 references/io_operations.md:31 references/io_operations.md:39 references/io_operations.md:48 references/io_operations.md:422 references/io_operations.md:427 references/io_operations.md:433 references/io_operations.md:434 references/io_operations.md:692 references/io_operations.md:637 references/io_operations.md:221 references/performance.md:259 references/performance.md:262 skill-report.json:125

🔑 환경 변수 (1)

references/io_operations.md:349

감사자: claude 감사 이력 보기 →

품질 점수

아키텍처

100

유지보수성

콘텐츠

커뮤니티

100

보안

사양 준수

만들 수 있는 것

대규모 데이터셋 분석

메모리 오류나 샘플링 없이 수십억 행의 데이터셋을 탐색하고 분석합니다.

빅데이터로 모델 학습

기존 도구로는 너무 큰 데이터셋에서 ML 파이프라인을 구축하고 배포합니다.

시계열 데이터 처리

리스크 분석 및 예측을 위해 대용량 금융 시계열 데이터를 처리합니다.

이 프롬프트를 사용해 보세요

대용량 데이터셋 로드

Vaex로 대용량 HDF5/Parquet 파일을 로드하고 기본 통계와 컬럼 정보를 표시해줘.

필터링 및 집계

조건으로 데이터셋을 필터링하고 groupby 집계를 효율적으로 계산해줘.

시각화 생성

대용량 데이터셋의 히트맵 또는 히스토그램 시각화를 만들어줘.

ML 파이프라인 구축

Vaex ML 트랜스포머로 피처를 전처리하고 XGBoost 모델을 학습시켜줘.

모범 사례

즉시 로드를 위해 CSV 파일을 HDF5 또는 Arrow 형식으로 변환
메모리 절약을 위해 데이터 구체화 대신 가상 컬럼 사용
단일 패스 계산을 위해 delay=True로 여러 연산 배치 처리
필터링 시 새 DataFrame 생성 대신 선택(selection) 활용

피하기

대용량 데이터셋에 .to_pandas_df() 사용은 Vaex의 목적을 무효화함
불필요하게 .values로 NumPy 배열로 변환
HDF5/Arrow 대신 CSV로 반복적으로 내보내기
정당한 이유 없이 가상 컬럼 구체화

자주 묻는 질문

Vaex는 RAM보다 큰 데이터셋을 어떻게 처리하나요?

Vaex는 파일을 메모리 매핑하여 데이터를 디스크에 유지하고 액세스되는 부분만 메모리로 읽어들입니다.

Vaex에서 가장 잘 작동하는 파일 형식은 무엇인가요?

HDF5와 Apache Arrow는 즉시 로드를 제공합니다. CSV는 대용량 파일에서 느립니다.

pandas 코드와 함께 Vaex를 사용할 수 있나요?

Vaex는 pandas와 유사한 API를 가지고 있지만 일부 연산이 다릅니다. 완전한 pandas 호환성은 보장되지 않습니다.

Vaex 사용 시 내 데이터는 안전한가요?

Vaex는 원본 파일을 절대 수정하지 않습니다. 모든 변환은 가상 컬럼을 생성하거나 새로운 내보내기를 만듭니다.

연산이 느리게 실행되는 이유는 무엇인가요?

HDF5/Arrow 형식을 사용하고 있는지 확인하세요(CSV 아님). 여러 집계에는 delay=True를 사용하세요.

Vaex는 Dask나 Polars와 어떻게 비교되나요?

Vaex는 최소 메모리로 수십억 행 데이터셋에서 뛰어납니다. Dask는 분산 컴퓨팅을 처리하고, Polars는 인메모리 데이터에서 더 빠릅니다.

개발자 세부 정보

작성자

davila7

라이선스

MIT

리포지토리

https://github.com/davila7/claude-code-templates/tree/main/cli-tool/components/skills/scientific/vaex

참조

main

파일 구조

📁 references/

📄 core_dataframes.md

📄 data_processing.md

📄 io_operations.md

📄 machine_learning.md

📄 performance.md

📄 visualization.md

📄 SKILL.md