스킬 ML Engineer

📦

ML Engineer

Name: ML Engineer
Author: sickn33

안전

프로덕션 ML 시스템 구축을 위한 전문가 가이드

프로덕션에 머신러닝 모델을 배포하려면 많은 팀이 부족한 서빙, 모니터링, 인프라 전문가 지식이 필요합니다. 이 스킬은 PyTorch 2.x 와 TensorFlow 와 같은 최신 프레임워크를 사용하여 신뢰할 수 있고 확장 가능한 ML 시스템을 구축하기 위한 검증된 패턴을 제공합니다.

지원: Claude Codex Code(CC)

⚠️ 68 나쁨

스킬 ZIP 다운로드

Claude에서 업로드

설정 → 기능 → 스킬 → 스킬 업로드로 이동

토글을 켜고 사용 시작

테스트해 보기

"ML Engineer" 사용 중입니다. 50ms 지연 시간 SLA 가 있는 이미지 분류를 위한 모델 서빙 아키텍처 설계

예상 결과:

GPU 인스턴스를 사용한 TorchServe 기반 추천 아키텍처
처리량 최적화를 위한 요청 배치 구성
반복 입력에 대한 예측 캐싱을 위한 Redis 레이어
큐 깊이 및 지연 시간 지표를 기반으로 한 자동 스케일링 정책
장애 발생 시 우아한 저하를 위한 서킷 브레이커 패턴

"ML Engineer" 사용 중입니다. 모델 비교를 위한 A/B 테스트를 어떻게 구현하나요

예상 결과:

사용자 일관성을 위한 세션 고정 기능이 있는 트래픽 분할 전략
2% 개선 감지를 위한 통계적 검정력 계산
부정적인 부작용을 모니터링하기 위한 가드레일 지표
이른 중단 기준이 있는 순차적 테스트 접근법
기본 전환율을 기반으로 한 샘플 크기 추정

보안 감사

안전

v1 • 2/25/2026

Prompt-only skill with no executable code. Static analysis found 0 files with executable content and computed risk score of 0/100. The SKILL.md file contains only markdown documentation and AI assistant instructions for ML engineering tasks. No security concerns identified.

스캔된 파일

분석된 줄 수

발견 사항

총 감사 수

보안 문제를 찾지 못했습니다

감사자: claude

품질 점수

아키텍처

100

유지보수성

콘텐츠

커뮤니티

100

보안

사양 준수

만들 수 있는 것

실시간 추천 시스템

Redis 캐싱과 TorchServe 를 통한 모델 서빙으로 초당 100K 예측을 처리하는 고처리량 추천 엔진을 설계합니다.

ML 파이프라인 자동화

Apache Airflow 또는 Kubeflow 를 사용하여 데이터 처리, 학습, 검증 및 배포를 자동화하는 엔드투엔드 ML 파이프라인을 구축합니다.

모델 성능 모니터링

Prometheus 와 Grafana 를 사용하여 포괄적인 모니터링을 구현하여 프로덕션에서 데이터 드리프트, 예측 지연 시간 및 비즈니스 지표를 추적합니다.

이 프롬프트를 사용해 보세요

초급: ML 모델 배포 기본

model.pth 로 저장된 학습된 PyTorch 모델이 있습니다. FastAPI 와 Docker 를 사용하여 REST API 로 배포하는 방법을 안내해 주세요. 상태 점검, 입력 유효성 검사 및 기본 로깅을 포함하세요.

중급: 특성 스토어 설계

이커머스 추천 시스템을 위한 특성 스토어 아키텍처를 설계해 주세요. 배치 특성 (사용자 구매 내역) 과 실시간 특성 (세션 활동) 이 모두 필요합니다. 사용 사례에 대해 Feast 와 Tecton 을 비교해 주세요.

고급: 분산 학습 전략

8xA100 GPU 에서 2B 파라미터 트랜스포머 모델을 학습해야 합니다. PyTorch FSDP 또는 DeepSpeed 를 사용한 분산 학습 전략을 추천해 주세요. 그래디언트 체크포인팅, 혼합 정밀도 및 통신 최적화를 포함하세요.

전문가: 프로덕션 ML 모니터링

초당 10K 요청을 처리하는 사기 탐지 모델을 위한 포괄적인 모니터링 시스템을 설계해 주세요. 데이터 드리프트 감지, 모델 성능 추적, 경고 임계값 및 자동 롤백 트리거를 포함하세요.

모범 사례

드리프트를 조기에 발견하기 위해 모델 추론 전에 포괄적인 입력 유효성 검사 및 데이터 품질 확인을 항상 구현하세요
재현 가능한 ML 인프라 배포를 위해 인프라스트럭처 as 코드 (Terraform, CloudFormation) 를 사용하세요
장애 발생 시 서비스 유지를 위해 대체 모델과 서킷 브레이커로 우아한 저하를 위해 설계하세요

피하기

데이터 드리프트나 성능 저하에 대한 모니터링 없이 모델을 배포하면 묵시적 장애가 발생합니다
모델 레지스트리를 사용하지 않고 애플리케이션 코드에 모델 경로나 하이퍼파라미터를 하드코딩하는 것
학습과 추론을 동일한 인프라에서 실행하면 리소스 경쟁과 예측 불가능한 지연 시간이 발생합니다

자주 묻는 질문

이 스킬은 어떤 ML 프레임워크를 지원하나요?

PyTorch 2.x 와 TensorFlow 2.x 를 주로 지원합니다. 또한 연구 워크로드를 위한 JAX/Flax, 전통적 ML 을 위한 scikit-learn 및 그래디언트 부스팅 라이브러리, LLM 애플리케이션을 위한 Hugging Face Transformers 도 다룹니다.

클라우드별 ML 서비스에 대한 도움을 받을 수 있나요?

네. AWS SageMaker, Azure ML, GCP Vertex AI 및 Databricks ML 에 대한 가이드를 제공합니다. 각 플랫폼에 대한 인프라스트럭처 as 코드 템플릿과 모범 사례를 포함합니다.

에지 배포를 위한 모델 최적화에 도움이 되나요?

네. 에지 디바이스를 위해 TensorFlow Lite, PyTorch Mobile 및 ONNX Runtime 을 다룹니다. 리소스 제한 환경에 대한 양자화, 프루닝 및 증류 기술을 포함합니다.

프로덕션 ML 에 어떤 모니터링 도구가 권장되나요?

인프라 지표를 위해 Prometheus 와 Grafana, ML 특정 모니터링을 위해 Evidently AI 또는 WhyLabs, 사용자 지정 비즈니스 지표 대시보드를 추천합니다. 경고 구성 가이드를 포함합니다.

이 스킬은 모델 버저닝과 롤백을 어떻게 처리하나요?

버저닝을 위해 MLflow Model Registry, DVC 및 Git LFS 를 다룹니다. 청록색 배포, 카나리 릴리스 및 성능 임계값에 따른 자동 롤백 전략을 제공합니다.

분산 학습 설정에 대한 도움을 받을 수 있나요?

네. PyTorch DDP, FSDP, Horovod 및 DeepSpeed 에 대한 구성을 제공합니다. 멀티 노드 설정, 그래디언트 누적, 혼합 정밀도 학습 및 통신 최적화를 다룹니다.

개발자 세부 정보

작성자

sickn33

라이선스

MIT

리포지토리

https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/ml-engineer

참조

main

파일 구조

📄 SKILL.md