트랜스포머 모델을 다루려면 파이프라인, 토큰화, 파인튜닝 워크플로우에 대한 이해가 필요합니다. 이 스킬은 NLP, 컴퓨터 비전, 오디오 작업에서 Hugging Face Transformers 라이브러리를 사용하기 위한 모범 사례와 코드 예제를 포함한 포괄적인 가이드를 제공합니다.
Télécharger le ZIP du skill
Importer dans Claude
Allez dans Paramètres → Capacités → Skills → Importer un skill
Activez et commencez à utiliser
Tester
Utilisation de "transformers". 감정 분석을 위한 사전 학습된 모델을 로드하는 방법을 보여주세요
Résultat attendu:
감정 분석 모델을 로드하는 것을 도와드리겠습니다. 다음은 pipeline API를 사용한 코드입니다:
from transformers import pipeline
classifier = pipeline("sentiment-analysis")
result = classifier("I love this product!")
이것은 다음을 출력합니다: [{'label': 'POSITIVE', 'score': 0.9998}]
pipeline은 자동으로 기본 모델(distilbert-base-uncased-finetuned-sst-2-english)을 다운로드하고 캐시하며 토큰화를 처리합니다.
Utilisation de "transformers". 커스텀 데이터셋으로 모델을 파인튜닝하도록 도와주세요
Résultat attendu:
파인튜닝 과정을 안내해드리겠습니다:
1. 먼저 datasets 라이브러리를 사용하여 데이터셋을 준비합니다
2. 사전 학습된 모델과 토크나이저를 로드합니다
3. 배치 처리를 위한 data collator를 생성합니다
4. 학습률, 배치 크기, 에포크로 TrainingArguments를 설정합니다
5. 모델, 데이터셋, 인자로 Trainer를 초기화합니다
6. trainer.train()을 호출하여 파인튜닝을 시작합니다
데이터셋 구조에 맞는 전체 코드를 보여드리겠습니다.
Audit de sécurité
SûrThis skill contains only documentation and reference materials for the Hugging Face Transformers library. All static findings are false positives: backtick detections are markdown code blocks in documentation, eval references are PyTorch model.eval() method calls, and network references are documentation URLs. No executable code, command execution, or security risks present.
Score de qualité
Ce que vous pouvez construire
사전 학습된 모델을 사용한 텍스트 분류
커스텀 전처리 코드를 작성하지 않고 감정 분석, 스팸 감지 또는 주제 분류를 위해 pipeline API를 사용하여 텍스트를 분류합니다.
도메인 작업을 위한 언어 모델 파인튜닝
Trainer API를 사용하여 커스텀 데이터셋으로 파인튜닝하여 의료 또는 법률 텍스트와 같은 전문 도메인에 사전 학습된 모델을 적응시킵니다.
텍스트 생성으로 대화형 AI 구축
temperature, top-k, top-p 샘플링 파라미터를 제어하여 GPT 스타일 모델을 사용해 인간과 유사한 텍스트 응답을 생성합니다.
Essayez ces prompts
텍스트 분류를 위해 BERT base 모델을 로드하고 샘플 문장에서 추론을 실행하는 방법을 보여주세요
temperature 0.8과 top-p 샘플링 0.9를 사용하여 GPT-2로 창의적인 텍스트를 생성하도록 도와주세요
Trainer API를 사용하여 감정 레이블이 있는 CSV 데이터셋으로 DistilBERT를 파인튜닝하는 과정을 안내해주세요
메모리 사용량을 줄이면서 더 빠른 추론을 위해 트랜스포머 모델을 양자화하고 최적화하는 방법을 보여주세요
Bonnes pratiques
- 더 나은 호환성을 위해 특정 모델 아키텍처 대신 AutoModel 클래스를 사용하세요
- 대형 모델의 자동 GPU 메모리 관리를 위해 device_map auto를 활성화하세요
- 개발 중 반복 다운로드를 피하기 위해 다운로드한 모델을 로컬에 캐시하세요
Éviter
- torch_dtype을 지정하지 않고 모델을 로드하면 대형 모델에서 메모리 문제가 발생할 수 있습니다
- return_tensors 파라미터와 함께 tokenizer를 호출하는 것을 잊으면 타입 오류가 발생합니다
- batching 파라미터 없이 배치 처리에 pipeline API를 사용하는 것은 비효율적입니다