Question 1

어떤 임베딩 모델로 시작해야 하나요?

Accepted Answer

일반적인 사용에는 text-embedding-3-small로 시작하세요. 비용과 품질의 균형을 맞춥니다. 더 높은 정확도가 필요한 경우 text-embedding-3-large로 전환하거나, 코드 및 법률 콘텐츠에는 voyage-2를 사용하세요.

Question 2

청크 크기는 어떻게 선택하나요?

Accepted Answer

512 토큰이 대부분의 사용 사례에서 좋은 시작점입니다. 콘텐츠 복잡성과 모델 토큰 제한에 따라 조정하세요. 청크 간 맥락을 유지하기 위해 50 토큰 오버랩을 추가하세요.

Question 3

로컬 임베딩 모델을 사용할 수 있나요?

Accepted Answer

네. sentence-transformers는 BAAI/bge-large-en-v1.5 및 intfloat/multilingual-e5-large 같은 모델을 지원합니다. 이들은 로컬에서 실행되며 오픈소스 또는 오프라인 시나리오에 적합합니다.

Question 4

임베딩 품질은 어떻게 평가하나요?

Accepted Answer

precision@k, recall@k, MRR, NDCG@k 메트릭을 사용하세요. 알려진 관련 문서로 테스트하고 검색 결과를 정답과 비교하세요.

Question 5

임베딩을 정규화해야 하나요?

Accepted Answer

네. 코사인 유사도를 사용하기 전에 임베딩을 정규화하세요. 대부분의 최신 임베딩 모델은 기본적으로 정규화된 벡터를 생성하지만, 로컬 모델은 명시적인 정규화가 필요할 수 있습니다.

Question 6

어떤 전처리를 적용해야 하나요?

Accepted Answer

과도한 공백을 제거하고, 유니코드 문자를 정규화하며, 특수 문자를 필터링하세요. 콘텐츠가 의미론적으로 의미 있도록 유지하세요. 코드나 구조화된 데이터의 경우 도메인별 정제가 필요할 수 있습니다.

embedding-strategies

测试它