Question 1

どの埋め込みモデルから始めるべきですか?

Accepted Answer

一般的な用途には text-embedding-3-small から始めてください。コストと品質のバランスが取れています。より高い精度が必要な場合は text-embedding-3-large に切り替えるか、コードや法律コンテンツには voyage-2 を使用してください。

Question 2

チャンクサイズをどのように選択しますか?

Accepted Answer

ほとんどのユースケースでは512トークンが良い出発点です。コンテンツの複雑さとモデルのトークン制限に基づいて調整してください。チャンク間のコンテキストを維持するために50トークンのオーバーラップを設定してください。

Question 3

ローカル埋め込みモデルを使用できますか?

Accepted Answer

はい。Sentence-transformersは BAAI/bge-large-en-v1.5 や intfloat/multilingual-e5-large などのモデルをサポートしています。これらはローカルで実行でき、オープンソースやオフラインシナリオで適切に機能します。

Question 4

埋め込み品質をどのように評価しますか?

Accepted Answer

precision@k、recall@k、MRR、NDCG@kメトリクスを使用してください。既知の関連ドキュメントでテストし、検索結果を正解データと比較してください。

Question 5

埋め込みを正規化すべきですか?

Accepted Answer

はい。コサイン類似度を使用する前に埋め込みを正規化してください。最新の埋め込みモデルのほとんどはデフォルトで正規化されたベクトルを生成しますが、ローカルモデルでは明示的な正規化が必要な場合があります。

Question 6

どのような前処理を適用すべきですか?

Accepted Answer

過剰な空白を削除し、Unicode文字を正規化し、特殊文字をフィルタリングします。コンテンツを意味的に意味のあるものに保ちます。コードや構造化データには、ドメイン固有のクリーニングが必要な場合があります。

embedding-strategies

テストする