embedding-strategies
セマンティック検索のための埋め込みモデルの最適化
適切な埋め込みモデルとチャンキング戦略の選択は、検索品質にとって重要です。このスキルは、高品質なベクトル検索パイプラインを実装するためのテンプレートとベストプラクティスを提供します。
Télécharger le ZIP du skill
Importer dans Claude
Allez dans Paramètres → Capacités → Skills → Importer un skill
Activez et commencez à utiliser
Tester
Utilisation de "embedding-strategies". 法律文書検索システムに適した埋め込みモデルを推奨してください。高精度が必要で、APIサービスを使用できます。
Résultat attendu:
- 推奨: text-embedding-3-large (3072次元) または voyage-2 (1024次元)
- text-embedding-3-large: 最高精度、8191トークンを処理、長い法律条項に最適
- voyage-2: 法律/コード専用、1024次元、4000トークン制限
- 条項のコンテキストを保持するために、セクションヘッダーで法律文書をチャンキングすることを検討してください
Utilisation de "embedding-strategies". RAGシステム用の技術ドキュメントをどのようにチャンキングすべきですか?
Résultat attendu:
- 戦略: ヘッダーによるセマンティックチャンキングと再帰的文字分割を組み合わせて使用
- 推奨チャンクサイズ: 512トークン、50トークンのオーバーラップ
- コード例を完全なチャンクとして保持
- チャンクを元のセクションにリンクするコンテキストメタデータを追加
Audit de sécurité
Risque faibleAll static findings are false positives. C2 keyword alerts triggered by hash hex strings. Weak crypto alerts from hash substrings. External command alerts from ASCII flow diagrams using arrows. Hardcoded URL alerts are legitimate documentation links. No malicious code, command execution, or data exfiltration patterns found.
Score de qualité
Ce que vous pouvez construire
RAGシステムの構築
ドキュメントコーパスに適した埋め込みモデルとチャンキング戦略を選択することで、検索拡張生成を実装します。
セマンティック検索の最適化
コンテンツタイプに適した埋め込みモデルを選択し、適切なチャンキングと前処理を実装することで、検索の関連性を向上させます。
埋め込みパイプラインの作成
ドキュメントを処理し、コンテンツをチャンキングし、埋め込みを生成し、ベクトルデータベース用のレコードを準備するスケーラブルなパイプラインを構築します。
Essayez ces prompts
I need to choose an embedding model for my [use case: code search / multilingual documents / legal contracts]. My priorities are [priority: accuracy / cost / speed]. I have [constraints: limit on dimensions / need open source / need API access]. Recommend 3 models with rationale.
Help me implement chunking for my [data type: technical documentation / conversational data / code]. I need to handle [requirement: preserve context / maintain semantic boundaries / limit chunk size]. Provide Python code for [strategy: token-based / sentence-based / recursive character] chunking.
Create a Python pipeline that [input: processes documents from source / generates embeddings / stores in vector database]. Include [feature: batching / progress tracking / metadata handling]. Use [model: OpenAI embeddings / sentence-transformers].
My embedding-based retrieval has [problem: low recall / inconsistent results / poor precision]. My setup uses [model details]. Analyze potential causes and suggest improvements for [metric: precision at k / recall / ndcg].
Bonnes pratiques
- 埋め込みモデルをコンテンツタイプに適合させる: コード、散文、または多言語
- 信頼性の高いコサイン類似度比較のために埋め込みを正規化
- 境界を越えてコンテキストを保持するために、チャンキング時にトークンのオーバーラップを使用
Éviter
- 同じインデックスで異なる埋め込みモデルを混在させる
- トークン制限を無視し、思考の途中でコンテンツを切り捨てる
- 前処理をスキップし、ノイズが埋め込み品質を低下させることを許容する
Foire aux questions
どの埋め込みモデルから始めるべきですか?
チャンクサイズをどのように選択しますか?
ローカル埋め込みモデルを使用できますか?
埋め込み品質をどのように評価しますか?
埋め込みを正規化すべきですか?
どのような前処理を適用すべきですか?
Détails du développeur
Auteur
wshobsonLicence
MIT
Dépôt
https://github.com/wshobson/agents/tree/main/plugins/llm-application-dev/skills/embedding-strategiesRéf
main
Structure de fichiers
📄 SKILL.md