スキル hybrid-search-implementation

🔍

hybrid-search-implementation

Name: hybrid-search-implementation
Author: wshobson

安全 ⚡ スクリプトを含む📁 ファイルシステムへのアクセス

RAG用ハイブリッド検索の実装

こちらからも入手できます: sickn33

純粋なベクトル検索は完全一致を見逃し、キーワード検索はセマンティッククエリで失敗します。このスキルは、RRF融合、線形結合、クロスエンコーダーによる再ランキングを使用して両方のアプローチを組み合わせる、すぐに使えるテンプレートを提供します。

対応: Claude Codex Code(CC)

📊 69 十分

スキルZIPをダウンロード

Claudeでアップロード

設定 → 機能 → スキル → スキルをアップロードへ移動

オンにして利用開始

テストする

「hybrid-search-implementation」を使用しています。ベクトル検索とキーワード検索の結果をどのように組み合わせますか?

期待される結果:

Reciprocal Rank Fusion (RRF)を使用:
1. 両方の検索を実行してランク付けされたリストを取得
2. 各結果について、スコア = sum(weight / (k + rank))を計算
3. 結合されたスコアでソートして融合
例:
vector_results = [('doc1', 0.9), ('doc2', 0.8)]
keyword_results = [('doc2', 0.95), ('doc3', 0.7)]
fused = rrf_fusion([vector_results, keyword_results])
# 返り値 [('doc2', 0.03), ('doc1', 0.016), ('doc3', 0.016)]

「hybrid-search-implementation」を使用しています。 RRFと線形融合の違いは何ですか?

期待される結果:

RRF (Reciprocal Rank Fusion):
- スコア = sum(1 / (k + rank))
- ランクベースで、スコア正規化が不要
- k=60が標準定数
- チューニングなしでうまく機能
線形結合:
- スコア = alpha * vector_score + (1-alpha) * keyword_score
- [0,1]へのスコア正規化が必要
- Alphaはデータセットごとに経験的チューニングが必要
- より制御可能だがチューニングが必要

「hybrid-search-implementation」を使用しています。ハイブリッド検索に再ランキングを追加すべきですか?

期待される結果:

はい、再ランキングは品質を大幅に向上させます:
1. ハイブリッド検索からより多くの候補を取得(50-100)
2. クロスエンコーダーを使用してクエリとドキュメントのペアをスコアリング
3. 再ランキングされた上位k件の結果を返す
トレードオフ:
- + より高い精度と関連性
- - 追加のレイテンシ(クロスエンコーダー推論)
- モデル: cross-encoder/ms-marco-MiniLM-L-6-v2が良い出発点

セキュリティ監査

安全

v5 • 1/21/2026

All static findings are false positives. The skill contains documentation templates for hybrid search algorithms (RRF, linear fusion) with PostgreSQL, Elasticsearch, and custom RAG pipelines. Static scanner misidentified mathematical formulas as crypto operations, markdown code fences as command execution, and benign terminology as security risks. No malicious code or credential exfiltration present.

スキャンされたファイル

1,169

解析された行数

検出結果

総監査数

リスク要因

⚡ スクリプトを含む (1)

SKILL.md:41-110

📁 ファイルシステムへのアクセス (1)

SKILL.md:1-569

監査者: claude 監査履歴を表示 →

品質スコア

アーキテクチャ

100

保守性

コンテンツ

コミュニティ

100

セキュリティ

仕様準拠

作れるもの

より高い再現率を持つRAGシステムの構築

セマンティック理解と完全一致を組み合わせて、LLMコンテキスト用のドキュメント検索を改善します。概念的類似性と特定の用語の両方を必要とするクエリに対応します。

エンタープライズ検索の実装

セマンティックに関連するコンテンツと、製品コード、名前、識別子などの正確な用語を含むドキュメントの両方を見つける検索システムを作成します。

検索品質メトリクスの改善

RRFなどの融合技術を適用して、精度を犠牲にすることなく再現率を向上させます。個別のスコアをログに記録して、検索品質をデバッグおよび調整します。

これらのプロンプトを試す

基本的なRRF融合

ベクトル検索とキーワード検索の結果を組み合わせるReciprocal Rank Fusionの実装を手伝ってください。(doc_id, score)タプルの2つのリストがあります。それらを融合する方法を示してください。

PostgreSQLのセットアップ

埋め込み用のpgvectorと全文検索用のtsvectorを備えたPostgreSQLテーブルのセットアップ方法を示してください。HNSWとGINインデックスの定義を含めてください。

Elasticsearch kNN

RRFランク機能を使用して、密ベクトルkNNとBM25テキストマッチングを組み合わせたElasticsearchハイブリッド検索クエリの作成を手伝ってください。

カスタムRAGパイプライン

ベクトル検索とキーワード検索を並列実行し、設定可能なメソッド(RRFまたは線形)で結果を融合し、オプションでクロスエンコーダーによる再ランキングを行う、完全なHybridRAGPipelineクラスを作成してください。

ベストプラクティス

パラメータチューニングなしでうまく機能するため、RRF融合から始めましょう。k=60を標準定数として使用してください。
良好な再現率を確保するために、融合前に個別の検索からより多くの候補(最終制限の3倍)を取得してください。
開発中はベクトルスコアとキーワードスコアの両方を個別にログに記録してください。これは結果が欠落している場合のデバッグに役立ちます。
本番システムにはクロスエンコーダー再ランキングを使用してください。品質の改善は顕著です。

回避

すべてのクエリに対して単一の融合ウェイトが機能すると仮定しないでください。一部のクエリはよりセマンティックマッチングが必要で、他のクエリはキーワードマッチングが必要です。
キーワード検索を完全にスキップしないでください。正確な用語マッチングは、名前、コード、特定のフレーズをベクトルよりもうまく処理します。
候補を過剰に取得しないでください。再現率のニーズとレイテンシのバランスを取ってください。再ランキング前の50-100候補が通常十分です。

よくある質問

どの融合方法から始めるべきですか?

Reciprocal Rank Fusion (RRF)から始めましょう。チューニングなしで良好なパフォーマンスを発揮し、多くの本番システムでデフォルトとなっています。定数としてk=60を使用してください。ベクトル対キーワードバランスの明示的な制御が必要な場合のみ、線形結合に切り替えてください。

ベクトル検索とキーワード検索の異なるスコア範囲をどのように処理しますか?

結合前にスコアを[0, 1]に正規化してください。ベクトルには最小-最大正規化を使用します。BM25の場合、スコアはすでにある程度正規化されています。線形結合には正規化が必要ですが、RRFは生のスコアではなくランクを使用するため不要です。

どのベクトル次元を使用すべきですか?

一般的な選択肢は768(Sentence Transformers)、1024(大規模モデル)、または1536(OpenAI ada-002)です。埋め込みモデルに合わせてください。PostgreSQL pgvectorとElasticsearchの両方が設定可能な次元をサポートしています。

ベクトル対キーワードのウェイト(alpha)をどのように選択しますか?

alpha=0.5(等しいウェイト)から始めましょう。特定のクエリでテストし、よりセマンティックな再現率または正確な一致が必要かどうかに基づいて調整してください。一部のクエリはalpha=0.7-0.8が必要で、他のクエリは0.3-0.4が必要です。

再ランカーなしでハイブリッド検索を使用できますか?

はい、再ランキングなしのハイブリッド検索は多くのユースケースでうまく機能します。融合ステップ(RRFまたは線形)はすでに結果をインテリジェントに結合します。最高品質の結果が必要で、追加のレイテンシを許容できる場合に再ランキングを追加してください。

どのデータベースがハイブリッド検索をサポートしていますか?

pgvector拡張を備えたPostgreSQL、Elasticsearch 8.x(ネイティブkNN + RRF)、Vespa、Milvus、Qdrant、Weaviateはすべてハイブリッド検索パターンをサポートしています。選択は既存のインフラストラクチャとスケーリング要件に依存します。

開発者の詳細

作成者

wshobson

ライセンス

MIT

リポジトリ

https://github.com/wshobson/agents/tree/main/plugins/llm-application-dev/skills/hybrid-search-implementation

参照

main

ファイル構成

📄 SKILL.md