المهارات hybrid-search-implementation
🔍

hybrid-search-implementation

آمن ⚡ يحتوي على سكربتات📁 الوصول إلى نظام الملفات

تنفيذ البحث الهجين لـ RAG

البحث المتجهي النقي يفوت التطابقات الدقيقة بينما البحث بالكلمات المفتاحية يفشل في الاستعلامات الدلالية. توفر هذه المهارة قوالب جاهزة للاستخدام لدمج كلا النهجين باستخدام اندماج RRF والتركيب الخطي وإعادة الترتيب عبر المشفر المتقاطع.

يدعم: Claude Codex Code(CC)
📊 70 كافٍ
1

تنزيل ZIP المهارة

2

رفع في Claude

اذهب إلى Settings → Capabilities → Skills → Upload skill

3

فعّل وابدأ الاستخدام

اختبرها

استخدام "hybrid-search-implementation". How do I combine vector and keyword search results?

النتيجة المتوقعة:

  • Use Reciprocal Rank Fusion (RRF):
  • 1. Run both searches to get ranked lists
  • 2. For each result, calculate score = sum(weight / (k + rank))
  • 3. Fuse by sorting combined scores
  •  
  • Example:
  • vector_results = [('doc1', 0.9), ('doc2', 0.8)]
  • keyword_results = [('doc2', 0.95), ('doc3', 0.7)]
  • fused = rrf_fusion([vector_results, keyword_results])
  • # Returns [('doc2', 0.03), ('doc1', 0.016), ('doc3', 0.016)]

استخدام "hybrid-search-implementation". What's the difference between RRF and linear fusion?

النتيجة المتوقعة:

  • RRF (Reciprocal Rank Fusion):
  • - Score = sum(1 / (k + rank))
  • - Rank-based, no score normalization needed
  • - k=60 is standard constant
  • - Works well without tuning
  •  
  • Linear Combination:
  • - Score = alpha * vector_score + (1-alpha) * keyword_score
  • - Requires score normalization to [0,1]
  • - Alpha needs empirical tuning per dataset
  • - More controllable but requires tuning

استخدام "hybrid-search-implementation". Should I add reranking to my hybrid search?

النتيجة المتوقعة:

  • Yes, reranking improves quality significantly:
  •  
  • 1. Fetch more candidates from hybrid search (50-100)
  • 2. Use cross-encoder to score query-document pairs
  • 3. Return top-k reranked results
  •  
  • Trade-offs:
  • - + Better precision and relevance
  • - - Additional latency (cross-encoder inference)
  • - Model: cross-encoder/ms-marco-MiniLM-L-6-v2 is a good starting point

التدقيق الأمني

آمن
v5 • 1/21/2026

All static findings are false positives. The skill contains documentation templates for hybrid search algorithms (RRF, linear fusion) with PostgreSQL, Elasticsearch, and custom RAG pipelines. Static scanner misidentified mathematical formulas as crypto operations, markdown code fences as command execution, and benign terminology as security risks. No malicious code or credential exfiltration present.

2
الملفات التي تم فحصها
1,169
الأسطر التي تم تحليلها
2
النتائج
5
إجمالي عمليات التدقيق

عوامل الخطر

⚡ يحتوي على سكربتات (1)
📁 الوصول إلى نظام الملفات (1)
تم تدقيقه بواسطة: claude عرض سجل التدقيق →

درجة الجودة

38
الهندسة المعمارية
100
قابلية الصيانة
87
المحتوى
30
المجتمع
100
الأمان
87
الامتثال للمواصفات

ماذا يمكنك بناءه

بناء أنظمة RAG باستدعاء أفضل

دمج الفهم الدلالي مع التطابق الدقيق لتحسين استرجاع المستندات لسياق نموذج اللغة الكبير. تعامل مع الاستعلامات التي تحتاج إلى التشابه المفاهيمي والمصطلحات المحددة.

تنفيذ البحث المؤسسي

إنشاء أنظمة بحث تجد المحتوى ذي الصلة دلالياً والمستندات التي تحتوي على مصطلحات محددة مثل أكواد المنتجات والأسماء أو المعرفات.

تحسين مقاييس جودة البحث

تطبيق تقنيات الاندماج مثل RRF لتعزيز الاستدعاء دون التضحية بالدقة. سجّل الدرجات الفردية للتحسين ومعالجة أخطاء جودة البحث.

جرّب هذه الموجهات

دمج RRF الأساسي
ساعدني في تنفيذ اندماج الترتيب المتبادل لدمج نتائج البحث المتجهي والكلمي. لدي قائمتان من tuples (doc_id, score). اعرض لي كيفية دمجها.
إعداد PostgreSQL
اعرض لي كيفية إعداد جدول PostgreSQL مع pgvector للتضمينات و tsvector للبحث النصي الكامل. يتضمن تعريفات فهارس HNSW و GIN.
Elasticsearch kNN
ساعدني في كتابة استعلام بحث هجين في Elasticsearch يدمج dense vector kNN مع مطابقة نصية BM25 باستخدام ميزة RRF rank.
خط أنابيب RAG مخصص
أنشئ فئة HybridRAGPipeline كاملة تنفذ البحث المتجهي والكلمي بالتوازي، وتدمج النتائج مع طرق قابلة للتكوين (RRF أو خطي)، وتعيد الترتيب اختيارياً باستخدام مشفر متقاطع.

أفضل الممارسات

  • ابدأ باندماج RRF لأنه يعمل جيداً دون ضبط المعاملات. استخدم k=60 كمعامل قياسي.
  • احصل على مرشحين أكثر من عمليات البحث الفردية (3 ضعف الحد النهائي) قبل الاندماج لضمان استدعاء جيد.
  • سجّل درجات المتجه والكلمات المفتاحية بشكل منفصل أثناء التطوير. يساعد هذا في معالجة الأخطاء عندما تكون النتائج مفقودة.
  • استخدم إعادة الترتيب عبر المشفر المتقاطع لأنظمة الإنتاج. التحسن في الجودة ملحوظ.

تجنب

  • لا تفترض أن وزن اندماج واحد يعمل لجميع الاستعلامات. بعض الاستعلامات تحتاج إلى مزيد من المطابقة الدلالية بينما تحتاج أخرى إلى مطابقة الكلمات المفتاحية.
  • لا تتخطَ البحث بالكلمات المفتاحية تماماً. التطابق الدقيق للمصطلحات يتعامل مع الأسماء والأكواد والعبارات المحددة بشكل أفضل من المتجهات.
  • لا تستقبل عدداً كبيراً جداً من المرشحين. وازن بين احتياجات الاستدعاء و زمن الاستجابة. 50-100 مرشح قبل إعادة الترتيب عادة ما يكون كافياً.

الأسئلة المتكررة

ما طريقة الاندماج التي يجب أن أبدأ بها؟
ابدأ باندماج الترتيب المتبادل (RRF). يعمل بشكل جيد دون ضبط وهو الافتراضي في العديد من أنظمة الإنتاج. استخدم k=60 كمعامل. انتقل إلى التركيب الخطي فقط إذا كنت بحاجة إلى تحكم صريح في التوازن بين المتجهات والكلمات المفتاحية.
كيف أتعامل مع نطاقات درجات مختلفة بين البحث المتجهي والكلمي؟
طبّق التطبيع على الدرجات إلى [0, 1] قبل الجمع. للمتجهات، استخدم التطبيع min-max. بالنسبة لـ BM25، الدرجات مُطبّعة بالفعل بشكل ما. التركيب الخطي يتطلب تطبيعاً؛ RRF لا يتطلب ذلك لأنه يستخدم الرتب بدلاً من الدرجات الخام.
ما أبعاد المتجه التي يجب أن أستخدمها؟
الاختيارات الشائعة هي 768 (Sentence Transformers)، 1024 (النماذج الكبيرة)، أو 1536 (OpenAI ada-002). طابق نموذج التضمين الخاص بك. PostgreSQL pgvector و Elasticsearch يدعمان أبعاداً قابلة للتكوين.
كيف أختار وزن المتجه إلى الكلمات المفتاحية (alpha)؟
ابدأ بـ alpha=0.5 (وزن متساوي). اختبر على استعلاماتك المحددة واضبط بناءً على ما إذا كنت بحاجة إلى مزيد من الاستدعاء الدلالي أو التطابق الدقيق. بعض الاستعلامات تحتاج alpha=0.7-0.8، وأخرى تحتاج 0.3-0.4.
هل يمكنني استخدام البحث الهجين بدون معيد ترتيب؟
نعم، البحث الهجين بدون إعادة الترتيب يعمل جيداً للعديد من حالات الاستخدام. خطوة الاندماج (RRF أو الخطي) تدمج النتائج بالفعل بذكاء. أضف إعادة الترتيب عندما تحتاج إلى أعلى جودة نتائج ويمكنك تحمل زمن استجابة إضافي.
ما قواعد البيانات التي تدعم البحث الهجين؟
PostgreSQL مع ملحق pgvector، Elasticsearch 8.x (kNN الأصلي + RRF)، Vespa، Milvus، Qdrant، و Weaviate تدعم جميعها أنماط البحث الهجين. يعتمد الاختيار على البنية التحتية الموجودة لديك ومتطلبات التوسع.

تفاصيل المطور

بنية الملفات

📄 SKILL.md