similarity-search-patterns
بناء بحث تشابه إنتاجي باستخدام قواعد بيانات المتجهات
Également disponible depuis: wshobson
بحث التشابه المتجهي ضروري للبحث الدلالي وأنظمة RAG لكنه يتطلب اختياراً وضبطاً دقيقين للفهارس. هذه المهارة توفر أنماطاً جاهزة للاستخدام لـ Pinecone و Qdrant و pgvector و Weaviate مع البحث الهجين وإعادة الترتيب.
Télécharger le ZIP du skill
Importer dans Claude
Allez dans Paramètres → Capacités → Skills → Importer un skill
Activez et commencez à utiliser
Tester
Utilisation de "similarity-search-patterns". إعداد Qdrant لمليون متجه مضمن للمنتجات مع هدف استدعاء 95%
Résultat attendu:
- تم إنشاء المجموعة مع فهرس HNSW (m=16، ef_construct=64)
- تكميم عددي مُفعّل (INT8) يقلل الذاكرة 4 أضعاف
- معاملات البحث الموصى بها: ef=128 للاستدعاء 95% عند ~50ms P99
Utilisation de "similarity-search-patterns". بحث هجين عن مستندات حول 'machine learning optimization'
Résultat attendu:
- بحث المتجهات يسترجع 20 مستنداً متشابهاً دلالياً
- BM25 يفلتر تطابقات المصطلحات الدقيقة لكلمة 'optimization'
- النتائج المعاد ترتيبها تجمع بين الإشارتين بوزن 0.6/0.4
Audit de sécurité
SûrAll 31 static analysis findings are false positives. The scanner incorrectly flagged Markdown documentation syntax as executable code. Backticks are code fence markers, URLs are documentation links, and API key parameters represent secure credential handling. The skill contains Python code examples for vector database implementations with no security concerns.
Score de qualité
Ce que vous pouvez construire
بناء تطبيقات RAG
تنفيذ التوليد المعزز بالاسترجاع مع بحث متجهي فعال عبر المتجهات المضمنة للمستندات. يدعم البحث الهجين الذي يجمع بين المطابقة الدلالية ومطابقة الكلمات المفتاحية لاسترجاع السياق بدقة.
مطور محرك التوصيات
بناء أنظمة توصية تعتمد على الجار الأقرب باستخدام المتجهات المضمنة. الاستفادة من فهرسة HNSW لاستعلامات دون الثانية على ملايين العناصر مع عتبات استدعاء قابلة للتكوين.
مهندس منصة البحث
نشر بنية بحث تشابه إنتاجية مع pgvector من PostgreSQL أو الخدمات المدارة. تنفيذ خطوط أنابيب التصفية المسبقة وإعادة الترتيب لجودة بحث المؤسسات.
Essayez ces prompts
أحتاج إلى تخزين والبحث في المتجهات المضمنة للمستندات. ساعدني في إعداد فهرس متجهات Pinecone مع تشابه جيب التمام لمتجهات مضمنة 1536 بعداً. يتضمن وظائف upsert و search مع تصفية البيانات الوصفية.
أنشئ وظيفة بحث هجين تجمع بين تشابه المتجهات ومطابقة الكلمات المفتاحية باستخدام pgvector. وزن بحث المتجهات عند 0.7 والبحث النصي الكامل عند 0.3. يتضمن مخطط SQL مع فهرس HNSW.
لدي 50 نتيجة بحث متجهي لكنني أحتاج ترتيباً أفضل. أرني كيفية إعادة الترتيب باستخدام نموذج cross-encoder. يتضمن كود sentence-transformers ويشرح المقايضة بين زمن الاستجابة والدقة.
لدي 10 ملايين متجه وأحتاج زمن استجابة P99 أقل من 100ms مع استدعاء 95%. أوصِ بنوع فهرس ومعاملات لـ Qdrant. اشرح إعدادات ef_construct و nprobe و التكميم لحالتي الاستخدام.
Bonnes pratiques
- ابدأ بالفهرس المسطح للمجموعات الصغيرة (أقل من 100 ألف متجه) وانتقل إلى HNSW مع نمو البيانات
- دائماً قس الاستدعاء عند زمن الاستجابة المستهدف قبل نشر الفهارس التقريبية
- استخدم التصفية المسبقة للبيانات الوصفية لتقليل مساحة البحث قبل مقارنة المتجهات
Éviter
- استخدام فهارس الجار الأقرب التقريبية دون قياس تدهور الاستدعاء
- تخزين المتجهات الخام دون تكميم عندما تكون الذاكرة مقيدة
- الاستعلام دون فلاتر مسببة مسحات فهرس كاملة على المجموعات الكبيرة
Foire aux questions
أي قاعدة بيانات متجهات يجب أن أختار لمشروعي؟
ما الفرق بين تشابه جيب التمام وحاصل الضرب النقطي؟
كيف أحسن استدعاء البحث دون التضحية بزمن الاستجابة؟
هل يمكنني تحديث المتجهات بعد الإدراج؟
ما بُعد التضمين الذي يجب استخدامه؟
كيف أتعامل مع البحث متعدد اللغات؟
Détails du développeur
Auteur
sickn33Licence
MIT
Dépôt
https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/similarity-search-patternsRéf
main
Structure de fichiers