Compétences similarity-search-patterns
🔍

similarity-search-patterns

Sûr

بناء بحث تشابه إنتاجي باستخدام قواعد بيانات المتجهات

Également disponible depuis: wshobson

بحث التشابه المتجهي ضروري للبحث الدلالي وأنظمة RAG لكنه يتطلب اختياراً وضبطاً دقيقين للفهارس. هذه المهارة توفر أنماطاً جاهزة للاستخدام لـ Pinecone و Qdrant و pgvector و Weaviate مع البحث الهجين وإعادة الترتيب.

Prend en charge: Claude Codex Code(CC)
📊 71 Adéquat
1

Télécharger le ZIP du skill

2

Importer dans Claude

Allez dans Paramètres → Capacités → Skills → Importer un skill

3

Activez et commencez à utiliser

Tester

Utilisation de "similarity-search-patterns". إعداد Qdrant لمليون متجه مضمن للمنتجات مع هدف استدعاء 95%

Résultat attendu:

  • تم إنشاء المجموعة مع فهرس HNSW (m=16، ef_construct=64)
  • تكميم عددي مُفعّل (INT8) يقلل الذاكرة 4 أضعاف
  • معاملات البحث الموصى بها: ef=128 للاستدعاء 95% عند ~50ms P99

Utilisation de "similarity-search-patterns". بحث هجين عن مستندات حول 'machine learning optimization'

Résultat attendu:

  • بحث المتجهات يسترجع 20 مستنداً متشابهاً دلالياً
  • BM25 يفلتر تطابقات المصطلحات الدقيقة لكلمة 'optimization'
  • النتائج المعاد ترتيبها تجمع بين الإشارتين بوزن 0.6/0.4

Audit de sécurité

Sûr
v1 • 2/25/2026

All 31 static analysis findings are false positives. The scanner incorrectly flagged Markdown documentation syntax as executable code. Backticks are code fence markers, URLs are documentation links, and API key parameters represent secure credential handling. The skill contains Python code examples for vector database implementations with no security concerns.

2
Fichiers analysés
594
Lignes analysées
0
résultats
1
Total des audits
Aucun problème de sécurité trouvé
Audité par: claude

Score de qualité

38
Architecture
100
Maintenabilité
87
Contenu
22
Communauté
100
Sécurité
100
Conformité aux spécifications

Ce que vous pouvez construire

بناء تطبيقات RAG

تنفيذ التوليد المعزز بالاسترجاع مع بحث متجهي فعال عبر المتجهات المضمنة للمستندات. يدعم البحث الهجين الذي يجمع بين المطابقة الدلالية ومطابقة الكلمات المفتاحية لاسترجاع السياق بدقة.

مطور محرك التوصيات

بناء أنظمة توصية تعتمد على الجار الأقرب باستخدام المتجهات المضمنة. الاستفادة من فهرسة HNSW لاستعلامات دون الثانية على ملايين العناصر مع عتبات استدعاء قابلة للتكوين.

مهندس منصة البحث

نشر بنية بحث تشابه إنتاجية مع pgvector من PostgreSQL أو الخدمات المدارة. تنفيذ خطوط أنابيب التصفية المسبقة وإعادة الترتيب لجودة بحث المؤسسات.

Essayez ces prompts

إعداد متجر المتجهات الأساسي
أحتاج إلى تخزين والبحث في المتجهات المضمنة للمستندات. ساعدني في إعداد فهرس متجهات Pinecone مع تشابه جيب التمام لمتجهات مضمنة 1536 بعداً. يتضمن وظائف upsert و search مع تصفية البيانات الوصفية.
تنفيذ البحث الهجين
أنشئ وظيفة بحث هجين تجمع بين تشابه المتجهات ومطابقة الكلمات المفتاحية باستخدام pgvector. وزن بحث المتجهات عند 0.7 والبحث النصي الكامل عند 0.3. يتضمن مخطط SQL مع فهرس HNSW.
خط أنابيب إعادة الترتيب
لدي 50 نتيجة بحث متجهي لكنني أحتاج ترتيباً أفضل. أرني كيفية إعادة الترتيب باستخدام نموذج cross-encoder. يتضمن كود sentence-transformers ويشرح المقايضة بين زمن الاستجابة والدقة.
اختيار الفهرس والضبط
لدي 10 ملايين متجه وأحتاج زمن استجابة P99 أقل من 100ms مع استدعاء 95%. أوصِ بنوع فهرس ومعاملات لـ Qdrant. اشرح إعدادات ef_construct و nprobe و التكميم لحالتي الاستخدام.

Bonnes pratiques

  • ابدأ بالفهرس المسطح للمجموعات الصغيرة (أقل من 100 ألف متجه) وانتقل إلى HNSW مع نمو البيانات
  • دائماً قس الاستدعاء عند زمن الاستجابة المستهدف قبل نشر الفهارس التقريبية
  • استخدم التصفية المسبقة للبيانات الوصفية لتقليل مساحة البحث قبل مقارنة المتجهات

Éviter

  • استخدام فهارس الجار الأقرب التقريبية دون قياس تدهور الاستدعاء
  • تخزين المتجهات الخام دون تكميم عندما تكون الذاكرة مقيدة
  • الاستعلام دون فلاتر مسببة مسحات فهرس كاملة على المجموعات الكبيرة

Foire aux questions

أي قاعدة بيانات متجهات يجب أن أختار لمشروعي؟
للنماذج الأولية السريعة، استخدم Pinecone (مُدار، بدون بنية تحتية). لمتاجر PostgreSQL، يضيف pgvector تعقيداً أدنى. لاحتياجات الأداء العالي، يقدم Qdrant أو Weaviate ميزات متقدمة. ضع في الاعتبار حجم البيانات ومتطلبات زمن استجابة الاستعلام والبنية التحتية الموجودة.
ما الفرق بين تشابه جيب التمام وحاصل الضرب النقطي؟
تشابه جيب التمام يقيس الزاوية فقط (يتجاهل المقدار)، مما يجعله مثالياً للمتجهات المضمنة المعيارية. حاصل الضرب النقطي يتضمن تأثيرات المقدار. لمعظم نماذج التضمين (OpenAI، Sentence Transformers)، يعتبر تشابه جيب التمام الخيار القياسي.
كيف أحسن استدعاء البحث دون التضحية بزمن الاستجابة؟
زد معاملات الفهرس (ef_search لـ HNSW، nprobe لـ IVF) تدريجياً أثناء قياس زمن الاستجابة P99. استخدم إعادة الترتيب لاستعادة الدقة بعد الاسترجاع عالي الاستدعاء. فكر في الاسترجاع ثنائي المراحل: بحث تقريبي سريع يتبعه إعادة ترتيب دقيقة على نتائج K العليا.
هل يمكنني تحديث المتجهات بعد الإدراج؟
نعم، جميع قواعد بيانات المتجهات المدعومة تدعم عمليات upsert. إعادة إدراج متجه بنفس المعرف يحدثه في مكانه. لاحظ أن التحديثات المتكررة قد تتطلب إعادة بناء الفهرس للأداء الأمثل.
ما بُعد التضمين الذي يجب استخدامه؟
استخدم البعد الأصلي لنموذج التضمين الخاص بك (مثلاً 1536 لـ text-embedding-ada-002، 384 لـ all-MiniLM-L6-v2). الأبعاد الأعلى تلتقط دقة أكثر لكن تزيد التخزين والحساب. طابق مقياس الفهرس مع هدف تدريب نموذج التضمين.
كيف أتعامل مع البحث متعدد اللغات؟
استخدم نماذج تضمين متعددة اللغات مثل multilingual-e5 أو LaBSE التي ترسم لغات مختلفة إلى نفس فضاء المتجهات. الاستعلامات والمستندات بلغات مختلفة ستسترجع نتائج ذات صلة إذا كان نموذج التضمين يدعمها.

Détails du développeur

Structure de fichiers