Les systèmes de recherche vectorielle struggle souvent avec la latence et la mémoire à grande échelle. Cette skill fournit des patterns de tuning HNSW éprouvés et des stratégies de quantification pour équilibrer le rappel, la vitesse et l'utilisation des ressources.
تنزيل ZIP المهارة
رفع في Claude
اذهب إلى Settings → Capabilities → Skills → Upload skill
فعّل وابدأ الاستخدام
اختبرها
استخدام "vector-index-tuning". Recommend HNSW parameters for 100K vectors targeting 95% recall
النتيجة المتوقعة:
Pour 100K vecteurs avec un objectif de rappel de 95% : M=32 ( connexions augmentées pour une meilleure connectivité du graphe), efConstruction=200 (construction d'index approfondie), efSearch=128 (qualité de recherche équilibrée). Mémoire attendue : ~250MB pour des vecteurs FP32. Temps de construction : 30-60 secondes. Latence de recherche : 5-15ms à p99.
استخدام "vector-index-tuning". How much memory does INT8 quantization save for 1M 768-dim vectors?
النتيجة المتوقعة:
Référence FP32 : 1M × 768 × 4 octets = 2.93GB. Quantifié INT8 : 1M × 768 × 1 octet = 732MB. Réduction de mémoire : 75% d'économie (2.2GB). Impact sur le rappel : dégradation typique de 1-3%. Recommandé pour les applications sensibles à la latence avec des exigences de rappel modérées.
التدقيق الأمني
آمنStatic analysis flagged 26 patterns that are all false positives. The skill contains only documentation and Python code examples for vector database optimization. Markdown code fences were misidentified as shell execution. URLs are reference links. Configuration parameter names were misidentified as filesystem operations. No actual security risks exist.
درجة الجودة
ماذا يمكنك بناءه
Optimisation de la latence de recherche en production
Ajuster les paramètres HNSW et activer la quantification INT8 pour réduire la latence p99 de 50ms à 10ms tout en maintenant un rappel de 95%.
Déployment d'index en mémoire contrainte
Appliquer la Product Quantization pour contenir 10M de vecteurs dans 8GB de RAM avec des compromis de rappel acceptables pour les déploiements sensibles aux coûts.
Planification de la mise à l'échelle de l'index vectoriel
Sélectionner le type d'index et la configuration appropriés lors de la mise à l'échelle de 100K à 100M de vecteurs avec des performances prévisibles.
جرّب هذه الموجهات
I have 500,000 vectors with 768 dimensions. I need 95% recall at p99 latency under 20ms with 16GB memory budget. Recommend HNSW parameters and quantify expected memory usage.
Compare INT8 scalar quantization vs Product Quantization for my use case: 10M vectors, 512 dimensions, must fit in 8GB RAM, minimum 90% recall required. Include code to implement the recommended approach.
Generate a complete Qdrant collection configuration optimized for high-recall search on 5M product embedding vectors. Include HNSW settings, quantization config, and optimizer thresholds with explanations.
Design a benchmarking plan to evaluate HNSW parameter sweeps. I have 1M vectors, 10K query samples with ground truth labels. Include metrics to track, parameter ranges to test, and criteria for selecting the winning configuration.
أفضل الممارسات
- Benchmarquez avec de vraies requêtes de production plutôt que des données synthétiques pour capturer les réels patterns de charge de travail
- Commencez avec les paramètres HNSW par défaut et ajustez seulement lorsque les métriques indiquent un besoin d'optimisation
- Surveillez le rappel en continu en production car la dérive des données peut dégrader la qualité de recherche au fil du temps
تجنب
- Réindexer les systèmes de production sans plan de rollback et validation en staging
- Sur-optimiser le rappel au détriment des SLAs de latence et des budgets mémoire
- Ignorer le warmup de l'index après le déploiement qui provoque des pics de latence à froid