vector-index-tuning
Optimiser le réglage de l'index vectoriel pour la vitesse et le rappel
La recherche vectorielle semble lente ou coûteuse lorsque les indexes sont mal configurés. Cette compétence fournit des modèles et des heuristiques de réglage pour améliorer la latence, le rappel et l'utilisation de la mémoire pour les stratégies HNSW et de quantification.
Télécharger le ZIP du skill
Importer dans Claude
Allez dans Paramètres → Capacités → Skills → Importer un skill
Activez et commencez à utiliser
Tester
Utilisation de "vector-index-tuning". Suggest HNSW parameters for 1M vectors with 0.95 recall and under 10 ms latency.
Résultat attendu:
- Recommander M : 32 et efConstruction : 200 pour la qualité de construction
- Définir efSearch à 128 pour cibler un rappel de 0.95
- Estimer la surcharge mémoire avec M à 32 et valider avec une petite référence
Utilisation de "vector-index-tuning". What memory savings can I get by switching from FP32 to INT8 quantization?
Résultat attendu:
- FP32 utilise 4 octets par dimension, INT8 utilise 1 octet
- Pour des vecteurs de 768 dimensions : FP32 = 3KB, INT8 = 768 octets par vecteur
- Environ 75% de réduction de mémoire avec un impact minimal sur le rappel
Utilisation de "vector-index-tuning". How do I choose between IVF and HNSW for 50M vectors?
Résultat attendu:
- HNSW : meilleur rappel au coût de la mémoire et du temps de construction
- IVF : mémoire plus faible, construction plus rapide, rappel légèrement inférieur
- Considérer l'hybride : IVF-PQ pour 50M+ vecteurs lorsque la mémoire est contrainte
Audit de sécurité
SûrPure documentation skill with instructional Python templates for vector index tuning. All static findings are false positives: hardcoded URLs are documentation references, weak crypto patterns matched legitimate quantization terminology, backticks are markdown formatting, and memory-mapped references are Qdrant config parameters.
Facteurs de risque
🌐 Accès réseau (1)
Score de qualité
Ce que vous pouvez construire
Régler l'ANN pour le rappel
Trouver les paramètres HNSW qui répondent aux objectifs de rappel sans dépasser les budgets de latence.
Réduire l'empreinte mémoire
Évaluer les options de quantification et estimer les compromis de stockage à grande échelle.
Planifier la mise à l'échelle de l'index
Sélectionner les types d'index et les configurations pour des millions à des milliards de vecteurs.
Essayez ces prompts
Analyser les paramètres M et efSearch HNSW pour 200k vecteurs ciblant un rappel de 0.95. Suggérer la meilleure configuration équilibrée.
Comparer la quantification fp16, int8 et produit pour 10M vecteurs de 768 dimensions. Résumer les impacts sur la mémoire et le rappel.
Créer des paramètres de collection Qdrant pour un rappel et une vitesse équilibrés avec 5M vecteurs. Inclure les configurations HNSW et de quantification.
Définir les métriques et une boucle de test pour suivre les centiles de latence et la dérive du rappel pour les mises à jour hebdomadaires de l'index.
Bonnes pratiques
- Analyser avec de véritables requêtes et un ensemble de vérité terrain pour une mesure précise du rappel
- Commencer avec les paramètres par défaut, puis ajuster une variable à la fois de manière systématique
- Suivre les centiles de latence et le rappel après chaque changement de configuration
Éviter
- Régler sans mesurer le rappel par rapport à un ensemble de vérité terrain connu
- Modifier plusieurs paramètres simultanément sans expériences contrôlées
- Ignorer la surcharge mémoire lors de l'augmentation des valeurs M ou efSearch
Foire aux questions
Quelles plateformes cette compétence supporte-t-elle ?
Quelles sont les principales limites des modèles ?
Puis-je l'intégrer dans mon pipeline ?
Accède-t-il ou envoie-t-il mes données ?
Que faire si les résultats de l'analyse comparative sont bruyants ?
Comment cela se compare-t-il aux guides de réglage génériques ?
Détails du développeur
Auteur
wshobsonLicence
MIT
Dépôt
https://github.com/wshobson/agents/tree/main/plugins/llm-application-dev/skills/vector-index-tuningRéf
main
Structure de fichiers
📄 SKILL.md