Compétences vector-index-tuning
🔍

vector-index-tuning

Sûr 🌐 Accès réseau

Optimiser le réglage de l'index vectoriel pour la vitesse et le rappel

La recherche vectorielle semble lente ou coûteuse lorsque les indexes sont mal configurés. Cette compétence fournit des modèles et des heuristiques de réglage pour améliorer la latence, le rappel et l'utilisation de la mémoire pour les stratégies HNSW et de quantification.

Prend en charge: Claude Codex Code(CC)
📊 70 Adéquat
1

Télécharger le ZIP du skill

2

Importer dans Claude

Allez dans Paramètres → Capacités → Skills → Importer un skill

3

Activez et commencez à utiliser

Tester

Utilisation de "vector-index-tuning". Suggest HNSW parameters for 1M vectors with 0.95 recall and under 10 ms latency.

Résultat attendu:

  • Recommander M : 32 et efConstruction : 200 pour la qualité de construction
  • Définir efSearch à 128 pour cibler un rappel de 0.95
  • Estimer la surcharge mémoire avec M à 32 et valider avec une petite référence

Utilisation de "vector-index-tuning". What memory savings can I get by switching from FP32 to INT8 quantization?

Résultat attendu:

  • FP32 utilise 4 octets par dimension, INT8 utilise 1 octet
  • Pour des vecteurs de 768 dimensions : FP32 = 3KB, INT8 = 768 octets par vecteur
  • Environ 75% de réduction de mémoire avec un impact minimal sur le rappel

Utilisation de "vector-index-tuning". How do I choose between IVF and HNSW for 50M vectors?

Résultat attendu:

  • HNSW : meilleur rappel au coût de la mémoire et du temps de construction
  • IVF : mémoire plus faible, construction plus rapide, rappel légèrement inférieur
  • Considérer l'hybride : IVF-PQ pour 50M+ vecteurs lorsque la mémoire est contrainte

Audit de sécurité

Sûr
v4 • 1/17/2026

Pure documentation skill with instructional Python templates for vector index tuning. All static findings are false positives: hardcoded URLs are documentation references, weak crypto patterns matched legitimate quantization terminology, backticks are markdown formatting, and memory-mapped references are Qdrant config parameters.

2
Fichiers analysés
723
Lignes analysées
1
résultats
4
Total des audits

Facteurs de risque

🌐 Accès réseau (1)

Score de qualité

38
Architecture
100
Maintenabilité
85
Contenu
30
Communauté
100
Sécurité
87
Conformité aux spécifications

Ce que vous pouvez construire

Régler l'ANN pour le rappel

Trouver les paramètres HNSW qui répondent aux objectifs de rappel sans dépasser les budgets de latence.

Réduire l'empreinte mémoire

Évaluer les options de quantification et estimer les compromis de stockage à grande échelle.

Planifier la mise à l'échelle de l'index

Sélectionner les types d'index et les configurations pour des millions à des milliards de vecteurs.

Essayez ces prompts

Balayage HNSW rapide
Analyser les paramètres M et efSearch HNSW pour 200k vecteurs ciblant un rappel de 0.95. Suggérer la meilleure configuration équilibrée.
Choix de quantification
Comparer la quantification fp16, int8 et produit pour 10M vecteurs de 768 dimensions. Résumer les impacts sur la mémoire et le rappel.
Configuration Qdrant
Créer des paramètres de collection Qdrant pour un rappel et une vitesse équilibrés avec 5M vecteurs. Inclure les configurations HNSW et de quantification.
Plan de surveillance
Définir les métriques et une boucle de test pour suivre les centiles de latence et la dérive du rappel pour les mises à jour hebdomadaires de l'index.

Bonnes pratiques

  • Analyser avec de véritables requêtes et un ensemble de vérité terrain pour une mesure précise du rappel
  • Commencer avec les paramètres par défaut, puis ajuster une variable à la fois de manière systématique
  • Suivre les centiles de latence et le rappel après chaque changement de configuration

Éviter

  • Régler sans mesurer le rappel par rapport à un ensemble de vérité terrain connu
  • Modifier plusieurs paramètres simultanément sans expériences contrôlées
  • Ignorer la surcharge mémoire lors de l'augmentation des valeurs M ou efSearch

Foire aux questions

Quelles plateformes cette compétence supporte-t-elle ?
Fonctionne avec Claude, Codex et Claude Code. Fournit des conseils généraux avec des exemples spécifiques à Qdrant.
Quelles sont les principales limites des modèles ?
Les modèles sont des exemples Python nécessitant des bibliothèques comme hnswlib et sklearn. Les utilisateurs doivent fournir leurs propres données et requêtes.
Puis-je l'intégrer dans mon pipeline ?
Oui. Utiliser les modèles comme blocs de construction dans des scripts d'analyse comparative, des tâches CI ou des workflows de test de performance.
Accède-t-il ou envoie-t-il mes données ?
Non. Le contenu de la compétence est de la documentation statique. Aucune collecte de données ni appel réseau ne se produit depuis la compétence elle-même.
Que faire si les résultats de l'analyse comparative sont bruyants ?
Augmenter la taille de l'échantillon de requêtes, corriger les graines aléatoires et séparer la temporisation de construction de l'index des mesures de temporisation de recherche.
Comment cela se compare-t-il aux guides de réglage génériques ?
Fournit des modèles Python concrets, des plages de paramètres, des formules d'estimation mémoire et des configurations spécifiques à Qdrant.

Détails du développeur

Structure de fichiers

📄 SKILL.md