Compétences vector-index-tuning

🔍

vector-index-tuning

Name: vector-index-tuning
Author: wshobson

Sûr 🌐 Accès réseau

Optimiser le réglage de l'index vectoriel pour la vitesse et le rappel

Également disponible depuis: sickn33

La recherche vectorielle semble lente ou coûteuse lorsque les indexes sont mal configurés. Cette compétence fournit des modèles et des heuristiques de réglage pour améliorer la latence, le rappel et l'utilisation de la mémoire pour les stratégies HNSW et de quantification.

Prend en charge: Claude Codex Code(CC)

📊 69 Adéquat

Télécharger le ZIP du skill

Importer dans Claude

Allez dans Paramètres → Capacités → Skills → Importer un skill

Activez et commencez à utiliser

Tester

Utilisation de "vector-index-tuning". Suggest HNSW parameters for 1M vectors with 0.95 recall and under 10 ms latency.

Résultat attendu:

Recommander M : 32 et efConstruction : 200 pour la qualité de construction
Définir efSearch à 128 pour cibler un rappel de 0.95
Estimer la surcharge mémoire avec M à 32 et valider avec une petite référence

Utilisation de "vector-index-tuning". What memory savings can I get by switching from FP32 to INT8 quantization?

Résultat attendu:

FP32 utilise 4 octets par dimension, INT8 utilise 1 octet
Pour des vecteurs de 768 dimensions : FP32 = 3KB, INT8 = 768 octets par vecteur
Environ 75% de réduction de mémoire avec un impact minimal sur le rappel

Utilisation de "vector-index-tuning". How do I choose between IVF and HNSW for 50M vectors?

Résultat attendu:

HNSW : meilleur rappel au coût de la mémoire et du temps de construction
IVF : mémoire plus faible, construction plus rapide, rappel légèrement inférieur
Considérer l'hybride : IVF-PQ pour 50M+ vecteurs lorsque la mémoire est contrainte

Audit de sécurité

Sûr

v4 • 1/17/2026

Pure documentation skill with instructional Python templates for vector index tuning. All static findings are false positives: hardcoded URLs are documentation references, weak crypto patterns matched legitimate quantization terminology, backticks are markdown formatting, and memory-mapped references are Qdrant config parameters.

Fichiers analysés

723

Lignes analysées

résultats

Total des audits

Facteurs de risque

🌐 Accès réseau (1)

SKILL.md:519-521

Audité par: claude Voir l’historique des audits →

Score de qualité

Architecture

100

Maintenabilité

Contenu

Communauté

100

Sécurité

Conformité aux spécifications

Ce que vous pouvez construire

Régler l'ANN pour le rappel

Trouver les paramètres HNSW qui répondent aux objectifs de rappel sans dépasser les budgets de latence.

Réduire l'empreinte mémoire

Évaluer les options de quantification et estimer les compromis de stockage à grande échelle.

Planifier la mise à l'échelle de l'index

Sélectionner les types d'index et les configurations pour des millions à des milliards de vecteurs.

Essayez ces prompts

Balayage HNSW rapide

Analyser les paramètres M et efSearch HNSW pour 200k vecteurs ciblant un rappel de 0.95. Suggérer la meilleure configuration équilibrée.

Choix de quantification

Comparer la quantification fp16, int8 et produit pour 10M vecteurs de 768 dimensions. Résumer les impacts sur la mémoire et le rappel.

Configuration Qdrant

Créer des paramètres de collection Qdrant pour un rappel et une vitesse équilibrés avec 5M vecteurs. Inclure les configurations HNSW et de quantification.

Plan de surveillance

Définir les métriques et une boucle de test pour suivre les centiles de latence et la dérive du rappel pour les mises à jour hebdomadaires de l'index.

Bonnes pratiques

Analyser avec de véritables requêtes et un ensemble de vérité terrain pour une mesure précise du rappel
Commencer avec les paramètres par défaut, puis ajuster une variable à la fois de manière systématique
Suivre les centiles de latence et le rappel après chaque changement de configuration

Éviter

Régler sans mesurer le rappel par rapport à un ensemble de vérité terrain connu
Modifier plusieurs paramètres simultanément sans expériences contrôlées
Ignorer la surcharge mémoire lors de l'augmentation des valeurs M ou efSearch

Foire aux questions

Quelles plateformes cette compétence supporte-t-elle ?

Fonctionne avec Claude, Codex et Claude Code. Fournit des conseils généraux avec des exemples spécifiques à Qdrant.

Quelles sont les principales limites des modèles ?

Les modèles sont des exemples Python nécessitant des bibliothèques comme hnswlib et sklearn. Les utilisateurs doivent fournir leurs propres données et requêtes.

Puis-je l'intégrer dans mon pipeline ?

Oui. Utiliser les modèles comme blocs de construction dans des scripts d'analyse comparative, des tâches CI ou des workflows de test de performance.

Accède-t-il ou envoie-t-il mes données ?

Non. Le contenu de la compétence est de la documentation statique. Aucune collecte de données ni appel réseau ne se produit depuis la compétence elle-même.

Que faire si les résultats de l'analyse comparative sont bruyants ?

Augmenter la taille de l'échantillon de requêtes, corriger les graines aléatoires et séparer la temporisation de construction de l'index des mesures de temporisation de recherche.

Comment cela se compare-t-il aux guides de réglage génériques ?

Fournit des modèles Python concrets, des plages de paramètres, des formules d'estimation mémoire et des configurations spécifiques à Qdrant.

Détails du développeur

Auteur

wshobson

Licence

MIT

Dépôt

https://github.com/wshobson/agents/tree/main/plugins/llm-application-dev/skills/vector-index-tuning

Réf

main

Structure de fichiers

📄 SKILL.md