vector-index-tuning
Optimieren Sie das Tuning von Vektorindizes für Geschwindigkeit und Recall
Vektorsuche fühlt sich langsam oder kostspielig an, wenn Indizes falsch konfiguriert sind. Diese Fähigkeit bietet Tuning-Vorlagen und Heuristiken zur Verbesserung von Latenz, Recall und Speichernutzung für HNSW- und Quantisierungsstrategien.
Die Skill-ZIP herunterladen
In Claude hochladen
Gehe zu Einstellungen → Fähigkeiten → Skills → Skill hochladen
Einschalten und loslegen
Teste es
Verwendung von "vector-index-tuning". Empfehlen Sie HNSW-Parameter für 1M Vektoren mit 0.95 Recall und unter 10 ms Latenz.
Erwartetes Ergebnis:
- Empfohlenes M: 32 und efConstruction: 200 für Build-Qualität
- Setzen Sie efSearch auf 128 für Ziel-Recall 0.95
- Schätzen Sie den Speicheraufwand bei M=32 und validieren Sie mit einem kleinen Benchmark
Verwendung von "vector-index-tuning". Welche Speichereinsparungen kann ich durch den Wechsel von FP32 zu INT8-Quantisierung erreichen?
Erwartetes Ergebnis:
- FP32 verwendet 4 Bytes pro Dimension, INT8 verwendet 1 Byte
- Für 768-dim Vektoren: FP32 = 3KB, INT8 = 768 Bytes pro Vektor
- Ungefähr 75% Speicherreduktion mit geringem Recall-Einfluss
Verwendung von "vector-index-tuning". Wie wähle ich zwischen IVF und HNSW für 50M Vektoren?
Erwartetes Ergebnis:
- HNSW: besserer Recall auf Kosten von Speicher und Build-Zeit
- IVF: geringerer Speicher, schnellerer Build, leicht niedrigerer Recall
- Hybride in Betracht ziehen: IVF-PQ für 50M+ Vektoren bei Speicherknappheit
Sicherheitsaudit
SicherPure documentation skill with instructional Python templates for vector index tuning. All static findings are false positives: hardcoded URLs are documentation references, weak crypto patterns matched legitimate quantization terminology, backticks are markdown formatting, and memory-mapped references are Qdrant config parameters.
Risikofaktoren
🌐 Netzwerkzugriff (1)
Qualitätsbewertung
Was du bauen kannst
ANN für Recall tunen
Finden Sie HNSW-Einstellungen, die Recall-Ziele erreichen, ohne Latenzbudgets zu überschreiten.
Speicherbedarf reduzieren
Quantisierungsoptionen auswerten und Speicher-Tradeoffs bei Skalierung schätzen.
Index-Skalierung planen
Index-Typen und Konfigurationen für Millionen bis Milliarden von Vektoren auswählen.
Probiere diese Prompts
Benchmark HNSW M und efSearch für 200k Vektoren mit Ziel-Recall 0.95. Empfehlen Sie die beste ausgewogene Konfiguration.
Vergleichen Sie fp16, int8 und Produktquantisierung für 10M Vektoren mit 768 Dimensionen. Fassen Sie Auswirkungen auf Speicher und Recall zusammen.
Erstellen Sie Qdrant-Collection-Einstellungen für ausgewogenen Recall und Geschwindigkeit mit 5M Vektoren. Inklusive HNSW- und Quantisierungskonfigurationen.
Definieren Sie Metriken und eine Testschleife zur Verfolgung von Latenz-Perzentilen und Recall-Drift für wöchentliche Index-Updates.
Bewährte Verfahren
- Benchmarken Sie mit echten Abfragen und einem Ground-Truth-Set für genaue Recall-Messung
- Beginnen Sie mit Standardparametern und optimieren Sie dann systematisch jeweils eine Variable
- Verfolgen Sie Latenz-Perzentile und Recall nach jeder Konfigurationsänderung
Vermeiden
- Tunen ohne Messung des Recall gegen ein bekanntes Ground-Truth-Set
- Ändern mehrerer Parameter gleichzeitig ohne kontrollierte Experimente
- Ignorieren des Speicheraufwands beim Erhöhen von M- oder efSearch-Werten
Häufig gestellte Fragen
Welche Plattformen unterstützt diese Fähigkeit?
Was sind die Hauptgrenzen der Vorlagen?
Kann ich dies in meine Pipeline integrieren?
Greift sie auf meine Daten zu oder sendet sie diese?
Was ist, wenn Benchmark-Ergebnisse verrauscht sind?
Wie unterscheidet sich dies von allgemeinen Tuning-Anleitungen?
Entwicklerdetails
Autor
wshobsonLizenz
MIT
Repository
https://github.com/wshobson/agents/tree/main/plugins/llm-application-dev/skills/vector-index-tuningRef
main
Dateistruktur
📄 SKILL.md