Fähigkeiten vector-index-tuning

🔍

vector-index-tuning

Name: vector-index-tuning
Author: wshobson

Sicher 🌐 Netzwerkzugriff

Optimieren Sie das Tuning von Vektorindizes für Geschwindigkeit und Recall

Auch verfügbar von: sickn33

Vektorsuche fühlt sich langsam oder kostspielig an, wenn Indizes falsch konfiguriert sind. Diese Fähigkeit bietet Tuning-Vorlagen und Heuristiken zur Verbesserung von Latenz, Recall und Speichernutzung für HNSW- und Quantisierungsstrategien.

Unterstützt: Claude Codex Code(CC)

📊 69 Angemessen

Die Skill-ZIP herunterladen

In Claude hochladen

Gehe zu Einstellungen → Fähigkeiten → Skills → Skill hochladen

Einschalten und loslegen

Teste es

Verwendung von "vector-index-tuning". Empfehlen Sie HNSW-Parameter für 1M Vektoren mit 0.95 Recall und unter 10 ms Latenz.

Erwartetes Ergebnis:

Empfohlenes M: 32 und efConstruction: 200 für Build-Qualität
Setzen Sie efSearch auf 128 für Ziel-Recall 0.95
Schätzen Sie den Speicheraufwand bei M=32 und validieren Sie mit einem kleinen Benchmark

Verwendung von "vector-index-tuning". Welche Speichereinsparungen kann ich durch den Wechsel von FP32 zu INT8-Quantisierung erreichen?

Erwartetes Ergebnis:

FP32 verwendet 4 Bytes pro Dimension, INT8 verwendet 1 Byte
Für 768-dim Vektoren: FP32 = 3KB, INT8 = 768 Bytes pro Vektor
Ungefähr 75% Speicherreduktion mit geringem Recall-Einfluss

Verwendung von "vector-index-tuning". Wie wähle ich zwischen IVF und HNSW für 50M Vektoren?

Erwartetes Ergebnis:

HNSW: besserer Recall auf Kosten von Speicher und Build-Zeit
IVF: geringerer Speicher, schnellerer Build, leicht niedrigerer Recall
Hybride in Betracht ziehen: IVF-PQ für 50M+ Vektoren bei Speicherknappheit

Sicherheitsaudit

Sicher

v4 • 1/17/2026

Pure documentation skill with instructional Python templates for vector index tuning. All static findings are false positives: hardcoded URLs are documentation references, weak crypto patterns matched legitimate quantization terminology, backticks are markdown formatting, and memory-mapped references are Qdrant config parameters.

Gescannte Dateien

723

Analysierte Zeilen

befunde

Gesamtzahl Audits

Risikofaktoren

🌐 Netzwerkzugriff (1)

SKILL.md:519-521

Auditiert von: claude Audit-Verlauf anzeigen →

Qualitätsbewertung

Architektur

100

Wartbarkeit

Inhalt

Community

100

Sicherheit

Spezifikationskonformität

Was du bauen kannst

ANN für Recall tunen

Finden Sie HNSW-Einstellungen, die Recall-Ziele erreichen, ohne Latenzbudgets zu überschreiten.

Speicherbedarf reduzieren

Quantisierungsoptionen auswerten und Speicher-Tradeoffs bei Skalierung schätzen.

Index-Skalierung planen

Index-Typen und Konfigurationen für Millionen bis Milliarden von Vektoren auswählen.

Probiere diese Prompts

Schneller HNSW-Sweep

Benchmark HNSW M und efSearch für 200k Vektoren mit Ziel-Recall 0.95. Empfehlen Sie die beste ausgewogene Konfiguration.

Quantisierungswahl

Vergleichen Sie fp16, int8 und Produktquantisierung für 10M Vektoren mit 768 Dimensionen. Fassen Sie Auswirkungen auf Speicher und Recall zusammen.

Qdrant-Konfiguration

Erstellen Sie Qdrant-Collection-Einstellungen für ausgewogenen Recall und Geschwindigkeit mit 5M Vektoren. Inklusive HNSW- und Quantisierungskonfigurationen.

Überwachungsplan

Definieren Sie Metriken und eine Testschleife zur Verfolgung von Latenz-Perzentilen und Recall-Drift für wöchentliche Index-Updates.

Bewährte Verfahren

Benchmarken Sie mit echten Abfragen und einem Ground-Truth-Set für genaue Recall-Messung
Beginnen Sie mit Standardparametern und optimieren Sie dann systematisch jeweils eine Variable
Verfolgen Sie Latenz-Perzentile und Recall nach jeder Konfigurationsänderung

Vermeiden

Tunen ohne Messung des Recall gegen ein bekanntes Ground-Truth-Set
Ändern mehrerer Parameter gleichzeitig ohne kontrollierte Experimente
Ignorieren des Speicheraufwands beim Erhöhen von M- oder efSearch-Werten

Häufig gestellte Fragen

Welche Plattformen unterstützt diese Fähigkeit?

Funktioniert mit Claude, Codex und Claude Code. Bietet allgemeine Anleitung mit Qdrant-spezifischen Beispielen.

Was sind die Hauptgrenzen der Vorlagen?

Vorlagen sind Python-Beispiele, die Bibliotheken wie hnswlib und sklearn zum Ausführen erfordern. Benutzer müssen ihre eigenen Daten und Abfragen bereitstellen.

Kann ich dies in meine Pipeline integrieren?

Ja. Verwenden Sie Vorlagen als Bausteine in Benchmarking-Skripten, CI-Jobs oder Leistungstest-Workflows.

Greift sie auf meine Daten zu oder sendet sie diese?

Nein. Der Fähigkeitsinhalt ist statische Dokumentation. Es erfolgt keine Datenerfassung oder Netzwerkaufrufe von der Fähigkeit selbst.

Was ist, wenn Benchmark-Ergebnisse verrauscht sind?

Erhöhen Sie die Abfrage-Stichprobengröße, beheben Sie Zufalls-Seeds und trennen Sie das Index-Build-Timing von den Suchtiming-Messungen.

Wie unterscheidet sich dies von allgemeinen Tuning-Anleitungen?

Bietet konkrete Python-Vorlagen, Parameterbereiche, Speicherschätzformeln und Qdrant-spezifische Konfigurationen.

Entwicklerdetails

Autor

wshobson

Lizenz

MIT

Repository

https://github.com/wshobson/agents/tree/main/plugins/llm-application-dev/skills/vector-index-tuning

Ref

main

Dateistruktur

📄 SKILL.md