vector-index-tuning
優化向量索引調參以提升速度和召回率
當索引配置不當時,向量搜尋會顯得緩慢或成本高昂。本技能提供調參模板和啟發式方法,幫助改善 HNSW 和量化策略的延遲、召回率和記憶體使用。
Télécharger le ZIP du skill
Importer dans Claude
Allez dans Paramètres → Capacités → Skills → Importer un skill
Activez et commencez à utiliser
Tester
Utilisation de "vector-index-tuning". 建議針對 100 萬個向量、0.95 召回率且延遲低於 10 毫秒的 HNSW 參數。
Résultat attendu:
- 推薦 M: 32,efConstruction: 200 以獲得建構品質
- 將 efSearch 設定為 128 以達到 0.95 召回率
- 使用 M=32 估算記憶體開銷,並用小型基準測試驗證
Utilisation de "vector-index-tuning". 從 FP32 切換到 INT8 量化可以節省多少記憶體?
Résultat attendu:
- FP32 每維度使用 4 位元組,INT8 使用 1 位元組
- 對於 768 維度的向量:FP32 = 3KB,INT8 = 每向量 768 位元組
- 約 75% 的記憶體減少,對召回率影響很小
Utilisation de "vector-index-tuning". 對於 5000 萬個向量,我該如何在 IVF 和 HNSW 之間選擇?
Résultat attendu:
- HNSW:以記憶體和建構時間換取更好的召回率
- IVF:記憶體更少,建構更快,召回率略低
- 當記憶體受限制時,考慮混合方案:50M+ 向量使用 IVF-PQ
Audit de sécurité
SûrPure documentation skill with instructional Python templates for vector index tuning. All static findings are false positives: hardcoded URLs are documentation references, weak crypto patterns matched legitimate quantization terminology, backticks are markdown formatting, and memory-mapped references are Qdrant config parameters.
Facteurs de risque
🌐 Accès réseau (1)
Score de qualité
Ce que vous pouvez construire
調校 ANN 以提升召回率
找出符合召回率目標且不超過延遲預算的 HNSW 設定。
減少記憶體佔用
評估量化選項並估算大規模下的儲存取捨。
規劃索引擴展
為數百萬到數十億規模的向量選擇索引類型和配置。
Essayez ces prompts
對 20 萬個向量進行基準測試,目標召回率為 0.95。建議最佳平衡配置。
比較 768 維度的 1000 萬向量的 fp16、int8 和乘積量化。總結記憶體和召回率的影響。
為 500 萬個向量建立 Qdrant 集合設定,實現召回率和速度的平衡。包括 HNSW 和量化配置。
定義指標和測試流程,以追蹤每週索引更新後的延遲百分位數和召回率漂移。
Bonnes pratiques
- 使用真實查詢和真實標籤集進行基準測試以準確測量召回率
- 從預設參數開始,然後系統地每次只調整一個變數
- 每次配置變更後追蹤延遲百分位數和召回率
Éviter
- 在沒有對照真實標籤集測量召回率的情況下進行調參
- 在沒有受控實驗的情況下同時更改多個參數
- 增加 M 或 efSearch 值時忽略記憶體開銷
Foire aux questions
此技能支援哪些平台?
模板的主要限制是什麼?
我可以將其整合到我的管線中嗎?
它會存取或傳送我的資料嗎?
如果基準測試結果有雜訊怎麼辦?
這與通用調參指南相比有何不同?
Détails du développeur
Auteur
wshobsonLicence
MIT
Dépôt
https://github.com/wshobson/agents/tree/main/plugins/llm-application-dev/skills/vector-index-tuningRéf
main
Structure de fichiers
📄 SKILL.md