技能 vector-index-tuning

🔍

vector-index-tuning

Name: vector-index-tuning
Author: wshobson

安全 🌐 網路存取

優化向量索引調參以提升速度和召回率

也可從以下取得: sickn33

當索引配置不當時，向量搜尋會顯得緩慢或成本高昂。本技能提供調參模板和啟發式方法，幫助改善 HNSW 和量化策略的延遲、召回率和記憶體使用。

支援: Claude Codex Code(CC)

📊 69 充足

下載技能 ZIP

在 Claude 中上傳

前往設定 → 功能 → 技能 → 上傳技能

開啟並開始使用

測試它

正在使用「vector-index-tuning」。建議針對 100 萬個向量、0.95 召回率且延遲低於 10 毫秒的 HNSW 參數。

預期結果:

推薦 M: 32，efConstruction: 200 以獲得建構品質
將 efSearch 設定為 128 以達到 0.95 召回率
使用 M=32 估算記憶體開銷，並用小型基準測試驗證

正在使用「vector-index-tuning」。從 FP32 切換到 INT8 量化可以節省多少記憶體？

預期結果:

FP32 每維度使用 4 位元組，INT8 使用 1 位元組
對於 768 維度的向量：FP32 = 3KB，INT8 = 每向量 768 位元組
約 75% 的記憶體減少，對召回率影響很小

正在使用「vector-index-tuning」。對於 5000 萬個向量，我該如何在 IVF 和 HNSW 之間選擇？

預期結果:

HNSW：以記憶體和建構時間換取更好的召回率
IVF：記憶體更少，建構更快，召回率略低
當記憶體受限制時，考慮混合方案：50M+ 向量使用 IVF-PQ

安全審計

安全

v4 • 1/17/2026

Pure documentation skill with instructional Python templates for vector index tuning. All static findings are false positives: hardcoded URLs are documentation references, weak crypto patterns matched legitimate quantization terminology, backticks are markdown formatting, and memory-mapped references are Qdrant config parameters.

已掃描檔案

723

分析行數

發現項

審計總數

風險因素

🌐 網路存取 (1)

SKILL.md:519-521

審計者: claude 查看審計歷史 →

品質評分

架構

100

可維護性

內容

社群

100

安全

規範符合性

你能建構什麼

調校 ANN 以提升召回率

找出符合召回率目標且不超過延遲預算的 HNSW 設定。

減少記憶體佔用

評估量化選項並估算大規模下的儲存取捨。

規劃索引擴展

為數百萬到數十億規模的向量選擇索引類型和配置。

試試這些提示

快速 HNSW 掃描

對 20 萬個向量進行基準測試，目標召回率為 0.95。建議最佳平衡配置。

量化選擇

比較 768 維度的 1000 萬向量的 fp16、int8 和乘積量化。總結記憶體和召回率的影響。

Qdrant 配置

為 500 萬個向量建立 Qdrant 集合設定，實現召回率和速度的平衡。包括 HNSW 和量化配置。

監控計劃

定義指標和測試流程，以追蹤每週索引更新後的延遲百分位數和召回率漂移。

最佳實務

使用真實查詢和真實標籤集進行基準測試以準確測量召回率
從預設參數開始，然後系統地每次只調整一個變數
每次配置變更後追蹤延遲百分位數和召回率

避免

在沒有對照真實標籤集測量召回率的情況下進行調參
在沒有受控實驗的情況下同時更改多個參數
增加 M 或 efSearch 值時忽略記憶體開銷

常見問題

此技能支援哪些平台？

支援 Claude、Codex 和 Claude Code。提供一般性指導，並附有 Qdrant 特定的範例。

模板的主要限制是什麼？

模板是需要 hnswlib 和 sklearn 等函式庫的 Python 範例。使用者必須提供自己的數據和查詢。

我可以將其整合到我的管線中嗎？

可以。將模板作為基準測試腳本、CI 工作或效能測試工作流程的建構模組使用。

它會存取或傳送我的資料嗎？

不會。技能內容是靜態文件。技能本身不會收集資料或進行網路呼叫。

如果基準測試結果有雜訊怎麼辦？

增加查詢樣本大小、固定隨機種子，並將索引建構時間與搜尋時間測量分開。

這與通用調參指南相比有何不同？

提供具體的 Python 模板、參數範圍、記憶體估算公式和 Qdrant 特定配置。

開發者詳情

作者

wshobson

授權

MIT

儲存庫

https://github.com/wshobson/agents/tree/main/plugins/llm-application-dev/skills/vector-index-tuning

引用

main

檔案結構

📄 SKILL.md