Question 1

什麼是 HNSW 參數的良好起點？

Accepted Answer

從 M=16、efConstruction=100、efSearch=50 開始。這些預設值適用於大多數 100 萬向量以下的資料集。只在根據延遲和召回率目標測量基線效能後才進行調參。

Question 2

量化如何影響搜尋品質？

Accepted Answer

INT8 標量量化通常會導致 1-3% 的召回率下降，但可節省 75% 的記憶體。乘積量化可以實現 10-20 倍的壓縮，但可能會使召回率下降 5-15%。務必使用您的特定資料集驗證召回率影響。

Question 3

什麼時候應該使用 IVF 而不是 HNSW？

Accepted Answer

當擴展到 1 億向量以上或記憶體嚴重受限时，請考慮使用 IVF。HNSW 為 1 億向量以下的資料集提供更好的召回率和延遲。IVF 需要更多調參，但在極大規模上可以更節省記憶體。

Question 4

我應該多久重新索引一次向量資料庫？

Accepted Answer

在召回率下降到超過閾值（通常下降 2-5%）、重大資料分佈變更後，或擴展基礎設施時重新索引。持續監控召回率指標以主動觸發重新索引。

Question 5

efConstruction 和 efSearch 有什麼區別？

Accepted Answer

efConstruction 控制索引建置品質（越高 = 更好的索引，建置較慢）。efSearch 控制查詢品質（越高 = 更好的召回率，搜尋較慢）。您可以在建置期間使用較高的 efConstruction 一次，然後根據延遲-召回率權衡調整 efSearch。

Question 6

建立索引後可以更改 HNSW 參數嗎？

Accepted Answer

efSearch 可以動態更改每個查詢。然而，M 和 efConstruction 在索引建立時是固定的。更改這些參數需要使用新參數重建索引。

vector-index-tuning

測試它