vector-index-tuning
Otimizar ajuste de índice vetorial para velocidade e recall
A busca vetorial parece lenta ou cara quando os índices são mal configurados. Esta skill fornece modelos de ajuste e heurísticas para melhorar latência, recall e uso de memória para estratégias HNSW e quantização.
Baixar o ZIP da skill
Upload no Claude
Vá em Configurações → Capacidades → Skills → Upload skill
Ative e comece a usar
Testar
A utilizar "vector-index-tuning". Suggest HNSW parameters for 1M vectors with 0.95 recall and under 10 ms latency.
Resultado esperado:
- Recommended M: 32 and efConstruction: 200 for build quality
- Set efSearch to 128 to target 0.95 recall
- Estimate memory overhead with M at 32 and validate with a small benchmark
A utilizar "vector-index-tuning". What memory savings can I get by switching from FP32 to INT8 quantization?
Resultado esperado:
- FP32 uses 4 bytes per dimension, INT8 uses 1 byte
- For 768-dim vectors: FP32 = 3KB, INT8 = 768 bytes per vector
- Approximately 75% memory reduction with minor recall impact
A utilizar "vector-index-tuning". How do I choose between IVF and HNSW for 50M vectors?
Resultado esperado:
- HNSW: better recall at cost of memory and build time
- IVF: lower memory, faster build, slightly lower recall
- Consider hybrid: IVF-PQ for 50M+ vectors when memory constrained
Auditoria de Segurança
SeguroPure documentation skill with instructional Python templates for vector index tuning. All static findings are false positives: hardcoded URLs are documentation references, weak crypto patterns matched legitimate quantization terminology, backticks are markdown formatting, and memory-mapped references are Qdrant config parameters.
Fatores de risco
🌐 Acesso à rede (1)
Pontuação de qualidade
O Que Você Pode Construir
Ajustar ANN para recall
Encontrar configurações HNSW que atendam aos alvos de recall sem exceder orçamentos de latência.
Reduzir pegada de memória
Avaliar opções de quantização e estimar tradeoffs de armazenamento em escala.
Planejar escala de índice
Selecionar tipos de índice e configurações para milhões a bilhões de vetores.
Tente Estes Prompts
Fazer benchmark de M e efSearch do HNSW para 200k vetores visando recall de 0.95. Sugerir a melhor configuração equilibrada.
Comparar quantização fp16, int8 e por produto para 10M vetores de 768 dims. Resumir impactos em memória e recall.
Criar configurações de coleção Qdrant para recall e velocidade equilibrados com 5M vetores. Incluir configurações de HNSW e quantização.
Definir métricas e um loop de teste para acompanhar drift de percentis de latência e recall para atualizações semanais de índice.
Melhores Práticas
- Fazer benchmark com consultas reais e um conjunto ground truth para medição precisa de recall
- Começar com parâmetros padrão, depois ajustar uma variável de cada vez sistematicamente
- Acompanhar percentis de latência e recall após cada mudança de configuração
Evitar
- Ajustar sem medir recall contra um conjunto ground truth conhecido
- Mudar múltiplos parâmetros simultaneamente sem experimentos controlados
- Ignorar overhead de memória ao aumentar valores de M ou efSearch
Perguntas Frequentes
Quais plataformas esta skill suporta?
Quais são os principais limites dos modelos?
Posso integrar isso no meu pipeline?
Ela acessa ou envia meus dados?
E se os resultados do benchmark forem ruidosos?
Como isso compara com guias genéricos de ajuste?
Detalhes do Desenvolvedor
Autor
wshobsonLicença
MIT
Repositório
https://github.com/wshobson/agents/tree/main/plugins/llm-application-dev/skills/vector-index-tuningReferência
main
Estrutura de arquivos
📄 SKILL.md