Habilidades vector-index-tuning

🔍

vector-index-tuning

Name: vector-index-tuning
Author: wshobson

Seguro 🌐 Acesso à rede

Otimizar ajuste de índice vetorial para velocidade e recall

Também disponível em: sickn33

A busca vetorial parece lenta ou cara quando os índices são mal configurados. Esta skill fornece modelos de ajuste e heurísticas para melhorar latência, recall e uso de memória para estratégias HNSW e quantização.

Suporta: Claude Codex Code(CC)

📊 69 Adequado

Baixar o ZIP da skill

Upload no Claude

Vá em Configurações → Capacidades → Skills → Upload skill

Ative e comece a usar

Testar

A utilizar "vector-index-tuning". Suggest HNSW parameters for 1M vectors with 0.95 recall and under 10 ms latency.

Resultado esperado:

Recommended M: 32 and efConstruction: 200 for build quality
Set efSearch to 128 to target 0.95 recall
Estimate memory overhead with M at 32 and validate with a small benchmark

A utilizar "vector-index-tuning". What memory savings can I get by switching from FP32 to INT8 quantization?

Resultado esperado:

FP32 uses 4 bytes per dimension, INT8 uses 1 byte
For 768-dim vectors: FP32 = 3KB, INT8 = 768 bytes per vector
Approximately 75% memory reduction with minor recall impact

A utilizar "vector-index-tuning". How do I choose between IVF and HNSW for 50M vectors?

Resultado esperado:

HNSW: better recall at cost of memory and build time
IVF: lower memory, faster build, slightly lower recall
Consider hybrid: IVF-PQ for 50M+ vectors when memory constrained

Auditoria de Segurança

Seguro

v4 • 1/17/2026

Pure documentation skill with instructional Python templates for vector index tuning. All static findings are false positives: hardcoded URLs are documentation references, weak crypto patterns matched legitimate quantization terminology, backticks are markdown formatting, and memory-mapped references are Qdrant config parameters.

Arquivos analisados

723

Linhas analisadas

achados

Total de auditorias

Fatores de risco

🌐 Acesso à rede (1)

SKILL.md:519-521

Auditado por: claude Ver Histórico de Auditoria →

Pontuação de qualidade

Arquitetura

100

Manutenibilidade

Conteúdo

Comunidade

100

Segurança

Conformidade com especificações

O Que Você Pode Construir

Ajustar ANN para recall

Encontrar configurações HNSW que atendam aos alvos de recall sem exceder orçamentos de latência.

Reduzir pegada de memória

Avaliar opções de quantização e estimar tradeoffs de armazenamento em escala.

Planejar escala de índice

Selecionar tipos de índice e configurações para milhões a bilhões de vetores.

Tente Estes Prompts

Varredura rápida de HNSW

Fazer benchmark de M e efSearch do HNSW para 200k vetores visando recall de 0.95. Sugerir a melhor configuração equilibrada.

Escolha de quantização

Comparar quantização fp16, int8 e por produto para 10M vetores de 768 dims. Resumir impactos em memória e recall.

Configuração do Qdrant

Criar configurações de coleção Qdrant para recall e velocidade equilibrados com 5M vetores. Incluir configurações de HNSW e quantização.

Plano de monitoramento

Definir métricas e um loop de teste para acompanhar drift de percentis de latência e recall para atualizações semanais de índice.

Melhores Práticas

Fazer benchmark com consultas reais e um conjunto ground truth para medição precisa de recall
Começar com parâmetros padrão, depois ajustar uma variável de cada vez sistematicamente
Acompanhar percentis de latência e recall após cada mudança de configuração

Evitar

Ajustar sem medir recall contra um conjunto ground truth conhecido
Mudar múltiplos parâmetros simultaneamente sem experimentos controlados
Ignorar overhead de memória ao aumentar valores de M ou efSearch

Perguntas Frequentes

Quais plataformas esta skill suporta?

Funciona com Claude, Codex e Claude Code. Fornece orientação geral com exemplos específicos do Qdrant.

Quais são os principais limites dos modelos?

Modelos são exemplos em Python requerendo bibliotecas como hnswlib e sklearn para executar. Usuários devem fornecer seus próprios dados e consultas.

Posso integrar isso no meu pipeline?

Sim. Usar modelos como blocos de construção em scripts de benchmark, jobs de CI ou workflows de testes de desempenho.

Ela acessa ou envia meus dados?

Não. O conteúdo da skill é documentação estática. Nenhuma coleta de dados ou chamadas de rede ocorrem pela skill em si.

E se os resultados do benchmark forem ruidosos?

Aumentar tamanho da amostra de consulta, corrigir seeds aleatórios e separar medição de tempo de construção de índice de tempo de busca.

Como isso compara com guias genéricos de ajuste?

Fornece modelos Python concretos, faixas de parâmetros, fórmulas de estimação de memória e configurações específicas do Qdrant.

Detalhes do Desenvolvedor

Autor

wshobson

Licença

MIT

Repositório

https://github.com/wshobson/agents/tree/main/plugins/llm-application-dev/skills/vector-index-tuning

Referência

main

Estrutura de arquivos

📄 SKILL.md