vector-index-tuning
Optimizar la optimización del índice vectorial para velocidad y recall
La búsqueda vectorial se siente lenta o costosa cuando los índices están mal configurados. Esta habilidad proporciona plantillas y heurísticas de optimización para mejorar la latencia, el recall y el uso de memoria para estrategias HNSW y cuantización.
Descargar el ZIP de la skill
Subir en Claude
Ve a Configuración → Capacidades → Skills → Subir skill
Activa y empieza a usar
Pruébalo
Usando "vector-index-tuning". Sugerir parámetros HNSW para 1M vectores con recall 0.95 y latencia bajo 10 ms.
Resultado esperado:
- M recomendado: 32 y efConstruction: 200 para calidad de construcción
- Establecer efSearch a 128 para visi ngular a recall 0.95
- Estimar sobrecarga de memoria con M en 32 y validar con un benchmark pequeño
Usando "vector-index-tuning". Qué ahorro de memoria puedo obtener cambiando de cuantización FP32 a INT8?
Resultado esperado:
- FP32 usa 4 bytes por dimensión, INT8 usa 1 byte
- Para vectores de 768 dims: FP32 = 3KB, INT8 = 768 bytes por vector
- Aproximadamente 75% de reducción de memoria con impacto menor en recall
Usando "vector-index-tuning". Cómo elijo entre IVF y HNSW para 50M vectores?
Resultado esperado:
- HNSW: mejor recall a costa de memoria y tiempo de construcción
- IVF: menor memoria, construcción más rápida, recall ligeramente menor
- Considerar híbrido: IVF-PQ para 50M+ vectores cuando memoria limitada
Auditoría de seguridad
SeguroPure documentation skill with instructional Python templates for vector index tuning. All static findings are false positives: hardcoded URLs are documentation references, weak crypto patterns matched legitimate quantization terminology, backticks are markdown formatting, and memory-mapped references are Qdrant config parameters.
Factores de riesgo
🌐 Acceso a red (1)
Puntuación de calidad
Lo que puedes crear
Optimizar ANN para recall
Encontrar configuraciones HNSW que cumplan objetivos de recall sin superar presupuestos de latencia.
Reducir huella de memoria
Evaluar opciones de cuantización y estimar compensaciones de almacenamiento a escala.
Planificar escalado de índices
Seleccionar tipos de índice y configuraciones para millones a miles de millones de vectores.
Prueba estos prompts
Benchmark HNSW M y efSearch para 200k vectores visando recall 0.95. Sugerir la mejor configuración equilibrada.
Comparar cuantización fp16, int8 y por productos para 10M vectores de 768 dims. Resumir impactos en memoria y recall.
Crear configuración de colección Qdrant para recall y velocidad equilibrados con 5M vectores. Incluir configuraciones HNSW y cuantización.
Definir métricas y un bucle de pruebas para rastrear drift de percentiles de latencia y recall para actualizaciones semanales de índices.
Mejores prácticas
- Hacer benchmark con consultas reales y un conjunto de ground truth para medición precisa del recall
- Empezar con parámetros por defecto, luego optimizar una variable a la vez sistemáticamente
- Rastrear percentiles de latencia y recall después de cada cambio de configuración
Evitar
- Optimizar sin medir recall contra un conjunto de ground truth conocido
- Cambiar múltiples parámetros simultáneamente sin experimentos controlados
- Ignorar sobrecarga de memoria al aumentar valores de M o efSearch
Preguntas frecuentes
Qué plataformas soporta esta habilidad?
Cuáles son los límites principales de las plantillas?
Puedo integrar esto en mi pipeline?
Accede o envía mis datos?
Qué pasa si los resultados del benchmark son ruidosos?
Cómo se compara esto con guías de optimización genéricas?
Detalles del desarrollador
Autor
wshobsonLicencia
MIT
Repositorio
https://github.com/wshobson/agents/tree/main/plugins/llm-application-dev/skills/vector-index-tuningRef.
main
Estructura de archivos
📄 SKILL.md