Habilidades vector-index-tuning

🔍

vector-index-tuning

Name: vector-index-tuning
Author: wshobson

Seguro 🌐 Acceso a red

Optimizar la optimización del índice vectorial para velocidad y recall

También disponible en: sickn33

La búsqueda vectorial se siente lenta o costosa cuando los índices están mal configurados. Esta habilidad proporciona plantillas y heurísticas de optimización para mejorar la latencia, el recall y el uso de memoria para estrategias HNSW y cuantización.

Soporta: Claude Codex Code(CC)

📊 69 Adecuado

Descargar el ZIP de la skill

Subir en Claude

Ve a Configuración → Capacidades → Skills → Subir skill

Activa y empieza a usar

Pruébalo

Usando "vector-index-tuning". Sugerir parámetros HNSW para 1M vectores con recall 0.95 y latencia bajo 10 ms.

Resultado esperado:

M recomendado: 32 y efConstruction: 200 para calidad de construcción
Establecer efSearch a 128 para visi ngular a recall 0.95
Estimar sobrecarga de memoria con M en 32 y validar con un benchmark pequeño

Usando "vector-index-tuning". Qué ahorro de memoria puedo obtener cambiando de cuantización FP32 a INT8?

Resultado esperado:

FP32 usa 4 bytes por dimensión, INT8 usa 1 byte
Para vectores de 768 dims: FP32 = 3KB, INT8 = 768 bytes por vector
Aproximadamente 75% de reducción de memoria con impacto menor en recall

Usando "vector-index-tuning". Cómo elijo entre IVF y HNSW para 50M vectores?

Resultado esperado:

HNSW: mejor recall a costa de memoria y tiempo de construcción
IVF: menor memoria, construcción más rápida, recall ligeramente menor
Considerar híbrido: IVF-PQ para 50M+ vectores cuando memoria limitada

Auditoría de seguridad

Seguro

v4 • 1/17/2026

Pure documentation skill with instructional Python templates for vector index tuning. All static findings are false positives: hardcoded URLs are documentation references, weak crypto patterns matched legitimate quantization terminology, backticks are markdown formatting, and memory-mapped references are Qdrant config parameters.

Archivos escaneados

723

Líneas analizadas

hallazgos

Auditorías totales

Factores de riesgo

🌐 Acceso a red (1)

SKILL.md:519-521

Auditado por: claude Ver historial de auditorías →

Puntuación de calidad

Arquitectura

100

Mantenibilidad

Contenido

Comunidad

100

Seguridad

Cumplimiento de la especificación

Lo que puedes crear

Optimizar ANN para recall

Encontrar configuraciones HNSW que cumplan objetivos de recall sin superar presupuestos de latencia.

Reducir huella de memoria

Evaluar opciones de cuantización y estimar compensaciones de almacenamiento a escala.

Planificar escalado de índices

Seleccionar tipos de índice y configuraciones para millones a miles de millones de vectores.

Prueba estos prompts

Barrido rápido de HNSW

Benchmark HNSW M y efSearch para 200k vectores visando recall 0.95. Sugerir la mejor configuración equilibrada.

Elección de cuantización

Comparar cuantización fp16, int8 y por productos para 10M vectores de 768 dims. Resumir impactos en memoria y recall.

Configuración de Qdrant

Crear configuración de colección Qdrant para recall y velocidad equilibrados con 5M vectores. Incluir configuraciones HNSW y cuantización.

Plan de monitorización

Definir métricas y un bucle de pruebas para rastrear drift de percentiles de latencia y recall para actualizaciones semanales de índices.

Mejores prácticas

Hacer benchmark con consultas reales y un conjunto de ground truth para medición precisa del recall
Empezar con parámetros por defecto, luego optimizar una variable a la vez sistemáticamente
Rastrear percentiles de latencia y recall después de cada cambio de configuración

Evitar

Optimizar sin medir recall contra un conjunto de ground truth conocido
Cambiar múltiples parámetros simultáneamente sin experimentos controlados
Ignorar sobrecarga de memoria al aumentar valores de M o efSearch

Preguntas frecuentes

Qué plataformas soporta esta habilidad?

Funciona con Claude, Codex y Claude Code. Proporciona orientación general con ejemplos específicos de Qdrant.

Cuáles son los límites principales de las plantillas?

Las plantillas son ejemplos de Python que requieren bibliotecas como hnswlib y sklearn para ejecutarse. Los usuarios deben proporcionar sus propios datos y consultas.

Puedo integrar esto en mi pipeline?

Sí. Usar plantillas como bloques de construcción en scripts de benchmark, trabajos de CI, o flujos de trabajo de pruebas de rendimiento.

Accede o envía mis datos?

No. El contenido de la habilidad es documentación estática. No ocurre recolección de datos ni llamadas de red desde la habilidad misma.

Qué pasa si los resultados del benchmark son ruidosos?

Aumentar tamaño de muestra de consultas, corregir semillas aleatorias, y separar tiempo de construcción del índice de mediciones de tiempo de búsqueda.

Cómo se compara esto con guías de optimización genéricas?

Proporciona plantillas Python concretas, rangos de parámetros, fórmulas de estimación de memoria, y configuraciones específicas de Qdrant.

Detalles del desarrollador

Autor

wshobson

Licencia

MIT

Repositorio

https://github.com/wshobson/agents/tree/main/plugins/llm-application-dev/skills/vector-index-tuning

Ref.

main

Estructura de archivos

📄 SKILL.md