Habilidades vector-index-tuning
🔍

vector-index-tuning

Seguro 🌐 Acceso a red

Optimizar la optimización del índice vectorial para velocidad y recall

La búsqueda vectorial se siente lenta o costosa cuando los índices están mal configurados. Esta habilidad proporciona plantillas y heurísticas de optimización para mejorar la latencia, el recall y el uso de memoria para estrategias HNSW y cuantización.

Soporta: Claude Codex Code(CC)
📊 70 Adecuado
1

Descargar el ZIP de la skill

2

Subir en Claude

Ve a Configuración → Capacidades → Skills → Subir skill

3

Activa y empieza a usar

Pruébalo

Usando "vector-index-tuning". Sugerir parámetros HNSW para 1M vectores con recall 0.95 y latencia bajo 10 ms.

Resultado esperado:

  • M recomendado: 32 y efConstruction: 200 para calidad de construcción
  • Establecer efSearch a 128 para visi ngular a recall 0.95
  • Estimar sobrecarga de memoria con M en 32 y validar con un benchmark pequeño

Usando "vector-index-tuning". Qué ahorro de memoria puedo obtener cambiando de cuantización FP32 a INT8?

Resultado esperado:

  • FP32 usa 4 bytes por dimensión, INT8 usa 1 byte
  • Para vectores de 768 dims: FP32 = 3KB, INT8 = 768 bytes por vector
  • Aproximadamente 75% de reducción de memoria con impacto menor en recall

Usando "vector-index-tuning". Cómo elijo entre IVF y HNSW para 50M vectores?

Resultado esperado:

  • HNSW: mejor recall a costa de memoria y tiempo de construcción
  • IVF: menor memoria, construcción más rápida, recall ligeramente menor
  • Considerar híbrido: IVF-PQ para 50M+ vectores cuando memoria limitada

Auditoría de seguridad

Seguro
v4 • 1/17/2026

Pure documentation skill with instructional Python templates for vector index tuning. All static findings are false positives: hardcoded URLs are documentation references, weak crypto patterns matched legitimate quantization terminology, backticks are markdown formatting, and memory-mapped references are Qdrant config parameters.

2
Archivos escaneados
723
Líneas analizadas
1
hallazgos
4
Auditorías totales

Factores de riesgo

🌐 Acceso a red (1)

Puntuación de calidad

38
Arquitectura
100
Mantenibilidad
85
Contenido
30
Comunidad
100
Seguridad
87
Cumplimiento de la especificación

Lo que puedes crear

Optimizar ANN para recall

Encontrar configuraciones HNSW que cumplan objetivos de recall sin superar presupuestos de latencia.

Reducir huella de memoria

Evaluar opciones de cuantización y estimar compensaciones de almacenamiento a escala.

Planificar escalado de índices

Seleccionar tipos de índice y configuraciones para millones a miles de millones de vectores.

Prueba estos prompts

Barrido rápido de HNSW
Benchmark HNSW M y efSearch para 200k vectores visando recall 0.95. Sugerir la mejor configuración equilibrada.
Elección de cuantización
Comparar cuantización fp16, int8 y por productos para 10M vectores de 768 dims. Resumir impactos en memoria y recall.
Configuración de Qdrant
Crear configuración de colección Qdrant para recall y velocidad equilibrados con 5M vectores. Incluir configuraciones HNSW y cuantización.
Plan de monitorización
Definir métricas y un bucle de pruebas para rastrear drift de percentiles de latencia y recall para actualizaciones semanales de índices.

Mejores prácticas

  • Hacer benchmark con consultas reales y un conjunto de ground truth para medición precisa del recall
  • Empezar con parámetros por defecto, luego optimizar una variable a la vez sistemáticamente
  • Rastrear percentiles de latencia y recall después de cada cambio de configuración

Evitar

  • Optimizar sin medir recall contra un conjunto de ground truth conocido
  • Cambiar múltiples parámetros simultáneamente sin experimentos controlados
  • Ignorar sobrecarga de memoria al aumentar valores de M o efSearch

Preguntas frecuentes

Qué plataformas soporta esta habilidad?
Funciona con Claude, Codex y Claude Code. Proporciona orientación general con ejemplos específicos de Qdrant.
Cuáles son los límites principales de las plantillas?
Las plantillas son ejemplos de Python que requieren bibliotecas como hnswlib y sklearn para ejecutarse. Los usuarios deben proporcionar sus propios datos y consultas.
Puedo integrar esto en mi pipeline?
Sí. Usar plantillas como bloques de construcción en scripts de benchmark, trabajos de CI, o flujos de trabajo de pruebas de rendimiento.
Accede o envía mis datos?
No. El contenido de la habilidad es documentación estática. No ocurre recolección de datos ni llamadas de red desde la habilidad misma.
Qué pasa si los resultados del benchmark son ruidosos?
Aumentar tamaño de muestra de consultas, corregir semillas aleatorias, y separar tiempo de construcción del índice de mediciones de tiempo de búsqueda.
Cómo se compara esto con guías de optimización genéricas?
Proporciona plantillas Python concretas, rangos de parámetros, fórmulas de estimación de memoria, y configuraciones específicas de Qdrant.

Detalles del desarrollador

Estructura de archivos

📄 SKILL.md