computer-vision-expert
Construir sistemas de visión por computadora con modelos SOTA
La construcción de sistemas modernos de visión por computadora requiere experiencia en múltiples modelos SOTA. Esta habilidad proporciona orientación experta sobre YOLO26, SAM 3 y Modelos de Lenguaje Visual para tareas de detección, segmentación y análisis espacial.
Descargar el ZIP de la skill
Subir en Claude
Ve a Configuración → Capacidades → Skills → Subir skill
Activa y empieza a usar
Pruébalo
Usando "computer-vision-expert". ¿Cómo configuro YOLO26 para detección de objetos en tiempo real en mi dispositivo edge?
Resultado esperado:
Para el despliegue de YOLO26 en edge, usa la arquitectura NMS-free que simplifica la exportación. Pasos clave:
1. **Selección del modelo**: Usa yolo26n para nano (más rápido) o yolo26s para small (mejor precisión)
2. **Comando de exportación**: `yolo export model=yolo26s format=onnx`
3. **Optimización TensorRT**: Convierte a TensorRT FP16 para 2x de velocidad en Jetson
4. **Inferencia**: Usa la API de inferencia simplificada sin post-procesamiento NMS
El diseño NMS-free reduce la latencia un 30% comparado con arquitecturas YOLO tradicionales.
Usando "computer-vision-expert". Usando SAM 3 para segmentación guiada por texto de objetos específicos
Resultado esperado:
La capacidad texto-a-máscara de SAM 3 permite segmentación usando lenguaje natural:
```python
from sam3 import SAM3Model
model = SAM3Model()
image = load_image('warehouse.jpg')
# Prompt de texto para segmentación
masks = model.text_to_mask(image, prompt='the blue container')
```
Esto elimina la necesidad de prompts manuales de puntos. SAM 3 logra 2x de precisión sobre SAM 2 al unificar detección, segmentación y seguimiento en un modelo.
Auditoría de seguridad
SeguroAll static findings are false positives. The scanner detected 'SAM' as Windows SAM database (actually Segment Anything Model), backticks as shell execution (actually skill name formatting), and misidentified cryptographic patterns. This is a legitimate computer vision expert skill with no security concerns.
Problemas de riesgo bajo (3)
Factores de riesgo
⚙️ Comandos externos (4)
Puntuación de calidad
Lo que puedes crear
Inspección de calidad industrial
Construir sistemas automatizados de inspección visual usando YOLO26 para detección rápida de defectos y SAM 3 para segmentación precisa de anomalías de productos en líneas de fabricación.
Navegación de robots autónomos
Crear pipelines de visión para robots móviles usando estimación de profundidad, SLAM visual y detección de objetos en tiempo real para navegación segura en entornos dinámicos.
Análisis de documentos y medios
Implementar sistemas impulsados por VLM para extraer datos estructurados de imágenes, diagramas y documentos visuales a través de groundin visual y respuesta a preguntas.
Prueba estos prompts
¿Cómo configuro YOLO26 para detección de objetos en tiempo real en mi dispositivo edge? Necesito detectar vehículos y peatones.
Necesito segmentar todas las instancias de 'el contenedor de envío rojo' en esta imagen usando SAM 3. ¿Cómo uso la característica texto-a-máscara?
Ayúdame a construir un pipeline usando Florence-2 para responder preguntas sobre imágenes. Quiero extraer datos estructurados de fotos de productos.
¿Cuál es el mejor enfoque para optimizar un modelo YOLO26 para despliegue en un NVIDIA Jetson Orin? Necesito mantener la precisión mientras reduzco la latencia.
Mejores prácticas
- Usa arquitecturas NMS-free como YOLO26 para menor latencia en aplicaciones en tiempo real
- Combina YOLO26 para propuesta rápida de candidatos con SAM 3 para refinamiento preciso de máscaras
- Usa prompts de texto descriptivos con SAM 3 (ej., 'el perno de 5mm' en lugar de 'perno')
Evitar
- Usar post-procesamiento NMS manual en lugar de arquitecturas NMS-free
- Depender de segmentación solo con clics en lugar de prompts guiados por texto con SAM 3
- Usar pipelines de exportación legacy que no soportan la estructura de módulo simplificado de YOLO26
Preguntas frecuentes
¿Qué es YOLO26 y cómo difiere de versiones anteriores de YOLO?
¿Cómo funciona el texto-a-máscara de SAM 3?
¿Puedo ejecutar SAM 3 en hardware de consumo?
¿Qué son los Modelos de Lenguaje Visual y cuándo debo usarlos?
¿Cómo optimizo YOLO26 para despliegue en edge?
¿Cuál es la relación entre esta habilidad y Claude Code?
Detalles del desarrollador
Autor
sickn33Licencia
MIT
Repositorio
https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/computer-vision-expertRef.
main
Estructura de archivos
📄 SKILL.md