Habilidades computer-vision-expert
📦

computer-vision-expert

Seguro ⚙️ Comandos externos

Construir sistemas de visión por computadora con modelos SOTA

La construcción de sistemas modernos de visión por computadora requiere experiencia en múltiples modelos SOTA. Esta habilidad proporciona orientación experta sobre YOLO26, SAM 3 y Modelos de Lenguaje Visual para tareas de detección, segmentación y análisis espacial.

Soporta: Claude Codex Code(CC)
🥉 74 Bronce
1

Descargar el ZIP de la skill

2

Subir en Claude

Ve a Configuración → Capacidades → Skills → Subir skill

3

Activa y empieza a usar

Pruébalo

Usando "computer-vision-expert". ¿Cómo configuro YOLO26 para detección de objetos en tiempo real en mi dispositivo edge?

Resultado esperado:

Para el despliegue de YOLO26 en edge, usa la arquitectura NMS-free que simplifica la exportación. Pasos clave:

1. **Selección del modelo**: Usa yolo26n para nano (más rápido) o yolo26s para small (mejor precisión)
2. **Comando de exportación**: `yolo export model=yolo26s format=onnx`
3. **Optimización TensorRT**: Convierte a TensorRT FP16 para 2x de velocidad en Jetson
4. **Inferencia**: Usa la API de inferencia simplificada sin post-procesamiento NMS

El diseño NMS-free reduce la latencia un 30% comparado con arquitecturas YOLO tradicionales.

Usando "computer-vision-expert". Usando SAM 3 para segmentación guiada por texto de objetos específicos

Resultado esperado:

La capacidad texto-a-máscara de SAM 3 permite segmentación usando lenguaje natural:

```python
from sam3 import SAM3Model

model = SAM3Model()
image = load_image('warehouse.jpg')
# Prompt de texto para segmentación
masks = model.text_to_mask(image, prompt='the blue container')
```

Esto elimina la necesidad de prompts manuales de puntos. SAM 3 logra 2x de precisión sobre SAM 2 al unificar detección, segmentación y seguimiento en un modelo.

Auditoría de seguridad

Seguro
v1 • 2/25/2026

All static findings are false positives. The scanner detected 'SAM' as Windows SAM database (actually Segment Anything Model), backticks as shell execution (actually skill name formatting), and misidentified cryptographic patterns. This is a legitimate computer vision expert skill with no security concerns.

1
Archivos escaneados
73
Líneas analizadas
4
hallazgos
1
Auditorías totales
Problemas de riesgo bajo (3)
External Commands Detection (False Positive)
Scanner detected 'Ruby/shell backtick execution' at line 72, but this is simply skill names in backticks (`ai-engineer`, `robotics-expert`). No actual shell execution present.
Windows SAM Database Detection (False Positive)
Scanner flagged 'Windows SAM database' at multiple lines, but 'SAM' here refers to Segment Anything Model (SAM 3), a Meta computer vision model, not the Windows Security Account Manager.
Weak Cryptographic Algorithm Detection (False Positive)
Scanner flagged 'weak cryptographic algorithm' at several lines, but there is no cryptographic functionality in this skill. Likely a pattern matching artifact.

Factores de riesgo

Auditado por: claude

Puntuación de calidad

38
Arquitectura
100
Mantenibilidad
87
Contenido
50
Comunidad
99
Seguridad
91
Cumplimiento de la especificación

Lo que puedes crear

Inspección de calidad industrial

Construir sistemas automatizados de inspección visual usando YOLO26 para detección rápida de defectos y SAM 3 para segmentación precisa de anomalías de productos en líneas de fabricación.

Navegación de robots autónomos

Crear pipelines de visión para robots móviles usando estimación de profundidad, SLAM visual y detección de objetos en tiempo real para navegación segura en entornos dinámicos.

Análisis de documentos y medios

Implementar sistemas impulsados por VLM para extraer datos estructurados de imágenes, diagramas y documentos visuales a través de groundin visual y respuesta a preguntas.

Prueba estos prompts

Configuración básica de detección de objetos
¿Cómo configuro YOLO26 para detección de objetos en tiempo real en mi dispositivo edge? Necesito detectar vehículos y peatones.
Segmentación guiada por texto
Necesito segmentar todas las instancias de 'el contenedor de envío rojo' en esta imagen usando SAM 3. ¿Cómo uso la característica texto-a-máscara?
Respuesta a preguntas visuales con VLM
Ayúdame a construir un pipeline usando Florence-2 para responder preguntas sobre imágenes. Quiero extraer datos estructurados de fotos de productos.
Estrategia de optimización para edge
¿Cuál es el mejor enfoque para optimizar un modelo YOLO26 para despliegue en un NVIDIA Jetson Orin? Necesito mantener la precisión mientras reduzco la latencia.

Mejores prácticas

  • Usa arquitecturas NMS-free como YOLO26 para menor latencia en aplicaciones en tiempo real
  • Combina YOLO26 para propuesta rápida de candidatos con SAM 3 para refinamiento preciso de máscaras
  • Usa prompts de texto descriptivos con SAM 3 (ej., 'el perno de 5mm' en lugar de 'perno')

Evitar

  • Usar post-procesamiento NMS manual en lugar de arquitecturas NMS-free
  • Depender de segmentación solo con clics en lugar de prompts guiados por texto con SAM 3
  • Usar pipelines de exportación legacy que no soportan la estructura de módulo simplificado de YOLO26

Preguntas frecuentes

¿Qué es YOLO26 y cómo difiere de versiones anteriores de YOLO?
YOLO26 es la última arquitectura YOLO con un diseño NMS-free que elimina el post-procesamiento de Supresión No Máxima. Esto reduce la latencia y la complejidad mientras mantiene alta precisión. También incluye reconocimiento mejorado de objetos pequeños a través de ProgLoss y asignación STAL.
¿Cómo funciona el texto-a-máscara de SAM 3?
SAM 3 puede segmentar objetos usando descripciones de lenguaje natural en lugar de prompts manuales de puntos. Proporcionas un prompt de texto como 'el contenedor azul a la derecha' y SAM 3 genera máscaras para objetos coincidentes usando su alineación visual-lenguaje integrada.
¿Puedo ejecutar SAM 3 en hardware de consumo?
SAM 3 requiere VRAM significativo. Para inferencia en GPU local, usa versiones cuantizadas o destiladas del modelo. Considera SAM 3 Mobile o SAM 3 Tiny para dispositivos edge con memoria limitada.
¿Qué son los Modelos de Lenguaje Visual y cuándo debo usarlos?
VLMs como Florence-2, PaliGemma 2 y Qwen2-VL combinan comprensión visual con razonamiento lingüístico. Úsalos cuando necesites responder preguntas sobre imágenes, extraer datos estructurados o realizar tareas de groundin visual.
¿Cómo optimizo YOLO26 para despliegue en edge?
Exporta YOLO26 a formato ONNX para compatibilidad amplia, luego convierte a TensorRT para dispositivos NVIDIA. Usa precisión FP16 para 2x de velocidad. La arquitectura NMS-free simplifica el proceso de exportación comparado con versiones anteriores de YOLO.
¿Cuál es la relación entre esta habilidad y Claude Code?
Esta habilidad funciona con Claude Code, Codex y Claude para ayudarte a diseñar, implementar y optimizar pipelines de visión por computadora. El asistente de IA usa esta experiencia para guiarte a través de tareas de desarrollo de sistemas de visión.

Detalles del desarrollador

Estructura de archivos

📄 SKILL.md