computer-vision-expert
Construir Sistemas de Visão Computacional com Modelos SOTA
Construir sistemas modernos de visão computacional requer expertise em múltiplos modelos SOTA. Esta habilidade fornece orientação especializada sobre YOLO26, SAM 3 e Modelos de Linguagem Visual para tarefas de detecção, segmentação e análise espacial.
Baixar o ZIP da skill
Upload no Claude
Vá em Configurações → Capacidades → Skills → Upload skill
Ative e comece a usar
Testar
A utilizar "computer-vision-expert". Como configuro o YOLO26 para detecção de objetos em tempo real no meu dispositivo edge?
Resultado esperado:
Para deploy edge do YOLO26, use a arquitetura NMS-free que simplifica a exportação. Passos principais:
1. **Seleção do Modelo**: Use yolo26n para nano (mais rápido) ou yolo26s para small (melhor precisão)
2. **Comando de Exportação**: `yolo export model=yolo26s format=onnx`
3. **Otimização TensorRT**: Converta para TensorRT FP16 para 2x de velocidade no Jetson
4. **Inferência**: Use a API de inferência simplificada sem pós-processamento NMS
O design NMS-free reduz a latência em 30% comparado com arquiteturas YOLO tradicionais.
A utilizar "computer-vision-expert". Usando SAM 3 para segmentação guiada por texto de objetos específicos
Resultado esperado:
A capacidade texto-para-máscara do SAM 3 permite segmentação usando linguagem natural:
```python
from sam3 import SAM3Model
model = SAM3Model()
image = load_image('warehouse.jpg')
# Text prompt for segmentation
masks = model.text_to_mask(image, prompt='the blue container')
```
Isso elimina a necessidade de prompts manuais de pontos. O SAM 3 atinge 2x de precisão sobre o SAM 2 ao unificar detecção, segmentação e rastreamento em um modelo.
Auditoria de Segurança
SeguroAll static findings are false positives. The scanner detected 'SAM' as Windows SAM database (actually Segment Anything Model), backticks as shell execution (actually skill name formatting), and misidentified cryptographic patterns. This is a legitimate computer vision expert skill with no security concerns.
Problemas de Baixo Risco (3)
Fatores de risco
⚙️ Comandos externos (4)
Pontuação de qualidade
O Que Você Pode Construir
Inspeção de Qualidade Industrial
Construir sistemas de inspeção visual automatizados usando YOLO26 para detecção rápida de defeitos e SAM 3 para segmentação precisa de anomalias de produtos em linhas de fabricação.
Navegação de Robôs Autônomos
Criar pipelines de visão para robôs móveis usando estimativa de profundidade, SLAM visual e detecção de objetos em tempo real para navegação segura em ambientes dinâmicos.
Análise de Documentos e Mídia
Implementar sistemas alimentados por VLM para extração de dados estruturados de imagens, diagramas e documentos visuais através de grounding visual e resposta a perguntas.
Tente Estes Prompts
Como configuro o YOLO26 para detecção de objetos em tempo real no meu dispositivo edge? Preciso detectar veículos e pedestres.
Preciso segmentar todas as instâncias de 'o container de envío vermelho' nesta imagem usando SAM 3. Como uso o recurso texto-para-máscara?
Ajude-me a construir um pipeline usando Florence-2 para responder perguntas sobre imagens. Quero extrair dados estruturados de fotos de produtos.
Qual é a melhor abordagem para otimizar um modelo YOLO26 para deploy em um NVIDIA Jetson Orin? Preciso manter a precisão enquanto reduzo a latência.
Melhores Práticas
- Use arquiteturas NMS-free como YOLO26 para menor latência em aplicações em tempo real
- Combine YOLO26 para proposta rápida de candidatos com SAM 3 para refinamento preciso de máscaras
- Use prompts de texto descritivos com SAM 3 (ex: 'o parafuso de 5mm' em vez de 'parafuso')
Evitar
- Usar pós-processamento NMS manual em vez de arquiteturas NMS-free
- Depender de segmentação apenas com cliques em vez de prompts guiados por texto com SAM 3
- Usar pipelines de exportação legados que não suportam a estrutura de módulo simplificado do YOLO26
Perguntas Frequentes
O que é YOLO26 e como difere das versões anteriores do YOLO?
Como funciona o texto-para-máscara do SAM 3?
Posso rodar SAM 3 em hardware de consumidor?
O que são Modelos de Linguagem Visual e quando devo usá-los?
Como otimizo YOLO26 para deploy em edge?
Qual é a relação entre esta habilidade e Claude Code?
Detalhes do Desenvolvedor
Autor
sickn33Licença
MIT
Repositório
https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/computer-vision-expertReferência
main
Estrutura de arquivos
📄 SKILL.md