Habilidades computer-vision-expert
📦

computer-vision-expert

Seguro ⚙️ Comandos externos

Construir Sistemas de Visão Computacional com Modelos SOTA

Construir sistemas modernos de visão computacional requer expertise em múltiplos modelos SOTA. Esta habilidade fornece orientação especializada sobre YOLO26, SAM 3 e Modelos de Linguagem Visual para tarefas de detecção, segmentação e análise espacial.

Suporta: Claude Codex Code(CC)
📊 71 Adequado
1

Baixar o ZIP da skill

2

Upload no Claude

Vá em Configurações → Capacidades → Skills → Upload skill

3

Ative e comece a usar

Testar

A utilizar "computer-vision-expert". Como configuro o YOLO26 para detecção de objetos em tempo real no meu dispositivo edge?

Resultado esperado:

Para deploy edge do YOLO26, use a arquitetura NMS-free que simplifica a exportação. Passos principais:

1. **Seleção do Modelo**: Use yolo26n para nano (mais rápido) ou yolo26s para small (melhor precisão)
2. **Comando de Exportação**: `yolo export model=yolo26s format=onnx`
3. **Otimização TensorRT**: Converta para TensorRT FP16 para 2x de velocidade no Jetson
4. **Inferência**: Use a API de inferência simplificada sem pós-processamento NMS

O design NMS-free reduz a latência em 30% comparado com arquiteturas YOLO tradicionais.

A utilizar "computer-vision-expert". Usando SAM 3 para segmentação guiada por texto de objetos específicos

Resultado esperado:

A capacidade texto-para-máscara do SAM 3 permite segmentação usando linguagem natural:

```python
from sam3 import SAM3Model

model = SAM3Model()
image = load_image('warehouse.jpg')
# Text prompt for segmentation
masks = model.text_to_mask(image, prompt='the blue container')
```

Isso elimina a necessidade de prompts manuais de pontos. O SAM 3 atinge 2x de precisão sobre o SAM 2 ao unificar detecção, segmentação e rastreamento em um modelo.

Auditoria de Segurança

Seguro
v1 • 2/25/2026

All static findings are false positives. The scanner detected 'SAM' as Windows SAM database (actually Segment Anything Model), backticks as shell execution (actually skill name formatting), and misidentified cryptographic patterns. This is a legitimate computer vision expert skill with no security concerns.

1
Arquivos analisados
73
Linhas analisadas
4
achados
1
Total de auditorias
Problemas de Baixo Risco (3)
External Commands Detection (False Positive)
Scanner detected 'Ruby/shell backtick execution' at line 72, but this is simply skill names in backticks (`ai-engineer`, `robotics-expert`). No actual shell execution present.
Windows SAM Database Detection (False Positive)
Scanner flagged 'Windows SAM database' at multiple lines, but 'SAM' here refers to Segment Anything Model (SAM 3), a Meta computer vision model, not the Windows Security Account Manager.
Weak Cryptographic Algorithm Detection (False Positive)
Scanner flagged 'weak cryptographic algorithm' at several lines, but there is no cryptographic functionality in this skill. Likely a pattern matching artifact.

Fatores de risco

Auditado por: claude

Pontuação de qualidade

38
Arquitetura
100
Manutenibilidade
87
Conteúdo
31
Comunidade
99
Segurança
91
Conformidade com especificações

O Que Você Pode Construir

Inspeção de Qualidade Industrial

Construir sistemas de inspeção visual automatizados usando YOLO26 para detecção rápida de defeitos e SAM 3 para segmentação precisa de anomalias de produtos em linhas de fabricação.

Navegação de Robôs Autônomos

Criar pipelines de visão para robôs móveis usando estimativa de profundidade, SLAM visual e detecção de objetos em tempo real para navegação segura em ambientes dinâmicos.

Análise de Documentos e Mídia

Implementar sistemas alimentados por VLM para extração de dados estruturados de imagens, diagramas e documentos visuais através de grounding visual e resposta a perguntas.

Tente Estes Prompts

Configuração Básica de Detecção de Objetos
Como configuro o YOLO26 para detecção de objetos em tempo real no meu dispositivo edge? Preciso detectar veículos e pedestres.
Segmentação Guiada por Texto
Preciso segmentar todas as instâncias de 'o container de envío vermelho' nesta imagem usando SAM 3. Como uso o recurso texto-para-máscara?
Resposta a Perguntas Visuais com VLM
Ajude-me a construir um pipeline usando Florence-2 para responder perguntas sobre imagens. Quero extrair dados estruturados de fotos de produtos.
Estratégia de Otimização Edge
Qual é a melhor abordagem para otimizar um modelo YOLO26 para deploy em um NVIDIA Jetson Orin? Preciso manter a precisão enquanto reduzo a latência.

Melhores Práticas

  • Use arquiteturas NMS-free como YOLO26 para menor latência em aplicações em tempo real
  • Combine YOLO26 para proposta rápida de candidatos com SAM 3 para refinamento preciso de máscaras
  • Use prompts de texto descritivos com SAM 3 (ex: 'o parafuso de 5mm' em vez de 'parafuso')

Evitar

  • Usar pós-processamento NMS manual em vez de arquiteturas NMS-free
  • Depender de segmentação apenas com cliques em vez de prompts guiados por texto com SAM 3
  • Usar pipelines de exportação legados que não suportam a estrutura de módulo simplificado do YOLO26

Perguntas Frequentes

O que é YOLO26 e como difere das versões anteriores do YOLO?
YOLO26 é a arquitetura YOLO mais recente apresentando um design NMS-free que elimina o pós-processamento de Supressão Não Máxima. Isso reduz latência e complexidade enquanto mantém alta precisão. Também inclui reconhecimento mejorado de objetos pequenos através de ProgLoss e atribuição STAL.
Como funciona o texto-para-máscara do SAM 3?
SAM 3 pode segmentar objetos usando descrições em linguagem natural em vez de prompts manuais de pontos. Você fornece um prompt de texto como 'o container azul à direita' e o SAM 3 gera máscaras para objetos correspondentes usando seu alinhamento visual-linguístico integrado.
Posso rodar SAM 3 em hardware de consumidor?
SAM 3 requer VRAM significativo. Para inferência em GPU local, use versões quantizadas ou destiladas do modelo. Considere SAM 3 Mobile ou SAM 3 Tiny para dispositivos edge com memória limitada.
O que são Modelos de Linguagem Visual e quando devo usá-los?
VLMs como Florence-2, PaliGemma 2 e Qwen2-VL combinam compreensão visual com raciocínio linguístico. Use-os quando precisar responder perguntas sobre imagens, extrair dados estruturados ou realizar tarefas de grounding visual.
Como otimizo YOLO26 para deploy em edge?
Exporte YOLO26 para formato ONNX para compatibilidade ampla, depois converta para TensorRT para dispositivos NVIDIA. Use precisão FP16 para 2x de velocidade. A arquitetura NMS-free simplifica o processo de exportação comparado com versões mais antigas do YOLO.
Qual é a relação entre esta habilidade e Claude Code?
Esta habilidade funciona com Claude Code, Codex e Claude para ajudá-lo a projetar, implementar e otimizar pipelines de visão computacional. O assistente de IA usa essa expertise para guiá-lo através de tarefas de desenvolvimento de sistemas de visão.

Detalhes do Desenvolvedor

Estrutura de arquivos

📄 SKILL.md