Compétences computer-vision-expert
📦

computer-vision-expert

Sûr ⚙️ Commandes externes

Construir Sistemas de Visão Computacional com Modelos SOTA

Construir sistemas modernos de visão computacional requer expertise em múltiplos modelos SOTA. Esta habilidade fornece orientação especializada sobre YOLO26, SAM 3 e Modelos de Linguagem Visual para tarefas de detecção, segmentação e análise espacial.

Prend en charge: Claude Codex Code(CC)
🥉 74 Bronze
1

Télécharger le ZIP du skill

2

Importer dans Claude

Allez dans Paramètres → Capacités → Skills → Importer un skill

3

Activez et commencez à utiliser

Tester

Utilisation de "computer-vision-expert". Como configuro o YOLO26 para detecção de objetos em tempo real no meu dispositivo edge?

Résultat attendu:

Para deploy edge do YOLO26, use a arquitetura NMS-free que simplifica a exportação. Passos principais:

1. **Seleção do Modelo**: Use yolo26n para nano (mais rápido) ou yolo26s para small (melhor precisão)
2. **Comando de Exportação**: `yolo export model=yolo26s format=onnx`
3. **Otimização TensorRT**: Converta para TensorRT FP16 para 2x de velocidade no Jetson
4. **Inferência**: Use a API de inferência simplificada sem pós-processamento NMS

O design NMS-free reduz a latência em 30% comparado com arquiteturas YOLO tradicionais.

Utilisation de "computer-vision-expert". Usando SAM 3 para segmentação guiada por texto de objetos específicos

Résultat attendu:

A capacidade texto-para-máscara do SAM 3 permite segmentação usando linguagem natural:

```python
from sam3 import SAM3Model

model = SAM3Model()
image = load_image('warehouse.jpg')
# Text prompt for segmentation
masks = model.text_to_mask(image, prompt='the blue container')
```

Isso elimina a necessidade de prompts manuais de pontos. O SAM 3 atinge 2x de precisão sobre o SAM 2 ao unificar detecção, segmentação e rastreamento em um modelo.

Audit de sécurité

Sûr
v1 • 2/25/2026

All static findings are false positives. The scanner detected 'SAM' as Windows SAM database (actually Segment Anything Model), backticks as shell execution (actually skill name formatting), and misidentified cryptographic patterns. This is a legitimate computer vision expert skill with no security concerns.

1
Fichiers analysés
73
Lignes analysées
4
résultats
1
Total des audits
Problèmes à risque faible (3)
External Commands Detection (False Positive)
Scanner detected 'Ruby/shell backtick execution' at line 72, but this is simply skill names in backticks (`ai-engineer`, `robotics-expert`). No actual shell execution present.
Windows SAM Database Detection (False Positive)
Scanner flagged 'Windows SAM database' at multiple lines, but 'SAM' here refers to Segment Anything Model (SAM 3), a Meta computer vision model, not the Windows Security Account Manager.
Weak Cryptographic Algorithm Detection (False Positive)
Scanner flagged 'weak cryptographic algorithm' at several lines, but there is no cryptographic functionality in this skill. Likely a pattern matching artifact.

Facteurs de risque

Audité par: claude

Score de qualité

38
Architecture
100
Maintenabilité
87
Contenu
50
Communauté
99
Sécurité
91
Conformité aux spécifications

Ce que vous pouvez construire

Inspeção de Qualidade Industrial

Construir sistemas de inspeção visual automatizados usando YOLO26 para detecção rápida de defeitos e SAM 3 para segmentação precisa de anomalias de produtos em linhas de fabricação.

Navegação de Robôs Autônomos

Criar pipelines de visão para robôs móveis usando estimativa de profundidade, SLAM visual e detecção de objetos em tempo real para navegação segura em ambientes dinâmicos.

Análise de Documentos e Mídia

Implementar sistemas alimentados por VLM para extração de dados estruturados de imagens, diagramas e documentos visuais através de grounding visual e resposta a perguntas.

Essayez ces prompts

Configuração Básica de Detecção de Objetos
Como configuro o YOLO26 para detecção de objetos em tempo real no meu dispositivo edge? Preciso detectar veículos e pedestres.
Segmentação Guiada por Texto
Preciso segmentar todas as instâncias de 'o container de envío vermelho' nesta imagem usando SAM 3. Como uso o recurso texto-para-máscara?
Resposta a Perguntas Visuais com VLM
Ajude-me a construir um pipeline usando Florence-2 para responder perguntas sobre imagens. Quero extrair dados estruturados de fotos de produtos.
Estratégia de Otimização Edge
Qual é a melhor abordagem para otimizar um modelo YOLO26 para deploy em um NVIDIA Jetson Orin? Preciso manter a precisão enquanto reduzo a latência.

Bonnes pratiques

  • Use arquiteturas NMS-free como YOLO26 para menor latência em aplicações em tempo real
  • Combine YOLO26 para proposta rápida de candidatos com SAM 3 para refinamento preciso de máscaras
  • Use prompts de texto descritivos com SAM 3 (ex: 'o parafuso de 5mm' em vez de 'parafuso')

Éviter

  • Usar pós-processamento NMS manual em vez de arquiteturas NMS-free
  • Depender de segmentação apenas com cliques em vez de prompts guiados por texto com SAM 3
  • Usar pipelines de exportação legados que não suportam a estrutura de módulo simplificado do YOLO26

Foire aux questions

O que é YOLO26 e como difere das versões anteriores do YOLO?
YOLO26 é a arquitetura YOLO mais recente apresentando um design NMS-free que elimina o pós-processamento de Supressão Não Máxima. Isso reduz latência e complexidade enquanto mantém alta precisão. Também inclui reconhecimento mejorado de objetos pequenos através de ProgLoss e atribuição STAL.
Como funciona o texto-para-máscara do SAM 3?
SAM 3 pode segmentar objetos usando descrições em linguagem natural em vez de prompts manuais de pontos. Você fornece um prompt de texto como 'o container azul à direita' e o SAM 3 gera máscaras para objetos correspondentes usando seu alinhamento visual-linguístico integrado.
Posso rodar SAM 3 em hardware de consumidor?
SAM 3 requer VRAM significativo. Para inferência em GPU local, use versões quantizadas ou destiladas do modelo. Considere SAM 3 Mobile ou SAM 3 Tiny para dispositivos edge com memória limitada.
O que são Modelos de Linguagem Visual e quando devo usá-los?
VLMs como Florence-2, PaliGemma 2 e Qwen2-VL combinam compreensão visual com raciocínio linguístico. Use-os quando precisar responder perguntas sobre imagens, extrair dados estruturados ou realizar tarefas de grounding visual.
Como otimizo YOLO26 para deploy em edge?
Exporte YOLO26 para formato ONNX para compatibilidade ampla, depois converta para TensorRT para dispositivos NVIDIA. Use precisão FP16 para 2x de velocidade. A arquitetura NMS-free simplifica o processo de exportação comparado com versões mais antigas do YOLO.
Qual é a relação entre esta habilidade e Claude Code?
Esta habilidade funciona com Claude Code, Codex e Claude para ajudá-lo a projetar, implementar e otimizar pipelines de visão computacional. O assistente de IA usa essa expertise para guiá-lo através de tarefas de desenvolvimento de sistemas de visão.

Détails du développeur

Structure de fichiers

📄 SKILL.md