Fähigkeiten computer-vision-expert
📦

computer-vision-expert

Sicher ⚙️ Externe Befehle

Moderne Computer-Vision-Systeme mit SOTA-Modellen entwickeln

Der Aufbau moderner Computer-Vision-Systeme erfordert Fachwissen in mehreren SOTA-Modellen. Diese Kompetenz bietet Expertenberatung zu YOLO26, SAM 3 und Vision Language Models für Erkennungs-, Segmentierungs- und räumliche Analyseaufgaben.

Unterstützt: Claude Codex Code(CC)
🥉 74 Bronze
1

Die Skill-ZIP herunterladen

2

In Claude hochladen

Gehe zu Einstellungen → Fähigkeiten → Skills → Skill hochladen

3

Einschalten und loslegen

Teste es

Verwendung von "computer-vision-expert". How do I set up YOLO26 for real-time object detection on my edge device?

Erwartetes Ergebnis:

Für YOLO26 Edge-Deployment verwenden Sie die NMS-freie Architektur, die den Export vereinfacht. Wichtige Schritte:

1. **Modellauswahl**: Verwenden Sie yolo26n für nano (schnellste) oder yolo26s für small (bessere Genauigkeit)
2. **Export-Befehl**: `yolo export model=yolo26s format=onnx`
3. **TensorRT-Optimierung**: Konvertieren Sie zu TensorRT FP16 für 2-fache Beschleunigung auf Jetson
4. **Inferenz**: Verwenden Sie die vereinfachte Inference-API ohne NMS-Nachbearbeitung

Das NMS-freie Design reduziert die Latenz um 30% im Vergleich zu traditionellen YOLO-Architekturen.

Verwendung von "computer-vision-expert". Using SAM 3 for text-guided segmentation of specific objects

Erwartetes Ergebnis:

Die Text-zu-Mask-Funktion von SAM 3 ermöglicht Segmentierung mittels natürlicher Sprache:

```python
from sam3 import SAM3Model

model = SAM3Model()
image = load_image('warehouse.jpg')
# Text prompt for segmentation
masks = model.text_to_mask(image, prompt='the blue container')
```

Dies eliminiert die Notwendigkeit manueller Punkt-Prompts. SAM 3 erreicht 2-fache Genauigkeit über SAM 2 durch die Vereinigung von Erkennung, Segmentierung und Tracking in einem Modell.

Sicherheitsaudit

Sicher
v1 • 2/25/2026

All static findings are false positives. The scanner detected 'SAM' as Windows SAM database (actually Segment Anything Model), backticks as shell execution (actually skill name formatting), and misidentified cryptographic patterns. This is a legitimate computer vision expert skill with no security concerns.

1
Gescannte Dateien
73
Analysierte Zeilen
4
befunde
1
Gesamtzahl Audits
Probleme mit niedrigem Risiko (3)
External Commands Detection (False Positive)
Scanner detected 'Ruby/shell backtick execution' at line 72, but this is simply skill names in backticks (`ai-engineer`, `robotics-expert`). No actual shell execution present.
Windows SAM Database Detection (False Positive)
Scanner flagged 'Windows SAM database' at multiple lines, but 'SAM' here refers to Segment Anything Model (SAM 3), a Meta computer vision model, not the Windows Security Account Manager.
Weak Cryptographic Algorithm Detection (False Positive)
Scanner flagged 'weak cryptographic algorithm' at several lines, but there is no cryptographic functionality in this skill. Likely a pattern matching artifact.

Risikofaktoren

Auditiert von: claude

Qualitätsbewertung

38
Architektur
100
Wartbarkeit
87
Inhalt
50
Community
99
Sicherheit
91
Spezifikationskonformität

Was du bauen kannst

Industrielle Qualitätsprüfung

Erstellung automatisierter Sichtprüfungssysteme mit YOLO26 für schnelle Fehlererkennung und SAM 3 für präzise Segmentierung von Produktanomalien in Fertigungsstraßen.

Autonome Roboter-Navigation

Erstellung von Vision-Pipelines für mobile Roboter mit Tiefenschätzung, visuellem SLAM und Echtzeit-Objekterkennung für sichere Navigation in dynamischen Umgebungen.

Dokument- und Medienanalyse

Implementierung von VLM-gestützten Systemen zur Extraktion strukturierter Daten aus Bildern, Diagrammen und visuellen Dokumenten durch visuelle Groundung und Fragebeantwortung.

Probiere diese Prompts

Grundlegende Objekterkennung-Einrichtung
Wie richte ich YOLO26 für Echtzeit-Objekterkennung auf meinem Edge-Gerät ein? Ich muss Fahrzeuge und Fußgänger erkennen.
Textgesteuerte Segmentierung
Ich muss alle Instanzen von 'dem roten Versandcontainer' in diesem Bild mit SAM 3 segmentieren. Wie nutze ich die Text-zu-Mask-Funktion?
VLM visuelle Fragebeantwortung
Helfen Sie mir beim Aufbau einer Pipeline mit Florence-2, um Fragen zu Bildern zu beantworten. Ich möchte strukturierte Daten aus Produktfotos extrahieren.
Edge-Optimierungsstrategie
Was ist der beste Ansatz zur Optimierung eines YOLO26-Modells für Deployment auf einem NVIDIA Jetson Orin? Ich muss die Genauigkeit beibehalten und gleichzeitig die Latenz reduzieren.

Bewährte Verfahren

  • Verwenden Sie NMS-freie Architekturen wie YOLO26 für niedrigere Latenz in Echtzeitanwendungen
  • Kombinieren Sie YOLO26 für schnelle Kandidaten-Vorschläge mit SAM 3 für präzise Masken-Verfeinerung
  • Verwenden Sie beschreibende Text-Prompts mit SAM 3 (z.B. 'die 5mm Schraube' anstelle von 'Schraube')

Vermeiden

  • Verwendung manueller NMS-Nachbearbeitung anstelle von NMS-freien Architekturen
  • Verlassens sich nur auf Klick-Segmentierung anstelle von textgesteuerten Prompts mit SAM 3
  • Verwendung alter Export-Pipelines, die die vereinfachte Modulstruktur von YOLO26 nicht unterstützen

Häufig gestellte Fragen

Was ist YOLO26 und wie unterscheidet es sich von früheren YOLO-Versionen?
YOLO26 ist die neueste YOLO-Architektur mit einem NMS-freien Design, das die Non-Maximum Suppression Nachbearbeitung eliminiert. Dies reduziert Latenz und Komplexität bei gleichzeitiger Beibehaltung hoher Genauigkeit. Sie umfasst außerdem verbesserte Kleinerkennung durch ProgLoss und STAL-Zuweisung.
Wie funktioniert SAM 3 Text-zu-Mask?
SAM 3 kann Objekte mittels natürlicher Sprachbeschreibungen anstelle manueller Punkt-Prompts segmentieren. Sie geben einen Text-Prompt wie 'der blaue Container rechts' ein und SAM 3 generiert Masken für passende Objekte mittels seiner integrierten visuell-sprachlichen Ausrichtung.
Kann ich SAM 3 auf Consumer-Hardware ausführen?
SAM 3 erfordert erheblichen VRAM. Verwenden Sie für lokale GPU-Inferenz quantisierte oder destillierte Versionen des Modells. Erwägen Sie SAM 3 Mobile oder SAM 3 Tiny für Edge-Geräte mit begrenztem Speicher.
Was sind Vision Language Models und wann sollte ich sie verwenden?
VLMs wie Florence-2, PaliGemma 2 und Qwen2-VL kombinieren visuelle Verständnis mit sprachlichem Schließen. Verwenden Sie sie, wenn Sie Fragen zu Bildern beantworten, strukturierte Daten extrahieren oder visuelle Grounding-Aufgaben durchführen müssen.
Wie optimiere ich YOLO26 für Edge-Deployment?
Exportieren Sie YOLO26 im ONNX-Format für breite Kompatibilität, dann konvertieren Sie zu TensorRT für NVIDIA-Geräte. Verwenden Sie FP16-Präzision für 2-fache Beschleunigung. Die NMS-freie Architektur vereinfacht den Export-Prozess im Vergleich zu älteren YOLO-Versionen.
Was ist die Beziehung zwischen dieser Kompetenz und Claude Code?
Diese Kompetenz funktioniert mit Claude Code, Codex und Claude, um Ihnen beim Designen, Implementieren und Optimieren von Computer-Vision-Pipelines zu helfen. Der KI-Assistent nutzt dieses Fachwissen, um Sie durch Aufgaben der Vision-Systementwicklung zu führen.

Entwicklerdetails

Dateistruktur

📄 SKILL.md