computer-vision-expert
Moderne Computer-Vision-Systeme mit SOTA-Modellen entwickeln
Der Aufbau moderner Computer-Vision-Systeme erfordert Fachwissen in mehreren SOTA-Modellen. Diese Kompetenz bietet Expertenberatung zu YOLO26, SAM 3 und Vision Language Models für Erkennungs-, Segmentierungs- und räumliche Analyseaufgaben.
Die Skill-ZIP herunterladen
In Claude hochladen
Gehe zu Einstellungen → Fähigkeiten → Skills → Skill hochladen
Einschalten und loslegen
Teste es
Verwendung von "computer-vision-expert". How do I set up YOLO26 for real-time object detection on my edge device?
Erwartetes Ergebnis:
Für YOLO26 Edge-Deployment verwenden Sie die NMS-freie Architektur, die den Export vereinfacht. Wichtige Schritte:
1. **Modellauswahl**: Verwenden Sie yolo26n für nano (schnellste) oder yolo26s für small (bessere Genauigkeit)
2. **Export-Befehl**: `yolo export model=yolo26s format=onnx`
3. **TensorRT-Optimierung**: Konvertieren Sie zu TensorRT FP16 für 2-fache Beschleunigung auf Jetson
4. **Inferenz**: Verwenden Sie die vereinfachte Inference-API ohne NMS-Nachbearbeitung
Das NMS-freie Design reduziert die Latenz um 30% im Vergleich zu traditionellen YOLO-Architekturen.
Verwendung von "computer-vision-expert". Using SAM 3 for text-guided segmentation of specific objects
Erwartetes Ergebnis:
Die Text-zu-Mask-Funktion von SAM 3 ermöglicht Segmentierung mittels natürlicher Sprache:
```python
from sam3 import SAM3Model
model = SAM3Model()
image = load_image('warehouse.jpg')
# Text prompt for segmentation
masks = model.text_to_mask(image, prompt='the blue container')
```
Dies eliminiert die Notwendigkeit manueller Punkt-Prompts. SAM 3 erreicht 2-fache Genauigkeit über SAM 2 durch die Vereinigung von Erkennung, Segmentierung und Tracking in einem Modell.
Sicherheitsaudit
SicherAll static findings are false positives. The scanner detected 'SAM' as Windows SAM database (actually Segment Anything Model), backticks as shell execution (actually skill name formatting), and misidentified cryptographic patterns. This is a legitimate computer vision expert skill with no security concerns.
Probleme mit niedrigem Risiko (3)
Risikofaktoren
⚙️ Externe Befehle (4)
Qualitätsbewertung
Was du bauen kannst
Industrielle Qualitätsprüfung
Erstellung automatisierter Sichtprüfungssysteme mit YOLO26 für schnelle Fehlererkennung und SAM 3 für präzise Segmentierung von Produktanomalien in Fertigungsstraßen.
Autonome Roboter-Navigation
Erstellung von Vision-Pipelines für mobile Roboter mit Tiefenschätzung, visuellem SLAM und Echtzeit-Objekterkennung für sichere Navigation in dynamischen Umgebungen.
Dokument- und Medienanalyse
Implementierung von VLM-gestützten Systemen zur Extraktion strukturierter Daten aus Bildern, Diagrammen und visuellen Dokumenten durch visuelle Groundung und Fragebeantwortung.
Probiere diese Prompts
Wie richte ich YOLO26 für Echtzeit-Objekterkennung auf meinem Edge-Gerät ein? Ich muss Fahrzeuge und Fußgänger erkennen.
Ich muss alle Instanzen von 'dem roten Versandcontainer' in diesem Bild mit SAM 3 segmentieren. Wie nutze ich die Text-zu-Mask-Funktion?
Helfen Sie mir beim Aufbau einer Pipeline mit Florence-2, um Fragen zu Bildern zu beantworten. Ich möchte strukturierte Daten aus Produktfotos extrahieren.
Was ist der beste Ansatz zur Optimierung eines YOLO26-Modells für Deployment auf einem NVIDIA Jetson Orin? Ich muss die Genauigkeit beibehalten und gleichzeitig die Latenz reduzieren.
Bewährte Verfahren
- Verwenden Sie NMS-freie Architekturen wie YOLO26 für niedrigere Latenz in Echtzeitanwendungen
- Kombinieren Sie YOLO26 für schnelle Kandidaten-Vorschläge mit SAM 3 für präzise Masken-Verfeinerung
- Verwenden Sie beschreibende Text-Prompts mit SAM 3 (z.B. 'die 5mm Schraube' anstelle von 'Schraube')
Vermeiden
- Verwendung manueller NMS-Nachbearbeitung anstelle von NMS-freien Architekturen
- Verlassens sich nur auf Klick-Segmentierung anstelle von textgesteuerten Prompts mit SAM 3
- Verwendung alter Export-Pipelines, die die vereinfachte Modulstruktur von YOLO26 nicht unterstützen
Häufig gestellte Fragen
Was ist YOLO26 und wie unterscheidet es sich von früheren YOLO-Versionen?
Wie funktioniert SAM 3 Text-zu-Mask?
Kann ich SAM 3 auf Consumer-Hardware ausführen?
Was sind Vision Language Models und wann sollte ich sie verwenden?
Wie optimiere ich YOLO26 für Edge-Deployment?
Was ist die Beziehung zwischen dieser Kompetenz und Claude Code?
Entwicklerdetails
Autor
sickn33Lizenz
MIT
Repository
https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/computer-vision-expertRef
main
Dateistruktur
📄 SKILL.md