المهارات computer-vision-expert

📦

computer-vision-expert

Name: computer-vision-expert
Author: sickn33

آمن ⚙️ الأوامر الخارجية

بناء أنظمة الرؤية الحاسوبية باستخدام نماذج متقدمة

يتطلب بناء أنظمة الرؤية الحاسوبية الحديثة خبرة في عدة نماذج متقدمة. يوفر هذا الدليل إرشادات متخصصة حول YOLO26 وSAM 3 ونماذج اللغة المرئية لمهام الكشف والتجميع والتحليل المكاني.

يدعم: Claude Codex Code(CC)

📊 70 كافٍ

تنزيل ZIP المهارة

رفع في Claude

اذهب إلى Settings → Capabilities → Skills → Upload skill

فعّل وابدأ الاستخدام

اختبرها

استخدام "computer-vision-expert". 如何在边缘设备上设置YOLO26进行实时物体检测？

النتيجة المتوقعة:

对于YOLO26边缘部署，使用无需NMS的架构可简化导出。关键步骤：

1. **模型选择**：使用yolo26n用于nano（最快）或yolo26s用于small（更好的准确性）
2. **导出命令**：`yolo export model=yolo26s format=onnx`
3. **TensorRT优化**：转换为TensorRT FP16以在Jetson上实现2倍加速
4. **推理**：使用简化的推理API，无需NMS后处理

无需NMS的设计将延迟降低30%，相比传统YOLO架构。

استخدام "computer-vision-expert". 使用SAM 3进行特定物体的文本引导分割

النتيجة المتوقعة:

SAM 3的文本到掩码功能允许使用自然语言描述进行分割：

```python
from sam3 import SAM3Model

model = SAM3Model()
image = load_image('warehouse.jpg')
# 文本提示用于分割
masks = model.text_to_mask(image, prompt='the blue container')
```

这消除了手动点提示的需要。SAM 3通过在一个模型中统一检测、分割和跟踪，实现了比SAM 2高2倍的准确性。

التدقيق الأمني

آمن

v1 • 2/25/2026

All static findings are false positives. The scanner detected 'SAM' as Windows SAM database (actually Segment Anything Model), backticks as shell execution (actually skill name formatting), and misidentified cryptographic patterns. This is a legitimate computer vision expert skill with no security concerns.

الملفات التي تم فحصها

الأسطر التي تم تحليلها

النتائج

إجمالي عمليات التدقيق

مشكلات منخفضة المخاطر (3)

SKILL.md:72

External Commands Detection (False Positive)

Scanner detected 'Ruby/shell backtick execution' at line 72, but this is simply skill names in backticks (`ai-engineer`, `robotics-expert`). No actual shell execution present.

SKILL.md:3 SKILL.md:13 SKILL.md:17 SKILL.md:29 SKILL.md:31 SKILL.md:32 SKILL.md:46 SKILL.md:47 SKILL.md:59 SKILL.md:66 SKILL.md:68

Windows SAM Database Detection (False Positive)

Scanner flagged 'Windows SAM database' at multiple lines, but 'SAM' here refers to Segment Anything Model (SAM 3), a Meta computer vision model, not the Windows Security Account Manager.

SKILL.md:3 SKILL.md:13 SKILL.md:16 SKILL.md:30 SKILL.md:49 SKILL.md:67

Weak Cryptographic Algorithm Detection (False Positive)

Scanner flagged 'weak cryptographic algorithm' at several lines, but there is no cryptographic functionality in this skill. Likely a pattern matching artifact.

عوامل الخطر

⚙️ الأوامر الخارجية (4)

SKILL.md:72 SKILL.md:72 SKILL.md:72 SKILL.md:72

تم تدقيقه بواسطة: claude

درجة الجودة

الهندسة المعمارية

100

قابلية الصيانة

المحتوى

المجتمع

الأمان

الامتثال للمواصفات

ماذا يمكنك بناءه

Industrial Quality Inspection

使用YOLO26构建自动视觉检测系统以快速检测缺陷，并使用SAM 3精确分割生产线上的产品异常。

Autonomous Robot Navigation

为移动机器人创建视觉管道，使用深度估计、视觉SLAM和实时物体检测，在动态环境中实现安全导航。

Document and Media Analysis

实施VLM驱动的系统，通过视觉基础定位和问答从图像、图表和视觉文档中提取结构化数据。

جرّب هذه الموجهات

Basic Object Detection Setup

如何在边缘设备上设置YOLO26进行实时物体检测？我需要检测车辆和行人。

Text-Guided Segmentation

我需要使用SAM 3在此图像中分割所有“红色集装箱”的实例。如何使用文本到掩码功能？

VLM Visual Question Answering

帮助我构建使用Florence-2的管道来回答有关图像的问题。我想从产品照片中提取结构化数据。

Edge Optimization Strategy

优化YOLO26模型以部署在NVIDIA Jetson Orin上的最佳方法是什么？我需要在降低延迟的同时保持准确性。

أفضل الممارسات

在实时应用程序中使用YOLO26等无需NMS的架构以降低延迟
结合使用YOLO26进行快速候选提议，使用SAM 3进行精确掩码细化
使用描述性文本提示与SAM 3（例如，使用“5毫米螺栓”而不是“螺栓”）

تجنب

使用手动NMS后处理而不是无需NMS的架构
依赖仅点击分割而不是使用SAM 3的文本引导提示
使用不支持YOLO26简化模块结构的旧导出管道

الأسئلة المتكررة

什么是YOLO26？它与以前的YOLO版本有何不同？

YOLO26是最新的YOLO架构，具有无需NMS的设计，消除了非最大抑制后处理。这降低了延迟和复杂性，同时保持了高准确性。它还包括通过ProgLoss和STAL分配改进的小物体识别。

SAM 3文本到掩码如何工作？

SAM 3可以使用自然语言描述而不是手动点提示来分割物体。您提供类似“右边的蓝色集装箱”的文本提示，SAM 3使用其内置的视觉语言对齐为匹配物体生成掩码。

我可以在消费级硬件上运行SAM 3吗？

SAM 3需要大量VRAM。对于本地GPU推理，请使用模型的量化或蒸馏版本。考虑为内存有限的边缘设备使用SAM 3 Mobile或SAM 3 Tiny。

什么是视觉语言模型？我应该何时使用它们？

VLMs如Florence-2、PaliGemma 2和Qwen2-VL将视觉理解与语言推理相结合。当您需要回答有关图像的问题、提取结构化数据或执行视觉基础定位任务时，请使用它们。

如何优化YOLO26进行边缘部署？

将YOLO26导出为ONNX格式以获得广泛兼容性，然后转换为TensorRT用于NVIDIA设备。使用FP16精度实现2倍加速。与旧版YOLO版本相比，无需NMS的架构简化了导出过程。

此技能与Claude Code之间的关系是什么？

此技能适用于Claude Code、Codex和Claude，帮助您设计、实施和优化计算机视觉管道。AI助手使用此专业知识引导您完成视觉系统开发任务。

تفاصيل المطور

المؤلف

sickn33

الترخيص

MIT

المستودع

https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/computer-vision-expert

مرجع

main

بنية الملفات

📄 SKILL.md