computer-vision-expert
使用先进模型构建计算机视觉系统
构建现代计算机视觉系统需要掌握多种先进模型。本技能为检测、分割和空间分析任务提供关于 YOLO26、SAM 3 和视觉语言模型的专业指导。
下载技能 ZIP
在 Claude 中上传
前往 设置 → 功能 → 技能 → 上传技能
开启并开始使用
测试它
正在使用“computer-vision-expert”。 如何在边缘设备上设置 YOLO26 进行实时目标检测?
预期结果:
对于 YOLO26 边缘部署,使用无 NMS 架构可简化导出。关键步骤:
1. **模型选择**:使用 yolo26n(最快)或 yolo26s(更好的准确性)
2. **导出命令**:`yolo export model=yolo26s format=onnx`
3. **TensorRT 优化**:转换为 TensorRT FP16 可在 Jetson 上获得 2 倍加速
4. **推理**:使用简化的推理 API,无需 NMS 后处理
与传统 YOLO 架构相比,无 NMS 设计可将延迟降低 30%。
正在使用“computer-vision-expert”。 使用 SAM 3 进行特定对象的文本引导分割
预期结果:
SAM 3 的文本到掩码功能允许使用自然语言进行分割:
```python
from sam3 import SAM3Model
model = SAM3Model()
image = load_image('warehouse.jpg')
# 文本提示进行分割
masks = model.text_to_mask(image, prompt='蓝色集装箱')
```
这消除了对手动点提示的需求。SAM 3 通过将检测、分割和跟踪统一到一个模型中,实现了比 SAM 2 高 2 倍的准确性。
安全审计
安全All static findings are false positives. The scanner detected 'SAM' as Windows SAM database (actually Segment Anything Model), backticks as shell execution (actually skill name formatting), and misidentified cryptographic patterns. This is a legitimate computer vision expert skill with no security concerns.
低风险问题 (3)
风险因素
⚙️ 外部命令 (4)
质量评分
你能构建什么
工业质量检测
使用 YOLO26 进行快速缺陷检测,使用 SAM 3 对生产线上的产品异常进行精确分割,构建自动化视觉检测系统。
自主机器人导航
使用深度估计、视觉 SLAM 和实时目标检测为移动机器人创建视觉流水线,实现动态环境中的安全导航。
文档和媒体分析
通过视觉定位和问答实现 VLM 驱动的系统,从图像、图表和视觉文档中提取结构化数据。
试试这些提示
如何在边缘设备上设置 YOLO26 进行实时目标检测?我需要检测车辆和行人。
我需要使用 SAM 3 分割图像中所有'红色集装箱'的实例。如何使用文本到掩码功能?
帮助我使用 Florence-2 构建一个回答图像问题的流水线。我想从产品照片中提取结构化数据。
在 NVIDIA Jetson Orin 上优化 YOLO26 模型进行部署的最佳方法是什么?我需要在保持准确性的同时降低延迟。
最佳实践
- 在实时应用中使用无 NMS 架构(如 YOLO26)以降低延迟
- 结合使用 YOLO26 进行快速候选提议与 SAM 3 进行精确掩码优化
- 使用描述性文本提示与 SAM 3(例如使用'5mm 螺栓'而不是'螺栓')
避免
- 使用手动 NMS 后处理而不是无 NMS 架构
- 依赖仅点击分割而不是使用 SAM 3 的文本引导提示
- 使用不支持 YOLO26 简化模块结构的传统导出流水线