技能 computer-vision-expert

📦

computer-vision-expert

Name: computer-vision-expert
Author: sickn33

安全 ⚙️ 外部命令

使用先进模型构建计算机视觉系统

构建现代计算机视觉系统需要掌握多种先进模型。本技能为检测、分割和空间分析任务提供关于 YOLO26、SAM 3 和视觉语言模型的专业指导。

支持: Claude Codex Code(CC)

🥉 74 青铜

下载技能 ZIP

在 Claude 中上传

前往设置 → 功能 → 技能 → 上传技能

开启并开始使用

测试它

正在使用“computer-vision-expert”。如何在边缘设备上设置 YOLO26 进行实时目标检测？

预期结果:

对于 YOLO26 边缘部署，使用无 NMS 架构可简化导出。关键步骤：

1. **模型选择**：使用 yolo26n（最快）或 yolo26s（更好的准确性）
2. **导出命令**：`yolo export model=yolo26s format=onnx`
3. **TensorRT 优化**：转换为 TensorRT FP16 可在 Jetson 上获得 2 倍加速
4. **推理**：使用简化的推理 API，无需 NMS 后处理

与传统 YOLO 架构相比，无 NMS 设计可将延迟降低 30%。

正在使用“computer-vision-expert”。使用 SAM 3 进行特定对象的文本引导分割

预期结果:

SAM 3 的文本到掩码功能允许使用自然语言进行分割：

```python
from sam3 import SAM3Model

model = SAM3Model()
image = load_image('warehouse.jpg')
# 文本提示进行分割
masks = model.text_to_mask(image, prompt='蓝色集装箱')
```

这消除了对手动点提示的需求。SAM 3 通过将检测、分割和跟踪统一到一个模型中，实现了比 SAM 2 高 2 倍的准确性。

安全审计

安全

v1 • 2/25/2026

All static findings are false positives. The scanner detected 'SAM' as Windows SAM database (actually Segment Anything Model), backticks as shell execution (actually skill name formatting), and misidentified cryptographic patterns. This is a legitimate computer vision expert skill with no security concerns.

已扫描文件

分析行数

发现项

审计总数

低风险问题 (3)

SKILL.md:72

External Commands Detection (False Positive)

Scanner detected 'Ruby/shell backtick execution' at line 72, but this is simply skill names in backticks (`ai-engineer`, `robotics-expert`). No actual shell execution present.

SKILL.md:3 SKILL.md:13 SKILL.md:17 SKILL.md:29 SKILL.md:31 SKILL.md:32 SKILL.md:46 SKILL.md:47 SKILL.md:59 SKILL.md:66 SKILL.md:68

Windows SAM Database Detection (False Positive)

Scanner flagged 'Windows SAM database' at multiple lines, but 'SAM' here refers to Segment Anything Model (SAM 3), a Meta computer vision model, not the Windows Security Account Manager.

SKILL.md:3 SKILL.md:13 SKILL.md:16 SKILL.md:30 SKILL.md:49 SKILL.md:67

Weak Cryptographic Algorithm Detection (False Positive)

Scanner flagged 'weak cryptographic algorithm' at several lines, but there is no cryptographic functionality in this skill. Likely a pattern matching artifact.

风险因素

⚙️ 外部命令 (4)

SKILL.md:72 SKILL.md:72 SKILL.md:72 SKILL.md:72

审计者: claude

质量评分

架构

100

可维护性

内容

社区

安全

规范符合性

你能构建什么

工业质量检测

使用 YOLO26 进行快速缺陷检测，使用 SAM 3 对生产线上的产品异常进行精确分割，构建自动化视觉检测系统。

自主机器人导航

使用深度估计、视觉 SLAM 和实时目标检测为移动机器人创建视觉流水线，实现动态环境中的安全导航。

文档和媒体分析

通过视觉定位和问答实现 VLM 驱动的系统，从图像、图表和视觉文档中提取结构化数据。

试试这些提示

基础目标检测设置

如何在边缘设备上设置 YOLO26 进行实时目标检测？我需要检测车辆和行人。

文本引导分割

我需要使用 SAM 3 分割图像中所有'红色集装箱'的实例。如何使用文本到掩码功能？

VLM 视觉问答

帮助我使用 Florence-2 构建一个回答图像问题的流水线。我想从产品照片中提取结构化数据。

边缘优化策略

在 NVIDIA Jetson Orin 上优化 YOLO26 模型进行部署的最佳方法是什么？我需要在保持准确性的同时降低延迟。

最佳实践

在实时应用中使用无 NMS 架构（如 YOLO26）以降低延迟
结合使用 YOLO26 进行快速候选提议与 SAM 3 进行精确掩码优化
使用描述性文本提示与 SAM 3（例如使用'5mm 螺栓'而不是'螺栓'）

避免

使用手动 NMS 后处理而不是无 NMS 架构
依赖仅点击分割而不是使用 SAM 3 的文本引导提示
使用不支持 YOLO26 简化模块结构的传统导出流水线

常见问题

什么是 YOLO26？它与以前的 YOLO 版本有何不同？

YOLO26 是最新的 YOLO 架构，采用无 NMS 设计，消除了非极大值抑制后处理。这降低了延迟和复杂性，同时保持了高准确性。它还通过 ProgLoss 和 STAL 分配改进了小目标识别。

SAM 3 文本到掩码如何工作？

SAM 3 可以使用自然语言描述而不是手动点提示来分割对象。您提供文本提示（如'右侧的蓝色集装箱'），SAM 3 使用其内置的视觉语言对齐功能为匹配对象生成掩码。

我可以在消费级硬件上运行 SAM 3 吗？

SAM 3 需要大量 VRAM。对于本地 GPU 推理，使用量化或蒸馏版本的模型。对于内存有限的边缘设备，请考虑使用 SAM 3 Mobile 或 SAM 3 Tiny。

什么是视觉语言模型？我应该什么时候使用它们？

像 Florence-2、PaliGemma 2 和 Qwen2-VL 这样的 VLM 将视觉理解与语言推理相结合。当您需要回答有关图像的问题、提取结构化数据或执行视觉定位任务时使用它们。

如何优化 YOLO26 以进行边缘部署？

将 YOLO26 导出为 ONNX 格式以获得广泛的兼容性，然后为 NVIDIA 设备转换为 TensorRT。使用 FP16 精度可获得 2 倍加速。与旧版 YOLO 相比，无 NMS 架构简化了导出过程。

本技能与 Claude Code 之间的关系是什么？

本技能可与 Claude Code、Codex 和 Claude 配合使用，帮助您设计、实现和优化计算机视觉流水线。AI 助手利用这些专业知识指导您完成视觉系统开发任务。

开发者详情

作者

sickn33

许可证

MIT

仓库

https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/computer-vision-expert

引用

main

文件结构

📄 SKILL.md