スキル computer-vision-expert
📦

computer-vision-expert

安全 ⚙️ 外部コマンド

SOTA モデルを使ったコンピュータビジョンシステムの構築

最新のコンピュータビジョンシステムの構築には、複数の SOTA モデルに関する専門知識が必要です。このスキルでは、検出、セグメンテーション、空間分析タスクのための YOLO26、SAM 3、ビジョンランゲージモデルに関する専門的なガイダンスを提供します。

対応: Claude Codex Code(CC)
🥉 74 ブロンズ
1

スキルZIPをダウンロード

2

Claudeでアップロード

設定 → 機能 → スキル → スキルをアップロードへ移動

3

オンにして利用開始

テストする

「computer-vision-expert」を使用しています。 エッジデバイスでリアルタイムオブジェクト検出を行うために YOLO26 をセットアップするにはどうすればよいですか?

期待される結果:

YOLO26 のエッジデプロイメントには、エクスポートを簡素化する NMS フリーアーキテクチャを使用します。主なステップ:

1. **モデル選択**: 最速の yolo26n(nano)またはより高精度な yolo26s(small)を使用
2. **エクスポートコマンド**: `yolo export model=yolo26s format=onnx`
3. **TensorRT 最適化**: Jetson で 2 倍のスピードアップのために TensorRT FP16 に変換
4. **推論**: NMS 後処理なしで簡素化された推論 API を使用

NMS フリー設計により、従来の YOLO アーキテクチャと比較してレイテンシが 30% 削減されます。

「computer-vision-expert」を使用しています。 SAM 3 を使用して特定オブジェクトのテキスト誘導セグメンテーションを行う

期待される結果:

SAM 3 のテキスト to マスク機能により、自然言語を使用したセグメンテーションが可能です:

```python
from sam3 import SAM3Model

model = SAM3Model()
image = load_image('warehouse.jpg')
# セグメンテーション用のテキストプロンプト
masks = model.text_to_mask(image, prompt='the blue container')
```

これにより、手動ポイントプロンプトが不要になります。SAM 3 は検出、セグメンテーション、トラッキングを 1 つのモデルに統合することで、SAM 2 に対して 2 倍の精度を達成します。

セキュリティ監査

安全
v1 • 2/25/2026

All static findings are false positives. The scanner detected 'SAM' as Windows SAM database (actually Segment Anything Model), backticks as shell execution (actually skill name formatting), and misidentified cryptographic patterns. This is a legitimate computer vision expert skill with no security concerns.

1
スキャンされたファイル
73
解析された行数
4
検出結果
1
総監査数
低リスクの問題 (3)
External Commands Detection (False Positive)
Scanner detected 'Ruby/shell backtick execution' at line 72, but this is simply skill names in backticks (`ai-engineer`, `robotics-expert`). No actual shell execution present.
Windows SAM Database Detection (False Positive)
Scanner flagged 'Windows SAM database' at multiple lines, but 'SAM' here refers to Segment Anything Model (SAM 3), a Meta computer vision model, not the Windows Security Account Manager.
Weak Cryptographic Algorithm Detection (False Positive)
Scanner flagged 'weak cryptographic algorithm' at several lines, but there is no cryptographic functionality in this skill. Likely a pattern matching artifact.

リスク要因

監査者: claude

品質スコア

38
アーキテクチャ
100
保守性
87
コンテンツ
50
コミュニティ
99
セキュリティ
91
仕様準拠

作れるもの

産業用品質検査

YOLO26 による高速欠陥検出と SAM 3 による製品異常の精密セグメンテーションを組み合わせた自動視覚検査システムを構築。製造ラインでの使用を想定。

自律ロボットナビゲーション

深度推定、視覚 SLAM、リアルタイムオブジェクト検出を組み合わせた視覚パイプラインを構築。動的環境での安全な移動を実現。

ドキュメント・メディア分析

VLM による視覚グラウンディングと質問応答機能を活用し、画像や図表、視覚文書から構造化データを抽出するシステムを実装。

これらのプロンプトを試す

基本オブジェクト検出セットアップ
エッジデバイスでリアルタイムオブジェクト検出を行うために YOLO26 をセットアップするにはどうすればよいですか?車両と歩行者を検出する必要があります。
テキスト誘導セグメンテーション
SAM 3 を使用して、画像内の「赤い_shipping container」のすべてのインスタンスをセグメントする必要があります。テキスト to マスク機能はどのように使用しますか?
VLM 視覚的質問応答
Florence-2 を使用して画像に関する質問に答えるパイプラインの構築を支援してください。製品写真から構造化データを抽出したいです。
エッジ最適化戦略
NVIDIA Jetson Orin でのデプロイメント向けに YOLO26 モデルを最適化するための最良のアプローチは何ですか?精度を維持しながらレイテンシを削減する必要があります。

ベストプラクティス

  • リアルタイムアプリケーションでは低レイテンシのために YOLO26 などの NMS フリーアーキテクチャを使用する
  • 高速な候補提案には YOLO26 を、精密なマスク洗練には SAM 3 を組み合わせて使用する
  • SAM 3 では説明的なテキストプロンプトを使用する(例:「bolt」ではなく「5mm のボルト」)

回避

  • NMS フリーアーキテクチャの代わりに手動 NMS 後処理を使用する
  • SAM 3 のテキスト誘導プロンプトの代わりにクリックのみのセグメンテーションに依存する
  • YOLO26 の簡素化されたモジュール構造をサポートしないレガシーなエクスポートパイプラインを使用する

よくある質問

YOLO26 とは何か、以前の YOLO バージョンとどのように異なりますか?
YOLO26 は、Non-Maximum Suppression 後処理を排除する NMS フリー設計を特徴とする最新の YOLO アーキテクチャです。これにより、高い精度を維持しながらレイテンシと複雑性が削減されます。また、ProgLoss と STAL 割り当てを通じて小オブジェクト認識も改善されています。
SAM 3 のテキスト to マスクはどのように機能しますか?
SAM 3 は、手動ポイントプロンプトの代わりに自然言語の説明を使用してオブジェクトをセグメントできます。「右側にある青いコンテナ」などのテキストプロンプトを提供すると、SAM 3 は内蔵の視覚 - 言語アライメントを使用して一致するオブジェクトのマスクを生成します。
消費者向けハードウェアで SAM 3 を実行できますか?
SAM 3 は大容量の VRAM が必要です。ローカル GPU 推論には、モデルの量子化または蒸留バージョンを使用してください。メモリ制限のあるエッジデバイスには、SAM 3 Mobile または SAM 3 Tiny の使用を検討してください。
ビジョンランゲージモデルとは何か、いつ使用すべきですか?
Florence-2、PaliGemma 2、Qwen2-VL などの VLM は、視覚理解と言語推論を統合します。画像に関する質問への回答、構造化データの抽出、視覚グラウンディングタスクが必要な場合に使用します。
エッジデプロイメント向けに YOLO26 を最適化するにはどうすればよいですか?
広範な互換性のために YOLO26 を ONNX 形式にエクスポートし、NVIDIA デバイス向けに TensorRT に変換します。2 倍のスピードアップのために FP16 精度を使用してください。NMS フリーアーキテクチャにより、以前の YOLO バージョンと比較してエクスポートプロセスが簡素化されます。
このスキルと Claude Code の関係は何ですか?
このスキルは Claude Code、Codex、Claude と連携して、コンピュータビジョンパイプラインの設計、実装、最適化を支援します。AI アシスタントはこの専門知識を使用して、ビジョンシステム開発タスクを通じてガイダンスを提供します。

開発者の詳細

ファイル構成

📄 SKILL.md