技能 vision-analysis
📦

vision-analysis

低风险

使用 AI 视觉分析并描述图像

无需手动操作即可从图像中提取信息。此技能使用 MiniMax 视觉 MCP 分析照片、截图、图表和原型,提供详细描述、文本提取和设计反馈。

支持: Claude Codex Code(CC)
📊 71 充足
1

下载技能 ZIP

2

在 Claude 中上传

前往 设置 → 功能 → 技能 → 上传技能

3

开启并开始使用

测试它

正在使用“vision-analysis”。 分析此产品仪表板截图

预期结果:

  • ## 图像描述
  • 该图像显示了一个 Web 应用程序仪表板,左侧有一个深色侧边栏,包含 Home、Analytics、Users 和 Settings 导航链接。主区域顶部显示三个指标卡片,分别显示总收入($48,250)、活跃用户(1,847)和转化率(3.2%)。卡片下方是一个折线图,显示过去 30 天的收入趋势,呈上升趋势。

正在使用“vision-analysis”。 从此错误消息截图中提取所有文本

预期结果:

  • ## 提取的文本
  • Error 503: Service Unavailable
  • The server is temporarily unable to handle your request. Please try again in a few moments.
  • If the problem persists, contact support at support@example.com

安全审计

低风险
v1 • 4/16/2026

Static analysis flagged 81 patterns across external_commands, network, filesystem, and env_access categories. After manual evaluation, all findings are false positives. The SKILL.md file is markdown documentation that contains configuration examples and code snippets for users to follow. The static scanner incorrectly treated markdown code blocks as executable Ruby/shell code. No actual code execution, network requests, credential access, or cryptographic operations exist in this file. URLs reference legitimate MiniMax API endpoints and documentation pages. Environment variable references are instructional placeholders for user configuration. Risk score reduced from 100/100 to low after context evaluation.

1
已扫描文件
175
分析行数
1
发现项
1
审计总数
低风险问题 (1)
Static analyzer false positives on markdown code blocks
The static scanner treated markdown code blocks in SKILL.md as executable code, generating 81 false positive findings. All detected patterns (external commands, network URLs, environment variables, filesystem paths, cryptographic algorithms) are documentation examples, not actual code. This indicates the scanner does not distinguish between markdown content and executable source files.
审计者: claude

质量评分

38
架构
100
可维护性
87
内容
50
社区
88
安全
83
规范符合性

你能构建什么

为视觉内容提供无障碍支持

生成详细的图像描述,使依赖屏幕阅读器或文本界面的用户也能理解视觉内容。

自动从图表中提取数据

将可视化图表和图形转换为结构化数据点和趋势,用于报告和分析,无需手动转录。

自动化 UI 设计反馈

在用户测试之前,获取对界面原型和线框图的结构化设计评论,包括优点、问题和改进建议。

试试这些提示

描述图像
详细描述此图像。包括主要主体、背景、颜色以及任何可见文本。
从截图中提取文本
提取此图像中所有可见文本。保留原始格式和结构。如果未找到文本,请告知我。
审查 UI 原型
审查此界面设计。列出优点,识别可用性问题,并提供具体的改进建议。
从图表中提取数据
提取此图表中的所有数据。包括标题、轴标签、带数值的数据点,以及主要趋势的摘要。

最佳实践

  • 使用高分辨率图像以获得更好的分析结果,尤其是 OCR 和图表数据提取
  • 选择与分析目标匹配的模式,以从视觉模型获得最相关的输出
  • 当准确性对您的工作流程至关重要时,请对照原始图像验证提取的文本和数据

避免

  • 不要对包含敏感信息(如密码、个人数据或机密文档)的图像使用此技能
  • 未经手动验证结果,请勿将 OCR 输出用于安全关键型数据
  • 不要假设模型能够读取手写文本或对比度严重降低的低质量图像

常见问题

支持哪些图像格式?
该技能支持 JPEG、PNG、GIF、WebP、BMP 和 SVG 格式。可处理最大 20MB 的图像。
我需要 MiniMax 订阅吗?
是的。需要具有有效 API 密钥的 MiniMax Token 计划订阅。该技能无法使用免费层级的密钥。
此技能可以处理本地图像文件吗?
是的。如果您的 MiniMax MCP 已配置系统文件访问权限,则可以使用本地文件路径。
如何设置 MiniMax MCP 工具?
为您的环境(Claude Code、Cursor 或 OpenCode)运行设置命令并输入您的 API 密钥。该技能为每个平台提供精确的配置命令。
此技能可以识别手写文本吗?
该模型针对印刷文本进行了优化。手写文本可能无法被准确识别,尤其是笔迹不寻常时。
有哪些可用的分析模式?
提供五种可用模式:describe(通用图像描述)、ocr(文本提取)、ui-review(设计评论)、chart-data(从图表中提取数据)和 object-detect(识别图像中的元素)。

开发者详情

文件结构

📄 SKILL.md