技能 audio-transcriber
📝

audio-transcriber

安全 ⚙️ 外部命令📁 文件系统访问🌐 网络访问

将音频转录为 Markdown

使用 Claude 或 GitHub Copilot 集成,将音频录音转换为可搜索的文本,并生成带有 AI 驱动摘要的专业会议记录。

支持: Claude Codex Code(CC)
🥇 83 黄金
1

下载技能 ZIP

2

在 Claude 中上传

前往 设置 → 功能 → 技能 → 上传技能

3

开启并开始使用

测试它

正在使用“audio-transcriber”。 meeting-recording.mp3

预期结果:

# 音频转录

**文件:** meeting-recording.mp3
**语言:** en
**日期:** 2024-01-15

---

## 完整转录

**[00:00 → 00:15]** 欢迎大家参加我们的季度规划会议。

**[00:15 → 00:45]** 今天我们将讨论 Q2 的路线图并分配任务...

---

## 生成的会议记录

**摘要:** 本次季度规划会议涵盖了 Q2 路线图项目,包括产品发布时间表、资源分配和关键里程碑。

**决策:**
- 批准 Q2 发布日期为 4 月 15 日
- Alpha 团队负责功能开发
- 每周同步会议定于周二举行

正在使用“audio-transcriber”。 lecture-audio.wav

预期结果:

# 音频转录

**文件:** lecture-audio.wav
**语言:** pt
**日期:** 2024-01-20

---

## 关键点

1. **基本概念** - 核心概念的解释
2. **实际应用** - 现实世界的应用
3. **后续步骤** - 推荐的后续活动

安全审计

安全
v1 • 2/24/2026

Static analysis flagged 266 potential issues, but evaluation reveals these are primarily false positives. The flagged patterns in documentation files (README.md, SKILL.md, CHANGELOG.md) represent code examples, not executable code. The actual Python script (transcribe.py) uses hardcoded CLI tool invocations for legitimate transcription purposes. No command injection vectors or malicious intent detected. This is a standard audio transcription utility.

7
已扫描文件
2,321
分析行数
6
发现项
1
审计总数
中风险问题 (1)
External Command Execution in Documentation Examples
Static scanner flagged shell command examples in documentation files (README.md, SKILL.md, CHANGELOG.md). These are legitimate code examples for users to follow, not actual execution vectors.
低风险问题 (2)
Subprocess Calls with Hardcoded Arguments
The transcribe.py script uses subprocess.run to invoke CLI tools (claude, gh copilot). All arguments are hardcoded strings, not user-controlled input.
File System Operations for Output
Script writes transcription outputs to files. File paths are derived from input filename with timestamp appended.

风险因素

⚙️ 外部命令 (2)
📁 文件系统访问 (2)
🌐 网络访问
未记录任何特定位置
审计者: claude

质量评分

77
架构
100
可维护性
87
内容
50
社区
96
安全
87
规范符合性

你能构建什么

会议转录

自动转录会议录音并生成专业的会议记录,包括行动项和记录的决策。

播客和采访记录

将播客节目或采访录音转换为可搜索的文本,并为内容创作者生成 AI 摘要。

讲座和课程转录

将教育音频内容转换为结构化笔记,提取关键点用于学习目的。

试试这些提示

基础音频转录
将此音频文件转录为文本。以 Markdown 格式输出完整的转录内容。
会议记录生成
分析此会议转录内容并创建结构化的会议记录,包括:与会者、讨论的议程主题、做出的关键决策以及带负责人的行动项。
执行摘要
阅读此转录内容并创建简洁的执行摘要,突出主要观点、关键要点和任何重要公告。使用要点以便阅读。
问答文档
从采访或问答环节中提取所有问题和答案。格式化为结构化文档,清晰区分问题和答案。

最佳实践

  • 使用高质量录音以获得更好的转录准确性——尽量减少背景噪音
  • 从 base Whisper 模型开始以获得最快的处理速度,升级到 small 或 medium 以提高准确性
  • 提供自定义提示以引导 LLM 输出朝向您想要的格式(会议记录、摘要、问答)

避免

  • 不要期望对有显著背景噪音的低质量音频进行完美转录
  • 避免在不进行分块的情况下处理非常长的文件——可能导致内存问题
  • 如果您需要离线功能,请勿跳过模型下载步骤

常见问题

支持哪些音频格式?
该技能支持常见音频格式,包括 MP3、WAV、M4A、FLAC 和 OGG。任何 ffmpeg 可读的格式都可以处理。
我需要手动安装 Whisper 吗?
不需要,install-requirements.sh 脚本会自动安装 faster-whisper 或 openai-whisper。base 模型将在首次使用时下载。
哪个更快——faster-whisper 还是 whisper?
Faster-Whisper 使用 CTranslate2,速度明显更快且内存效率更高。该脚本优先使用 faster-whisper,必要时回退到 whisper。
我可以离线使用吗?
可以,下载 Whisper 模型后,转录可以完全离线工作。AI 摘要需要安装 Claude CLI 或 GitHub Copilot CLI。
转录有多准确?
准确性取决于音频质量和使用的模型。base 模型对清晰音频提供良好的准确性。要获得更好的结果,请使用 small 或 medium 模型。
如果 Claude 和 Copilot 都没有安装怎么办?
脚本将检测缺失的 CLI,并仅保存转录文本而不生成 AI 摘要。您可以稍后使用 Claude 或 Copilot 添加摘要。