技能 audio-transcriber
📝

audio-transcriber

安全 ⚙️ 外部命令📁 文件系统访问🌐 网络访问

將音頻轉錄為 Markdown

使用 Claude 或 GitHub Copilot 整合,將音頻錄音轉換為可搜尋的文字,並透過 AI 驅動的摘要生成專業會議記錄。

支持: Claude Codex Code(CC)
🥇 83 黄金
1

下载技能 ZIP

2

在 Claude 中上传

前往 设置 → 功能 → 技能 → 上传技能

3

开启并开始使用

测试它

正在使用“audio-transcriber”。 meeting-recording.mp3

预期结果:

# 音頻轉錄

**文件:** meeting-recording.mp3
**語言:** en
**日期:** 2024-01-15

---

## 完整轉錄

**[00:00 → 00:15]** 歡迎大家參加我們的季度規劃會議。

**[00:15 → 00:45]** 今天我們將討論第二季度的路線圖並分配任務...

---

## 生成的會議記錄

**摘要:** 本次季度規劃會議涵蓋了第二季度路線圖項目,包括產品發布時間表、資源分配和關鍵里程碑。

**決策:**
- 批准 4 月 15 日的第二季度發布日期
- Alpha 團隊負責功能開發
- 每週同步會議定於週二舉行

正在使用“audio-transcriber”。 lecture-audio.wav

预期结果:

# 音頻轉錄

**文件:** lecture-audio.wav
**語言:** pt
**日期:** 2024-01-20

---

## 關鍵要點

1. **基本概念** - 核心概念的解釋
2. **實際應用** - 現實世界的應用
3. **後續步驟** - 建議的後續活動

安全审计

安全
v1 • 2/24/2026

Static analysis flagged 266 potential issues, but evaluation reveals these are primarily false positives. The flagged patterns in documentation files (README.md, SKILL.md, CHANGELOG.md) represent code examples, not executable code. The actual Python script (transcribe.py) uses hardcoded CLI tool invocations for legitimate transcription purposes. No command injection vectors or malicious intent detected. This is a standard audio transcription utility.

7
已扫描文件
2,321
分析行数
6
发现项
1
审计总数
中风险问题 (1)
External Command Execution in Documentation Examples
Static scanner flagged shell command examples in documentation files (README.md, SKILL.md, CHANGELOG.md). These are legitimate code examples for users to follow, not actual execution vectors.
低风险问题 (2)
Subprocess Calls with Hardcoded Arguments
The transcribe.py script uses subprocess.run to invoke CLI tools (claude, gh copilot). All arguments are hardcoded strings, not user-controlled input.
File System Operations for Output
Script writes transcription outputs to files. File paths are derived from input filename with timestamp appended.

风险因素

⚙️ 外部命令 (2)
📁 文件系统访问 (2)
🌐 网络访问
未记录任何特定位置
审计者: claude

质量评分

77
架构
100
可维护性
87
内容
50
社区
96
安全
87
规范符合性

你能构建什么

會議轉錄

自動轉錄會議錄音並生成專業會議記錄,包含行動項目和決策文檔。

播客和訪談記錄

將播客節目或訪談錄音轉換為可搜尋的文字,並為內容創作者生成 AI 摘要。

講座和課程轉錄

將教育音頻內容轉換為結構化筆記,並提取重點供學習使用。

试试这些提示

基本音頻轉錄
將此音頻文件轉錄為文字。以 Markdown 格式輸出完整轉錄內容。
會議記錄生成
分析此會議轉錄內容並創建結構化的會議記錄,包括:與會者、議程主題討論、關鍵決策、以及附有負責人的行動項目。
執行摘要
閱讀此轉錄內容並創建簡潔的執行摘要,突出主要觀點、關鍵要點和任何重要公告。使用項目符號以便閱讀。
問答文檔
從此次訪談或問答環節中提取所有問題和答案。格式化為結構化文檔,清楚地區分問題和答案。

最佳实践

  • 使用高品質音頻錄音以獲得更好的轉錄準確性 - 盡量減少背景噪音
  • 從 base Whisper 模型開始以獲得最快的處理速度,如需更高準確性可升級到 small 或 medium 模型
  • 提供自定義提示以引導 LLM 輸出符合您所需的格式(會議記錄、摘要、問答)

避免

  • 不要期望在有大量背景噪音的低品質音頻上獲得完美的轉錄
  • 避免在不分塊的情況下處理非常長的文件 - 可能會導致記憶體問題
  • 如果您需要離線功能,請勿跳過模型下載步驟

常见问题

支援哪些音頻格式?
此技能支援常見的音頻格式,包括 MP3、WAV、M4A、FLAC 和 OGG。任何可被 ffmpeg 讀取的格式都可以處理。
我需要手動安裝 Whisper 嗎?
不需要,install-requirements.sh 腳本會自動安裝 faster-whisper 或 openai-whisper。base 模型將在首次使用時下載。
哪個更快 - faster-whisper 還是 whisper?
Faster-Whisper 使用 CTranslate2,速度顯著更快且記憶體效率更高。腳本會優先使用 faster-whisper,必要時回退到 whisper。
可以離線使用嗎?
是的,下載 Whisper 模型後,轉錄可以完全離線工作。AI 摘要需要安裝 Claude CLI 或 GitHub Copilot CLI。
轉錄的準確性如何?
準確性取決於音頻品質和使用的模型。base 模型為清晰音頻提供良好的準確性。如需更好的結果,請使用 small 或 medium 模型。
如果 Claude 和 Copilot 都沒有安裝怎麼辦?
腳本會偵測缺少的 CLI 工具,並僅儲存轉錄文字而不生成 AI 摘要。您可以稍後使用 Claude 或 Copilot 添加摘要。