技能 speech-to-text
🎙️

speech-to-text

安全 ⚙️ 外部命令🌐 网络访问

使用 Whisper AI 转录音频

使用先进的 Whisper 模型将音频录音转换为准确的文字转录。非常适合转录会议、播客、语音笔记以及自动生成视频字幕。

支持: Claude Codex Code(CC)
📊 69 充足
1

下载技能 ZIP

2

在 Claude 中上传

前往 设置 → 功能 → 技能 → 上传技能

3

开启并开始使用

测试它

正在使用“speech-to-text”。 转录 https://files.example.com/team-meeting.mp3 的会议录音

预期结果:

包含说话人识别和检测语言的会议完整转录文本

正在使用“speech-to-text”。 带时间戳转录 https://audio.example.com/interview.mp3

预期结果:

包含完整文本、时间戳片段和检测语言代码的 JSON 转录

正在使用“speech-to-text”。 将 https://files.example.com/french-speech.mp3 的法语音频翻译成英文

预期结果:

法语音频内容的英文翻译

安全审计

安全
v1 • 3/1/2026

All 37 static analysis findings are false positives from markdown code examples in documentation. The skill contains only documentation (SKILL.md) with bash command examples demonstrating inference.sh CLI usage. No executable code, no prompt injection attempts, and no malicious intent detected. The allowed-tools directive properly restricts Bash tool to infsh commands only.

1
已扫描文件
130
分析行数
2
发现项
1
审计总数
审计者: claude

质量评分

38
架构
100
可维护性
85
内容
21
社区
100
安全
91
规范符合性

你能构建什么

会议转录

将录制的会议音频转换为可搜索的文字,以便记录和分享

播客制作

为播客剧集生成节目笔记和转录,以提高无障碍访问性

视频字幕制作

通过带时间戳转录音频轨道来创建准确的视频字幕

试试这些提示

基本转录
转录 https://example.com/meeting.mp3 的音频文件为文字
包含时间戳
转录 https://example.com/podcast.mp3 并为每个片段包含时间戳
翻译成英文
将 https://example.com/spanish.mp3 的西班牙语音频翻译成英文文字
视频字幕工作流程
从 https://example.com/video.mp4 提取音频,带时间戳转录并准备添加字幕

最佳实践

  • 使用高质量的录音以获得最佳转录准确性
  • 创建字幕或需要引用特定时刻时包含时间戳
  • 选择 Fast Whisper 模型以获得速度,选择 Whisper V3 Large 以获得最高准确性
  • 提供常见格式的音频文件(如 MP3、WAV 或 M4A)以获得最佳兼容性

避免

  • 不要尝试转录实时音频流 - 此工具需要文件 URL
  • 避免使用未考虑后处理的低质量或嘈杂录音
  • 不要忘记在尝试转录前安装 inference.sh CLI
  • 未经适当许可请勿请求转录受版权保护的内容

常见问题

支持哪些音频格式?
该工具接受可以通过公开 URL 访问的常见格式音频文件,包括 MP3、WAV、M4A 和 Whisper 模型支持的其他格式。
转录的准确性如何?
Whisper V3 Large 提供业界领先的准确性。Fast Whisper Large V3 提供类似的准确性但处理速度更快。两者都支持 99 种以上语言。
我需要安装什么吗?
是的,您需要使用以下命令安装 inference.sh CLI 工具:curl -fsSL https://cli.inference.sh | sh && infsh login
我可以转录实时音频吗?
不,此工具适用于预录音频文件。实时转录需要专门为流媒体音频设计的不同解决方案。
两种模型之间有什么区别?
Fast Whisper Large V3 在保持准确性的同时优先考虑速度。Whisper V3 Large 提供最高可能的准确性,但处理时间可能更长。
我可以把外语音频翻译成英文吗?
是的,使用翻译任务参数可以直接将外语音频转录并翻译成英文,一步完成。

开发者详情

文件结构

📄 SKILL.md