技能 voice-ai-engine-development
📦

voice-ai-engine-development

安全

构建实时语音 AI 引擎

使用异步工作器管道、流式转录、LLM 代理和 TTS 合成功能创建生产级对话式 AI 语音引擎。本技能提供完整的语音助手构建指南,包括中断处理和多云服务商支持。

支持: Claude Codex Code(CC)
🥈 77 白银
1

下载技能 ZIP

2

在 Claude 中上传

前往 设置 → 功能 → 技能 → 上传技能

3

开启并开始使用

测试它

正在使用“voice-ai-engine-development”。 创建一个包含三个工作器的语音 AI 引擎:transcriber、agent 和 synthesizer

预期结果:

一个 Python 项目结构,包含基于异步队列的工作器,每个工作器独立处理音频/文本并通过 asyncio.Queue 通信

正在使用“voice-ai-engine-development”。 展示如何在语音对话中处理用户中断

预期结果:

代码演示 InterruptibleEvent 包装器和 get_message_up_to() 方法,用于在用户说话时截断 AI 语音

正在使用“voice-ai-engine-development”。 比较 Deepgram 和 Google Speech 用于转录

预期结果:

一个比较表格,显示提供商之间的延迟、准确性、语言支持和成本差异

安全审计

安全
v1 • 2/25/2026

All 214 static findings are false positives. The skill is legitimate voice AI development documentation with example code. Detected patterns include: markdown code fences (not shell commands), legitimate audio data representation with \x00, standard network bindings (0.0.0.0), and placeholder configuration strings. No actual security issues found.

9
已扫描文件
3,371
分析行数
0
发现项
1
审计总数
未发现安全问题
审计者: claude

质量评分

55
架构
100
可维护性
87
内容
50
社区
100
安全
83
规范符合性

你能构建什么

构建语音助手

创建实时语音助手,能够监听、处理并用自然语音响应用户查询

实现语音聊天机器人

为现有聊天机器人添加语音对话功能,适用于电话或视频通话应用

创建多供应商语音系统

构建可在不同转录和 TTS 提供商之间切换的灵活语音系统

试试这些提示

基础语音管道
使用 voice-ai-engine-development 技能创建一个简单的语音助手,该助手监听语音,将其转换为文本,使用 LLM 处理,然后语音响应返回
添加中断处理
使用 voice-ai-engine-development,展示如何添加中断处理以便用户可以在 AI 响应中间打断
多供应商设置
我想在语音引擎中使用多个 TTS 供应商(ElevenLabs、Google、OpenAI)。展示 voice-ai-engine-development 中的工厂模式实现
优化流式延迟
使用 voice-ai-engine-development 最佳实践,如何优化异步管道以最小化用户语音和 AI 响应之间的延迟?

最佳实践

  • 使用异步工作器队列进行独立处理阶段以实现真正的并发
  • 在 TTS 之前缓冲 LLM 响应以确保流畅的音频输出而不被截断
  • 尽早实现中断处理,因为它影响整个管道架构

避免

  • 在单线程中同步处理音频(阻碍实时性能)
  • 发送不完整的块进行转录(导致准确性问题)
  • 在 LLM 响应完成前启动 TTS(导致语音被截断)

常见问题

这个技能支持哪些语音提供商?
本技能涵盖与 Deepgram、Google Speech 和 Whisper 的转录集成;OpenAI、Gemini 和 Anthropic 的 LLM 集成;以及 ElevenLabs、Google Cloud TTS 和 OpenAI TTS 的语音合成集成。
使用这个技能需要 API 密钥吗?
是的,您需要来自所选提供商的 API 密钥(Deepgram、OpenAI、ElevenLabs 等)。本技能提供配置模板,但不包含实际密钥。
这个可以完全本地运行吗?
某些组件可以本地运行(如 Whisper 转录),但大多数生产级语音 AI 系统需要云 API 调用来进行 LLM 处理和高质量 TTS。
中断处理如何工作?
该技能使用 InterruptibleEvent 包装器来跟踪用户是否已说话。get_message_up_to() 方法仅返回中断前所说的文本。
需要哪些 Python 库?
核心依赖项包括 asyncio、FastAPI、用于实时通信的 websockets,以及提供商 SDK。该技能在文档中列出了所有所需的包。
这适合生产部署吗?
该技能提供适用于生产的架构模式,但您需要实现实际的提供商集成并处理扩展考虑因素。