技能 voice-ai-engine-development

📦

voice-ai-engine-development

Name: voice-ai-engine-development
Author: sickn33

安全

构建实时语音 AI 引擎

使用异步工作器管道、流式转录、LLM 代理和 TTS 合成功能创建生产级对话式 AI 语音引擎。本技能提供完整的语音助手构建指南，包括中断处理和多云服务商支持。

支持: Claude Codex Code(CC)

🥉 75 青铜

下载技能 ZIP

在 Claude 中上传

前往设置 → 功能 → 技能 → 上传技能

开启并开始使用

测试它

正在使用“voice-ai-engine-development”。创建一个包含三个工作器的语音 AI 引擎：transcriber、agent 和 synthesizer

预期结果:

一个 Python 项目结构，包含基于异步队列的工作器，每个工作器独立处理音频/文本并通过 asyncio.Queue 通信

正在使用“voice-ai-engine-development”。展示如何在语音对话中处理用户中断

预期结果:

代码演示 InterruptibleEvent 包装器和 get_message_up_to() 方法，用于在用户说话时截断 AI 语音

正在使用“voice-ai-engine-development”。比较 Deepgram 和 Google Speech 用于转录

预期结果:

一个比较表格，显示提供商之间的延迟、准确性、语言支持和成本差异

安全审计

安全

v1 • 2/25/2026

All 214 static findings are false positives. The skill is legitimate voice AI development documentation with example code. Detected patterns include: markdown code fences (not shell commands), legitimate audio data representation with \x00, standard network bindings (0.0.0.0), and placeholder configuration strings. No actual security issues found.

已扫描文件

3,371

分析行数

发现项

审计总数

未发现安全问题

审计者: claude

质量评分

架构

100

可维护性

内容

社区

100

安全

规范符合性

你能构建什么

构建语音助手

创建实时语音助手，能够监听、处理并用自然语音响应用户查询

实现语音聊天机器人

为现有聊天机器人添加语音对话功能，适用于电话或视频通话应用

创建多供应商语音系统

构建可在不同转录和 TTS 提供商之间切换的灵活语音系统

试试这些提示

基础语音管道

使用 voice-ai-engine-development 技能创建一个简单的语音助手，该助手监听语音，将其转换为文本，使用 LLM 处理，然后语音响应返回

添加中断处理

使用 voice-ai-engine-development，展示如何添加中断处理以便用户可以在 AI 响应中间打断

多供应商设置

我想在语音引擎中使用多个 TTS 供应商（ElevenLabs、Google、OpenAI）。展示 voice-ai-engine-development 中的工厂模式实现

优化流式延迟

使用 voice-ai-engine-development 最佳实践，如何优化异步管道以最小化用户语音和 AI 响应之间的延迟？

最佳实践

使用异步工作器队列进行独立处理阶段以实现真正的并发
在 TTS 之前缓冲 LLM 响应以确保流畅的音频输出而不被截断
尽早实现中断处理，因为它影响整个管道架构

避免

在单线程中同步处理音频（阻碍实时性能）
发送不完整的块进行转录（导致准确性问题）
在 LLM 响应完成前启动 TTS（导致语音被截断）

常见问题

这个技能支持哪些语音提供商？

本技能涵盖与 Deepgram、Google Speech 和 Whisper 的转录集成；OpenAI、Gemini 和 Anthropic 的 LLM 集成；以及 ElevenLabs、Google Cloud TTS 和 OpenAI TTS 的语音合成集成。

使用这个技能需要 API 密钥吗？

是的，您需要来自所选提供商的 API 密钥（Deepgram、OpenAI、ElevenLabs 等）。本技能提供配置模板，但不包含实际密钥。

这个可以完全本地运行吗？

某些组件可以本地运行（如 Whisper 转录），但大多数生产级语音 AI 系统需要云 API 调用来进行 LLM 处理和高质量 TTS。

中断处理如何工作？

该技能使用 InterruptibleEvent 包装器来跟踪用户是否已说话。get_message_up_to() 方法仅返回中断前所说的文本。

需要哪些 Python 库？

核心依赖项包括 asyncio、FastAPI、用于实时通信的 websockets，以及提供商 SDK。该技能在文档中列出了所有所需的包。

这适合生产部署吗？

该技能提供适用于生产的架构模式，但您需要实现实际的提供商集成并处理扩展考虑因素。

开发者详情

作者

sickn33

许可证

MIT

仓库

https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/voice-ai-engine-development

引用

main

文件结构

📁 examples/

📄 complete_voice_engine.py

📄 gemini_agent_example.py

📄 interrupt_system_example.py

📁 references/

📄 common_pitfalls.md

📄 provider_comparison.md

📁 templates/

📄 base_worker_template.py

📄 multi_provider_factory_template.py

📄 README.md

📄 SKILL.md