技能 voice-ai-development
🎙️

voice-ai-development

安全

构建实时语音AI应用

语音AI应用需要精心协调语音转文本、语言模型和文本转语音。本技能提供专家指导,帮助您使用OpenAI Realtime API、Vapi、Deepgram和ElevenLabs构建响应灵敏的语音代理。

支持: Claude Codex Code(CC)
📊 71 充足
1

下载技能 ZIP

2

在 Claude 中上传

前往 设置 → 功能 → 技能 → 上传技能

3

开启并开始使用

测试它

正在使用“voice-ai-development”。 How do I set up a voice agent with Vapi?

预期结果:

Here's how to create a basic voice agent with Vapi:

1. Install the Vapi SDK: `pip install vapi`
2. Create a Vapi client with your API key
3. Define your assistant with model, voice, and transcriber settings
4. Set up a webhook to handle conversation events

The assistant configuration includes provider selection (OpenAI, Anthropic), voice choice (ElevenLabs voices), and transcription settings (Deepgram models).

正在使用“voice-ai-development”。 What is the best approach for low-latency voice AI?

预期结果:

For optimal latency:

1. Stream everything - use interim STT results, stream LLM tokens, chunk TTS output
2. Start TTS before LLM completes - begin speaking while generating
3. Use proximity - deploy services in regions near your users
4. Choose fast models - eleven_turbo_v2_5 for TTS, nova-2 for STT
5. Implement proper audio chunking - send small buffers frequently

The goal is keeping perceived latency under 700ms for natural conversation.

安全审计

安全
v1 • 2/25/2026

Security analysis confirms this is a legitimate voice AI development skill. Static findings for external_commands, env_access, and weak_crypto are all false positives - the scanner misidentified markdown code fences as shell commands and placeholder API key patterns as actual secrets. No malicious code detected.

1
已扫描文件
307
分析行数
2
发现项
1
审计总数

高风险问题 (2)

Environment Variable Access Pattern (False Positive)
Scanner detected API key patterns at SKILL.md lines 48, 53, 118, 196, 229. These are placeholder examples showing API key usage structure, not actual secrets. Values like 'sk-...' and '...' are documentation placeholders.
External Command Execution (False Positive)
Scanner detected 'Ruby/shell backtick execution' at 8 locations. These are markdown code fences (```python) in the SKILL.md documentation, not actual shell commands being executed.
审计者: claude

质量评分

38
架构
100
可维护性
87
内容
50
社区
85
安全
91
规范符合性

你能构建什么

客户支持语音代理

构建一个交互式语音代理,用于处理客户咨询、路由通话,并使用Vapi和Deepgram提供全天候支持。

实时语音助手

使用OpenAI Realtime API创建低延迟语音助手,在Web或移动应用中提供自然的对话体验。

无障碍语音界面

为现有应用添加语音输入和输出,以改善偏好语音交互的用户的使用体验。

试试这些提示

基础语音代理设置
帮助我使用Vapi设置一个基础的语音AI代理。我想创建一个简单的代理,可以使用OpenAI模型和ElevenLabs语音回答关于我产品的问题。
OpenAI Realtime API集成
展示如何为语音应用实现OpenAI Realtime API。我需要处理来自麦克风的音频输入,将其发送到GPT-4o,并将音频响应流式传输回来。
延迟优化
我的语音代理感觉很慢。用户说话后,需要等待很长时间才会收到回复。我如何优化管道以减少感知延迟?我使用Deepgram进行STT,使用ElevenLabs进行TTS。
中断处理
如何实现打断检测,让用户可以在语音代理说话时进行中断?当用户开始说话时,我希望代理立即停止。

最佳实践

  • 始终在管道的每个阶段流式传输音频 - STT临时结果、LLM令牌流式传输和TTS分块输出
  • 在LLM完成响应之前就开始TTS生成,以最大程度减少感知延迟
  • 使用VAD实现适当的中断处理,以检测用户何时想说话

避免

  • 等待完整的STT转录后再发送到LLM - 这会增加数秒延迟
  • 忽略用户中断 - 用户开始说话时未停止TTS会产生令人沮丧的对话
  • 为所有功能使用单一提供商 - 组合使用专业提供商(Deepgram用于STT,ElevenLabs用于TTS)效果更好

常见问题

OpenAI Realtime API和Vapi有什么区别?
OpenAI Realtime API提供与GPT-4o集成的原生语音对语音功能。Vapi是一个简化语音代理部署的平台,提供预建基础设施、电话支持 和更简单的配置。OpenAI提供更多控制;Vapi提供更快的设置。
如何减少语音应用中的延迟?
关键策略:流式传输所有组件(STT、LLM、TTS),在LLM完成之前启动TTS,使用快速模型(Deepgram的nova-2,ElevenLabs的turbo),在靠近用户的地方部署,并实施适当的音频分块。
我可以在ElevenLabs使用自己的声音吗?
是的,ElevenLabs允许您上传语音样本以创建自定义语音克隆。您需要清晰的目标语音音频样本。这需要语音所有者的同意。
如何同时处理多个用户?
每个用户会话需要单独的WebRTC连接。跟踪每个用户的状态,管理并发的API连接,并实施适当的扩展基础设施(如LiveKit)来处理多个语音流。
什么是打断,为什么它很重要?
打断允许用户在语音代理说话时进行中断。这很重要,因为等待代理完成说话是很令人沮丧的。使用语音活动检测(VAD)实现此功能,以检测用户语音并立即停止TTS输出。
哪些提供商最适合一起使用?
常用的高质量组合:Deepgram用于STT(快速、准确),ElevenLabs用于TTS(自然语音),OpenAI或Anthropic用于LLM。每个提供商在其特定任务方面都很出色。

开发者详情

文件结构

📄 SKILL.md