المهارات voice-agents
📦
voice-agents
آمن
构建低延迟的自然语音AI代理
创建自然的语音代理需要理解延迟预算和对话动态。本技能提供经过验证的语音到语音和管道架构模式,用于处理数百万通话量的生产系统。
يدعم: Claude Codex Code(CC)
1
تنزيل ZIP المهارة
2
رفع في Claude
اذهب إلى Settings → Capabilities → Skills → Upload skill
3
فعّل وابدأ الاستخدام
اختبرها
استخدام "voice-agents". 设计一个餐厅预订语音代理
النتيجة المتوقعة:
- 架构:管道式(STT → LLM → TTS)以最大程度控制预订数据
- 延迟预算:STT 200毫秒,LLM 800毫秒,TTS 300毫秒 = 总计1300毫秒
- VAD:使用语义检测从背景噪音中区分预订详情
- 响应格式:限制为结构化确认,包含姓名、时间、用餐人数
استخدام "voice-agents". 如何处理在响应中途打断的用户?
النتيجة المتوقعة:
- 实施打断检测,在TTS播放期间监控音频
- 检测到中断时:立即暂停TTS,处理用户话语
- 如果中断是问题:直接回答,然后恢复或跳过剩余内容
- 如果中断是新话题:确认并过渡到新话题
التدقيق الأمني
آمنv1 • 2/25/2026
This skill contains only documentation and architectural guidance for voice AI development. Static analysis flagged markdown backticks as shell commands and text patterns as cryptographic code, but all findings are false positives. No executable code, network calls, or security risks present.
1
الملفات التي تم فحصها
73
الأسطر التي تم تحليلها
0
النتائج
1
إجمالي عمليات التدقيق
لا توجد مشكلات أمنية
تم تدقيقه بواسطة: claude
درجة الجودة
38
الهندسة المعمارية
100
قابلية الصيانة
87
المحتوى
50
المجتمع
100
الأمان
91
الامتثال للمواصفات
ماذا يمكنك بناءه
客户支持语音代理
构建能够处理客户咨询的语音AI,具有自然的对话流程,可检测客户何时需要中断或澄清。
语音赋能的生产力助手
为需要在驾驶、烹饪或执行其他任务时进行交互的专业人士创建免提AI助手。
无障碍语音界面
为有视觉障碍或行动受限的用户设计语音优先界面,使他们受益于语音交互。
جرّب هذه الموجهات
基础语音代理设计
为客户服务用例设计语音代理架构。包括STT、LLM和TTS组件,并给出每个组件的延迟估算。
延迟预算规划
为响应时间低于500毫秒的语音代理创建延迟预算。确定每个组件的最大允许延迟和潜在的优化策略。
对话轮换检测策略
设计一个语音活动检测系统,能够处理打断(用户中断)而不会在用户说话中途切断用户。包括理解何时中断是适当的语义理解。
生产环境错误处理
为常见的语音代理故障创建错误处理策略:STT识别错误、LLM超时、TTS故障和网络中断。包括回退行为和面向用户的消息。
أفضل الممارسات
- 为每个组件测量和规划延迟——目标是低于500毫秒以实现自然对话
- 使用语义语音活动检测而非仅基于沉默的检测,以避免误报
- 在提示中限制响应长度为2-3个句子,以实现自然的口头表达
تجنب
- 忽略延迟预算——所有组件延迟的总和决定对话的自然性
- 仅基于沉默的轮换检测——导致背景噪音误报并错过快速响应
- 长响应——用户无法保留长的口头信息;保持响应简短且结构化
الأسئلة المتكررة
语音到语音架构和管道架构有什么区别?
像OpenAI Realtime API这样的语音到语音模型直接处理音频,具有最低延迟和保留情感的优势,但控制力较弱。管道架构将STT、LLM和TTS分开,以在每个步骤获得最大控制,但会增加组件切换的延迟。
我应该瞄准什么延迟目标?
目标是低于500毫秒的端到端延迟,以获得自然对话感受。超过800毫秒会感觉明显延迟。低于300毫秒会感觉即时,但对于管道架构来说难以实现。
如何处理语音代理中的背景噪音?
使用带噪音抑制的语音活动检测,实施语义理解以过滤非语音声音,并设计帮助LLM区分相关语音与噪音伪影的提示。
什么是打断检测,为什么它很重要?
打断检测允许用户在AI响应中途中断AI,就像人类对话一样。没有它,用户必须等待AI说完话,造成不自然的交互和挫败感。
如何处理STT错误和误识别?
实施置信度评分以检测不确定的转录,设计提示让LLM识别不清晰的输入,并创建优雅的澄清流程,在采取行动之前确认理解。
哪些Claude工具支持语音代理集成?
Claude、Codex和Claude Code都可以协助语音代理架构和提示设计。对于实际音频处理,请集成外部API,如OpenAI Realtime API、ElevenLabs或Google Cloud Speech。