技能 voice-agents
📦
voice-agents
安全
使用最佳延遲建構自然語音 AI 代理
建立感覺自然的語音代理需要了解延遲預算和對話動態。本技能提供經過驗證的模式,用於語音對語音和流水線架構,這些架構用於處理數百萬通話的生產系統。
支援: Claude Codex Code(CC)
1
下載技能 ZIP
2
在 Claude 中上傳
前往 設定 → 功能 → 技能 → 上傳技能
3
開啟並開始使用
測試它
正在使用「voice-agents」。 Design a voice agent for restaurant reservations
預期結果:
- Architecture: Pipeline (STT → LLM → TTS) for maximum control over reservation data
- Latency budget: STT 200ms, LLM 800ms, TTS 300ms = 1300ms total
- VAD: Use semantic detection to distinguish reservation details from background noise
- Response format: Constrain to structured confirmation with name, time, party size
正在使用「voice-agents」。 How do I handle users who interrupt mid-response?
預期結果:
- Implement barge-in detection that monitors audio during TTS playback
- When interruption detected: immediately pause TTS, process user utterance
- If interruption is question: answer directly, then resume or skip remaining content
- If interruption is new topic: acknowledge and transition to new topic
安全審計
安全v1 • 2/25/2026
This skill contains only documentation and architectural guidance for voice AI development. Static analysis flagged markdown backticks as shell commands and text patterns as cryptographic code, but all findings are false positives. No executable code, network calls, or security risks present.
1
已掃描檔案
73
分析行數
0
發現項
1
審計總數
未發現安全問題
審計者: claude
品質評分
38
架構
100
可維護性
87
內容
32
社群
100
安全
91
規範符合性
你能建構什麼
客戶服務語音代理
建構一個具有自然對話流程的語音 AI,處理客戶詢問並檢測客戶何時需要中斷或澄清。
語音啟用的生產力助手
為需要在開車、烹飪或執行其他任務時進行互動的專業人士建立免持 AI 助手。
無障礙語音介面
為視障或行動受限的用戶設計以語音為優先的介面,讓他們受益於口語互動。
試試這些提示
基本語音代理設計
為客戶服務用例設計語音代理架構。包含 STT、LLM 和 TTS 元件,並提供每個元件的延遲估計。
延遲預算規劃
為目標回覆時間少於 500ms 的語音代理建立延遲預算。識別每個元件的最大允許延遲和潛在優化策略。
輪流發言檢測策略
設計一個語音活動檢測系統,處理打斷(用戶中斷)而不會在用戶說到一半時切斷。包括理解何時中斷是適當的語義理解。
生產環境錯誤處理
為常見的語音代理故障建立錯誤處理策略:STT 辨識錯誤、LLM 逾時、TTS 故障和網路中斷。包括後備行為和使用者面向的訊息。
最佳實務
- 為每個元件測量並規劃延遲預算 - 目標為低於 500ms 以實現自然對話
- 使用語義語音活動檢測而非僅用沉默檢測,以避免誤判
- 在提示中限制回覆長度為 2-3 句話,以實現自然的口語表達
避免
- 忽略延遲預算 - 所有元件延遲的總和決定了對話的自然度
- 僅用沉默的輪流檢測 - 導致背景噪音的誤判並錯過快速回覆
- 過長的回覆 - 用戶無法記住長時間的口語資訊;保持回覆簡短且有結構
常見問題
語音對語音和流水線架構有什麼區別?
像 OpenAI Realtime API 這樣的語音對語音模型直接處理音訊,延遲最低且保留情感,但控制力較弱。流水線架構將 STT、LLM 和 TTS 分開,以在每個步驟實現最大控制,但會因元件交接而增加延遲。
我應該瞄準什麼樣的延遲目標?
目標為低於 500ms 的端到端延遲,以實現自然對話感受。超過 800ms 會明顯感到延遲。低於 300ms 會感覺即時,但使用流水線架構很難達成。
如何處理語音代理中的背景噪音?
使用具有噪音抑制的語音活動檢測,實作語義理解來過濾非語音聲音,並設計提示幫助 LLM 區分相關語音與噪音偽影。
什麼是打斷檢測,為什麼它很重要?
打斷檢測允許用戶像人類對話一樣在 AI 回覆中途打斷。沒有它,用戶必須等待 AI 說完,造成不自然的互動和挫折感。
如何處理 STT 錯誤和辨識錯誤?
實施置信度評分來檢測不確定的轉錄,設計提示要求 LLM 識別不清楚的輸入,並建立優雅的澄清流程,在採取行動前確認理解。
哪些 Claude 工具支援語音代理整合?
Claude、Codex 和 Claude Code 都可以協助語音代理架構和提示設計。對於實際的音訊處理,請整合外部 API,如 Open Realtime API、ElevenLabs 或 Google Cloud Speech。