Question 1

語音對語音和流水線架構有什麼區別？

Accepted Answer

像 OpenAI Realtime API 這樣的語音對語音模型直接處理音訊，延遲最低且保留情感，但控制力較弱。流水線架構將 STT、LLM 和 TTS 分開，以在每個步驟實現最大控制，但會因元件交接而增加延遲。

Question 2

我應該瞄準什麼樣的延遲目標？

Accepted Answer

目標為低於 500ms 的端到端延遲，以實現自然對話感受。超過 800ms 會明顯感到延遲。低於 300ms 會感覺即時，但使用流水線架構很難達成。

Question 3

如何處理語音代理中的背景噪音？

Accepted Answer

使用具有噪音抑制的語音活動檢測，實作語義理解來過濾非語音聲音，並設計提示幫助 LLM 區分相關語音與噪音偽影。

Question 4

什麼是打斷檢測，為什麼它很重要？

Accepted Answer

打斷檢測允許用戶像人類對話一樣在 AI 回覆中途打斷。沒有它，用戶必須等待 AI 說完，造成不自然的互動和挫折感。

Question 5

如何處理 STT 錯誤和辨識錯誤？

Accepted Answer

實施置信度評分來檢測不確定的轉錄，設計提示要求 LLM 識別不清楚的輸入，並建立優雅的澄清流程，在採取行動前確認理解。

Question 6

哪些 Claude 工具支援語音代理整合？

Accepted Answer

Claude、Codex 和 Claude Code 都可以協助語音代理架構和提示設計。對於實際的音訊處理，請整合外部 API，如 Open Realtime API、ElevenLabs 或 Google Cloud Speech。

voice-agents

測試它