voice-ai-development
構建即時語音 AI 應用程式
語音 AI ���用程式需要仔細協調語音轉文字、語言模型和文字轉語音。此技能提供使用 OpenAI Realtime API、Vapi、Deepgram 和 ElevenLabs 建構響應式語音代理程式的專業指導。
下載技能 ZIP
在 Claude 中上傳
前往 設定 → 功能 → 技能 → 上傳技能
開啟並開始使用
測試它
正在使用「voice-ai-development」。 How do I set up a voice agent with Vapi?
預期結果:
以下是使用 Vapi 建立基本語音代理程式的方法:
1. 安裝 Vapi SDK:`pip install vapi`
2. 使用您的 API 金鑰建立 Vapi 客戶端
3. 使用模型、語音和轉錄設定定義您的助理
4. 設定 webhook 來處理對話事件
助理��態包括供應商選擇(OpenAI、Anthropic)、語音選擇(ElevenLabs 語音)和轉錄設定(Deepgram 模型)。
正在使用「voice-ai-development」。 What is the best approach for low-latency voice AI?
預期結果:
為了獲得最佳延遲:
1. 串流所有內容 - 使用暫時性 STT 結果、串流 LLM token、分割 TTS 輸出
2. 在 LLM 完成之前開始 TTS - 在生成時開始說話
3. 使用鄰近性 - 在靠近使用者的區域部署服務
4. 選擇快速模型 - eleven_turbo_v2_5 用於 TTS,nova-2 用於 STT
5. 實作適當的音訊分割 - 經常傳送小型緩衝區
目標是將感知延遲保持在 700ms 以下,以實現自然對話。
安全審計
安全Security analysis confirms this is a legitimate voice AI development skill. Static findings for external_commands, env_access, and weak_crypto are all false positives - the scanner misidentified markdown code fences as shell commands and placeholder API key patterns as actual secrets. No malicious code detected.
高風險問題 (2)
品質評分
你能建構什麼
客戶支援語音代理程式
建構一個互動式語音代理程式,使用 Vapi 和 Deepgram 處理客戶查詢、轉接電話,並提供 24/7 支援。
即時語音助理
使用 OpenAI Realtime API 建立低延遲語音助理,為網頁或行動應用程式提供自然對話體驗。
無障礙���音介面
為現有應用程式新增語音輸入和輸出,以改善偏好語音互動使用者的無障礙性。
試試這些提示
協助我使用 Vapi 設定基本的語音 AI 代理程式。我想建立一個簡單的代理程式,使用 OpenAI ���型和 ElevenLabs 語音來回答關於我產品的問題。
展示如何為語音應用程式實作 OpenAI Realtime API。我需要處理來自麥克風的音訊輸入,將其傳送至 GPT-4o,並串流傳回音訊回應。
我的語音代理程式感覺很慢。使用者說話後,回應之前會有很長的暫停。我如何優化我的管線以減少感知延遲?我使用 Deepgram 進行 STT,並使用 ElevenLabs 進行 TTS。
我如何實作插話偵測,讓使用者可以在語音代理程式說話時中斷它?我希望代理程式在使用者開始說話時立即停止。
最佳實務
- 始終在管線的每個階段串流音訊 - STT 暫時性結果、LLM token 串流和 TTS 分割輸出
- 在 LLM 完成回應之前開始 TTS 生成,以最���限度地減少感知延遲
- 使用 VAD 實作適當的中斷處理,以偵測使用者何時想要說話
避免
- 在傳送至 LLM 之前等待完整的 STT 轉錄 - 這會增加數秒的延遲
- 忽略使用者中斷 - 當使用者開始說話時未能停止 TTS 會造成令人挫折的對話
- 對所有事情使用單一供應商 - 混合專門的供應商(Deepgram 用於 STT,ElevenLabs 用於 TTS)能產生更好的結果