技能 voice-ai-engine-development
📦

voice-ai-engine-development

安全

建立即時語音 AI 引擎

建立具備正式品質的對話式 AI 語音引擎,包含非同步工作管線、串流轉錄、LLM 代理和 TTS 合成。本技能提供完整指南,協助建立具有中斷處理和多供應商支援的語音助理。

支援: Claude Codex Code(CC)
🥉 75 青銅
1

下載技能 ZIP

2

在 Claude 中上傳

前往 設定 → 功能 → 技能 → 上傳技能

3

開啟並開始使用

測試它

正在使用「voice-ai-engine-development」。 建立具有三個工作者的語音 AI 引擎:轉錄員、代理和合成器

預期結果:

一個 Python 專案結構,包含非同步佇列型工作者,每個工作者獨立處理音訊/文字並透過 asyncio.Queue 通訊

正在使用「voice-ai-engine-development」。 展示如何在語音對話中處理使用者中斷

預期結果:

展示 InterruptibleEvent 包裝函式的程式碼,以及用於在使用者說話時切斷 AI 語音的 get_message_up_to() 方法

正在使用「voice-ai-engine-development」。 比較 Deepgram 與 Google Speech 轉錄功能

預期結果:

比較表,顯示供應商之間的延遲、準確度、語言支援和成本差異

安全審計

安全
v1 • 2/25/2026

All 214 static findings are false positives. The skill is legitimate voice AI development documentation with example code. Detected patterns include: markdown code fences (not shell commands), legitimate audio data representation with \x00, standard network bindings (0.0.0.0), and placeholder configuration strings. No actual security issues found.

9
已掃描檔案
3,371
分析行數
0
發現項
1
審計總數
未發現安全問題
審計者: claude

品質評分

55
架構
100
可維護性
87
內容
33
社群
100
安全
83
規範符合性

你能建構什麼

建立語音助理

建立可即時聆聽、處理並以自然語音回應使用者查詢的語音助理

實作語音聊天機器人

為現有聊天機器人新增語音對話功能,適用於電話或視訊通話應用程式

建立多供應商語音系統

建構可在不同轉錄和 TTS 供應商之間靈活切換的語音系統

試試這些提示

基本語音管線
使用 voice-ai-engine-development 技能建立一個簡單的語音助理,可聆聽語音、將其轉換為文字、使用 LLM 處理,並說出回應
新增中斷處理
使用 voice-ai-engine-development,展示如何新增中斷處理,讓使用者在 AI 回應中途停止
多供應商設定
我想在我的語音引擎中使用多個 TTS 供應商(ElevenLabs、Google、OpenAI)。從 voice-ai-engine-development 展示工廠模式的實作
最佳化串流延遲
使用 voice-ai-engine-development 最佳實踐,我該如何最佳化非同步管線以最小化使用者說話和 AI 回應之間的延遲?

最佳實務

  • 使用非同步工作者佇列處理獨立的處理階段,以啟用真正的並發
  • 在 TTS 之前緩衝 LLM 回應,確保音訊輸出流暢且不會被截斷
  • 盡早實作中斷處理,因為它會影響整個管線架構

避免

  • 在單一執行緒中同步處理音訊(會封鎖即時效能)
  • 將不完整的區塊傳送至轉錄(導致準確度問題)
  • 在 LLM 回應完成之前啟動 TTS(導致語音被切斷)

常見問題

此技能支援哪些語音供應商?
本技能涵蓋與 Deepgram、Google Speech 和 Whisper 的轉錄整合;OpenAI、Gemini 和 Anthropic 的 LLM;以及 ElevenLabs、Google Cloud TTS 和 OpenAI TTS 的語音合成。
使用此技能是否需要 API 金鑰?
是的,您需要從選擇的供應商(DeepAI、OpenAI、ElevenLabs 等)取得 API 金鑰。本技能提供設定範本,但不包含實際的金鑰。
可以完全在本機執行嗎?
某些元件可以在本機執行(如 Whisper 轉錄),但大多數正式環境的語音 AI 系統需要雲端 API 呼叫來進行 LLM 處理和高品質 TTS。
中斷處理如何運作?
此技能使用 InterruptibleEvent 包裝函式來追蹤使用者是否已說話。get_message_up_to() 方法只會回傳中斷前說出的文字。
需要哪些 Python 函式庫?
核心依賴包括 asyncio、FastAPI、適用於即時通訊的 WebSocket,以及供應商 SDK。技能文件會列出所有必需的套件。
這適合正式部署嗎?
此技能提供適合正式部署的架構模式,但您需要實作實際的供應商整合並處理擴展考量。