技能 voice-ai-engine-development

📦

voice-ai-engine-development

Name: voice-ai-engine-development
Author: sickn33

安全

建立即時語音 AI 引擎

建立具備正式品質的對話式 AI 語音引擎，包含非同步工作管線、串流轉錄、LLM 代理和 TTS 合成。本技能提供完整指南，協助建立具有中斷處理和多供應商支援的語音助理。

支援: Claude Codex Code(CC)

🥉 75 青銅

下載技能 ZIP

在 Claude 中上傳

前往設定 → 功能 → 技能 → 上傳技能

開啟並開始使用

測試它

正在使用「voice-ai-engine-development」。建立具有三個工作者的語音 AI 引擎：轉錄員、代理和合成器

預期結果:

一個 Python 專案結構，包含非同步佇列型工作者，每個工作者獨立處理音訊/文字並透過 asyncio.Queue 通訊

正在使用「voice-ai-engine-development」。展示如何在語音對話中處理使用者中斷

預期結果:

展示 InterruptibleEvent 包裝函式的程式碼，以及用於在使用者說話時切斷 AI 語音的 get_message_up_to() 方法

正在使用「voice-ai-engine-development」。比較 Deepgram 與 Google Speech 轉錄功能

預期結果:

比較表，顯示供應商之間的延遲、準確度、語言支援和成本差異

安全審計

安全

v1 • 2/25/2026

All 214 static findings are false positives. The skill is legitimate voice AI development documentation with example code. Detected patterns include: markdown code fences (not shell commands), legitimate audio data representation with \x00, standard network bindings (0.0.0.0), and placeholder configuration strings. No actual security issues found.

已掃描檔案

3,371

分析行數

發現項

審計總數

未發現安全問題

審計者: claude

品質評分

架構

100

可維護性

內容

社群

100

安全

規範符合性

你能建構什麼

建立語音助理

建立可即時聆聽、處理並以自然語音回應使用者查詢的語音助理

實作語音聊天機器人

為現有聊天機器人新增語音對話功能，適用於電話或視訊通話應用程式

建立多供應商語音系統

建構可在不同轉錄和 TTS 供應商之間靈活切換的語音系統

試試這些提示

基本語音管線

使用 voice-ai-engine-development 技能建立一個簡單的語音助理，可聆聽語音、將其轉換為文字、使用 LLM 處理，並說出回應

新增中斷處理

使用 voice-ai-engine-development，展示如何新增中斷處理，讓使用者在 AI 回應中途停止

多供應商設定

我想在我的語音引擎中使用多個 TTS 供應商（ElevenLabs、Google、OpenAI）。從 voice-ai-engine-development 展示工廠模式的實作

最佳化串流延遲

使用 voice-ai-engine-development 最佳實踐，我該如何最佳化非同步管線以最小化使用者說話和 AI 回應之間的延遲？

最佳實務

使用非同步工作者佇列處理獨立的處理階段，以啟用真正的並發
在 TTS 之前緩衝 LLM 回應，確保音訊輸出流暢且不會被截斷
盡早實作中斷處理，因為它會影響整個管線架構

避免

在單一執行緒中同步處理音訊（會封鎖即時效能）
將不完整的區塊傳送至轉錄（導致準確度問題）
在 LLM 回應完成之前啟動 TTS（導致語音被切斷）

常見問題

此技能支援哪些語音供應商？

本技能涵蓋與 Deepgram、Google Speech 和 Whisper 的轉錄整合；OpenAI、Gemini 和 Anthropic 的 LLM；以及 ElevenLabs、Google Cloud TTS 和 OpenAI TTS 的語音合成。

使用此技能是否需要 API 金鑰？

是的，您需要從選擇的供應商（DeepAI、OpenAI、ElevenLabs 等）取得 API 金鑰。本技能提供設定範本，但不包含實際的金鑰。

可以完全在本機執行嗎？

某些元件可以在本機執行（如 Whisper 轉錄），但大多數正式環境的語音 AI 系統需要雲端 API 呼叫來進行 LLM 處理和高品質 TTS。

中斷處理如何運作？

此技能使用 InterruptibleEvent 包裝函式來追蹤使用者是否已說話。get_message_up_to() 方法只會回傳中斷前說出的文字。

需要哪些 Python 函式庫？

核心依賴包括 asyncio、FastAPI、適用於即時通訊的 WebSocket，以及供應商 SDK。技能文件會列出所有必需的套件。

這適合正式部署嗎？

此技能提供適合正式部署的架構模式，但您需要實作實際的供應商整合並處理擴展考量。

開發者詳情

作者

sickn33

授權

MIT

儲存庫

https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/voice-ai-engine-development

引用

main

檔案結構

📁 examples/

📄 complete_voice_engine.py

📄 gemini_agent_example.py

📄 interrupt_system_example.py

📁 references/

📄 common_pitfalls.md

📄 provider_comparison.md

📁 templates/

📄 base_worker_template.py

📄 multi_provider_factory_template.py

📄 README.md

📄 SKILL.md