技能 voice-ai-development

🎙️

voice-ai-development

Name: voice-ai-development
Author: sickn33

安全

構建即時語音 AI 應用程式

語音 AI ��用程式需要仔細協調語音轉文字、語言模型和文字轉語音。此技能提供使用 OpenAI Realtime API、Vapi、Deepgram 和 ElevenLabs 建構響應式語音代理程式的專業指導。

支援: Claude Codex Code(CC)

📊 69 充足

下載技能 ZIP

在 Claude 中上傳

前往設定 → 功能 → 技能 → 上傳技能

開啟並開始使用

測試它

正在使用「voice-ai-development」。 How do I set up a voice agent with Vapi?

預期結果:

以下是使用 Vapi 建立基本語音代理程式的方法：

1. 安裝 Vapi SDK：`pip install vapi`
2. 使用您的 API 金鑰建立 Vapi 客戶端
3. 使用模型、語音和轉錄設定定義您的助理
4. 設定 webhook 來處理對話事件

助理��態包括供應商選擇（OpenAI、Anthropic）、語音選擇（ElevenLabs 語音）和轉錄設定（Deepgram 模型）。

正在使用「voice-ai-development」。 What is the best approach for low-latency voice AI?

預期結果:

為了獲得最佳延遲：

1. 串流所有內容 - 使用暫時性 STT 結果、串流 LLM token、分割 TTS 輸出
2. 在 LLM 完成之前開始 TTS - 在生成時開始說話
3. 使用鄰近性 - 在靠近使用者的區域部署服務
4. 選擇快速模型 - eleven_turbo_v2_5 用於 TTS，nova-2 用於 STT
5. 實作適當的音訊分割 - 經常傳送小型緩衝區

目標是將感知延遲保持在 700ms 以下，以實現自然對話。

安全審計

安全

v1 • 2/25/2026

Security analysis confirms this is a legitimate voice AI development skill. Static findings for external_commands, env_access, and weak_crypto are all false positives - the scanner misidentified markdown code fences as shell commands and placeholder API key patterns as actual secrets. No malicious code detected.

已掃描檔案

307

分析行數

發現項

審計總數

高風險問題 (2)

SKILL.md:48 SKILL.md:53 SKILL.md:118 SKILL.md:196 SKILL.md:229

Environment Variable Access Pattern (False Positive)

Scanner detected API key patterns at SKILL.md lines 48, 53, 118, 196, 229. These are placeholder examples showing API key usage structure, not actual secrets. Values like 'sk-...' and '...' are documentation placeholders.

SKILL.md:42 SKILL.md:103 SKILL.md:111 SKILL.md:182 SKILL.md:190 SKILL.md:256 SKILL.md:303

External Command Execution (False Positive)

Scanner detected 'Ruby/shell backtick execution' at 8 locations. These are markdown code fences (```python) in the SKILL.md documentation, not actual shell commands being executed.

審計者: claude

品質評分

架構

100

可維護性

內容

社群

安全

規範符合性

你能建構什麼

客戶支援語音代理程式

建構一個互動式語音代理程式，使用 Vapi 和 Deepgram 處理客戶查詢、轉接電話，並提供 24/7 支援。

即時語音助理

使用 OpenAI Realtime API 建立低延遲語音助理，為網頁或行動應用程式提供自然對話體驗。

無障礙��音介面

為現有應用程式新增語音輸入和輸出，以改善偏好語音互動使用者的無障礙性。

試試這些提示

基本語音代理程式設定

協助我使用 Vapi 設定基本的語音 AI 代理程式。我想建立一個簡單的代理程式，使用 OpenAI ���型和 ElevenLabs 語音來回答關於我產品的問題。

OpenAI Realtime API 整��

展示如何為語音應用程式實作 OpenAI Realtime API。我需要處理來自麥克風的音訊輸入，將其傳送至 GPT-4o，並串流傳回音訊回應。

延遲優化

我的語音代理程式感覺很慢。使用者說話後，回應之前會有很長的暫停。我如何優化我的管線以減少感知延遲？我使用 Deepgram 進行 STT，並使用 ElevenLabs 進行 TTS。

中斷處理

我如何實作插話偵測，讓使用者可以在語音代理程式說話時中斷它？我希望代理程式在使用者開始說話時立即停止。

最佳實務

始終在管線的每個階段串流音訊 - STT 暫時性結果、LLM token 串流和 TTS 分割輸出
在 LLM 完成回應之前開始 TTS 生成，以最��限度地減少感知延遲
使用 VAD 實作適當的中斷處理，以偵測使用者何時想要說話

避免

在傳送至 LLM 之前等待完整的 STT 轉錄 - 這會增加數秒的延遲
忽略使用者中斷 - 當使用者開始說話時未能停止 TTS 會造成令人挫折的對話
對所有事情使用單一供應商 - 混合專門的供應商（Deepgram 用於 STT，ElevenLabs 用於 TTS）能產生更好的結果

常見問題

OpenAI Realtime API 和 Vapi 有什麼差別？

OpenAI Realtime API 提供與 GPT-4o 整合的原生語音對語音功能。Vapi 是一個簡化語音代理程式部署的平台，具有預先建構的基礎設施、電話支援和更簡單的組態。OpenAI 提供更多控制；Vapi 提供更快速的設定。

如何減少語音應用程式中的延遲？

關鍵策略：串流所有元件（STT、LLM、TTS）、在 LLM 完成之前開始 TTS、使用快速模型（Deepgram 的 nova-2、ElevenLabs 的 turbo）、部署在使用者附近，以及實作適當的音訊分割。

我可以在 ElevenLabs 使用自己的語音嗎？

可以，ElevenLabs 允許您上傳語音樣本以建立自訂語音複製。您需要目標語音的清晰音訊樣本。這需要語音擁有者的同意。

如何同時處理多個使用者？

每個使用者工作階段需要單獨的 WebRTC 連線。追蹤每個使用者的工作階段狀態、管理並發 API 連線，並實作適當的擴展基礎設施（如 LiveKit）來處理多個語音串流。

什麼是插話，為什麼它很重要？

插話允許使用者��語音代理程式說話時中斷它。這很重要，因為等待代理程式完成是令人挫折的。使用語音活動偵測（VAD）實作，以偵測使用者語音並立即停止 TTS 輸出。

哪些供應商搭配使用效果最好？

一個常見的高品質組合：Deepgram 用於 STT（快速、準確）、ElevenLabs 用於 TTS（自然語音）、OpenAI 或 Anthropic 用於 LLM。��個供應商都在其特定任務上表現出色。

開發者詳情

作者

sickn33

授權

MIT

儲存庫

https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/voice-ai-development

引用

main

檔案結構

📄 SKILL.md