スキル voice-ai-development

🎙️

voice-ai-development

Name: voice-ai-development
Author: sickn33

安全

リアルタイム音声AIアプリケーションを構築

音声AIアプリケーションには、Speech-to-Text、言語モデル、Text-to-Speechの慎重なオーケストレーションが必要です。このスキルでは、OpenAI Realtime API、Vapi、Deepgram、ElevenLabsを使用してレスポンシブな音声エージェントを構築するための専門的ガイダンスを提供します。

対応: Claude Codex Code(CC)

📊 69 十分

スキルZIPをダウンロード

Claudeでアップロード

設定 → 機能 → スキル → スキルをアップロードへ移動

オンにして利用開始

テストする

「voice-ai-development」を使用しています。 Vapiで音声エージェントをセットアップするにはどうすればいいですか？

期待される結果:

Vapiで基本的な音声エージェントを作成する方法：

1. Vapi SDKをインストール：`pip install vapi`
2. APIキーでVapiクライアントを作成
3. モデル、音声、文字起こし設定でアシスタントを定義
4. 会話イベントを処理するWebhookを設定

アシスタント設定には、プロバイダー選択（OpenAI、Anthropic）、音声選択（ElevenLabsの音声）、文字起こし設定（Deepgramモデル）が含まれます。

「voice-ai-development」を使用しています。低遅延の音声AIに最適アプローチは何ですか？

期待される結果:

最適遅延のため：

1. すべてをストリーミング - STTの中間結果を使用し、LLMトークンをストリーミングし、TTS出力をチャンク化
2. LLMが完了する前にTTSを開始 - 生成しながら話し始める
3. 近く展開 - ユーザーに近いリージョンにサービスを配置
4. 高速モデルを使用 - TTSにはeleven_turbo_v2_5、STTにはnova-2
5. 適切なオーディオチャンキングを実装 - 小さく頻繁にバッファを送信

自然な会話のために知覚遅延を700ms未満に保つことが目標です。

セキュリティ監査

安全

v1 • 2/25/2026

Security analysis confirms this is a legitimate voice AI development skill. Static findings for external_commands, env_access, and weak_crypto are all false positives - the scanner misidentified markdown code fences as shell commands and placeholder API key patterns as actual secrets. No malicious code detected.

スキャンされたファイル

307

解析された行数

検出結果

総監査数

高リスクの問題 (2)

SKILL.md:48 SKILL.md:53 SKILL.md:118 SKILL.md:196 SKILL.md:229

Environment Variable Access Pattern (False Positive)

Scanner detected API key patterns at SKILL.md lines 48, 53, 118, 196, 229. These are placeholder examples showing API key usage structure, not actual secrets. Values like 'sk-...' and '...' are documentation placeholders.

SKILL.md:42 SKILL.md:103 SKILL.md:111 SKILL.md:182 SKILL.md:190 SKILL.md:256 SKILL.md:303

External Command Execution (False Positive)

Scanner detected 'Ruby/shell backtick execution' at 8 locations. These are markdown code fences (```python) in the SKILL.md documentation, not actual shell commands being executed.

監査者: claude

品質スコア

アーキテクチャ

100

保守性

コンテンツ

コミュニティ

セキュリティ

仕様準拠

作れるもの

カスタマーサポート音声エージェント

VapiとDeepgramを使用して、顧客への応答、通話転送、24時間365日のサポートを提供するインタラクティブな音声エージェントを構築します。

リアルタイム音声アシスタント

Webやモバイルアプリケーションで自然な会話体験を実現するために、OpenAI Realtime APIを使用した低遅延の音声アシスタントを作成します。

アクセシビリティ音声インターフェース

既存のアプリケーションに音声入力と出力を追加して、音声インタラクションを好むユーザーのアクセシビリティを向上させます。

これらのプロンプトを試す

基本的な音声エージェントのセットアップ

Vapiを使用して基本的な音声AIエージェントをセットアップする手伝いをしてほしいです。OpenAIモデルとElevenLabsの音声を使用して、製品についての質問に答えられるシンプルなエージェントを作成したいです。

OpenAI Realtime APIの統合

音声アプリケーションにOpenAI Realtime APIを実装する方法を示してください。マイクからの音声入力を処理し、GPT-4oに送信し、音声応答をストリーミング回来 dúvidas sobre a configuração do seu projeto.バックする必要があります。

遅延の最適化

私の音声エージェントが遅く感じます。ユーザーが話すと、応答の前に長い一時停止があります。知覚遅延を減らすためにパイプラインを最適化する方法を教えてください。DeepgramのSTTとElevenLabsのTTSを使用しています。

中断処理の実装

ユーザーが音声エージェントが話している間に中断できるように、バージイン検出を実装する方法を教えてください。ユーザーが話し始めたら、エージェントをすぐに停止させたいです。

ベストプラクティス

パイプラインのすべての段階でオーディオをストリーミング - STT中間結果、LLMトークンストリーミング、TTSチャンク出力
知覚遅延を最小化するために、LLMの応答が完了する前にTTS生成を開始
VADを使用してユーザーが話したいタイミングを検出することで、適切な中断処理を実施

回避

LLMに送信する前に完全なSTT文字起こしを待つ - これにより数秒の遅延が追加される
ユーザーの中断を無視 - ユーザーが話し始めたときにTTSを停止しないため、フラストレーションたまられる会話になる
すべてに単一のプロバイダーを使用 - специализированные провайдерersを組み合わせる（STTにはDeepgram、TTSにはElevenLabs）方がより良い結果が得られる

よくある質問

OpenAI Realtime APIとVapiの違いは何ですか？

OpenAI Realtime APIはGPT-4oと統合されたネイティブVoice-to-Voice機能を提供します。Vapiは事前構築されたインフラストラクチャ、電話サポート、より簡単な構成で音声エージェント展開を簡素化するプラットフォームです。OpenAIはより多くのコントロールを提供し、Vapiはより迅速なセットアップを提供します。

音声アプリケーションの遅延を減らすにはどうすればいいですか？

主要な戦略：すべてのコンポーネント（STT、LLM、TTS）をストリーミングし、LLMが完了する前にTTSを開始し、高速モデル（Deepgramにはnova-2、ElevenLabsにはturbo）を使用し、ユーザーに近く展開し、適切なオーディオチャンキングを実装します。

ElevenLabsで自分の音声を使用できますか？

はい、ElevenLabsでは音声サンプルをアップロードしてカスタムボイスクローンを作成できます。ターゲット音声の明確なオーディオサンプルが必要です。これには音声の所有者からの同意が必要です。

複数のユーザーを同時に処理するにはどうすればいいですか？

各ユーザセッションには別個のWebRTC接続が必要です。ユーザごとにセッション状態を追跡し、同時API接続を管理し、複数の音声ストリームを処理するためのLiveKitなどの適切なスケーリングインフラストラクチャを実装します。

バージインとは何ですか？なぜ重要ですか？

バージインにより、ユーザーが音声エージェントが話している間に中断できます。エージェントが終わるのを待つことはフラストレーションになるため重要です。Voice Activity Detection（VAD）を使用してユーザーのSpeechを検出し、TTS出力を即時停止することで実装します。

どのプロバイダーが最もよく連携しますか？

一般的な高品質な組み合わせ：STTにはDeepgram（高速、正確）、TTSにはElevenLabs（自然な音声）、LLMにはOpenAIまたはAnthropic。各プロバイダーは特定のタスクに優れています。

開発者の詳細

作成者

sickn33

ライセンス

MIT

リポジトリ

https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/voice-ai-development

参照

main

ファイル構成

📄 SKILL.md