voice-ai-development
リアルタイム音声AIアプリケーションを構築
音声AIアプリケーションには、Speech-to-Text、言語モデル、Text-to-Speechの慎重なオーケストレーションが必要です。このスキルでは、OpenAI Realtime API、Vapi、Deepgram、ElevenLabsを使用してレスポンシブな音声エージェントを構築するための専門的ガイダンスを提供します。
スキルZIPをダウンロード
Claudeでアップロード
設定 → 機能 → スキル → スキルをアップロードへ移動
オンにして利用開始
テストする
「voice-ai-development」を使用しています。 Vapiで音声エージェントをセットアップするにはどうすればいいですか?
期待される結果:
Vapiで基本的な音声エージェントを作成する方法:
1. Vapi SDKをインストール:`pip install vapi`
2. APIキーでVapiクライアントを作成
3. モデル、音声、文字起こし設定でアシスタントを定義
4. 会話イベントを処理するWebhookを設定
アシスタント設定には、プロバイダー選択(OpenAI、Anthropic)、音声選択(ElevenLabsの音声)、文字起こし設定(Deepgramモデル)が含まれます。
「voice-ai-development」を使用しています。 低遅延の音声AIに最適アプローチは何ですか?
期待される結果:
最適遅延のため:
1. すべてをストリーミング - STTの中間結果を使用し、LLMトークンをストリーミングし、TTS出力をチャンク化
2. LLMが完了する前にTTSを開始 - 生成しながら話し始める
3. 近く展開 - ユーザーに近いリージョンにサービスを配置
4. 高速モデルを使用 - TTSにはeleven_turbo_v2_5、STTにはnova-2
5. 適切なオーディオチャンキングを実装 - 小さく頻繁にバッファを送信
自然な会話のために知覚遅延を700ms未満に保つことが目標です。
セキュリティ監査
安全Security analysis confirms this is a legitimate voice AI development skill. Static findings for external_commands, env_access, and weak_crypto are all false positives - the scanner misidentified markdown code fences as shell commands and placeholder API key patterns as actual secrets. No malicious code detected.
高リスクの問題 (2)
品質スコア
作れるもの
カスタマーサポート音声エージェント
VapiとDeepgramを使用して、顧客への応答、通話転送、24時間365日のサポートを提供するインタラクティブな音声エージェントを構築します。
リアルタイム音声アシスタント
Webやモバイルアプリケーションで自然な会話体験を実現するために、OpenAI Realtime APIを使用した低遅延の音声アシスタントを作成します。
アクセシビリティ音声インターフェース
既存のアプリケーションに音声入力と出力を追加して、音声インタラクションを好むユーザーのアクセシビリティを向上させます。
これらのプロンプトを試す
Vapiを使用して基本的な音声AIエージェントをセットアップする手伝いをしてほしいです。OpenAIモデルとElevenLabsの音声を使用して、製品についての質問に答えられるシンプルなエージェントを作成したいです。
音声アプリケーションにOpenAI Realtime APIを実装する方法を示してください。マイクからの音声入力を処理し、GPT-4oに送信し、音声応答をストリーミング回来 dúvidas sobre a configuração do seu projeto.バックする必要があります。
私の音声エージェントが遅く感じます。ユーザーが話すと、応答の前に長い一時停止があります。知覚遅延を減らすためにパイプラインを最適化する方法を教えてください。DeepgramのSTTとElevenLabsのTTSを使用しています。
ユーザーが音声エージェントが話している間に中断できるように、バージイン検出を実装する方法を教えてください。ユーザーが話し始めたら、エージェントをすぐに停止させたいです。
ベストプラクティス
- パイプラインのすべての段階でオーディオをストリーミング - STT中間結果、LLMトークンストリーミング、TTSチャンク出力
- 知覚遅延を最小化するために、LLMの応答が完了する前にTTS生成を開始
- VADを使用してユーザーが話したいタイミングを検出することで、適切な中断処理を実施
回避
- LLMに送信する前に完全なSTT文字起こしを待つ - これにより数秒の遅延が追加される
- ユーザーの中断を無視 - ユーザーが話し始めたときにTTSを停止しないため、フラストレーションたまられる会話になる
- すべてに単一のプロバイダーを使用 - специализированные провайдерersを組み合わせる(STTにはDeepgram、TTSにはElevenLabs)方がより良い結果が得られる