スキル voice-agents
📦

voice-agents

安全

最適なレイテンシで自然な音声AIエー���ェントを構築

自然な音声エージェントを作成するには、レイテンシの予算と会話のダイナミクスを理解することが重要です。このスキルでは、数百万回の通話を処理する本番システムで使用されている、音声対音声およびパイプラインアーキテクチャの実証済みパターンを提供します。

対応: Claude Codex Code(CC)
📊 71 十分
1

スキルZIPをダウンロード

2

Claudeでアップロード

設定 → 機能 → スキル → スキルをアップロードへ移動

3

オンにして利用開始

テストする

「voice-agents」を使用しています。 レストラン予約用の音声エージェントを設計してください

期待される結果:

  • Architecture: 予約データの最大制御のためのパイプライン(STT → LLM → TTS)
  • Latency budget: STT 200ms、LLM 800ms、TTS 300ms = 合計1300ms
  • VAD: 予約詳細を背景ノイズと区別するための意味的検出を使用
  • Response format: 名前、時間、人数を含む構造化された確認に制限

「voice-agents」を使用しています。 応答の途中で割り込むユーザーをどのように処理すればよいですか?

期待される結果:

  • TTS再生中の音声を��視するバージイン検出を実装
  • 割り込みが検出された場合:TTSを直ちに一時停止し、ユーザーの発話を処理
  • 割り込みが質問の場合:直接回答し、残りのコンテンツを再開またはスキップ
  • 割り込みが新しいトピックの場合:新しいトピックへ移行することを認識

セキュリティ監査

安全
v1 • 2/25/2026

This skill contains only documentation and architectural guidance for voice AI development. Static analysis flagged markdown backticks as shell commands and text patterns as cryptographic code, but all findings are false positives. No executable code, network calls, or security risks present.

1
スキャンされたファイル
73
解析された行数
0
検出結果
1
総監査数
セキュリティ問題は見つかりませんでした
監査者: claude

品質スコア

38
アーキテクチャ
100
保守性
87
コンテンツ
32
コミュニティ
100
セキュリティ
91
仕様準拠

作れるもの

カスタマーサポート音声エージェント

自然な会話フローで顧客の問い合わせを処理し、顧客が割り込んだり詳細を必要としたりするタイミングを検出する音声AIを構築します。

音声対応生産性アシスタント

運転中、料理中、またはその他の作業中に操作が必要な専門家向けのハンズフリーAIアシスタントを作成します。

アクセシビリティ音声インターフェース

音声操作による対話が有益な、視覚障害や運動制限を持つユーザー向けの音声ファーストインターフェースを設計します。

これらのプロンプトを試す

基本的な音声エージェント設計
カスタマーサービスユースケース向けの音声エージェントアーキテクチャを設計してください。各コンポーネントのレイテンシ見積もりを含むSTT、LLM、TTSコンポーネントを含めてください。
レイテンシ予算の計画
500ミリ秒以下の応答時間を目標とする音声エージェントのレイテンシ予算を作成してください。各コンポーネントの最大許容レイテンシと潜在的な最適化戦略を特定してください。
ターン制御検出戦略
バージイン(ユーザーの割り込み)を処理し、ユーザーの発話の途中で遮断しない音声アクティビティ検出システムを設計してください。割り込みが適切であるタイミングの意味的理解を含めてください。
本番環境のエラー処理
一般的な音声エージェントの障害(STTの誤認識、LLMのタイムアウト、TTSの障害、ネットワークの中断)に対処するエラー処理戦略を作成してください。フォールバック動作とユーザー向けメッセージを含めてください。

ベストプラクティス

  • 各コンポーネントのレイテンシを測定し予算化する - 自然な会話には500ミリ秒未満を目指す
  • 誤検知を避ける���め、沈黙のみの検出ではなく意味的音声アクティビティ検出を使用する
  • 自然な音声配信のため、プロンプト内の応答長を2〜3文に制限する

回避

  • レイテンシ予算の無視 - すべてのコンポーネントレイテンシの合計が会話の自然さを決定します
  • 沈黙のみのターン検出 - 背景ノイズによる誤検知を引き起こし、迅速な応答を見逃します
  • 長い応答 - ユーザーは長い音声情報を保持できません。応答は簡潔で構造化されたものにしてください

よくある質問

音声対音声アーキテクチャとパイプラインアーキテクチャの違いは何ですか?
OpenAI Realtime APIのような音声対音声モデルは、音声を直接処理し、最も低いレイテンシと感情表現を維持しますが、制御力は低くなります。パイプラインアーキテクチャは、各ステップで最大の制御を提供するためにSTT、LLM、TTSを分離していますが、コンポーネントの引き渡しによるレイテンシが増加します。
どのレイテンシ目標を目指すべきですか?
自然な会話感を実現するには、エンドツーエンドのレイテンシを500ミリ秒未満を目標としてください。800ミリ秒を超えると顕著な遅延を感じます。300ミリ秒以下は瞬時に感じられますが、パイプラインアーキテクチャでは達成が困難です。
音声エージェントで背景ノイズをどのように処理すればよいですか?
ノイズ抑制機能付きの音声アクティビティ検出を��用し、非音声をフィルタリングするための意味的理解を実装し、LLMが関連音声とノイズアーティファクトを区別するのに役立つプロンプトを設計してください。
バージイン検出とは何ですか、なぜ重要なのですか?
バージイン検出により、ユーザーはAIの応答途中���割り込むことができ、人間の会話と同様になります。これがない場合、ユーザーはAIの発話が終わるまで待つ必要があり、不自然な操作と不満を引き起こします。
STTエラーと誤認識をどのように処理すればよいですか?
不確実な文字起こしを検出するための信頼度スコアリングを実装し、不明確な入力を特定するようLLMに依頼するプロンプトを設計し、アクションを実行前に理解を確認する適切な明確化フローを作成してください。
どのClaudeツールが音声エージェント統合をサポートしていますか?
Claude、Codex、Claude Codeはすべて、音声エージェントアーキテクチャとプロンプト設計を支援できます。実際の音声処理については、OpenAI Realtime API、ElevenLabs、Google Cloud Speechなどの外部APIと統合してください。

開発者の詳細

ファイル構成

📄 SKILL.md