스킬 voice-agents
📦

voice-agents

안전

最適なレイテンシで自然な音声AIエー���ェントを構築

自然な音声エージェントを作成するには、レイテンシの予算と会話のダイナミクスを理解することが重要です。このスキルでは、数百万回の通話を処理する本番システムで使用されている、音声対音声およびパイプラインアーキテクチャの実証済みパターンを提供します。

지원: Claude Codex Code(CC)
📊 70 적절함
1

스킬 ZIP 다운로드

2

Claude에서 업로드

설정 → 기능 → 스킬 → 스킬 업로드로 이동

3

토글을 켜고 사용 시작

테스트해 보기

"voice-agents" 사용 중입니다. レストラン予約用の音声エージェントを設計してください

예상 결과:

  • Architecture: 予約データの最大制御のためのパイプライン(STT → LLM → TTS)
  • Latency budget: STT 200ms、LLM 800ms、TTS 300ms = 合計1300ms
  • VAD: 予約詳細を背景ノイズと区別するための意味的検出を使用
  • Response format: 名前、時間、人数を含む構造化された確認に制限

"voice-agents" 사용 중입니다. 応答の途中で割り込むユーザーをどのように処理すればよいですか?

예상 결과:

  • TTS再生中の音声を��視するバージイン検出を実装
  • 割り込みが検出された場合:TTSを直ちに一時停止し、ユーザーの発話を処理
  • 割り込みが質問の場合:直接回答し、残りのコンテンツを再開またはスキップ
  • 割り込みが新しいトピックの場合:新しいトピックへ移行することを認識

보안 감사

안전
v1 • 2/25/2026

This skill contains only documentation and architectural guidance for voice AI development. Static analysis flagged markdown backticks as shell commands and text patterns as cryptographic code, but all findings are false positives. No executable code, network calls, or security risks present.

1
스캔된 파일
73
분석된 줄 수
0
발견 사항
1
총 감사 수
보안 문제를 찾지 못했습니다
감사자: claude

품질 점수

38
아키텍처
100
유지보수성
87
콘텐츠
22
커뮤니티
100
보안
91
사양 준수

만들 수 있는 것

カスタマーサポート音声エージェント

自然な会話フローで顧客の問い合わせを処理し、顧客が割り込んだり詳細を必要としたりするタイミングを検出する音声AIを構築します。

音声対応生産性アシスタント

運転中、料理中、またはその他の作業中に操作が必要な専門家向けのハンズフリーAIアシスタントを作成します。

アクセシビリティ音声インターフェース

音声操作による対話が有益な、視覚障害や運動制限を持つユーザー向けの音声ファーストインターフェースを設計します。

이 프롬프트를 사용해 보세요

基本的な音声エージェント設計
カスタマーサービスユースケース向けの音声エージェントアーキテクチャを設計してください。各コンポーネントのレイテンシ見積もりを含むSTT、LLM、TTSコンポーネントを含めてください。
レイテンシ予算の計画
500ミリ秒以下の応答時間を目標とする音声エージェントのレイテンシ予算を作成してください。各コンポーネントの最大許容レイテンシと潜在的な最適化戦略を特定してください。
ターン制御検出戦略
バージイン(ユーザーの割り込み)を処理し、ユーザーの発話の途中で遮断しない音声アクティビティ検出システムを設計してください。割り込みが適切であるタイミングの意味的理解を含めてください。
本番環境のエラー処理
一般的な音声エージェントの障害(STTの誤認識、LLMのタイムアウト、TTSの障害、ネットワークの中断)に対処するエラー処理戦略を作成してください。フォールバック動作とユーザー向けメッセージを含めてください。

모범 사례

  • 各コンポーネントのレイテンシを測定し予算化する - 自然な会話には500ミリ秒未満を目指す
  • 誤検知を避ける���め、沈黙のみの検出ではなく意味的音声アクティビティ検出を使用する
  • 自然な音声配信のため、プロンプト内の応答長を2〜3文に制限する

피하기

  • レイテンシ予算の無視 - すべてのコンポーネントレイテンシの合計が会話の自然さを決定します
  • 沈黙のみのターン検出 - 背景ノイズによる誤検知を引き起こし、迅速な応答を見逃します
  • 長い応答 - ユーザーは長い音声情報を保持できません。応答は簡潔で構造化されたものにしてください

자주 묻는 질문

音声対音声アーキテクチャとパイプラインアーキテクチャの違いは何ですか?
OpenAI Realtime APIのような音声対音声モデルは、音声を直接処理し、最も低いレイテンシと感情表現を維持しますが、制御力は低くなります。パイプラインアーキテクチャは、各ステップで最大の制御を提供するためにSTT、LLM、TTSを分離していますが、コンポーネントの引き渡しによるレイテンシが増加します。
どのレイテンシ目標を目指すべきですか?
自然な会話感を実現するには、エンドツーエンドのレイテンシを500ミリ秒未満を目標としてください。800ミリ秒を超えると顕著な遅延を感じます。300ミリ秒以下は瞬時に感じられますが、パイプラインアーキテクチャでは達成が困難です。
音声エージェントで背景ノイズをどのように処理すればよいですか?
ノイズ抑制機能付きの音声アクティビティ検出を��用し、非音声をフィルタリングするための意味的理解を実装し、LLMが関連音声とノイズアーティファクトを区別するのに役立つプロンプトを設計してください。
バージイン検出とは何ですか、なぜ重要なのですか?
バージイン検出により、ユーザーはAIの応答途中���割り込むことができ、人間の会話と同様になります。これがない場合、ユーザーはAIの発話が終わるまで待つ必要があり、不自然な操作と不満を引き起こします。
STTエラーと誤認識をどのように処理すればよいですか?
不確実な文字起こしを検出するための信頼度スコアリングを実装し、不明確な入力を特定するようLLMに依頼するプロンプトを設計し、アクションを実行前に理解を確認する適切な明確化フローを作成してください。
どのClaudeツールが音声エージェント統合をサポートしていますか?
Claude、Codex、Claude Codeはすべて、音声エージェントアーキテクチャとプロンプト設計を支援できます。実際の音声処理については、OpenAI Realtime API、ElevenLabs、Google Cloud Speechなどの外部APIと統合してください。

개발자 세부 정보

파일 구조

📄 SKILL.md