스킬 voice-agents
📦

voice-agents

안전

Erstellen Sie natürliche Sprach-KI-Agenten mit optimaler Latenz

Die Erstellung von Sprachagenten, die sich natürlich anfühlen, erfordert das Verständnis von Latenz-Budgets und Gesprächsdynamiken. Dieses Skill bietet bewährte Muster für Speech-to-Speech- und Pipeline-Architekturen, die in Produktionssystemen verwendet werden, die Millionen von Anrufen verarbeiten.

지원: Claude Codex Code(CC)
📊 70 적절함
1

스킬 ZIP 다운로드

2

Claude에서 업로드

설정 → 기능 → 스킬 → 스킬 업로드로 이동

3

토글을 켜고 사용 시작

테스트해 보기

"voice-agents" 사용 중입니다. Entwerfen Sie einen Sprachagenten für Restaurantreservierungen

예상 결과:

  • Architektur: Pipeline (STT → LLM → TTS) für maximale Kontrolle über Reservierungsdaten
  • Latenz-Budget: STT 200 ms, LLM 800 ms, TTS 300 ms = 1300 ms gesamt
  • VAD: Verwenden Sie semantische Detektion, um Reservierungsdetails von Hintergrundgeräuschen zu unterscheiden
  • Antwortformat: Beschränkung auf strukturierte Bestätigung mit Name, Zeit, GruppenGröße

"voice-agents" 사용 중입니다. Wie gehe ich mit Benutzern um, die mitten in der Antwort unterbrechen?

예상 결과:

  • Implementieren Sie Barge-in-Erkennung, die während der TTS-Wiedergabe Audio überwacht
  • Bei Unterbrechung erkannt: sofort TTS pausieren, Benutzeräußerung verarbeiten
  • Wenn Unterbrechung eine Frage ist: direkt antworten, dann verbleibenden Inhalt fortsetzen oder überspringen
  • Wenn Unterbrechung ein neues Thema ist: bestätigen und zum neuen Thema übergehen

보안 감사

안전
v1 • 2/25/2026

This skill contains only documentation and architectural guidance for voice AI development. Static analysis flagged markdown backticks as shell commands and text patterns as cryptographic code, but all findings are false positives. No executable code, network calls, or security risks present.

1
스캔된 파일
73
분석된 줄 수
0
발견 사항
1
총 감사 수
보안 문제를 찾지 못했습니다
감사자: claude

품질 점수

38
아키텍처
100
유지보수성
87
콘텐츠
22
커뮤니티
100
보안
91
사양 준수

만들 수 있는 것

KundenSupport-Sprachagent

Erstellen Sie eine Voice-KI, die Kundenanfragen mit natürlichem Gesprächsfluss bewältigt und erkennt, wann Kunden unterbrechen oder eine Erklärung benötigen.

Sprachgesteuerter Produktivitätsassistent

Erstellen Sie eine freihändige KI-Assistenz für Fachleute, die während des Fahrens, Kochens oder der Ausführung anderer Aufgaben interagieren müssen.

Barrierefreie Sprachschnittstelle

Entwerfen Sie sprachorientierte Schnittstellen für Benutzer mit Sehbehinderung oder Mobilitätseinschränkungen, die von sprachlicher Interaktion profitieren.

이 프롬프트를 사용해 보세요

Grundlegender Sprachagenten-Entwurf
Entwerfen Sie eine Sprachagenten-Architektur für einen Kundendienst-Anwendungsfall. Einschließlich STT-, LLM- und TTS-Komponenten mit Latenzschätzungen für jede Komponente.
Latenz-Budget-Planung
Erstellen Sie ein Latenz-Budget für einen Sprachagenten mit einer Zielzeit von unter 500 ms. Identifizieren Sie die maximal zulässige Latenz für jede Komponente und potenzielle Optimierungsstrategien.
Strategie zur Sprecherwechsel-Erkennung
Entwerfen Sie ein Sprachaktivitäts-Detektionssystem, das Barge-in (Benutzerunterbrechungen) verarbeitet, ohne den Benutzer mitten im Satz abzuschneiden. Einschließlich semantischem Verständnis, wann Unterbrechungen angemessen sind.
Produktions-Fehlerbehandlung
Erstellen Sie Fehlerbehandlungsstrategien für häufige Sprachagenten-Ausfälle: STT-Fehlerkennung, LLM-Timeout, TTS-Ausfall und Netzwerkunterbrechungen. Einschließlich Fallback-Verhalten und benutzerseitigen Meldungen.

모범 사례

  • Messen und budgetieren Sie die Latenz für jede Komponente - zielen Sie auf unter 500 ms für natürliche Gespräche
  • Verwenden Sie semantische Sprachaktivitäts-Detektion anstelle von nur Stille-Detektion, um falsche Positive zu vermeiden
  • Beschränken Sie die Antwortlänge in Prompts auf 2-3 Sätze für natürliche mündliche Ausgabe

피하기

  • Ignorieren des Latenz-Budgets - die Summe aller Komponentenlatenzen bestimmt die Natürlichkeit des Gesprächs
  • Stille-basierte Sprecherwechsel-Erkennung - führt zu falschen positiven Ergebnissen durch Hintergrundgeräusche und verpasst schnelle Antworten
  • Lange Antworten - Benutzer können keine langen gesprochenen Informationen behalten; halten Sie Antworten kurz und strukturiert

자주 묻는 질문

Was ist der Unterschied zwischen Speech-to-Speech- und Pipeline-Architekturen?
Speech-to-Speech-Modelle wie OpenAI Realtime API verarbeiten Audio direkt mit niedrigster Latenz und erhaltenen Emotionen, bieten aber weniger Kontrolle. Pipeline-Architekturen trennen STT, LLM und TTS für maximale Kontrolle in jedem Schritt, fügen jedoch Latenz durch Komponentenübergaben hinzu.
Welches Latenzziel sollte ich anstreben?
Zielen Sie auf eine End-to-End-Latenz von unter 500 ms für ein natürliches Gesprächsgefühl. Über 800 ms fühlt sich merklich verzögert an. Unter 300 ms fühlt sich augenblicklich an, ist aber mit Pipeline-Architekturen schwer zu erreichen.
Wie gehe ich mit Hintergrundgeräuschen in Sprachagenten um?
Verwenden Sie die Sprachaktivitäts-Detektion mit Geräuschunterdrückung, implementieren Sie semantisches Verständnis, um Nicht-Sprach-Geräusche zu filtern, und entwerfen Sie Prompts, die dem LLM helfen, relevante Sprache von Geräuschartefakten zu unterscheiden.
Was ist Barge-in-Erkennung und warum ist sie wichtig?
Barge-in-Erkennung ermöglicht es Benutzern, die KI mitten in der Antwort zu unterbrechen, genau wie bei menschlichen Gesprächen. Ohne sie müssen Benutzer warten, bis die KI fertig gesprochen hat, was zu unnatürlichen Interaktionen und Frustration führt.
Wie gehe ich mit STT-Fehlern und Fehlkennungen um?
Implementieren Sie Konfidenz-Bewertungen, um unsichere Transkriptionen zu erkennen, entwerfen Sie Prompts, die den LLM bitten, unklare Eingaben zu identifizieren, und erstellen Sie reibungslose Kl��rungsabläufe, die das Verständnis vor dem Handeln bestätigen.
Welche Claude-Tools unterstützen die Sprachagenten-Integration?
Claude, Codex und Claude Code können alle bei der Sprachagenten-Architektur und beim Prompt-Entwurf helfen. Für die tatsächliche Audioverarbeitung integrieren Sie mit externen APIs wie OpenAI Realtime API, ElevenLabs oder Google Cloud Speech.

개발자 세부 정보

파일 구조

📄 SKILL.md