Fähigkeiten voice-agents
📦

voice-agents

Sicher

Erstellen Sie natürliche Sprach-KI-Agenten mit optimaler Latenz

Die Erstellung von Sprachagenten, die sich natürlich anfühlen, erfordert das Verständnis von Latenz-Budgets und Gesprächsdynamiken. Dieses Skill bietet bewährte Muster für Speech-to-Speech- und Pipeline-Architekturen, die in Produktionssystemen verwendet werden, die Millionen von Anrufen verarbeiten.

Unterstützt: Claude Codex Code(CC)
📊 71 Angemessen
1

Die Skill-ZIP herunterladen

2

In Claude hochladen

Gehe zu Einstellungen → Fähigkeiten → Skills → Skill hochladen

3

Einschalten und loslegen

Teste es

Verwendung von "voice-agents". Entwerfen Sie einen Sprachagenten für Restaurantreservierungen

Erwartetes Ergebnis:

  • Architektur: Pipeline (STT → LLM → TTS) für maximale Kontrolle über Reservierungsdaten
  • Latenz-Budget: STT 200 ms, LLM 800 ms, TTS 300 ms = 1300 ms gesamt
  • VAD: Verwenden Sie semantische Detektion, um Reservierungsdetails von Hintergrundgeräuschen zu unterscheiden
  • Antwortformat: Beschränkung auf strukturierte Bestätigung mit Name, Zeit, GruppenGröße

Verwendung von "voice-agents". Wie gehe ich mit Benutzern um, die mitten in der Antwort unterbrechen?

Erwartetes Ergebnis:

  • Implementieren Sie Barge-in-Erkennung, die während der TTS-Wiedergabe Audio überwacht
  • Bei Unterbrechung erkannt: sofort TTS pausieren, Benutzeräußerung verarbeiten
  • Wenn Unterbrechung eine Frage ist: direkt antworten, dann verbleibenden Inhalt fortsetzen oder überspringen
  • Wenn Unterbrechung ein neues Thema ist: bestätigen und zum neuen Thema übergehen

Sicherheitsaudit

Sicher
v1 • 2/25/2026

This skill contains only documentation and architectural guidance for voice AI development. Static analysis flagged markdown backticks as shell commands and text patterns as cryptographic code, but all findings are false positives. No executable code, network calls, or security risks present.

1
Gescannte Dateien
73
Analysierte Zeilen
0
befunde
1
Gesamtzahl Audits
Keine Sicherheitsprobleme gefunden
Auditiert von: claude

Qualitätsbewertung

38
Architektur
100
Wartbarkeit
87
Inhalt
32
Community
100
Sicherheit
91
Spezifikationskonformität

Was du bauen kannst

KundenSupport-Sprachagent

Erstellen Sie eine Voice-KI, die Kundenanfragen mit natürlichem Gesprächsfluss bewältigt und erkennt, wann Kunden unterbrechen oder eine Erklärung benötigen.

Sprachgesteuerter Produktivitätsassistent

Erstellen Sie eine freihändige KI-Assistenz für Fachleute, die während des Fahrens, Kochens oder der Ausführung anderer Aufgaben interagieren müssen.

Barrierefreie Sprachschnittstelle

Entwerfen Sie sprachorientierte Schnittstellen für Benutzer mit Sehbehinderung oder Mobilitätseinschränkungen, die von sprachlicher Interaktion profitieren.

Probiere diese Prompts

Grundlegender Sprachagenten-Entwurf
Entwerfen Sie eine Sprachagenten-Architektur für einen Kundendienst-Anwendungsfall. Einschließlich STT-, LLM- und TTS-Komponenten mit Latenzschätzungen für jede Komponente.
Latenz-Budget-Planung
Erstellen Sie ein Latenz-Budget für einen Sprachagenten mit einer Zielzeit von unter 500 ms. Identifizieren Sie die maximal zulässige Latenz für jede Komponente und potenzielle Optimierungsstrategien.
Strategie zur Sprecherwechsel-Erkennung
Entwerfen Sie ein Sprachaktivitäts-Detektionssystem, das Barge-in (Benutzerunterbrechungen) verarbeitet, ohne den Benutzer mitten im Satz abzuschneiden. Einschließlich semantischem Verständnis, wann Unterbrechungen angemessen sind.
Produktions-Fehlerbehandlung
Erstellen Sie Fehlerbehandlungsstrategien für häufige Sprachagenten-Ausfälle: STT-Fehlerkennung, LLM-Timeout, TTS-Ausfall und Netzwerkunterbrechungen. Einschließlich Fallback-Verhalten und benutzerseitigen Meldungen.

Bewährte Verfahren

  • Messen und budgetieren Sie die Latenz für jede Komponente - zielen Sie auf unter 500 ms für natürliche Gespräche
  • Verwenden Sie semantische Sprachaktivitäts-Detektion anstelle von nur Stille-Detektion, um falsche Positive zu vermeiden
  • Beschränken Sie die Antwortlänge in Prompts auf 2-3 Sätze für natürliche mündliche Ausgabe

Vermeiden

  • Ignorieren des Latenz-Budgets - die Summe aller Komponentenlatenzen bestimmt die Natürlichkeit des Gesprächs
  • Stille-basierte Sprecherwechsel-Erkennung - führt zu falschen positiven Ergebnissen durch Hintergrundgeräusche und verpasst schnelle Antworten
  • Lange Antworten - Benutzer können keine langen gesprochenen Informationen behalten; halten Sie Antworten kurz und strukturiert

Häufig gestellte Fragen

Was ist der Unterschied zwischen Speech-to-Speech- und Pipeline-Architekturen?
Speech-to-Speech-Modelle wie OpenAI Realtime API verarbeiten Audio direkt mit niedrigster Latenz und erhaltenen Emotionen, bieten aber weniger Kontrolle. Pipeline-Architekturen trennen STT, LLM und TTS für maximale Kontrolle in jedem Schritt, fügen jedoch Latenz durch Komponentenübergaben hinzu.
Welches Latenzziel sollte ich anstreben?
Zielen Sie auf eine End-to-End-Latenz von unter 500 ms für ein natürliches Gesprächsgefühl. Über 800 ms fühlt sich merklich verzögert an. Unter 300 ms fühlt sich augenblicklich an, ist aber mit Pipeline-Architekturen schwer zu erreichen.
Wie gehe ich mit Hintergrundgeräuschen in Sprachagenten um?
Verwenden Sie die Sprachaktivitäts-Detektion mit Geräuschunterdrückung, implementieren Sie semantisches Verständnis, um Nicht-Sprach-Geräusche zu filtern, und entwerfen Sie Prompts, die dem LLM helfen, relevante Sprache von Geräuschartefakten zu unterscheiden.
Was ist Barge-in-Erkennung und warum ist sie wichtig?
Barge-in-Erkennung ermöglicht es Benutzern, die KI mitten in der Antwort zu unterbrechen, genau wie bei menschlichen Gesprächen. Ohne sie müssen Benutzer warten, bis die KI fertig gesprochen hat, was zu unnatürlichen Interaktionen und Frustration führt.
Wie gehe ich mit STT-Fehlern und Fehlkennungen um?
Implementieren Sie Konfidenz-Bewertungen, um unsichere Transkriptionen zu erkennen, entwerfen Sie Prompts, die den LLM bitten, unklare Eingaben zu identifizieren, und erstellen Sie reibungslose Kl��rungsabläufe, die das Verständnis vor dem Handeln bestätigen.
Welche Claude-Tools unterstützen die Sprachagenten-Integration?
Claude, Codex und Claude Code können alle bei der Sprachagenten-Architektur und beim Prompt-Entwurf helfen. Für die tatsächliche Audioverarbeitung integrieren Sie mit externen APIs wie OpenAI Realtime API, ElevenLabs oder Google Cloud Speech.

Entwicklerdetails

Dateistruktur

📄 SKILL.md