Fähigkeiten voice-ai-development
🎙️

voice-ai-development

Sicher

Erstellen Sie Echtzeit-Sprach-KI-Anwendungen

Sprach-KI-Anwendungen erfordern eine sorgfältige Orchestrierung von Spracherkennung, Sprachmodellen und Text-zu-Sprache. Diese Skill bietet fundierte Anleitung zum Aufbau reaktionsschneller Sprachagenten mit OpenAI Realtime API, Vapi, Deepgram und ElevenLabs.

Unterstützt: Claude Codex Code(CC)
📊 69 Angemessen
1

Die Skill-ZIP herunterladen

2

In Claude hochladen

Gehe zu Einstellungen → Fähigkeiten → Skills → Skill hochladen

3

Einschalten und loslegen

Teste es

Verwendung von "voice-ai-development". Wie richte ich einen Sprachagenten mit Vapi ein?

Erwartetes Ergebnis:

So erstellen Sie einen grundlegenden Sprachagenten mit Vapi:

1. Installieren Sie das Vapi SDK: `pip install vapi`
2. Erstellen Sie einen Vapi-Client mit Ihrem API-Schlüssel
3. Definieren Sie Ihren Assistenten mit Modell-, Stimmen- und Transkriber-Einstellungen
4. Richten Sie einen Webhook ein, um Konversationsereignisse zu verarbeiten

Die Assistenten-Konfiguration umfasst die Anbieterauswahl (OpenAI, Anthropic), Stimmenwahl (ElevenLabs-Stimmen) und Transkriptionseinstellungen (Deepgram-Modelle).

Verwendung von "voice-ai-development". Was ist der beste Ansatz für niedrig-latenz Sprach-KI?

Erwartetes Ergebnis:

Für optimale Latenz:

1. Streamen Sie alles - verwenden Sie interim STT-Ergebnisse, streamen Sie LLM-Tokens, chunken Sie TTS-Ausgabe
2. Starten Sie TTS bevor der LLM fertig ist - beginnen Sie mit dem Sprechen während der Generierung
3. Verwenden Sie Proximity - deployen Sie Dienste in Regionen in der Nähe Ihrer Benutzer
4. Wählen Sie schnelle Modelle - eleven_turbo_v2_5 für TTS, nova-2 für STT
5. Implementieren Sie korrektes Audio-Chunking - senden Sie kleine Puffer häufig

Das Ziel ist es, die wahrgenommene Latenz unter 700ms für natürliche Konversation zu halten.

Sicherheitsaudit

Sicher
v1 • 2/25/2026

Security analysis confirms this is a legitimate voice AI development skill. Static findings for external_commands, env_access, and weak_crypto are all false positives - the scanner misidentified markdown code fences as shell commands and placeholder API key patterns as actual secrets. No malicious code detected.

1
Gescannte Dateien
307
Analysierte Zeilen
2
befunde
1
Gesamtzahl Audits

Probleme mit hohem Risiko (2)

Environment Variable Access Pattern (False Positive)
Scanner detected API key patterns at SKILL.md lines 48, 53, 118, 196, 229. These are placeholder examples showing API key usage structure, not actual secrets. Values like 'sk-...' and '...' are documentation placeholders.
External Command Execution (False Positive)
Scanner detected 'Ruby/shell backtick execution' at 8 locations. These are markdown code fences (```python) in the SKILL.md documentation, not actual shell commands being executed.
Auditiert von: claude

Qualitätsbewertung

38
Architektur
100
Wartbarkeit
87
Inhalt
32
Community
85
Sicherheit
91
Spezifikationskonformität

Was du bauen kannst

Kundenservice-Sprachagent

Erstellen Sie einen interaktiven Sprachagenten, der Kundenanfragen bearbeitet, Anrufe weiterleitet und 24/7-Support mit Vapi und Deepgram bietet.

Echtzeit-Sprachassistent

Entwickeln Sie einen niedrig-latenzen Sprachassistenten mit der OpenAI Realtime API für natürliche Gesprächserfahrungen in Web- oder Mobile-Apps.

Barrierefreie Sprachschnittstelle

Fügen Sie Sprach-Eingabe und -Ausgabe zu bestehenden Anwendungen hinzu, um die Barrierefreiheit für Benutzer zu verbessern, die Sprachinteraktion bevorzugen.

Probiere diese Prompts

Grundlegende Sprachagenten-Einrichtung
Helfen Sie mir, einen einfachen Sprach-KI-Agenten mit Vapi einzurichten. Ich möchte einen simplen Agenten erstellen, der Fragen zu meinem Produkt mit dem OpenAI-Modell und der ElevenLabs-Stimme beantworten kann.
OpenAI Realtime API-Integration
Zeigen Sie mir, wie ich die OpenAI Realtime API für eine Sprachanwendung implementiere. Ich muss Audioeingaben von einem Mikrofon verarbeiten, an GPT-4o senden und die Audioantwort zurückstreamen.
Latenzoptimierung
Mein Sprachagent reagiert zu langsam. Zwischen der Benutzereingabe und der Antwort liegt eine merkliche Verzögerung. Welche Optimierungen kann ich an meiner Pipeline vornehmen, um die wahrgenommene Latenz zu verringern? Ich verwende Deepgram für STT und ElevenLabs für TTS.
Unterbrechungsbehandlung
Wie implementiere ich eine Barge-in-Erkennung, sodass Benutzer den Sprachagenten während des Sprechens unterbrechen können? Der Agent soll sofort stoppen, wenn der Benutzer zu sprechen beginnt.

Bewährte Verfahren

  • Streamen Sie Audio immer auf jeder Stufe der Pipeline - STT-Zwischenergebnisse, LLM-Token-Streaming und TTS-Chunk-Ausgabe
  • Starten Sie die TTS-Generierung bevor der LLM fertig antwortet, um die wahrgenommene Latenz zu minimieren
  • Implementieren Sie eine angemessene Unterbrechungsbehandlung mit VAD, um zu erkennen, wann Benutzer sprechen möchten

Vermeiden

  • Warten auf vollständige STT-Transkription bevor sie an den LLM gesendet wird - dies fügt Sekunden an Latenz hinzu
  • Ignorieren von Benutzerunterbrechungen - das Versäumnis, TTS zu stoppen, wenn der Benutzer zu sprechen beginnt, führt zu frustrierenden Gesprächen
  • Verwendung eines einzigen Anbieters für alles - die Kombination spezialisierter Anbieter (Deepgram für STT, ElevenLabs für TTS) liefert bessere Ergebnisse

Häufig gestellte Fragen

Was ist der Unterschied zwischen der OpenAI Realtime API und Vapi?
Die OpenAI Realtime API bietet native Sprach-zu-Sprach-Funktionen, die in GPT-4o integriert sind. Vapi ist eine Plattform, die die Bereitstellung von Sprachagenten mit vorgefertigter Infrastruktur, Telefonunterstützung und einfacherer Konfiguration vereinfacht. OpenAI bietet mehr Kontrolle; Vapi ermöglicht schnellere Einrichtung.
Wie reduziere ich die Latenz in meiner Sprachanwendung?
Hauptstrategien: Streamen aller Komponenten (STT, LLM, TTS), Starten von TTS vor Abschluss des LLM, Verwendung schneller Modelle (nova-2 für Deepgram, turbo für ElevenLabs), Bereitstellung in der Nähe der Benutzer und Implementierung korrekter Audio-Chunking.
Kann ich meine eigene Stimme mit ElevenLabs verwenden?
Ja, ElevenLabs ermöglicht das Hochladen von Sprachproben, um eine benutzerdefinierte Stimme zu erstellen. Klare Audioaufnahmen der Zielstimme sind erforderlich, und die Zustimmung des Stimmeninhabers ist notwendig.
Wie gehe ich mit mehreren gleichzeitigen Benutzern um?
Jede Benutzersitzung benötigt eine separate WebRTC-Verbindung. Sitzungsstatus pro Benutzer verfolgen, gleichzeitige API-Verbindungen verwalten und geeignete Skalierungsinfrastruktur wie LiveKit für die Handhabung mehrerer Sprachstreams implementieren.
Was ist Barge-in und warum ist es wichtig?
Barge-in ermöglicht Benutzern, den Sprachagenten während des Sprechens zu unterbrechen. Dies ist wichtig, da das Warten auf das Ende des Agenten frustrierend sein kann. Implementierung erfolgt über Voice Activity Detection (VAD), die Benutzersprache erkennt und die TTS-Ausgabe sofort stoppt.
Welche Anbieter funktionieren am besten zusammen?
Eine gängige hochwertige Kombination: Deepgram für STT (schnell, genau), ElevenLabs für TTS (natürliche Stimmen) und OpenAI oder Anthropic für LLM. Jeder Anbieter ist in seiner spezifischen Aufgabe hervorragend.

Entwicklerdetails

Dateistruktur

📄 SKILL.md