voice-agents
Créez des agents IA vocaux naturels avec une latence optimale
Créer des agents vocaux qui semblent naturels nécessite de comprendre les budgets de latence et la dynamique des conversations. Cette compétence fournit des modèles éprouvés pour les architectures speech-to-speech et pipeline utilisées dans des systèmes de production gérant des millions d'appels.
Télécharger le ZIP du skill
Importer dans Claude
Allez dans Paramètres → Capacités → Skills → Importer un skill
Activez et commencez à utiliser
Tester
Utilisation de "voice-agents". Concevez un agent vocal pour les réservations de restaurant
Résultat attendu:
- Architecture : Pipeline (STT → LLM → TTS) pour un contrôle maximal des données de réservation
- Budget de latence : STT 200ms, LLM 800ms, TTS 300ms = 1300ms total
- VAD : Utiliser la détection sémantique pour distinguer les détails de réservation du bruit de fond
- Format de réponse : Contraindre à une confirmation structurée avec nom, heure, nombre de personnes
Utilisation de "voice-agents". Comment gérer les utilisateurs qui interrompent en plein milieu de réponse ?
Résultat attendu:
- Implémentez une détection de barge-in qui surveille l'audio pendant la lecture TTS
- Lorsqu'une interruption est détectée : mettre immédiatement en pause le TTS, traiter l'énoncé utilisateur
- Si l'interruption est une question : répondre directement, puis reprendre ou ignorer le contenu restant
- Si l'interruption est un nouveau sujet : reconnaître et transitionner vers le nouveau sujet
Audit de sécurité
SûrThis skill contains only documentation and architectural guidance for voice AI development. Static analysis flagged markdown backticks as shell commands and text patterns as cryptographic code, but all findings are false positives. No executable code, network calls, or security risks present.
Score de qualité
Ce que vous pouvez construire
Agent vocal de support client
Construisez une IA vocale qui gère les demandes clients avec un flux de conversation naturel, détectant quand les clients interrompent ou ont besoin de clarifications.
Assistant de productivité vocal
Créez un assistant IA mains libres pour les professionnels qui doivent interagir en conduisant, en cuisinant ou en effectuant d'autres tâches.
Interface vocale d'accessibilité
Concevez des interfaces vocales pour les utilisateurs ayant des déficiences visuelles ou des limitations de mobilité qui bénéficient de l'interaction parlée.
Essayez ces prompts
Concevez une architecture d'agent vocal pour un cas d'usage de service client. Incluez les composants STT, LLM et TTS avec des estimations de latence pour chacun.
Créez un budget de latence pour un agent vocal ciblant un temps de réponse inférieur à 500ms. Identifiez la latence maximale autorisée pour chaque composant et les stratégies d'optimisation potentielles.
Concevez un système de détection d'activité vocale qui gère le barge-in (interruptions utilisateur) sans couper l'utilisateur en plein milieu d'une phrase. Incluez une compréhension sémantique de quand les interruptions sont appropriées.
Créez des stratégies de gestion d'erreurs pour les pannes courantes d'agents vocaux : mauvaise reconnaissance STT, timeout LLM, échec TTS et interruptions réseau. Incluez des comportements de repli et des messages destinés aux utilisateurs.
Bonnes pratiques
- Mesurez et établissez un budget de latence pour chaque composant - visez moins de 500ms pour une conversation naturelle
- Utilisez la détection sémantique d'activité vocale au lieu de la détection par silence uniquement pour éviter les faux positifs
- Contraignez la longueur des réponses dans les prompts à 2-3 phrases pour une délivrance parlée naturelle
Éviter
- Ignorer le budget de latence - la somme de toutes les latences des composants détermine le naturel de la conversation
- Détection de tour de parole par silence uniquement - provoque des faux positifs dus au bruit de fond et manque les réponses rapides
- Réponses longues - les utilisateurs ne peuvent pas retenir de longues informations parlées ; gardez les réponses brèves et structurées