Compétences voice-ai-engine-development

📦

voice-ai-engine-development

Name: voice-ai-engine-development
Author: sickn33

Sûr

Créer des moteurs IA vocaux en temps réel

Créez des moteurs vocaux d'IA conversationnelle prêts pour la production avec des pipelines de workers asynchrones, de la transcription en flux continu, des agents LLM et la synthèse TTS. Cette compétence fournit une guide complet pour créer des assistants vocaux avec gestion des interruptions et support multi-fournisseurs.

Prend en charge: Claude Codex Code(CC)

🥉 75 Bronze

Télécharger le ZIP du skill

Importer dans Claude

Allez dans Paramètres → Capacités → Skills → Importer un skill

Activez et commencez à utiliser

Tester

Utilisation de "voice-ai-engine-development". Créer un moteur IA vocale avec trois workers : transcriber, agent et synthesizer

Résultat attendu:

Une structure de projet Python avec workers asynchrones basés sur des files, chacun traitant l'audio/texte indépendamment et communiquant via asyncio.Queue

Utilisation de "voice-ai-engine-development". Montrez-moi comment g��rer les interruptions utilisateur dans une conversation vocale

Résultat attendu:

Code démontrant le wrapper InterruptibleEvent et la méthode get_message_up_to() pour couper la parole de l'IA lorsque l'utilisateur parle

Utilisation de "voice-ai-engine-development". Comparer Deepgram vs Google Speech pour la transcription

Résultat attendu:

Un tableau comparatif montrant les différences de latence, précision, support linguistique et coût entre fournisseurs

Audit de sécurité

Sûr

v1 • 2/25/2026

All 214 static findings are false positives. The skill is legitimate voice AI development documentation with example code. Detected patterns include: markdown code fences (not shell commands), legitimate audio data representation with \x00, standard network bindings (0.0.0.0), and placeholder configuration strings. No actual security issues found.

Fichiers analysés

3,371

Lignes analysées

résultats

Total des audits

Aucun problème de sécurité trouvé

Audité par: claude

Score de qualité

Architecture

100

Maintenabilité

Contenu

Communauté

100

Sécurité

Conformité aux spécifications

Ce que vous pouvez construire

Créer un Assistant Vocal

Créer un assistant vocal en temps réel capable d'écouter, traiter et répondre aux requêtes utilisateur avec une synthèse naturelle

Implémenter un Chatbot Vocal

Ajouter des capacités de conversation vocale aux chatbots existants pour les applications d'appels téléphoniques ou vidéo

Créer un Système Vocal Multi-Fournisseurs

Créer un système vocal flexible capable de basculer entre différents fournisseurs de transcription et TTS

Essayez ces prompts

Pipeline Vocal Basique

Utilisez la compétence voice-ai-engine-development pour créer un assistant vocal simple qui écoute la parole, la convertit en texte, la traite avec un LLM, et prononce la réponse

Ajouter la Gestion des Interruptions

En utilisant voice-ai-engine-development, montrez-moi comment ajouter la gestion des interruptions pour que les utilisateurs puissent arrêter l'IA en cours de réponse

Configuration Multi-Fournisseurs

Je souhaite utiliser plusieurs fournisseurs TTS (ElevenLabs, Google, OpenAI) dans mon moteur vocal. Montrez-moi l'implémentation du pattern factory depuis voice-ai-engine-development

Optimiser la Latence de Flux

En utilisant les meilleures pratiques de voice-ai-engine-development, comment optimiser le pipeline asynchrone pour minimiser la latence entre la parole utilisateur et la réponse IA ?

Bonnes pratiques

Utiliser des files de workers asynchrones pour les étapes de traitement indépendantes afin d'activer une véritable concurrence
Mettre en tampon les réponses LLM avant le TTS pour assurer une sortie audio fluide sans troncature
Implémenter la gestion des interruptions tôt car elle affecte toute l'architecture du pipeline

Éviter

Traiter l'audio de manière synchrone dans un seul thread (bloque les performances temps réel)
Envoyer des fragments incomplets à la transcription (provoque des problèmes de précision)
Démarrer le TTS avant la fin de la réponse LLM (résulte en une parole coupée)

Foire aux questions

Quels fournisseurs vocaux cette compétence prend-elle en charge ?

La compétence couvre l'intégration avec Deepgram, Google Speech et Whisper pour la transcription ; OpenAI, Gemini et Anthropic pour le LLM ; et ElevenLabs, Google Cloud TTS et OpenAI TTS pour la synthèse vocale.

Ai-je besoin de clés API pour utiliser cette compétence ?

Oui, vous aurez besoin des clés API de vos fournisseurs choisis (Deepgram, OpenAI, ElevenLabs, etc.). La compétence fournit des modèles de configuration mais n'inclut pas les clés réelles.

Est-ce que cela peut fonctionner entièrement en local ?

Certains composants peuvent fonctionner localement (comme la transcription Whisper), mais la plupart des systèmes IA vocaux de production nécessitent des appels API cloud pour le traitement LLM et le TTS de haute qualité.

Comment fonctionne la gestion des interruptions ?

La compétence utilise un wrapper InterruptibleEvent qui suit si l'utilisateur a parlé. La méthode get_message_up_to() renvoie uniquement le texte prononcé avant l'interruption.

Quelles bibliothèques Python sont requises ?

Les dépendances principales incluent asyncio, FastAPI, websockets pour la communication temps réel, et les SDK des fournisseurs. La compétence liste tous les packages requis dans la documentation.

Est-ce adapté au déploiement en production ?

La compétence fournit des modèles architecturaux adaptés à la production, mais vous devrez implémenter les intégrations réelles aux fournisseurs et gérer les considérations de mise à l'échelle.