Habilidades @azure/ai-voicelive (JavaScript/TypeScript)

🎙️

@azure/ai-voicelive (JavaScript/TypeScript)

Name: @azure/ai-voicelive (JavaScript/TypeScript)
Author: sickn33

Seguro

Construye Aplicaciones de IA de Voz en Tiempo Real con Azure

Esta skill proporciona documentación completa y ejemplos de código para construir aplicaciones de IA de voz en tiempo real utilizando el Azure AI Voice Live SDK. Permite a los desarrolladores crear asistentes de voz, IA conversacional y aplicaciones de speech-to-speech en JavaScript y TypeScript.

Soporta: Claude Codex Code(CC)

📊 70 Adecuado

Descargar el ZIP de la skill

Subir en Claude

Ve a Configuración → Capacidades → Skills → Subir skill

Activa y empieza a usar

Pruébalo

Usando "@azure/ai-voicelive (JavaScript/TypeScript)". ¿Cómo creo un VoiceLiveClient con DefaultAzureCredential?

Resultado esperado:

import { DefaultAzureCredential } from '@azure/identity';
import { VoiceLiveClient } from '@azure/ai-voicelive';

const credential = new DefaultAzureCredential();
const endpoint = process.env.AZURE_VOICELIVE_ENDPOINT!;
const client = new VoiceLiveClient(endpoint, credential);

Usando "@azure/ai-voicelive (JavaScript/TypeScript)". ¿Qué opciones de voz están disponibles?

Resultado esperado:

Voces Azure Standard (en-US-AvaNeural, etc.), voces Azure Custom con endpoint ID, voces Azure Personal para clonación de locutor y voces OpenAI (alloy, echo, shimmer).

Usando "@azure/ai-voicelive (JavaScript/TypeScript)". ¿Cómo manejo errores?

Resultado esperado:

Usa el manejador onError en tu suscripción para capturar los tipos VoiceLiveConnectionError, VoiceLiveAuthenticationError y VoiceLiveProtocolError.

Auditoría de seguridad

Seguro

v1 • 2/24/2026

This is a documentation-only skill containing guidance for using the Azure AI Voice Live SDK. No executable code was detected. The skill provides usage examples for a legitimate Azure service. No security concerns identified.

Archivos escaneados

Líneas analizadas

hallazgos

Auditorías totales

No se encontraron problemas de seguridad

Auditado por: claude

Puntuación de calidad

Arquitectura

100

Mantenibilidad

Contenido

Comunidad

100

Seguridad

Cumplimiento de la especificación

Lo que puedes crear

Construir Asistentes de Voz

Crea asistentes de voz interactivos que pueden entender el habla, responder con audio generado por IA y manejar conversaciones de múltiples turnos.

Transcripción en Tiempo Real

Implementa transcripción speech-to-text en vivo con baja latencia para servicio al cliente, accesibilidad o aplicaciones de documentación.

Chatbots Conversacionales

Construye chatbots habilitados para voz que pueden tener conversaciones habladas naturales con usuarios utilizando modelos GPT.

Prueba estos prompts

Configuración Básica de Voice Client

Muéstrame cómo configurar un VoiceLiveClient básico usando autenticación Microsoft Entra ID en TypeScript.

Configuración de Sesión

Configura una sesión de voz con modalidades de texto y audio, instrucciones personalizadas y detección de turnos Azure Semantic VAD.

Manejo de Eventos

Implementa manejadores de eventos para streaming audio delta, text delta y eventos de transcripción usando el patrón de suscripción.

Function Calling

Configura herramientas de function calling en la configuración de sesión y maneja eventos de function call para integrar APIs externas.

Mejores prácticas

Usa siempre DefaultAzureCredential en lugar de hardcodear API keys para autenticación segura
Usa Azure Semantic VAD para mejor detección de turnos que el server VAD básico
Limpia las suscripciones llamando a subscription.close() cuando termines para prevenir memory leaks

Evitar

Hardcodear API keys directamente en el código fuente en lugar de usar variables de entorno o Entra ID
No manejar por separado errores de conexión, autenticación y protocolo
Configurar solo la modalidad audio sin texto - esto rompe muchas características conversacionales

Preguntas frecuentes

¿Qué métodos de autenticación están soportados?

Microsoft Entra ID (recomendado) y autenticación con API key usando AzureKeyCredential.

¿Qué entornos están soportados?

Node.js LTS (20+) y navegadores modernos (Chrome, Firefox, Safari, Edge) con un bundler.

¿Qué formatos de audio están soportados?

PCM16 a 24kHz (default), PCM16-8kHz, PCM16-16kHz, G711 ulaw y G711 alaw.

¿Cómo funciona la detección de turnos?

Server VAD usa detección de actividad de voz. Azure Semantic VAD usa IA para entender el contexto conversacional para mejor toma de turnos.

¿Puedo usar voces personalizadas?

Sí, las voces Azure Custom con endpoint ID y las voces Azure Personal para clonación de perfil de locutor están soportadas.

¿Qué modelos están soportados?

GPT-4o-realtime-preview, GPT-4o-mini-realtime-preview y phi4-mm-realtime para aplicaciones rentables.

Detalles del desarrollador

Autor

sickn33

Licencia

MIT

Repositorio

https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/azure-ai-voicelive-ts

Ref.

main

Estructura de archivos

📄 SKILL.md