技能 @azure/ai-voicelive (JavaScript/TypeScript)
🎙️

@azure/ai-voicelive (JavaScript/TypeScript)

安全

Construye Aplicaciones de IA de Voz en Tiempo Real con Azure

Esta skill proporciona documentación completa y ejemplos de código para construir aplicaciones de IA de voz en tiempo real utilizando el Azure AI Voice Live SDK. Permite a los desarrolladores crear asistentes de voz, IA conversacional y aplicaciones de speech-to-speech en JavaScript y TypeScript.

支持: Claude Codex Code(CC)
🥉 73 青铜
1

下载技能 ZIP

2

在 Claude 中上传

前往 设置 → 功能 → 技能 → 上传技能

3

开启并开始使用

测试它

正在使用“@azure/ai-voicelive (JavaScript/TypeScript)”。 ¿Cómo creo un VoiceLiveClient con DefaultAzureCredential?

预期结果:

import { DefaultAzureCredential } from '@azure/identity';
import { VoiceLiveClient } from '@azure/ai-voicelive';

const credential = new DefaultAzureCredential();
const endpoint = process.env.AZURE_VOICELIVE_ENDPOINT!;
const client = new VoiceLiveClient(endpoint, credential);

正在使用“@azure/ai-voicelive (JavaScript/TypeScript)”。 ¿Qué opciones de voz están disponibles?

预期结果:

Voces Azure Standard (en-US-AvaNeural, etc.), voces Azure Custom con endpoint ID, voces Azure Personal para clonación de locutor y voces OpenAI (alloy, echo, shimmer).

正在使用“@azure/ai-voicelive (JavaScript/TypeScript)”。 ¿Cómo manejo errores?

预期结果:

Usa el manejador onError en tu suscripción para capturar los tipos VoiceLiveConnectionError, VoiceLiveAuthenticationError y VoiceLiveProtocolError.

安全审计

安全
v1 • 2/24/2026

This is a documentation-only skill containing guidance for using the Azure AI Voice Live SDK. No executable code was detected. The skill provides usage examples for a legitimate Azure service. No security concerns identified.

0
已扫描文件
0
分析行数
0
发现项
1
审计总数
未发现安全问题
审计者: claude

质量评分

38
架构
100
可维护性
87
内容
50
社区
100
安全
83
规范符合性

你能构建什么

Construir Asistentes de Voz

Crea asistentes de voz interactivos que pueden entender el habla, responder con audio generado por IA y manejar conversaciones de múltiples turnos.

Transcripción en Tiempo Real

Implementa transcripción speech-to-text en vivo con baja latencia para servicio al cliente, accesibilidad o aplicaciones de documentación.

Chatbots Conversacionales

Construye chatbots habilitados para voz que pueden tener conversaciones habladas naturales con usuarios utilizando modelos GPT.

试试这些提示

Configuración Básica de Voice Client
Muéstrame cómo configurar un VoiceLiveClient básico usando autenticación Microsoft Entra ID en TypeScript.
Configuración de Sesión
Configura una sesión de voz con modalidades de texto y audio, instrucciones personalizadas y detección de turnos Azure Semantic VAD.
Manejo de Eventos
Implementa manejadores de eventos para streaming audio delta, text delta y eventos de transcripción usando el patrón de suscripción.
Function Calling
Configura herramientas de function calling en la configuración de sesión y maneja eventos de function call para integrar APIs externas.

最佳实践

  • Usa siempre DefaultAzureCredential en lugar de hardcodear API keys para autenticación segura
  • Usa Azure Semantic VAD para mejor detección de turnos que el server VAD básico
  • Limpia las suscripciones llamando a subscription.close() cuando termines para prevenir memory leaks

避免

  • Hardcodear API keys directamente en el código fuente en lugar de usar variables de entorno o Entra ID
  • No manejar por separado errores de conexión, autenticación y protocolo
  • Configurar solo la modalidad audio sin texto - esto rompe muchas características conversacionales

常见问题

¿Qué métodos de autenticación están soportados?
Microsoft Entra ID (recomendado) y autenticación con API key usando AzureKeyCredential.
¿Qué entornos están soportados?
Node.js LTS (20+) y navegadores modernos (Chrome, Firefox, Safari, Edge) con un bundler.
¿Qué formatos de audio están soportados?
PCM16 a 24kHz (default), PCM16-8kHz, PCM16-16kHz, G711 ulaw y G711 alaw.
¿Cómo funciona la detección de turnos?
Server VAD usa detección de actividad de voz. Azure Semantic VAD usa IA para entender el contexto conversacional para mejor toma de turnos.
¿Puedo usar voces personalizadas?
Sí, las voces Azure Custom con endpoint ID y las voces Azure Personal para clonación de perfil de locutor están soportadas.
¿Qué modelos están soportados?
GPT-4o-realtime-preview, GPT-4o-mini-realtime-preview y phi4-mm-realtime para aplicaciones rentables.

开发者详情

文件结构

📄 SKILL.md