技能 @azure/ai-voicelive (JavaScript/TypeScript)
🎙️

@azure/ai-voicelive (JavaScript/TypeScript)

安全

Crie Aplicativos de Voz em Tempo Real com Azure

Esta skill fornece documentação abrangente e exemplos de código para construir aplicativos de voz em tempo real usando o Azure AI Voice Live SDK. Permite que desenvolvedores criem assistentes de voz, IA conversacional e aplicativos de fala para fala em JavaScript e TypeScript.

支持: Claude Codex Code(CC)
🥉 73 青铜
1

下载技能 ZIP

2

在 Claude 中上传

前往 设置 → 功能 → 技能 → 上传技能

3

开启并开始使用

测试它

正在使用“@azure/ai-voicelive (JavaScript/TypeScript)”。 Como crio um VoiceLiveClient com DefaultAzureCredential?

预期结果:

import { DefaultAzureCredential } from '@azure/identity';
import { VoiceLiveClient } from '@azure/ai-voicelive';

const credential = new DefaultAzureCredential();
const endpoint = process.env.AZURE_VOICELIVE_ENDPOINT!;
const client = new VoiceLiveClient(endpoint, credential);

正在使用“@azure/ai-voicelive (JavaScript/TypeScript)”。 Quais opções de voz estão disponíveis?

预期结果:

Vozes Azure Standard (en-US-AvaNeural, etc.), vozes Azure Custom com endpoint ID, Azure Personal voices para clonagem de speaker, e vozes OpenAI (alloy, echo, shimmer).

正在使用“@azure/ai-voicelive (JavaScript/TypeScript)”。 Como manipulo erros?

预期结果:

Use o manipulador onError na sua assinatura para capturar tipos VoiceLiveConnectionError, VoiceLiveAuthenticationError e VoiceLiveProtocolError.

安全审计

安全
v1 • 2/24/2026

This is a documentation-only skill containing guidance for using the Azure AI Voice Live SDK. No executable code was detected. The skill provides usage examples for a legitimate Azure service. No security concerns identified.

0
已扫描文件
0
分析行数
0
发现项
1
审计总数
未发现安全问题
审计者: claude

质量评分

38
架构
100
可维护性
87
内容
50
社区
100
安全
83
规范符合性

你能构建什么

Crie Assistentes de Voz

Crie assistentes de voz interativos que podem entender fala, responder com áudio gerado por IA e lidar com conversas multiturno.

Transcrição em Tempo Real

Implemente transcrição de fala para texto ao vivo com baixa latência para atendimento ao cliente, acessibilidade ou aplicativos de documentação.

Chatbots Conversacionais

Construa chatbots habilitados para voz que podem ter conversas faladas naturais com usuários usando modelos GPT.

试试这些提示

Configuração Básica do Cliente de Voz
Mostre-me como configurar um VoiceLiveClient básico usando autenticação do Microsoft Entra ID em TypeScript.
Configuração de Sessão
Configure uma sessão de voz com modalidades de texto e áudio, instruções personalizadas e detecção de turnos com Azure Semantic VAD.
Manipulação de Eventos
Implemente manipuladores de eventos para delta de áudio streaming, delta de texto e eventos de transcrição usando o padrão de assinatura.
Chamada de Função
Configure ferramentas de chamada de função na configuração da sessão e manipule eventos de chamada de função para integrar APIs externas.

最佳实践

  • Sempre use DefaultAzureCredential em vez de codificar chaves de API para autenticação segura
  • Use Azure Semantic VAD para melhor detecção de turnos do que server VAD básico
  • Limpe as assinaturas chamando subscription.close() quando terminar para evitar vazamentos de memória

避免

  • Codificar chaves de API diretamente no código-fonte em vez de usar variáveis de ambiente ou Entra ID
  • Não manipular erros de conexão, autenticação e protocolo separadamente
  • Definir apenas modalidade de áudio sem texto - isso quebra muitos recursos conversacionais

常见问题

Quais métodos de autenticação são suportados?
Microsoft Entra ID (recomendado) e autenticação com chave de API usando AzureKeyCredential.
Quais ambientes são suportados?
Node.js LTS (20+) e navegadores modernos (Chrome, Firefox, Safari, Edge) com um bundler.
Quais formatos de áudio são suportados?
PCM16 a 24kHz (padrão), PCM16-8kHz, PCM16-16kHz, G711 ulaw e G711 alaw.
Como funciona a detecção de turnos?
Server VAD usa detecção de atividade de voz. Azure Semantic VAD usa IA para entender o contexto conversacional para melhor tomada de turnos.
Posso usar vozes customizadas?
Sim, Azure Custom voices com endpoint ID e Azure Personal voices para clonagem de perfil de speaker são suportados.
Quais modelos são suportados?
GPT-4o-realtime-preview, GPT-4o-mini-realtime-preview e phi4-mm-realtime para aplicações econômica.

开发者详情

文件结构

📄 SKILL.md