技能 @azure/ai-voicelive (JavaScript/TypeScript)

🎙️

@azure/ai-voicelive (JavaScript/TypeScript)

Name: @azure/ai-voicelive (JavaScript/TypeScript)
Author: sickn33

安全

使用 Azure 构建实时语音 AI 应用

本技能提供全面的文档和代码示例，帮助开发者使用 Azure AI Voice Live SDK 构建实时语音 AI 应用。它使开发者能够使用 JavaScript 和 TypeScript 创建语音助手、对话式 AI 和语音转语音应用。

支持: Claude Codex Code(CC)

📊 70 充足

下载技能 ZIP

在 Claude 中上传

前往设置 → 功能 → 技能 → 上传技能

开启并开始使用

测试它

正在使用“@azure/ai-voicelive (JavaScript/TypeScript)”。如何使用 DefaultAzureCredential 创建 VoiceLiveClient？

预期结果:

import { DefaultAzureCredential } from '@azure/identity';
import { VoiceLiveClient } from '@azure/ai-voicelive';

const credential = new DefaultAzureCredential();
const endpoint = process.env.AZURE_VOICELIVE_ENDPOINT!;
const client = new VoiceLiveClient(endpoint, credential);

正在使用“@azure/ai-voicelive (JavaScript/TypeScript)”。有哪些语音选项可用？

预期结果:

Azure Standard 语音（en-US-AvaNeural 等）、带端点 ID 的 Azure Custom 语音、用于说话人克隆的 Azure Personal 语音，以及 OpenAI 语音（alloy、echo、shimmer）。

正在使用“@azure/ai-voicelive (JavaScript/TypeScript)”。如何处理错误？

预期结果:

使用订阅中的 onError 处理器捕获 VoiceLiveConnectionError、VoiceLiveAuthenticationError 和 VoiceLiveProtocolError 类型。

安全审计

安全

v1 • 2/24/2026

This is a documentation-only skill containing guidance for using the Azure AI Voice Live SDK. No executable code was detected. The skill provides usage examples for a legitimate Azure service. No security concerns identified.

已扫描文件

分析行数

发现项

审计总数

未发现安全问题

审计者: claude

质量评分

架构

100

可维护性

内容

社区

100

安全

规范符合性

你能构建什么

构建语音助手

创建交互式语音助手，能够理解语音、以 AI 生成的音频进行响应，并处理多轮对话。

实时转录

实现低延迟的实时语音转文本转录，用于客户服务、无障碍访问或文档应用。

对话式聊天机器人

构建支持语音的聊天机器人，能够使用 GPT 模型与用户进行自然的语音对话。

试试这些提示

基础语音客户端设置

展示如何使用 Microsoft Entra ID 认证在 TypeScript 中设置基础的 VoiceLiveClient。

会话配置

配置具有文本和音频模式、自定义指令和 Azure Semantic VAD 轮次检测的语音会话。

事件处理

使用订阅模式实现音频增量、文本增量和转录事件的事件处理器。

函数调用

在会话配置中设置函数调用工具，并处理函数调用事件以集成外部 API。

最佳实践

始终使用 DefaultAzureCredential 而不是硬编码 API 密钥，以确保安全认证
使用 Azure Semantic VAD 以获得比基础服务器 VAD 更好的轮次检测
通过在完成后调用 subscription.close() 来清理订阅，以防止内存泄漏

避免

在源代码中直接硬编码 API 密钥，而不是使用环境变量或 Entra ID
不分别处理连接、认证和协议错误
仅设置音频模式而不设置文本模式 - 这会破坏许多对话式功能

常见问题

支持哪些认证方法？

Microsoft Entra ID（推荐）和使用 AzureKeyCredential 的 API 密钥认证。

支持哪些环境？

Node.js LTS（20+）和现代浏览器（Chrome、Firefox、Safari、Edge），需要使用打包器。

支持哪些音频格式？

PCM16 24kHz（默认）、PCM16-8kHz、PCM16-16kHz、G711 ulaw 和 G711 alaw。

轮次检测如何工作？

服务器 VAD 使用语音活动检测。Azure Semantic VAD 使用 AI 来理解对话上下文，以实现更好的轮次切换。

可以使用自定义语音吗？

是的，支持带端点 ID 的 Azure Custom 语音和用于说话人配置克隆的 Azure Personal 语音。

支持哪些模型？

GPT-4o-realtime-preview、GPT-4o-mini-realtime-preview 和 phi4-mm-realtime（用于成本优化的应用）。

开发者详情

作者

sickn33

许可证

MIT

仓库

https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/azure-ai-voicelive-ts

引用

main

文件结构

📄 SKILL.md