技能 @azure/ai-voicelive (JavaScript/TypeScript)
🎙️

@azure/ai-voicelive (JavaScript/TypeScript)

安全

Créer des applications vocales IA en temps réel avec Azure

Cette compétence fournit une documentation complète et des exemples de code pour créer des applications vocales IA en temps réel à l'aide du SDK Azure AI Voice Live. Elle permet aux développeurs de créer des assistants vocaux, des IA conversationnelles et des applications de reconnaissance vocale en JavaScript et TypeScript.

支持: Claude Codex Code(CC)
🥉 73 青铜
1

下载技能 ZIP

2

在 Claude 中上传

前往 设置 → 功能 → 技能 → 上传技能

3

开启并开始使用

测试它

正在使用“@azure/ai-voicelive (JavaScript/TypeScript)”。 Comment créer un VoiceLiveClient avec DefaultAzureCredential ?

预期结果:

import { DefaultAzureCredential } from '@azure/identity';
import { VoiceLiveClient } from '@azure/ai-voicelive';

const credential = new DefaultAzureCredential();
const endpoint = process.env.AZURE_VOICELIVE_ENDPOINT!;
const client = new VoiceLiveClient(endpoint, credential);

正在使用“@azure/ai-voicelive (JavaScript/TypeScript)”。 Quelles options vocales sont disponibles ?

预期结果:

Voix Azure Standard (en-US-AvaNeural, etc.), voix Azure Custom avec ID de point de terminaison, voix Azure Personal pour le clonage de haut-parleur, et voix OpenAI (alloy, echo, shimmer).

正在使用“@azure/ai-voicelive (JavaScript/TypeScript)”。 Comment gérer les erreurs ?

预期结果:

Utilisez le gestionnaire onError dans votre abonnement pour intercepter les types VoiceLiveConnectionError, VoiceLiveAuthenticationError et VoiceLiveProtocolError.

安全审计

安全
v1 • 2/24/2026

This is a documentation-only skill containing guidance for using the Azure AI Voice Live SDK. No executable code was detected. The skill provides usage examples for a legitimate Azure service. No security concerns identified.

0
已扫描文件
0
分析行数
0
发现项
1
审计总数
未发现安全问题
审计者: claude

质量评分

38
架构
100
可维护性
87
内容
50
社区
100
安全
83
规范符合性

你能构建什么

Créer des assistants vocaux

Créez des assistants vocaux interactifs capables de comprendre la parole, de répondre avec de l'audio généré par IA et de gérer des conversations multi-tours.

Transcription en temps réel

Implémentez une transcription de parole en texte en direct avec une latence faible pour le service client, l'accessibilité ou les applications de documentation.

Chatbots conversationnels

Créez des chatbots vocaux capables d'avoir des conversations parlées naturelles avec les utilisateurs en utilisant les modèles GPT.

试试这些提示

Configuration de base du client vocal
Montrez-moi comment configurer un VoiceLiveClient basic avec l'authentification Microsoft Entra ID en TypeScript.
Configuration de session
Configurez une session vocale avec les modalités texte et audio, des instructions personnalisées et la détection de tour Azure Semantic VAD.
Gestion des événements
Implémentez des gestionnaires pour les événements de delta audio en streaming, de delta texte et de transcription en utilisant le modèle d'abonnement.
Appel de fonction
Configurez les outils d'appel de fonction dans la configuration de session et gérez les événements d'appel de fonction pour intégrer des API externes.

最佳实践

  • Utilisez toujours DefaultAzureCredential au lieu de coder en dur les clés API pour une authentification sécurisée
  • Utilisez Azure Semantic VAD pour une meilleure détection de tour que le VAD serveur basique
  • Nettoyez les abonnements en appelant subscription.close() à la fin pour éviter les fuites de mémoire

避免

  • Coder en dur les clés API directement dans le code source au lieu d'utiliser des variables d'environnement ou Entra ID
  • Ne pas gérer séparément les erreurs de connexion, d'authentification et de protocole
  • Définir uniquement la modalité audio sans texte - cela décompose muchas fonctionnalités conversationnelles

常见问题

Quelles méthodes d'authentification sont prises en charge ?
Microsoft Entra ID (recommandé) et authentification par clé API avec AzureKeyCredential.
Quels environnements sont pris en charge ?
Node.js LTS (20+) et navigateurs modernes (Chrome, Firefox, Safari, Edge) avec un bundler.
Quels formats audio sont pris en charge ?
PCM16 à 24kHz (défaut), PCM16-8kHz, PCM16-16kHz, G711 ulaw et G711 alaw.
Comment fonctionne la détection de tour ?
Le VAD serveur utilise la détection d'activité vocale. Azure Semantic VAD utilise l'IA pour comprendre le contexte conversationnel pour de meilleures prises de tour.
Puis-je utiliser des voix personnalisées ?
Oui, les voix Azure Custom avec ID de point de terminaison et les voix Azure Personal pour le clonage de profil de haut-parleur sont prises en charge.
Quels modèles sont pris en charge ?
GPT-4o-realtime-preview, GPT-4o-mini-realtime-preview et phi4-mm-realtime pour les applications rentables.

开发者详情

文件结构

📄 SKILL.md