技能 @azure/ai-voicelive (JavaScript/TypeScript)
🎙️

@azure/ai-voicelive (JavaScript/TypeScript)

安全

Echtzeit-Sprach-KI-Apps mit Azure erstellen

Diese Skill bietet umfassende Dokumentation und Codebeispiele für die Entwicklung von Echtzeit-Sprach-KI-Anwendungen mit dem Azure AI Voice Live SDK. Es ermöglicht Entwicklern, Sprachassistenten, konversationelle KI und Sprach-zu-Sprach-Anwendungen in JavaScript und TypeScript zu erstellen.

支持: Claude Codex Code(CC)
🥉 73 青铜
1

下载技能 ZIP

2

在 Claude 中上传

前往 设置 → 功能 → 技能 → 上传技能

3

开启并开始使用

测试它

正在使用“@azure/ai-voicelive (JavaScript/TypeScript)”。 Wie erstelle ich einen VoiceLiveClient mit DefaultAzureCredential?

预期结果:

import { DefaultAzureCredential } from '@azure/identity';
import { VoiceLiveClient } from '@azure/ai-voicelive';

const credential = new DefaultAzureCredential();
const endpoint = process.env.AZURE_VOICELIVE_ENDPOINT!;
const client = new VoiceLiveClient(endpoint, credential);

正在使用“@azure/ai-voicelive (JavaScript/TypeScript)”。 Welche Sprachoptionen sind verfügbar?

预期结果:

Azure Standard-Stimmen (en-US-AvaNeural, etc.), Azure Custom-Stimmen mit Endpoint-ID, Azure Personal-Stimmen für Sprecherklonung, und OpenAI-Stimmen (alloy, echo, shimmer).

正在使用“@azure/ai-voicelive (JavaScript/TypeScript)”。 Wie behandle ich Fehler?

预期结果:

Verwenden Sie den onError-Handler in Ihrer Subscription, um VoiceLiveConnectionError, VoiceLiveAuthenticationError und VoiceLiveProtocolError-Typen abzufangen.

安全审计

安全
v1 • 2/24/2026

This is a documentation-only skill containing guidance for using the Azure AI Voice Live SDK. No executable code was detected. The skill provides usage examples for a legitimate Azure service. No security concerns identified.

0
已扫描文件
0
分析行数
0
发现项
1
审计总数
未发现安全问题
审计者: claude

质量评分

38
架构
100
可维护性
87
内容
50
社区
100
安全
83
规范符合性

你能构建什么

Sprachassistenten erstellen

Erstellen Sie interaktive Sprachassistenten, die Sprache verstehen, mit KI-generiertem Audio antworten und mehrstufige Gespräche führen können.

Echtzeit-Transkription

Implementieren Sie Live-Sprache-zu-Text-Transkription mit niedriger Latenz für Kundenservice, Barrierefreiheit oder Dokumentationsanwendungen.

Konversationelle Chatbots

Erstellen Sie sprachfähige Chatbots, die mit Benutzern natürliche gesprochene Gespräche unter Verwendung von GPT-Modellen führen können.

试试这些提示

Grundlegender Voice-Client-Setup
Zeigen Sie mir, wie ich einen grundlegenden VoiceLiveClient mit Microsoft Entra ID-Authentifizierung in TypeScript einrichten kann.
Sitzungskonfiguration
Konfigurieren Sie eine Sprachsitzung mit Text- und Audio-Modalitäten, benutzerdefinierten Anweisungen und Azure Semantic VAD Turn-Erkennung.
Event-Handling
Implementieren Sie Event-Handler für Streaming-Audio-Delta, Text-Delta und Transkriptionsereignisse unter Verwendung des Subscription-Musters.
Funktionsaufrufe
Richten Sie Funktionsaufruf-Tools in der Sitzungskonfiguration ein und behandeln Sie Funktionsaufruf-Ereignisse, um externe APIs zu integrieren.

最佳实践

  • Verwenden Sie immer DefaultAzureCredential anstatt API-Schlüssel hart zu codieren, für sichere Authentifizierung
  • Verwenden Sie Azure Semantic VAD für bessere Turn-Erkennung als grundlegende Server-VAD
  • Bereinigen Sie Subscriptions, indem Sie subscription.close() aufrufen, wenn Sie fertig sind, um Speicherlecks zu verhindern

避免

  • API-Schlüssel direkt im Quellcode hart codieren anstatt Umgebungsvariablen oder Entra ID zu verwenden
  • Verbindungs-, Authentifizierungs- und Protokollfehler nicht separat behandeln
  • Nur Audio-Modalität ohne Text festlegen - dies viele konversationelle Funktionen

常见问题

Welche Authentifizierungsmethoden werden unterstützt?
Microsoft Entra ID (empfohlen) und API-Schlüssel-Authentifizierung mit AzureKeyCredential.
Welche Umgebungen werden unterstützt?
Node.js LTS (20+) und moderne Browser (Chrome, Firefox, Safari, Edge) mit einem Bundler.
Welche Audioformate werden unterstützt?
PCM16 bei 24kHz (Standard), PCM16-8kHz, PCM16-16kHz, G711 ulaw und G711 alaw.
Wie funktioniert die Turn-Erkennung?
Server VAD verwendet Sprachaktivitätserkennung. Azure Semantic VAD verwendet KI, um den Gesprächskontext für besseres Turn-Taking zu verstehen.
Kann ich benutzerdefinierte Stimmen verwenden?
Ja, Azure Custom-Stimmen mit Endpoint-ID und Azure Personal-Stimmen für Sprecherprofil-Klonung werden unterstützt.
Welche Modelle werden unterstützt?
GPT-4o-realtime-preview, GPT-4o-mini-realtime-preview und phi4-mm-realtime für kostengünstige Anwendungen.

开发者详情

文件结构

📄 SKILL.md