技能 voice-ai-engine-development
📦

voice-ai-engine-development

安全

بناء محركات ذكاء اصطناعي صوتي في الوقت الفعلي

أنشئ محركات ذكاء اصطن��عي صوتي جاهزة للإنتاج مع خطوط أنابيب عمال غير متزامنة، ونسخ صوتي متدفق، ووكلاء LLM، وتوليف TTS. توفر هذه المهارة إرشادات كاملة لبناء مساعدين صوتيين مع معالجة المقاطعات ودعم مقدمي خدمات متعددين.

支持: Claude Codex Code(CC)
🥈 77 白银
1

下载技能 ZIP

2

在 Claude 中上传

前往 设置 → 功能 → 技能 → 上传技能

3

开启并开始使用

测试它

正在使用“voice-ai-engine-development”。 إنشاء محرك ذكاء اصطناعي صوتي مع ثلاثة عمال: ناسخ وكاتب تركيب ومولف

预期结果:

هيكل مشروع Python مع عمال غير متزامنين يعتمدون على الطوابير، كل واحد يعالج الصوت/النص بشكل مستقل ويتواصل عبر asyncio.Queue

正在使用“voice-ai-engine-development”。 أرني كيفية معال��ة مقاطعات المستخدم في المحادثة الصوتية

预期结果:

كود يوضح غلاف InterruptibleEvent وطريقة get_message_up_to() لقطع كلام الذكاء الاصطناعي عندما يتحدث المستخدم

正在使用“voice-ai-engine-development”。 مقارنة Deepgram مقابل Google Speech للنسخ

预期结果:

جدول مقارنة يوضح زمن الانتقال والدقة ودعم اللغة واختلافات التكلفة بين المقدمين

安全审计

安全
v1 • 2/25/2026

All 214 static findings are false positives. The skill is legitimate voice AI development documentation with example code. Detected patterns include: markdown code fences (not shell commands), legitimate audio data representation with \x00, standard network bindings (0.0.0.0), and placeholder configuration strings. No actual security issues found.

9
已扫描文件
3,371
分析行数
0
发现项
1
审计总数
未发现安全问题
审计者: claude

质量评分

55
架构
100
可维护性
87
内容
50
社区
100
安全
83
规范符合性

你能构建什么

بناء مساعد صوتي

إنشاء مساعد صوتي في الوقت الفعلي يمكنه الاستماع والمعالجة والرد على استفسارات المستخدم بالكلام الطبيعي

تنفيذ روبوت محادثة صوتي

إضافة إمكانية المحادثة الصوتية إلى روبوتات الدردشة الموجودة لتطبيقات المكالمات الهاتفية أو الفيديو

إنشاء نظام صوتي متعدد المقدمين

بناء نظام صوتي مرن يمكنه التبديل بين مقدمي خدمات نسخ وتوليف صوتي مختلفين

试试这些提示

خط أنابيب صوتي أساسي
استخدم مهارة voice-ai-engine-development لإنشاء مساعد صوتي بسيط يستمع للكلام، ويحوله إلى نص، يعالجه بواسطة LLM، وينطق الرد
إضافة معالجة المقاطعات
باستخدام voice-ai-engine-development، أرني كيفية إضافة معالجة المقاطعات بحيث يمكن للمستخدمين إيقاف الذكاء الاصطناعي في منتصف الرد
إعداد متعدد المقدمين
أريد استخدام مقدمي خدمات TTS متعددين (ElevenLabs و Google و OpenAI) في محرك الصوت الخاص بي. أرني تنفيذ نمط المصنع من voice-ai-engine-development
تحسين زمن الانتقال للتدفق
باستخدام أفضل الممارسات في voice-ai-engine-development، كيف يمكنني تحسين خط الأنابيب غير المتزامن لتقليل زمن الانتقال بين كلام المستخدم ورد الذكاء الاصطناعي؟

最佳实践

  • استخدم طوابير عمال غير متزامنة لمراحل المعالجة المستقلة لتمكين التزامن الحقيقي
  • خزن ردود LLM مؤقتًا قبل TTS لضمان مخرجات صوتية سلسة بدون قطع
  • نفذ معالجة المقاطعات مبكرًا لأنها تؤثر على معمارية خط الأنابيب بالكامل

避免

  • معالجة الصوت بشكل متزامن في خيط واحد (يحظر الأداء في الوقت الفعلي)
  • إرسال أجزاء غير كاملة للنسخ (يسبب مشاكل في الدقة)
  • بدء TTS قبل اكتمال رد LLM (يؤدي إلى كلام مقطوع)

常见问题

ما هي مقدمي خدمات الصوت الذين تدعمهم هذه المهارة؟
تغطي المهارة التكامل مع Deepgram و Google Speech و Whisper للنسخ؛ و OpenAI و Gemini و Anthropic لـ LLM؛ و ElevenLabs و Google Cloud TTS و OpenAI TTS ��توليف الصوت.
هل أحتاج إلى مفاتيح API لاستخدام هذه المهارة؟
نعم، ستحتاج إلى مفاتي�� API من مقدمي الخدمات الذين اخترتهم (Deepgram و OpenAI و ElevenLabs، إلخ). توفر المهارة قوالب تكوين ولكن لا تتضمن مفاتيح فعلية.
هل يمكن تشغيل هذا بالكامل محليًا؟
يمكن تشغيل بعض المكونات محليًا (مثل نسخ Whisper)، ولكن معظم أنظ��ة ذكاء اصطناعي صوتي الإنتاجية تتطلب مكالمات API سحابية لمعالجة LLM و TTS عالي الجودة.
كيف تعمل معالجة المقاطعات؟
تستخدم المهارة غلاف InterruptibleEvent الذي يتتبع ما إذا كان المستخدم قد تحدث. ترجع طريقة get_message_up_to() فقط النطوق قبل المقاطعة.
ما هي مكتبات Python المطلوبة؟
المكونات الأساسية تشمل asyncio و FastAPI و websockets للتواصل في الوقت الفعلي، و SDKs المقدمين. تسرد المهارة جميع الحزم المطلوبة في الوثائق.
هل هذا مناسب للنشر في الإنتاج؟
توفر المهارة أنماط معمارية مناسبة للإنتاج، ولكن ستحتاج إلى تنفيذ تكاملات المقدمين الفعلية ومعالجة اعتبارات التوسع.