المهارات voice-ai-engine-development

📦

voice-ai-engine-development

Name: voice-ai-engine-development
Author: sickn33

آمن

بناء محركات ذكاء اصطناعي صوتي في الوقت الفعلي

أنشئ محركات ذكاء اصطن��عي صوتي جاهزة للإنتاج مع خطوط أنابيب عمال غير متزامنة، ونسخ صوتي متدفق، ووكلاء LLM، وتوليف TTS. توفر هذه المهارة إرشادات كاملة لبناء مساعدين صوتيين مع معالجة المقاطعات ودعم مقدمي خدمات متعددين.

يدعم: Claude Codex Code(CC)

🥉 75 برونزي

تنزيل ZIP المهارة

رفع في Claude

اذهب إلى Settings → Capabilities → Skills → Upload skill

فعّل وابدأ الاستخدام

اختبرها

استخدام "voice-ai-engine-development". إنشاء محرك ذكاء اصطناعي صوتي مع ثلاثة عمال: ناسخ وكاتب تركيب ومولف

النتيجة المتوقعة:

هيكل مشروع Python مع عمال غير متزامنين يعتمدون على الطوابير، كل واحد يعالج الصوت/النص بشكل مستقل ويتواصل عبر asyncio.Queue

استخدام "voice-ai-engine-development". أرني كيفية معال��ة مقاطعات المستخدم في المحادثة الصوتية

النتيجة المتوقعة:

كود يوضح غلاف InterruptibleEvent وطريقة get_message_up_to() لقطع كلام الذكاء الاصطناعي عندما يتحدث المستخدم

استخدام "voice-ai-engine-development". مقارنة Deepgram مقابل Google Speech للنسخ

النتيجة المتوقعة:

جدول مقارنة يوضح زمن الانتقال والدقة ودعم اللغة واختلافات التكلفة بين المقدمين

التدقيق الأمني

آمن

v1 • 2/25/2026

All 214 static findings are false positives. The skill is legitimate voice AI development documentation with example code. Detected patterns include: markdown code fences (not shell commands), legitimate audio data representation with \x00, standard network bindings (0.0.0.0), and placeholder configuration strings. No actual security issues found.

الملفات التي تم فحصها

3,371

الأسطر التي تم تحليلها

النتائج

إجمالي عمليات التدقيق

لا توجد مشكلات أمنية

تم تدقيقه بواسطة: claude

درجة الجودة

الهندسة المعمارية

100

قابلية الصيانة

المحتوى

المجتمع

100

الأمان

الامتثال للمواصفات

ماذا يمكنك بناءه

بناء مساعد صوتي

إنشاء مساعد صوتي في الوقت الفعلي يمكنه الاستماع والمعالجة والرد على استفسارات المستخدم بالكلام الطبيعي

تنفيذ روبوت محادثة صوتي

إضافة إمكانية المحادثة الصوتية إلى روبوتات الدردشة الموجودة لتطبيقات المكالمات الهاتفية أو الفيديو

إنشاء نظام صوتي متعدد المقدمين

بناء نظام صوتي مرن يمكنه التبديل بين مقدمي خدمات نسخ وتوليف صوتي مختلفين

جرّب هذه الموجهات

خط أنابيب صوتي أساسي

استخدم مهارة voice-ai-engine-development لإنشاء مساعد صوتي بسيط يستمع للكلام، ويحوله إلى نص، يعالجه بواسطة LLM، وينطق الرد

إضافة معالجة المقاطعات

باستخدام voice-ai-engine-development، أرني كيفية إضافة معالجة المقاطعات بحيث يمكن للمستخدمين إيقاف الذكاء الاصطناعي في منتصف الرد

إعداد متعدد المقدمين

أريد استخدام مقدمي خدمات TTS متعددين (ElevenLabs و Google و OpenAI) في محرك الصوت الخاص بي. أرني تنفيذ نمط المصنع من voice-ai-engine-development

تحسين زمن الانتقال للتدفق

باستخدام أفضل الممارسات في voice-ai-engine-development، كيف يمكنني تحسين خط الأنابيب غير المتزامن لتقليل زمن الانتقال بين كلام المستخدم ورد الذكاء الاصطناعي؟

أفضل الممارسات

استخدم طوابير عمال غير متزامنة لمراحل المعالجة المستقلة لتمكين التزامن الحقيقي
خزن ردود LLM مؤقتًا قبل TTS لضمان مخرجات صوتية سلسة بدون قطع
نفذ معالجة المقاطعات مبكرًا لأنها تؤثر على معمارية خط الأنابيب بالكامل

تجنب

معالجة الصوت بشكل متزامن في خيط واحد (يحظر الأداء في الوقت الفعلي)
إرسال أجزاء غير كاملة للنسخ (يسبب مشاكل في الدقة)
بدء TTS قبل اكتمال رد LLM (يؤدي إلى كلام مقطوع)

الأسئلة المتكررة

ما هي مقدمي خدمات الصوت الذين تدعمهم هذه المهارة؟

تغطي المهارة التكامل مع Deepgram و Google Speech و Whisper للنسخ؛ و OpenAI و Gemini و Anthropic لـ LLM؛ و ElevenLabs و Google Cloud TTS و OpenAI TTS ��توليف الصوت.

هل أحتاج إلى مفاتيح API لاستخدام هذه المهارة؟

نعم، ستحتاج إلى مفاتي�� API من مقدمي الخدمات الذين اخترتهم (Deepgram و OpenAI و ElevenLabs، إلخ). توفر المهارة قوالب تكوين ولكن لا تتضمن مفاتيح فعلية.

هل يمكن تشغيل هذا بالكامل محليًا؟

يمكن تشغيل بعض المكونات محليًا (مثل نسخ Whisper)، ولكن معظم أنظ��ة ذكاء اصطناعي صوتي الإنتاجية تتطلب مكالمات API سحابية لمعالجة LLM و TTS عالي الجودة.

كيف تعمل معالجة المقاطعات؟

تستخدم المهارة غلاف InterruptibleEvent الذي يتتبع ما إذا كان المستخدم قد تحدث. ترجع طريقة get_message_up_to() فقط النطوق قبل المقاطعة.

ما هي مكتبات Python المطلوبة؟

المكونات الأساسية تشمل asyncio و FastAPI و websockets للتواصل في الوقت الفعلي، و SDKs المقدمين. تسرد المهارة جميع الحزم المطلوبة في الوثائق.

هل هذا مناسب للنشر في الإنتاج؟

توفر المهارة أنماط معمارية مناسبة للإنتاج، ولكن ستحتاج إلى تنفيذ تكاملات المقدمين الفعلية ومعالجة اعتبارات التوسع.