المهارات voice-ai-development
🎙️

voice-ai-development

آمن

بناء تطبيقات ذكاء اصطناعي صوتية في الوقت الفعلي

تتطلب تطبيقات الذكاء الاصطناعي الصوتية تنسيقًا دقيقًا بين تحويل الكلام إلى نص ونماذج اللغة وتحويل النص إلى كلام. توفر هذه المهنة إرشادات خبيرة لبناء وكلاء صوتيين متجاوبين باستخدام OpenAI Realtime API وVapi وDeepgram وElevenLabs.

يدعم: Claude Codex Code(CC)
📊 71 كافٍ
1

تنزيل ZIP المهارة

2

رفع في Claude

اذهب إلى Settings → Capabilities → Skills → Upload skill

3

فعّل وابدأ الاستخدام

اختبرها

استخدام "voice-ai-development". كيف أقوم بإعداد وكيل صوتي مع Vapi؟

النتيجة المتوقعة:

إليك كيفية إنشاء وكيل صوتي أساسي مع Vapi:

1. قم بتثبيت Vapi SDK: `pip install vapi`
2. إنشاء عميل Vapi بمفتاح API الخاص بك
3. تحديد المساعد الخاص بك مع إعدادات النموذج والصوت والناسخ
4. إعداد webhook للتعامل مع أحداث المحادثة

يتضمن تكوين المساعد اختيار المزود (OpenAI، Anthropic)، واختيار الصوت (أصوات ElevenLabs)، وإعدادات النسخ (نماذج Deepgram).

استخدام "voice-ai-development". ما هو أفضل نهج لذكاء اصطناعي صوتي منخفض الكمون؟

النتيجة المتوقعة:

للحصول على كمون مثالي:

1. بث كل شيء - استخدم نتائج STT المؤقتة، وبث رموز LLM، ومخرجات TTS المجزأة
2. ابدأ TTS قبل اكتمال LLM - ابدأ التحدث أثناء التوليد
3. استخدم القرب - انشر الخدمات في مناطق قريبة من المستخدمين
4. اختر نماذج سريعة - eleven_turbo_v2_5 لـ TTS، nova-2 لـ STT
5. نفذ تجزئة صوتية مناسبة - أرسل مخازن مؤقتة صغيرة بشكل متكرر

الهدف هو الحفاظ على الكمون الملحوظ تحت 700ms للمحادثة الطبيعية.

التدقيق الأمني

آمن
v1 • 2/25/2026

Security analysis confirms this is a legitimate voice AI development skill. Static findings for external_commands, env_access, and weak_crypto are all false positives - the scanner misidentified markdown code fences as shell commands and placeholder API key patterns as actual secrets. No malicious code detected.

1
الملفات التي تم فحصها
307
الأسطر التي تم تحليلها
2
النتائج
1
إجمالي عمليات التدقيق

مشكلات عالية المخاطر (2)

Environment Variable Access Pattern (False Positive)
Scanner detected API key patterns at SKILL.md lines 48, 53, 118, 196, 229. These are placeholder examples showing API key usage structure, not actual secrets. Values like 'sk-...' and '...' are documentation placeholders.
External Command Execution (False Positive)
Scanner detected 'Ruby/shell backtick execution' at 8 locations. These are markdown code fences (```python) in the SKILL.md documentation, not actual shell commands being executed.
تم تدقيقه بواسطة: claude

درجة الجودة

38
الهندسة المعمارية
100
قابلية الصيانة
87
المحتوى
50
المجتمع
85
الأمان
91
الامتثال للمواصفات

ماذا يمكنك بناءه

وكيل صوتي لدعم العملاء

بناء وكيل صوتي تفاعلي يتعامل مع استفسارات العملاء ويوجه المكالمات ويوفر دعمًا على مدار الساعة باستخدام Vapi وDeepgram.

مساعد صوتي في الوقت الفعلي

إنشاء مساعد صوتي منخفض الكمون باستخدام OpenAI Realtime API لتجارب محادثة طبيعية في تطبيقات الويب أو الجوال.

واجهة صوتية لإمكانية الوصول

إضافة إدخال وإخراج صوتي إلى التطبيقات الحالية لتحسين إمكانية الوصول للمستخدمين الذين يفضلون التفاعل الصوتي.

جرّب هذه الموجهات

إعداد وكيل صوتي أساسي
ساعدني في إعداد وكيل ذكاء اصطناعي صوتي أساسي باستخدام Vapi. أرغب في إنشاء وكيل بسيط يمكنه الإجابة على أسئلة حول منتجي باستخدام نموذج OpenAI وصوت ElevenLabs.
تكامل OpenAI Realtime API
أظهر لي كيفية تنفيذ OpenAI Realtime API لتطبيق صوتي. أحتاج إلى التعامل مع إدخال الصوت من الميكروفون وإرساله إلى GPT-4o وبث استجابة الصوت مرة أخرى.
تحسين الكمون
وكيلي الصوتي يبدو بطيئًا. يتحدث المستخدم ثم هناك توقف طويل قبل الاستجابة. كيف يمكنني تحسين خطي لتقليل الكمون الملحوظ؟ أستخدم Deepgram لـ STT وElevenLabs لـ TTS.
التعامل مع المقاطعات
كيف أنفذ كشف barge-in حتى يتمكن المستخدمون من مقاطعة الوكيل الصوتي أثناء تحدثه؟ أرغب أن يتوقف الوكيل فورًا عندما يبدأ المستخدم في التحدث.

أفضل الممارسات

  • قم دائمًا ببث الصوت في كل مرحلة من خط الأنابيب - نتائج STT المؤقتة، وبث رموز LLM، ومخرج TTS المجزأ
  • ابدأ توليد TTS قبل انتهاء LLM لتقليل الكمون الملحوظ
  • نفذ معالجة مقاطعات مناسبة مع VAD للكشف عن متى يريد المستخدمون التحدث

تجنب

  • الانتظار حتى اكتمال نسخ STT قبل الإرسال إلى LLM - هذا يضيف ثوانٍ من الكمون
  • تجاهل مقاطعات المستخدم - الفشل في إيقاف TTS عندما يبدأ المستخدم في التحدث يخلق محادثات محبطة
  • استخدام مزود واحد لكل شيء - مزج المزودين المتخصصين (Deepgram لـ STT، ElevenLabs لـ TTS) يعطي نتائج أفضل

الأسئلة المتكررة

ما الفرق بين OpenAI Realtime API وVapi؟
يوفر OpenAI Realtime API إمكانيات صوتية مدمجة مع GPT-4o. Vapi هي منصة تبسط نشر الوكيل الصوتي مع بنية تحتية جاهزة ودعم هاتفي وإعداد أسهل. OpenAI يمنح تحكمًا أكبر؛ Vapi يوفر إعدادًا أسرع.
كيف يمكنني تقليل الكمون في تطبيق الصوت الخاص بي؟
الاستراتيجيات الرئيسية: بث جميع المكونات (STT، LLM، TTS)، ابدأ TTS قبل اكتمال LLM، استخدم نماذج سريعة (nova-2 لـ Deepgram، turbo لـ ElevenLabs)، انشر بالقرب من المستخدمين، ونفذ تجزئة صوتية مناسبة.
هل يمكنني استخدام صوتي الخاص مع ElevenLabs؟
نعم، يسمح لك ElevenLabs بتحميل عينات صوتية لإنشاء استنساخ صوت مخصص. تحتاج إلى عينات صوت واضحة للصوت المستهدف. يتطلب هذا موافقة من مالك الصوت.
كيف أتعامل مع مستخدمين متعددين في وقت واحد؟
تتطلب كل جلسة مستخدم اتصال WebRTC منفصل. تتبع حالة الجلسة لكل مستخدم، وأدر اتصالات API المتزامنة، ونفذ بنية تحتية قابلة للتوسع بشكل مناسب مثل LiveKit للتعامل مع تدفقات صوتية متعددة.
ما هو barge-in ولماذا يهم؟
يسمح barge-in للمستخدمين بمقاطعة الوكيل الصوتي أثناء تحدثه. هذا مهم لأن الانتظار حتى ينتهي الوكيل محبط. نفذ باستخدام كشف نشاط الصوت (VAD) للكشف عن كلام المستخدم وإيقاف مخرج TTS فورًا.
أي المزودين يعملان بشكل أفضل معًا؟
مزيج شائع عالي الجودة: Deepgram لـ STT (سريع، دقيق)، ElevenLabs لـ TTS (أصوات طبيعية)، وOpenAI أو Anthropic لـ LLM. كل مزود يتفوق في مهمته المحددة.

تفاصيل المطور

بنية الملفات

📄 SKILL.md