voice-ai-development
بناء تطبيقات ذكاء اصطناعي صوتية في الوقت الفعلي
تتطلب تطبيقات الذكاء الاصطناعي الصوتية تنسيقًا دقيقًا بين تحويل الكلام إلى نص ونماذج اللغة وتحويل النص إلى كلام. توفر هذه المهنة إرشادات خبيرة لبناء وكلاء صوتيين متجاوبين باستخدام OpenAI Realtime API وVapi وDeepgram وElevenLabs.
تنزيل ZIP المهارة
رفع في Claude
اذهب إلى Settings → Capabilities → Skills → Upload skill
فعّل وابدأ الاستخدام
اختبرها
استخدام "voice-ai-development". كيف أقوم بإعداد وكيل صوتي مع Vapi؟
النتيجة المتوقعة:
إليك كيفية إنشاء وكيل صوتي أساسي مع Vapi:
1. قم بتثبيت Vapi SDK: `pip install vapi`
2. إنشاء عميل Vapi بمفتاح API الخاص بك
3. تحديد المساعد الخاص بك مع إعدادات النموذج والصوت والناسخ
4. إعداد webhook للتعامل مع أحداث المحادثة
يتضمن تكوين المساعد اختيار المزود (OpenAI، Anthropic)، واختيار الصوت (أصوات ElevenLabs)، وإعدادات النسخ (نماذج Deepgram).
استخدام "voice-ai-development". ما هو أفضل نهج لذكاء اصطناعي صوتي منخفض الكمون؟
النتيجة المتوقعة:
للحصول على كمون مثالي:
1. بث كل شيء - استخدم نتائج STT المؤقتة، وبث رموز LLM، ومخرجات TTS المجزأة
2. ابدأ TTS قبل اكتمال LLM - ابدأ التحدث أثناء التوليد
3. استخدم القرب - انشر الخدمات في مناطق قريبة من المستخدمين
4. اختر نماذج سريعة - eleven_turbo_v2_5 لـ TTS، nova-2 لـ STT
5. نفذ تجزئة صوتية مناسبة - أرسل مخازن مؤقتة صغيرة بشكل متكرر
الهدف هو الحفاظ على الكمون الملحوظ تحت 700ms للمحادثة الطبيعية.
التدقيق الأمني
آمنSecurity analysis confirms this is a legitimate voice AI development skill. Static findings for external_commands, env_access, and weak_crypto are all false positives - the scanner misidentified markdown code fences as shell commands and placeholder API key patterns as actual secrets. No malicious code detected.
مشكلات عالية المخاطر (2)
درجة الجودة
ماذا يمكنك بناءه
وكيل صوتي لدعم العملاء
بناء وكيل صوتي تفاعلي يتعامل مع استفسارات العملاء ويوجه المكالمات ويوفر دعمًا على مدار الساعة باستخدام Vapi وDeepgram.
مساعد صوتي في الوقت الفعلي
إنشاء مساعد صوتي منخفض الكمون باستخدام OpenAI Realtime API لتجارب محادثة طبيعية في تطبيقات الويب أو الجوال.
واجهة صوتية لإمكانية الوصول
إضافة إدخال وإخراج صوتي إلى التطبيقات الحالية لتحسين إمكانية الوصول للمستخدمين الذين يفضلون التفاعل الصوتي.
جرّب هذه الموجهات
ساعدني في إعداد وكيل ذكاء اصطناعي صوتي أساسي باستخدام Vapi. أرغب في إنشاء وكيل بسيط يمكنه الإجابة على أسئلة حول منتجي باستخدام نموذج OpenAI وصوت ElevenLabs.
أظهر لي كيفية تنفيذ OpenAI Realtime API لتطبيق صوتي. أحتاج إلى التعامل مع إدخال الصوت من الميكروفون وإرساله إلى GPT-4o وبث استجابة الصوت مرة أخرى.
وكيلي الصوتي يبدو بطيئًا. يتحدث المستخدم ثم هناك توقف طويل قبل الاستجابة. كيف يمكنني تحسين خطي لتقليل الكمون الملحوظ؟ أستخدم Deepgram لـ STT وElevenLabs لـ TTS.
كيف أنفذ كشف barge-in حتى يتمكن المستخدمون من مقاطعة الوكيل الصوتي أثناء تحدثه؟ أرغب أن يتوقف الوكيل فورًا عندما يبدأ المستخدم في التحدث.
أفضل الممارسات
- قم دائمًا ببث الصوت في كل مرحلة من خط الأنابيب - نتائج STT المؤقتة، وبث رموز LLM، ومخرج TTS المجزأ
- ابدأ توليد TTS قبل انتهاء LLM لتقليل الكمون الملحوظ
- نفذ معالجة مقاطعات مناسبة مع VAD للكشف عن متى يريد المستخدمون التحدث
تجنب
- الانتظار حتى اكتمال نسخ STT قبل الإرسال إلى LLM - هذا يضيف ثوانٍ من الكمون
- تجاهل مقاطعات المستخدم - الفشل في إيقاف TTS عندما يبدأ المستخدم في التحدث يخلق محادثات محبطة
- استخدام مزود واحد لكل شيء - مزج المزودين المتخصصين (Deepgram لـ STT، ElevenLabs لـ TTS) يعطي نتائج أفضل
الأسئلة المتكررة
ما الفرق بين OpenAI Realtime API وVapi؟
كيف يمكنني تقليل الكمون في تطبيق الصوت الخاص بي؟
هل يمكنني استخدام صوتي الخاص مع ElevenLabs؟
كيف أتعامل مع مستخدمين متعددين في وقت واحد؟
ما هو barge-in ولماذا يهم؟
أي المزودين يعملان بشكل أفضل معًا؟
تفاصيل المطور
المؤلف
sickn33الترخيص
MIT
المستودع
https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/voice-ai-developmentمرجع
main
بنية الملفات
📄 SKILL.md