المهارات voice-agents
📦

voice-agents

آمن

بناء وكلاء صوتيين طبيعيين بالذكاء الاصطناعي مع زمن استجابة مثالي

إن إنشاء وكلاء صوتيين يبدون طبيعيين يتطلب فهم ميزانيات زمن الاستجابة وديناميكيات المحادثة. تقدم هذه المهارة أنماطًا مجربة لهندسة speech-to-speech وهندسة pipeline المستخدمة في أنظمة الإنتاج التي تتعامل مع ملايين المكالمات.

يدعم: Claude Codex Code(CC)
🥉 74 برونزي
1

تنزيل ZIP المهارة

2

رفع في Claude

اذهب إلى Settings → Capabilities → Skills → Upload skill

3

فعّل وابدأ الاستخدام

اختبرها

استخدام "voice-agents". صمم وكيلًا صوتيًا لحجوزات المطعم

النتيجة المتوقعة:

  • الهندسة: Pipeline (STT → LLM → TTS) للتحكم الأقصى في بيانات الحجز
  • ميزانية زمن الاستجابة: STT 200ms، LLM 800ms، TTS 300ms = 1300ms إجمالي
  • VAD: استخدم الكشف الدلالي للتمييز بين تفاصيل الحجز والضوضاء الخلفية
  • تنسيق الرد: قيد بتأكيد منظم يحتوي على الاسم والوقت وعدد الأشخاص

استخدام "voice-agents". كيف أتعامل مع المستخدمين الذين يقاطعون في منتصف الرد؟

النتيجة المتوقعة:

  • نفذ barge-in detection يراقب الصوت أثناء تشغيل TTS
  • عند اكتشاف مقاطعة: أوقف TTS فورًا، عالج نطق المستخدم
  • إذا كانت المقاطعة سؤالاً: أجب مباشرة، ثم استأنف أو تخطّ المحتوى المتبقي
  • إذا كانت المقاطعة موضوعًا جديدًا: اعترف وانتقل إلى الموضوع الجديد

التدقيق الأمني

آمن
v1 • 2/25/2026

This skill contains only documentation and architectural guidance for voice AI development. Static analysis flagged markdown backticks as shell commands and text patterns as cryptographic code, but all findings are false positives. No executable code, network calls, or security risks present.

1
الملفات التي تم فحصها
73
الأسطر التي تم تحليلها
0
النتائج
1
إجمالي عمليات التدقيق
لا توجد مشكلات أمنية
تم تدقيقه بواسطة: claude

درجة الجودة

38
الهندسة المعمارية
100
قابلية الصيانة
87
المحتوى
50
المجتمع
100
الأمان
91
الامتثال للمواصفات

ماذا يمكنك بناءه

وكيل صوتي لدعم العملاء

بناء Voice AI يتعامل مع استفسارات العملاء مع تدفق محادثة طبيعي، ويكتشف عندما يقاطع العملاء أو يحتاجون إلى توضيح.

مساعد إنتاجية صوتي

إنشاء مساعد ذكاء اصطناعي بدون استخدام اليدين للمحترفين الذين يحتاجون إلى التفاعل أثناء القيادة أو الطهي أو أداء مهام أخرى.

واجهة صوتية لإمكانية الوصول

تصميم واجهات صوتية أولاً للمستخدمين ذوي الإعاقات البصرية أو قيود الحركة الذين يستفيدون من التفاعل المنطوق.

جرّب هذه الموجهات

تصميم وكيل صوتي أساسي
صمم هندسة وكيل صوتي لحالة استخدام خدمة العملاء. ضمّن مكونات STT و LLM و TTS مع تقديرات زمن الاستجابة لكل منها.
تخطيط ميزانية زمن الاستجابة
أنشئ ميزانية زمن استجابة لوكيل صوتي يستهدف وقت استجابة أقل من 500ms. حدد أقصى زمن استجابة مسموح به لكل مكون واستراتيجيات التحسين المحتملة.
استراتيجية كشف تناوب الأدوار
صمم نظام voice activity detection يتعامل مع barge-in (مقاطعات المستخدم) دون قطع المستخدم في منتصف الجملة. ضمّن الفهم الدلالي لمتى تكون المقاطعات مناسبة.
معالجة أخطاء الإنتاج
أنشئ استراتيجيات معالجة أخطاء لإخفاقات الوكيل الصوتي الشائعة: خطأ التعرف في STT، مهلة LLM، فشل TTS، وانقطاعات الشبكة. ضمّن سلوكيات الاحتياط والرسائل الموجهة للمستخدم.

أفضل الممارسات

  • قس وخصص ميزانية زمن استجابة لكل مكون - اهدف إلى أقل من 500ms للمحادثة الطبيعية
  • استخدم semantic voice activity detection بدلاً من كشف الصمت فقط لتجنب الإيجابيات الكاذبة
  • قيد طول الرد في الـ prompts إلى 2-3 جمل للإلقاء المنطوق الطبيعي

تجنب

  • تجاهل ميزانية زمن الاستجابة - مجموع أزمنة استجابة جميع المكونات يحدد طبيعية المحادثة
  • كشف تناوب الأدوار بالصمت فقط - يسبب إيجابيات كاذبة من الضوضاء الخلفية ويفوت الردود السريعة
  • ردود طويلة - لا يستطيع المستخدمون الاحتفاظ بمعلومات منطوقة طويلة؛ اجعل الردود موجزة ومنظمة

الأسئلة المتكررة

ما الفرق بين هندسة speech-to-speech وهندسة pipeline؟
نماذج Speech-to-speech مثل OpenAI Realtime API تعالج الصوت مباشرة بأدنى زمن استجابة وعواطف محفوظة لكنها تقدم تحكمًا أقل. هندسة Pipeline تفصل STT و LLM و TTS للتحكم الأقصى في كل خطوة لكنها تضيف زمن استجابة من تقاطعات المكونات.
ما هدف زمن الاستجابة الذي يجب أن أهدف إليه؟
استهدف أقل من 500ms زمن استجابة شامل للشعور بالمحادثة الطبيعية. فوق 800ms يشعر بالتأخير بشكل ملحوظ. أقل من 300ms يشعر باللحظية لكن من الصعب تحقيقه بهندسة pipeline.
كيف أتعامل مع الضوضاء الخلفية في الوكلاء الصوتيين؟
استخدم voice activity detection مع كبت الضوضاء، ونفذ فهمًا دلاليًا لتصفية الأصوات غير المنطوقة، وصمم prompts تساعد LLM على التمييز بين الكلام ذي الصلة وضوضاء القطع الأثرية.
ما هو barge-in detection ولماذا هو مهم؟
Barge-in detection يسمح للمستخدمين بمقاطعة الذكاء الاصطناعي في منتصف الرد، تمامًا مثل المحادثات البشرية. بدونه، يجب على المستخدمين الانتظار حتى ينتهي الذكاء الاصطناعي من التحدث، مما يخلق تفاعلات غير طبيعية وإحباطًا.
كيف أتعامل مع أخطاء STT والتعرف الخاطئ؟
نفذ تسجيل نقاط الثقة لاكتشاف النصوص غير المؤكدة، وصمم prompts تطلب من LLM تحديد المدخلات غير الواضحة، وأنشئ تدفقات توضيحية لطيفة تؤكد الفهم قبل التصرف.
أي أدوات Claude تدعم تكامل الوكيل الصوتي؟
يمكن لـ Claude و Codex و Claude Code جميعها المساعدة في هندسة الوكيل الصوتي وتصميم الـ prompts. لمعالجة الصوت الفعلية، تكامل مع APIs خارجية مثل OpenAI Realtime API أو ElevenLabs أو Google Cloud Speech.

تفاصيل المطور

المؤلف

sickn33

الترخيص

MIT

مرجع

main

بنية الملفات

📄 SKILL.md