voice-ai-development
Создание приложений голосового ИИ в реальном времени
Приложения голосового ИИ требуют тщательной координации распознавания речи, языковых моделей и синтеза речи. Этот навык предоставляет экспертные рекомендации по созданию отзывчивых голосовых агентов с использованием OpenAI Realtime API, Vapi, Deepgram и ElevenLabs.
Скачать ZIP навыка
Загрузить в Claude
Перейдите в Settings → Capabilities → Skills → Upload skill
Включите и начните использовать
Протестировать
Использование «voice-ai-development». How do I set up a voice agent with Vapi?
Ожидаемый результат:
Вот как создать базового голосового агента с Vapi:
1. Установите Vapi SDK: `pip install vapi`
2. Создайте клиент Vapi с вашим API-ключом
3. Определите вашего ассистента с настройками модели, голоса и транскрибера
4. Настройте webhook для обработки событий разговора
Конфигурация ассистента включает выбор провайдера (OpenAI, Anthropic), выбор голоса (голоса ElevenLabs) и настройки транскрипции (модели Deepgram).
Использование «voice-ai-development». What is the best approach for low-latency voice AI?
Ожидаемый результат:
Для оптимальной задержки:
1. Транслируйте всё — используйте промежуточные результаты STT, потоковую передачу токенов LLM и чанковый вывод TTS
2. Запускайте TTS до завершения LLM — начинайте говорить во время генерации
3. Используйте близость — развёртывайте сервисы в регионах рядом с пользователями
4. Выбирайте быстрые модели — eleven_turbo_v2_5 для TTS, nova-2 для STT
5. Реализуйте правильное разбиение аудио — отправляйте небольшие буферы часто
Цель — удерживать воспринимаемую задержку ниже 700 мс для естественного разговора.
Аудит безопасности
БезопасноSecurity analysis confirms this is a legitimate voice AI development skill. Static findings for external_commands, env_access, and weak_crypto are all false positives - the scanner misidentified markdown code fences as shell commands and placeholder API key patterns as actual secrets. No malicious code detected.
Проблемы высокого риска (2)
Оценка качества
Что вы можете построить
Голосовой агент поддержки клиентов
Создайте интерактивного голосового агента, который обрабатывает запросы клиентов, маршрутизирует звонки и обеспечивает круглосуточную поддержку с использованием Vapi и Deepgram.
Голосовой ассистент в реальном времени
Создайте голосового ассистента с минимальной задержкой с использованием OpenAI Realtime API для естественного разговорного опыта в веб- или мобильных приложениях.
Голосовой интерфейс для доступности
Добавьте голосовой ввод и вывод в существующие приложения для улучшения доступности для пользователей, предпочитающих голосовое взаимодействие.
Попробуйте эти промпты
Помогите мне настроить базового голосового агента ИИ с использованием Vapi. Я хочу создать простого агента, который может отвечать на вопросы о моём продукте, используя модель OpenAI и голос ElevenLabs.
Покажите, как реализовать OpenAI Realtime API для голосового приложения. Мне нужно обработать аудиоввод с микрофона, отправить его в GPT-4o и транслировать аудиоответ обратно.
Мой голосовой агент работает медленно. Пользователь говорит, затем следует долгая пауза перед ответом. Как я могу оптимизировать мой конвейер, чтобы уменьшить воспринимаемую задержку? Я использую Deepgram для STT и ElevenLabs для TTS.
Как реализовать обнаружение перебивания, чтобы пользователи могли прерывать голосовой агент во время его речи? Я хочу, чтобы агент немедленно останавливался, когда пользователь начинает говорить.
Лучшие практики
- Всегда транслируйте аудио на каждом этапе конвейера — промежуточные результаты STT, потоковую передачу токенов LLM и чанковый вывод TTS
- Начинайте генерацию TTS до завершения ответа LLM, чтобы минимизировать воспринимаемую задержку
- Реализуйте правильную обработку прерываний с VAD для определения, когда пользователи хотят говорить
Избегать
- Ожидание полной транскрипции STT перед отправкой в LLM — это добавляет секунды задержки
- Игнорирование прерываний пользователей — неспособность остановить TTS, когда пользователь начинает говорить, создаёт разочаровывающие разговоры
- Использование одного провайдера для всего — комбинирование специализированных провайдеров (Deepgram для STT, ElevenLabs для TTS) даёт лучшие результаты
Часто задаваемые вопросы
В чём разница между OpenAI Realtime API и Vapi?
Как уменьшить задержку в моём голосовом приложении?
Могу ли я использовать свой собственный голос с ElevenLabs?
Как обрабатывать несколько пользователей одновременно?
Что такое перебивание и почему это важно?
Какие провайдеры лучше всего работают вместе?
Сведения для разработчиков
Автор
sickn33Лицензия
MIT
Репозиторий
https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/voice-ai-developmentСсылка
main
Структура файлов
📄 SKILL.md