voice-ai-engine-development
Создание движков голосового ИИ реального времени
Создание готовых к производству голосовых движков Conversational AI с асинхронными конвейерами обработки, потоковой транскрипцией, LLM-агентами и синтезом TTS. Этот навык предоставляет полное руководство по созданию голосовых ассистентов с обработкой прерываний и поддержкой нескольких провайдеров.
Скачать ZIP навыка
Загрузить в Claude
Перейдите в Settings → Capabilities → Skills → Upload skill
Включите и начните использовать
Протестировать
Использование «voice-ai-engine-development». Создать голосовой ИИ-движок с тремя обработчиками: транскрибер, агент и синтезатор
Ожидаемый результат:
Структура проекта Python с асинхронными обработчиками на основе очередей, каждый из которых независимо обрабатывает аудио/текст и общается через asyncio.Queue
Использование «voice-ai-engine-development». Показать, как обрабатывать прерывания пользователя в голосовом разговоре
Ожидаемый результат:
Код, демонстрирующий обертку InterruptibleEvent и метод get_message_up_to() для прерывания речи ИИ, когда пользователь говорит
Использование «voice-ai-engine-development». Сравнить Deepgram и Google Speech для транскрипции
Ожидаемый результат:
Таблица сравнения, показывающая различия в задержке, точности, поддержке языков и стоимости между провайдерами
Аудит безопасности
БезопасноAll 214 static findings are false positives. The skill is legitimate voice AI development documentation with example code. Detected patterns include: markdown code fences (not shell commands), legitimate audio data representation with \x00, standard network bindings (0.0.0.0), and placeholder configuration strings. No actual security issues found.
Оценка качества
Что вы можете построить
Создание голосового ассистента
Создание голосового ассистента реального времени, который может слушать, обрабатывать и отвечать на запросы пользователей естественной речью
Реализация голосового чат-бота
Добавление возможности голосового разговора к существующим чат-ботам для телефонных или видеоприложений
Создание мульти-провайдерной голосовой системы
Построение гибкой голосовой системы, которая может переключаться между различными провайдерами транскрипции и TTS
Попробуйте эти промпты
Используйте навык voice-ai-engine-development для создания простого голосового ассистента, который слушает речь, преобразует её в текст, обрабатывает с помощью LLM и произносит ответ
С помощью voice-ai-engine-development покажите, как добавить обработку прерываний, чтобы пользователи могли остановить ИИ в середине ответа
Я хочу использовать нескольких провайдеров TTS (ElevenLabs, Google, OpenAI) в моем голосовом движке. Покажите мне реализацию фабричного паттерна из voice-ai-engine-development
Используя лучшие практики voice-ai-engine-development, как мне оптимизировать асинхронный конвейер для минимизации задержки между речью пользователя и ответом ИИ?
Лучшие практики
- Используйте асинхронные очереди обработчиков для независимых этапов обработки для обеспечения реального параллелизма
- Буферизируйте ответы LLM перед TTS для обеспечения плавного аудиовывода без обрезки
- Реализуйте обработку прерываний на раннем этапе, так как она влияет на архитектуру всего конвейера
Избегать
- Синхронная обработка аудио в одном потоке (блокирует производительность реального времени)
- Отправка неполных фрагментов на транскрипцию (вызывает проблемы с точностью)
- Запуск TTS до завершения ответа LLM (приводит к обрезанной речи)
Часто задаваемые вопросы
Каких провайдеров голоса поддерживает этот навык?
Нужны ли мне API-ключи для использования этого навыка?
Может ли это работать полностью локально?
Как работает обработка прерываний?
Какие библиотеки Python требуются?
Подходит ли это для производственного развертывания?
Сведения для разработчиков
Автор
sickn33Лицензия
MIT
Репозиторий
https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/voice-ai-engine-developmentСсылка
main