Навыки ai-avatar-video
🎬

ai-avatar-video

Безопасно 🌐 Доступ к сети

Создание AI-аватара и видео с говорящей головой

Также доступно от: halt-catch-fire,inference-skills,doany-ai,qu-skills,inference-sh-skills,infsh-skills,agentspace-so,inference-sh,runcomfy-com

Создание профессиональных видео с аватарами требует нескольких инструментов и сервисов. Этот навык упрощает генерацию видео с AI-аватарами с помощью унифицированного CLI-интерфейса для inference.sh, предлагая встроенный TTS, несколько моделей аватаров и возможность синхронизации губ.

Поддерживает: Claude Codex Code(CC)
🥉 74 Бронза
1

Скачать ZIP навыка

2

Загрузить в Claude

Перейдите в Settings → Capabilities → Skills → Upload skill

3

Включите и начните использовать

Протестировать

Использование «ai-avatar-video». Generate a talking head video using the portrait at example.com/portrait.jpg with the voice script 'Welcome to our product demo. Let me show you three features.'

Ожидаемый результат:

Профессиональное видео с говорящей головой генерируется в разрешении 1080p с естественной синхронизацией губ. AI-ведущий озвучивает сценарий с выбранным голосовым профилем, подходящим для встраивания в презентации или маркетинговые материалы.

Использование «ai-avatar-video». Create UGC-style content with a casual testimonial about a productivity app

Ожидаемый результат:

Создается аутентично выглядящее видео-отзыв с непринужденным тоном ведущего. Видео имеет естественные жесты, соответствующее освещение и разговорную подачу, которая выглядит узнаваемой и искренней.

Использование «ai-avatar-video». Dub a product video into Spanish using the original English audio and a portrait image

Ожидаемый результат:

Исходное видео пересинхронизируется с испанской речью, сгенерированной из переведенного текста. AI-аватар сохраняет постоянный внешний вид, озвучивая локализованный контент.

Аудит безопасности

Безопасно
v1 • 5/29/2026

This is a documentation-only skill (SKILL.md) describing how to use the inference.sh belt CLI for AI avatar video generation. All static findings are false positives: the weak crypto flag was triggered by YAML frontmatter, and the backtick executions are markdown code fence delimiters in documentation examples, not actual code execution. The hardcoded URLs are legitimate inference.sh service endpoints and documentation links.

1
Просканировано файлов
268
Проанализировано строк
1
находки
1
Всего аудитов

Факторы риска

Проверено: claude

Оценка качества

38
Архитектура
100
Сопровождаемость
87
Контент
55
Сообщество
100
Безопасность
83
Соответствие спецификации

Что вы можете построить

Маркетинг и UGC-контент

Создание привлекательного UGC-контента с AI-ведущими с использованием встроенного TTS. Генерация нескольких вариантов ведущих для A/B-тестирования.

Обучение и образовательные видео

Создание последовательного обучающего контента с виртуальными ведущими. Использование встроенного TTS для быстрой генерации видео без отдельной аудиозаписи.

Локализация видео

Перевод видеоконтента на разные языки путем комбинирования транскрибации, перевода и TTS с генерацией синхронизации губ аватара.

Попробуйте эти промпты

Базовое видео с аватаром
Generate a talking head video using a portrait image with voice script: "[Your script here]" using P-Video-Avatar with Zephyr voice at 1080p resolution.
Аватар на основе аудио
Create an avatar video from [portrait-url] using the audio file at [audio-url] with OmniHuman 1.5 model.
UGC-стиль ведущего
Generate a casual UGC-style avatar video with authentic testimonial tone. Use portrait prompt: 'casual selfie-style photo of a [description]' with voice script: "[natural testimonial text]".
Пакетная локализация
Create [N] presenter variations of this script: "[script]" using different voice options from P-Video-Avatar for multi-language content testing.

Лучшие практики

  • Используйте высококачественные портретные фотографии в анфас с хорошим освещением для лучших результатов аватара
  • Начните с P-Video-Avatar для получения самых быстрых результатов и минимальной стоимости перед изучением других моделей
  • Тестируйте голосовые промпты и видеопромпты отдельно, чтобы уточнить тон и внешний вид перед пакетной генерацией

Избегать

  • Не используйте низкокачественные или сильно отфильтрованные портреты в качестве входных изображений
  • Избегайте изображений с большим количеством фона без надлежащей обрезки лица
  • Не пропускайте тестирование с одним видео перед генерацией пакетного контента

Часто задаваемые вопросы

Какая модель лучше всего подходит для создания видео с говорящей головой?
P-Video-Avatar рекомендуется для большинства случаев использования. Она работает в 18 раз быстрее и в 6 раз дешевле альтернатив, предлагая встроенный TTS, 30 голосов и поддержку 1080p. Используйте OmniHuman для многосимвольных сцен или PixVerse для максимально реалистичной синхронизации губ.
Нужно ли записывать аудио отдельно?
P-Video-Avatar, Fabric и OmniHuman предлагают встроенные опции TTS. Для моделей без TTS можно использовать Inworld TTS-2, ElevenLabs или Kokoro для отдельной генерации аудио перед созданием видео с аватаром.
Какой формат изображения лучше всего подходит?
Используйте четкие портретные фотографии в анфас с хорошим освещением. AI работает лучше всего с профессиональными портретными снимками. Избегайте сильно отфильтрованных изображений, групповых фотографий без указания целевого персонажа или низкокачественных изображений.
Можно ли создавать видео на нескольких языках?
Да. P-Video-Avatar поддерживает 10 языков со встроенным TTS. Для других языков генерируйте переведенную речь с помощью сервисов TTS, таких как Kokoro или Inworld TTS-2, затем синхронизируйте с аватаром с помощью моделей синхронизации губ.
Как сгенерировать несколько вариантов ведущих?
Используйте пакетный рабочий процесс с различными голосовыми опциями (Zephyr, Puck, Aoede) и портретными промптами. Перебирайте варианты голосов, сохраняя один и тот же сценарий, чтобы создавать аутентично выглядящие вариации для разных сегментов аудитории.
Каково типичное время обработки?
P-Video-Avatar обрабатывает примерно 1,83 секунды на секунду видео. OmniHuman работает медленнее — 28 секунд на секунду. Время обработки зависит от выбора модели, разрешения и длины видео.

Сведения для разработчиков

Автор

skills-shell

Лицензия

MIT

Ссылка

main

Структура файлов

📄 SKILL.md