技能 ai-avatar-video
🎬

ai-avatar-video

安全 🌐 网络访问

创建AI虚拟形象和Talking Head视频

也可从以下获取: inference-skills,doany-ai,qu-skills,inference-sh-skills,infsh-skills,agentspace-so,inference-sh,runcomfy-com

创建专业虚拟形象视频需要多个工具和服务。此技能通过统一CLI界面简化了inference.sh的AI虚拟形象视频生成,提供内置TTS、多个虚拟形象模型和唇形同步功能。

支持: Claude Codex Code(CC)
🥉 74 青铜
1

下载技能 ZIP

2

在 Claude 中上传

前往 设置 → 功能 → 技能 → 上传技能

3

开启并开始使用

测试它

正在使用“ai-avatar-video”。 Generate a talking head video using the portrait at example.com/portrait.jpg with the voice script 'Welcome to our product demo. Let me show you three features.'

预期结果:

在1080p分辨率下生成专业的talking head视频,具有自然的唇形同步功能。AI演示者以选定的语音配置文件传递脚本,适合嵌入到演示文稿或营销材料中。

正在使用“ai-avatar-video”。 Create UGC-style content with a casual testimonial about a productivity app

预期结果:

创建具有休闲演示者语调的真人推荐风格视频。视频具有自然的手势、适当的光照和对话式的表达方式,看起来可信且真实。

正在使用“ai-avatar-video”。 Dub a product video into Spanish using the original English audio and a portrait image

预期结果:

用从翻译文本生成的西班牙语语音重新进行唇形同步。AI虚拟形象在传递本地化内容时保持一致的外观。

安全审计

安全
v1 • 5/29/2026

This is a documentation-only skill (SKILL.md) describing how to use the inference.sh belt CLI for AI avatar video generation. All static findings are false positives: the weak crypto flag was triggered by YAML frontmatter, and the backtick executions are markdown code fence delimiters in documentation examples, not actual code execution. The hardcoded URLs are legitimate inference.sh service endpoints and documentation links.

1
已扫描文件
268
分析行数
1
发现项
1
审计总数
审计者: claude

质量评分

38
架构
100
可维护性
87
内容
55
社区
100
安全
83
规范符合性

你能构建什么

营销和UGC内容

使用AI演示者通过内置TTS创建引人入胜的UGC风格广告和产品演示。生成多个演示者变体用于A/B测试。

培训和教育视频

通过虚拟演示者制作一致的培训内容。使用内置TTS快速生成视频,无需单独录制音频。

视频本地化

通过结合转录、翻译和TTS与虚拟形象唇形同步生成,实现跨语言的视频内容本地化。

试试这些提示

基础虚拟形象视频
使用肖像图片生成talking head视频,配语音脚本:"[Your script here]",使用P-Video-Avatar和Zephyr语音,1080p分辨率。
音频驱动的虚拟形象
使用[portrait-url]的肖像图片和[audio-url]的音频文件创建虚拟形象视频,使用OmniHuman 1.5模型。
UGC风格演示者
生成休闲UGC风格的虚拟形象视频,配合真实的推荐语气。使用肖像提示:'casual selfie-style photo of a [description]',配语音脚本:"[natural testimonial text]"。
批量本地代化
使用P-Video-Avatar的不同语音选项为此脚本创建[N]个演示者变体:"[script]",用于多语言内容测试。

最佳实践

  • 使用高质量、正面、光照良好的肖像照片以获得最佳虚拟形象效果
  • 在探索其他模型之前,先使用P-Video-Avatar以获得最快的结果和最低的成本
  • 在批量生成之前分别测试语音提示和视频提示,以完善语气和外观

避免

  • 不要使用低分辨率或重度滤镜的肖像作为输入图像
  • 避免使用背景复杂的图像而不进行适当的人脸裁剪
  • 在生成批量内容之前不要跳过单条视频测试

常见问题

创建talking head视频的最佳模型是什么?
P-Video-Avatar推荐用于大多数用例。它比其他替代方案快18倍、成本低6倍,同时提供内置TTS、30种语音和1080p支持。使用OmniHuman处理多角色场景,或使用PixVerse获得高度逼真的唇形同步。
我需要单独录制音频吗?
P-Video-Avatar、Fabric和OmniHuman提供内置TTS选项。对于没有TTS的模型,可以使用Inworld TTS-2、ElevenLabs或Kokoro单独生成音频,然后创建虚拟形象视频。
什么图像格式效果最好?
使用清晰、正面、光照良好的肖像照片。AI在专业头像照片上效果最佳。避免重度滤镜的照片、不指定目标角色的合影、或低分辨率图像。
我可以创建多种语言的视频吗?
是的。P-Video-Avatar通过内置TTS支持10种语言。对于其他语言,使用Kokoro或Inworld TTS-2等TTS服务生成翻译语音,然后使用唇形同步模型与虚拟形象同步。
如何生成多个演示者变体?
使用批量工作流程,配合不同的语音选项(Zephyr、Puck、Aoede)和肖像提示。保持相同脚本的同时循环切换语音变体,为不同的受众群体创建真实的变体。
典型的处理时间是多少?
P-Video-Avatar的处理速度大约为每秒1.83秒视频。OmniHuman较慢,每秒28秒。处理时间取决于模型选择、分辨率和视频长度。

开发者详情

文件结构

📄 SKILL.md