技能 ai-avatar-video
🎬

ai-avatar-video

安全 🌐 網路存取

建立 AI 虛擬形象和談話頭像影片

也可從以下取得: halt-catch-fire,inference-skills,doany-ai,qu-skills,inference-sh-skills,infsh-skills,agentspace-so,inference-sh,runcomfy-com

製作專業虛擬形象影片需要多種工具和服務。本技能透過統一的 CLI 介面簡化 inference.sh 的 AI 虛擬形象影片生成,提供內建 TTS、多種虛擬形象模型和唇形同步功能。

支援: Claude Codex Code(CC)
🥉 74 青銅
1

下載技能 ZIP

2

在 Claude 中上傳

前往 設定 → 功能 → 技能 → 上傳技能

3

開啟並開始使用

測試它

正在使用「ai-avatar-video」。 使用 example.com/portrait.jpg 的肖像和語音腳本「歡迎來到我們的產品演示。讓我為您展示三個功能。」生成談話頭像影片。

預期結果:

生成一個專業的談話頭像影片,解析度為 1080p,唇形同步自然。AI 主持人以選定的語音設定呈現腳本,適合嵌入簡報或行銷材料中。

正在使用「ai-avatar-video」。 建立關於 productivity app 的休閒推薦語氣的 UGC 風格內容

預期結果:

建立一個看起來真實的用戶推薦影片,採用休閒主持人風格。影片具有自然的手勢、适当的光線和對話式的呈現方式,讓人感到亲切且真誠。

正在使用「ai-avatar-video」。 使用原始英文音訊和肖像圖片將產品影片配音成西班牙語

預期結果:

原始影片使用從翻譯文字生成的西班牙語語音進行重新唇形同步。AI 虛擬形象在呈現在地化內容的同時保持一致的外觀。

安全審計

安全
v1 • 5/29/2026

This is a documentation-only skill (SKILL.md) describing how to use the inference.sh belt CLI for AI avatar video generation. All static findings are false positives: the weak crypto flag was triggered by YAML frontmatter, and the backtick executions are markdown code fence delimiters in documentation examples, not actual code execution. The hardcoded URLs are legitimate inference.sh service endpoints and documentation links.

1
已掃描檔案
268
分析行數
1
發現項
1
審計總數
審計者: claude

品質評分

38
架構
100
可維護性
87
內容
55
社群
100
安全
83
規範符合性

你能建構什麼

行銷和 UGC 內容

使用內建 TTS 透過 AI 主持人建立引人入勝的 UGC 風格廣告和產品展示。生成多個主持人變體以進行 A/B 測試。

培訓和教育影片

使用虛擬主持人製作一致的培訓內容。使用內建 TTS 快速生成影片,無需單獨錄製音訊。

影片在地化

透過結合轉錄、翻譯、TTS 和虛擬形象唇形同步生成,跨語言翻譯影片內容。

試試這些提示

基本虛擬形象影片
使用肖像圖片和語音腳本:「[您的腳本]」生成談話頭像影片,使用 P-Video-Avatar 和 Zephyr 語音,1080p 解析度。
音訊驅動虛擬形象
使用 [portrait-url] 的肖像和 [audio-url] 的音訊檔案建立虛擬形象影片,使用 OmniHuman 1.5 模型。
UGC 風格主持人
生成輕鬆的 UGC 風格虛擬形象影片,呈現真實的推薦語氣。使用肖像提示:「[描述] 的休閒自拍照風格照片」,語音腳本:「[自然推薦文字]」。
批量在地化
使用 P-Video-Avatar 的不同語音選項,建立此腳本的 [N] 個主持人變體:「[腳本]」,用於多語言內容測試。

最佳實務

  • 使用高品質、正面拍攝且光線良好的肖像照片以獲得最佳虛擬形象效果
  • 在嘗試其他模型之前,先使用 P-Video-Avatar 以獲得最快的處理速度和最低的成本
  • 在批量生成之前,分別測試語音提示和影片提示以優化語氣和外觀

避免

  • 不要使用低解析度或重度濾鏡處理的肖像作為輸入圖片
  • 避免使用背景過多且未正確裁切人臉的圖片
  • 在生成批量內容之前不要跳過單一影片的測試

常見問題

建立談話頭像影片的最佳模型是什麼?
建議大多數用例使用 P-Video-Avatar。它比替代方案快 18 倍、便宜 6 倍,同時提供內建 TTS、30 種語音和 1080p 支援。對於多角色場景使用 OmniHuman,或對於高度逼真的唇形同步使用 PixVerse。
我需要單獨錄製音訊嗎?
P-Video-Avatar、Fabric 和 OmniHuman 提供內建 TTS 選項。對於沒有 TTS 的模型,您可以使用 Inworld TTS-2、ElevenLabs 或 Kokoro 单独生成音訊,然後再建立虛擬形象影片。
什麼圖片格式效果最好?
使用清晰、正面拍攝且光線良好的肖像照片。AI 在專業頭像照片上效果最佳。避免重度濾鏡處理的圖片、未指定目標角色的團體照,或低解析度圖片。
我可以製作多種語言的影片嗎?
可以。P-Video-Avatar 內建 TTS 支援 10 種語言。對於其他語言,使用 Kokoro 或 Inworld TTS-2 等 TTS 服務生成翻譯後的語音,然後使用唇形同步模型與虛擬形象同步。
如何生成多個主持人變體?
使用具有不同語音選項(Zephyr、Puck、Aoede)和肖像提示的批量工作流程。在保持相同腳本的同時循環切換語音變體,為不同的目標受眾區隔建立真實的變體。
典型的處理時間是多少?
P-Video-Avatar 的處理速度約為每秒影片 1.83 秒。OmniHuman 較慢,每秒影片 28 秒。處理時間取決於模型選擇、解析度和影片長度。

開發者詳情

檔案結構

📄 SKILL.md