🎬

ai-avatar-video

Name: ai-avatar-video
Author: inference-skills

Sicher

KI-Avatar- und Talking-Head-Videos erstellen

Auch verfügbar von: doany-ai,qu-skills,inference-sh-skills,infsh-skills,agentspace-so,inference-sh,skills-shell,runcomfy-com

Die Erstellung professioneller KI-Avatar-Videos erfordert traditionell komplexe Videobearbeitung oder teure SaaS-Plattformen. Diese Skill bietet eine einheitliche Schnittstelle zur Generierung von Talking-Head-Videos aus Bildern, Audio oder Textskripten unter Verwendung der inference.sh CLI.

Unterstützt: Claude Codex Code(CC)

📊 69 Angemessen

Die Skill-ZIP herunterladen

In Claude hochladen

Gehe zu Einstellungen → Fähigkeiten → Skills → Skill hochladen

Einschalten und loslegen

Teste es

Verwendung von "ai-avatar-video". Porträtbild eines Experten + Skript: 'Willkommen zu unserer Quartalsübersicht...'

Erwartetes Ergebnis:

Eine Videodatei, die das Porträtbild mit realistischen Lippenbewegungen zeigt, synchronisiert zum generierten Sprachaudio, als herunterladbare Videodatei bereitgestellt.

Verwendung von "ai-avatar-video". Porträtbild + bestehende Audiodatei einer Rede

Erwartetes Ergebnis:

Ein Talking-Head-Video, bei dem die Person im Bild die Rede mit natürlichen Gesichtsbewegungen und präziser Lippensynchronisation zu halten scheint.

Verwendung von "ai-avatar-video". Original-Schulungsvideo + übersetztes spanisches Audio

Erwartetes Ergebnis:

Eine Version des Schulungsvideos, bei der der ursprüngliche visuelle Präsentator nun das übersetzte spanische Audio mit korrekter Lippensynchronisation spricht.

Sicherheitsaudit

Sicher

v1 • 5/4/2026

Documentation skill for AI video generation via inference.sh CLI. All static findings are false positives. The external_commands (29) are example CLI commands in code blocks demonstrating belt tool usage. The network URLs (20) reference the inference.sh service API endpoints and documentation. The weak_crypto flag (1) is a false positive triggered by YAML frontmatter text mentioning 'algorithm'. No malicious code, command injection, or data exfiltration patterns present.

Gescannte Dateien

216

Analysierte Zeilen

befunde

Gesamtzahl Audits

Probleme mit hohem Risiko (1)

SKILL.md:3

Weak Cryptographic Algorithm Flag (False Positive)

Static analyzer flagged 'weak_crypto: Weak cryptographic algorithm' at SKILL.md:3. This is a false positive. Line 3 contains YAML frontmatter describing the skill capabilities. The analyzer likely detected the word 'algorithm' in text like 'talking head generation, virtual presenters'. No cryptographic code exists in this documentation file.

Probleme mit mittlerem Risiko (1)

SKILL.md:15 SKILL.md:17-26 SKILL.md:26-34 SKILL.md:34-37 SKILL.md:53-61 SKILL.md:61-65 SKILL.md:65-74 SKILL.md:74-78 SKILL.md:78-83 SKILL.md:83-89 SKILL.md:89-102 SKILL.md:102-106 SKILL.md:106-111 SKILL.md:111-117 SKILL.md:117-122 SKILL.md:122-126 SKILL.md:126-131 SKILL.md:131-137 SKILL.md:137-148 SKILL.md:148-152 SKILL.md:152-166 SKILL.md:166-183 SKILL.md:183-189 SKILL.md:189-207

External Commands Documentation (False Positive)

Static analyzer flagged 29 instances of 'external_commands' (Ruby/shell backtick execution) at various SKILL.md lines. These are all shell command examples displayed in fenced code blocks (```bash blocks). The backtick detection likely triggered on code block syntax. These are documented CLI commands (`belt app run ...`) demonstrating proper belt CLI usage for the inference.sh service. No command injection vulnerabilities exist - the commands are static examples showing API usage patterns.

Probleme mit niedrigem Risiko (1)

SKILL.md:9 SKILL.md:11 SKILL.md:15 SKILL.md:22 SKILL.md:55 SKILL.md:67 SKILL.md:80 SKILL.md:81 SKILL.md:108 SKILL.md:109 SKILL.md:119 SKILL.md:120 SKILL.md:128 SKILL.md:129 SKILL.md:145 SKILL.md:154 SKILL.md:163 SKILL.md:213 SKILL.md:214 SKILL.md:215

Hardcoded URLs to External Service (False Positive)

Static analyzer flagged 20 instances of 'hardcoded URLs' (network pattern). These URLs point to: inference.sh service endpoints, documentation links, and image assets. All URLs are legitimate references to the inference.sh service that this skill documents. No suspicious external connections or data exfiltration detected.

Auditiert von: claude

Qualitätsbewertung

Architektur

100

Wartbarkeit

Inhalt

Community

Sicherheit

Spezifikationskonformität

Was du bauen kannst

Produktdemo-Videos

Erstellen Sie ansprechende Produktdemonstrationen mit einem KI-Präsentator. Laden Sie ein professionelles Porträt hoch und schreiben Sie Ihre Gesprächspunkte auf - der Avatar präsentiert Ihre Nachricht mit natürlicher Lippensynchronisation.

Schulungsinhalte-Lokalisierung

Übersetzen Sie Schulungsvideos in mehrere Sprachen. Transkribieren Sie das Original, übersetzen Sie das Skript, generieren Sie neues Audio und synchronisieren Sie es mit Ihrem Präsentator-Avatar für einheitliche globale Schulungsmaterialien.

Social-Media-Inhaltserstellung

Erstellen Sie konsistente Avatar-Inhalte für Social-Media-Kanäle. Generieren Sie Talking-Head-Videos aus Porträtbildern mit KI-generierten Stimmen, was die Videoproduktionskosten und Durchlaufzeiten reduziert.

Probiere diese Prompts

Basis-Avatar aus Skript

Generieren Sie ein Avatar-Video unter Verwendung eines Porträtbildes mit einem Textskript und KI-Stimme

Avatar aus Audiodatei

Erstellen Sie ein Talking-Head-Video, das ein bestehendes Porträt mit einer bereitgestellten Audiodatei synchronisiert

Mehrsprachige Vertonung

Transkribieren, übersetzen und erstellen Sie eine lippensynchronisierte Avatar-Version eines Videos in einer Zielsprache

Vollständige Porträt + Avatar-Pipeline

Generieren Sie zuerst ein Porträtbild, dann erstellen Sie ein Avatar-Video aus diesem Porträt mit TTS

Bewährte Verfahren

Verwenden Sie hochqualitative, frontal aufgenommene Porträtfotos mit klarer Sichtbarkeit des Gesichts und guter Beleuchtung für beste Ergebnisse
Generieren Sie Audio mit klarer Sprache und minimalem Hintergrundrauschen, bevor Sie Avatar-Videos erstellen
Verwenden Sie P-Video-Avatar für die beste Balance aus Geschwindigkeit, Kosten und Qualität - es beinhaltet integriertes TTS und 1080p-Ausgabe

Vermeiden

Verwenden Sie keine low-quality oder stark gefilterten Porträtbilder - die Avatar-Lippensynchronqualität hängt von der Eingabebildklarheit ab
Verwenden Sie kein Audio mit signifikantem Hintergrundrauschen - dies verschlechtert die Lippensynchron-Genauigkeit
Überspringen Sie nicht den Audio-Generierungsschritt bei Verwendung von Modellen ohne integriertes TTS (OmniHuman, PixVerse)

Häufig gestellte Fragen

Welches Modell wird für die Avatar-Videogenerierung empfohlen?

P-Video-Avatar wird empfohlen. Es ist 18x schneller und 6x günstiger als Alternativen, unterstützt integriertes TTS mit 30 Stimmen in 10 Sprachen und liefert 1080p-Auflösung.

Wie erstelle ich einen Avatar, wenn ich kein Porträtbild habe?

Generieren Sie zuerst ein Porträtbild unter Verwendung des p-image-Modells (pruna/p-image) mit Prompts wie 'professionelles Headshot-Porträt einer jungen Frau, neutraler Hintergrund', und verwenden Sie dieses Bild dann als Eingabe für die Avatar-Erstellung.

Kann ich meine eigene Stimme anstelle von KI-generierter Sprache verwenden?

Ja. Laden Sie Ihre eigene Audiodatei unter Verwendung des 'audio'-Parameters anstelle von 'voice_script' hoch. Dies wird von allen Modellen einschließlich P-Video-Avatar unterstützt.

Wie lokalisiere ich Videos in andere Sprachen?

Verwenden Sie fast-whisper, um das Originalvideo zu transkribieren, übersetzen Sie den Text, generieren Sie neue Sprache mit kokoro-tts in der Zielsprache, und synchronisieren Sie dann unter Verwendung von latentsync-1-6.

Welche Bildformate werden unterstützt?

Stellen Sie Bild-URLs bereit (http:// oder https://). Unterstützte Formate sind JPG, PNG und WebP. Für beste Ergebnisse verwenden Sie hochqualitative Porträts mit frontaler Komposition.

Wie lange dauert die Videogenerierung?

Die Generierungszeit variiert je nach Modell. P-Video-Avatar verarbeitet mit ca. 1,83 Sekunden pro Sekunde Video. OmniHuman 1.5 benötigt ca. 28s pro Sekunde. Höhere Auflösungen benötigen längere Verarbeitungszeit.

Entwicklerdetails

Autor

inference-skills

Lizenz

MIT

Repository

https://github.com/inference-skills/skills/tree/main/tools/video/ai-avatar-video/

Ref

main

Dateistruktur

📄 SKILL.md