Fähigkeiten ai-avatar-video
🎬

ai-avatar-video

Sicher

KI-Avatar- und Talking-Head-Videos erstellen

Auch verfĂĽgbar von: doany-ai,qu-skills,inference-sh-skills,infsh-skills,agentspace-so,inference-sh,skills-shell,runcomfy-com

Die Erstellung professioneller KI-Avatar-Videos erfordert traditionell komplexe Videobearbeitung oder teure SaaS-Plattformen. Diese Skill bietet eine einheitliche Schnittstelle zur Generierung von Talking-Head-Videos aus Bildern, Audio oder Textskripten unter Verwendung der inference.sh CLI.

UnterstĂĽtzt: Claude Codex Code(CC)
📊 69 Angemessen
1

Die Skill-ZIP herunterladen

2

In Claude hochladen

Gehe zu Einstellungen → Fähigkeiten → Skills → Skill hochladen

3

Einschalten und loslegen

Teste es

Verwendung von "ai-avatar-video". Porträtbild eines Experten + Skript: 'Willkommen zu unserer Quartalsübersicht...'

Erwartetes Ergebnis:

Eine Videodatei, die das Porträtbild mit realistischen Lippenbewegungen zeigt, synchronisiert zum generierten Sprachaudio, als herunterladbare Videodatei bereitgestellt.

Verwendung von "ai-avatar-video". Porträtbild + bestehende Audiodatei einer Rede

Erwartetes Ergebnis:

Ein Talking-Head-Video, bei dem die Person im Bild die Rede mit natürlichen Gesichtsbewegungen und präziser Lippensynchronisation zu halten scheint.

Verwendung von "ai-avatar-video". Original-Schulungsvideo + ĂĽbersetztes spanisches Audio

Erwartetes Ergebnis:

Eine Version des Schulungsvideos, bei der der ursprüngliche visuelle Präsentator nun das übersetzte spanische Audio mit korrekter Lippensynchronisation spricht.

Sicherheitsaudit

Sicher
v1 • 5/4/2026

Documentation skill for AI video generation via inference.sh CLI. All static findings are false positives. The external_commands (29) are example CLI commands in code blocks demonstrating belt tool usage. The network URLs (20) reference the inference.sh service API endpoints and documentation. The weak_crypto flag (1) is a false positive triggered by YAML frontmatter text mentioning 'algorithm'. No malicious code, command injection, or data exfiltration patterns present.

1
Gescannte Dateien
216
Analysierte Zeilen
3
befunde
1
Gesamtzahl Audits

Probleme mit hohem Risiko (1)

Weak Cryptographic Algorithm Flag (False Positive)
Static analyzer flagged 'weak_crypto: Weak cryptographic algorithm' at SKILL.md:3. This is a false positive. Line 3 contains YAML frontmatter describing the skill capabilities. The analyzer likely detected the word 'algorithm' in text like 'talking head generation, virtual presenters'. No cryptographic code exists in this documentation file.
Probleme mit mittlerem Risiko (1)
External Commands Documentation (False Positive)
Static analyzer flagged 29 instances of 'external_commands' (Ruby/shell backtick execution) at various SKILL.md lines. These are all shell command examples displayed in fenced code blocks (```bash blocks). The backtick detection likely triggered on code block syntax. These are documented CLI commands (`belt app run ...`) demonstrating proper belt CLI usage for the inference.sh service. No command injection vulnerabilities exist - the commands are static examples showing API usage patterns.
Probleme mit niedrigem Risiko (1)
Hardcoded URLs to External Service (False Positive)
Static analyzer flagged 20 instances of 'hardcoded URLs' (network pattern). These URLs point to: inference.sh service endpoints, documentation links, and image assets. All URLs are legitimate references to the inference.sh service that this skill documents. No suspicious external connections or data exfiltration detected.
Auditiert von: claude

Qualitätsbewertung

38
Architektur
100
Wartbarkeit
87
Inhalt
33
Community
88
Sicherheit
91
Spezifikationskonformität

Was du bauen kannst

Produktdemo-Videos

Erstellen Sie ansprechende Produktdemonstrationen mit einem KI-Präsentator. Laden Sie ein professionelles Porträt hoch und schreiben Sie Ihre Gesprächspunkte auf - der Avatar präsentiert Ihre Nachricht mit natürlicher Lippensynchronisation.

Schulungsinhalte-Lokalisierung

Übersetzen Sie Schulungsvideos in mehrere Sprachen. Transkribieren Sie das Original, übersetzen Sie das Skript, generieren Sie neues Audio und synchronisieren Sie es mit Ihrem Präsentator-Avatar für einheitliche globale Schulungsmaterialien.

Social-Media-Inhaltserstellung

Erstellen Sie konsistente Avatar-Inhalte für Social-Media-Kanäle. Generieren Sie Talking-Head-Videos aus Porträtbildern mit KI-generierten Stimmen, was die Videoproduktionskosten und Durchlaufzeiten reduziert.

Probiere diese Prompts

Basis-Avatar aus Skript
Generieren Sie ein Avatar-Video unter Verwendung eines Porträtbildes mit einem Textskript und KI-Stimme
Avatar aus Audiodatei
Erstellen Sie ein Talking-Head-Video, das ein bestehendes Porträt mit einer bereitgestellten Audiodatei synchronisiert
Mehrsprachige Vertonung
Transkribieren, ĂĽbersetzen und erstellen Sie eine lippensynchronisierte Avatar-Version eines Videos in einer Zielsprache
Vollständige Porträt + Avatar-Pipeline
Generieren Sie zuerst ein Porträtbild, dann erstellen Sie ein Avatar-Video aus diesem Porträt mit TTS

Bewährte Verfahren

  • Verwenden Sie hochqualitative, frontal aufgenommene Porträtfotos mit klarer Sichtbarkeit des Gesichts und guter Beleuchtung fĂĽr beste Ergebnisse
  • Generieren Sie Audio mit klarer Sprache und minimalem Hintergrundrauschen, bevor Sie Avatar-Videos erstellen
  • Verwenden Sie P-Video-Avatar fĂĽr die beste Balance aus Geschwindigkeit, Kosten und Qualität - es beinhaltet integriertes TTS und 1080p-Ausgabe

Vermeiden

  • Verwenden Sie keine low-quality oder stark gefilterten Porträtbilder - die Avatar-Lippensynchronqualität hängt von der Eingabebildklarheit ab
  • Verwenden Sie kein Audio mit signifikantem Hintergrundrauschen - dies verschlechtert die Lippensynchron-Genauigkeit
  • Ăśberspringen Sie nicht den Audio-Generierungsschritt bei Verwendung von Modellen ohne integriertes TTS (OmniHuman, PixVerse)

Häufig gestellte Fragen

Welches Modell wird fĂĽr die Avatar-Videogenerierung empfohlen?
P-Video-Avatar wird empfohlen. Es ist 18x schneller und 6x günstiger als Alternativen, unterstützt integriertes TTS mit 30 Stimmen in 10 Sprachen und liefert 1080p-Auflösung.
Wie erstelle ich einen Avatar, wenn ich kein Porträtbild habe?
Generieren Sie zuerst ein Porträtbild unter Verwendung des p-image-Modells (pruna/p-image) mit Prompts wie 'professionelles Headshot-Porträt einer jungen Frau, neutraler Hintergrund', und verwenden Sie dieses Bild dann als Eingabe für die Avatar-Erstellung.
Kann ich meine eigene Stimme anstelle von KI-generierter Sprache verwenden?
Ja. Laden Sie Ihre eigene Audiodatei unter Verwendung des 'audio'-Parameters anstelle von 'voice_script' hoch. Dies wird von allen Modellen einschlieĂźlich P-Video-Avatar unterstĂĽtzt.
Wie lokalisiere ich Videos in andere Sprachen?
Verwenden Sie fast-whisper, um das Originalvideo zu transkribieren, ĂĽbersetzen Sie den Text, generieren Sie neue Sprache mit kokoro-tts in der Zielsprache, und synchronisieren Sie dann unter Verwendung von latentsync-1-6.
Welche Bildformate werden unterstĂĽtzt?
Stellen Sie Bild-URLs bereit (http:// oder https://). Unterstützte Formate sind JPG, PNG und WebP. Für beste Ergebnisse verwenden Sie hochqualitative Porträts mit frontaler Komposition.
Wie lange dauert die Videogenerierung?
Die Generierungszeit variiert je nach Modell. P-Video-Avatar verarbeitet mit ca. 1,83 Sekunden pro Sekunde Video. OmniHuman 1.5 benötigt ca. 28s pro Sekunde. Höhere Auflösungen benötigen längere Verarbeitungszeit.

Entwicklerdetails

Dateistruktur

đź“„ SKILL.md