ai-avatar-video
KI-Avatar- und Talking-Head-Videos erstellen
Auch verfĂĽgbar von: doany-ai,qu-skills,inference-sh-skills,infsh-skills,agentspace-so,inference-sh,skills-shell,runcomfy-com
Die Erstellung professioneller KI-Avatar-Videos erfordert traditionell komplexe Videobearbeitung oder teure SaaS-Plattformen. Diese Skill bietet eine einheitliche Schnittstelle zur Generierung von Talking-Head-Videos aus Bildern, Audio oder Textskripten unter Verwendung der inference.sh CLI.
Die Skill-ZIP herunterladen
In Claude hochladen
Gehe zu Einstellungen → Fähigkeiten → Skills → Skill hochladen
Einschalten und loslegen
Teste es
Verwendung von "ai-avatar-video". Porträtbild eines Experten + Skript: 'Willkommen zu unserer Quartalsübersicht...'
Erwartetes Ergebnis:
Eine Videodatei, die das Porträtbild mit realistischen Lippenbewegungen zeigt, synchronisiert zum generierten Sprachaudio, als herunterladbare Videodatei bereitgestellt.
Verwendung von "ai-avatar-video". Porträtbild + bestehende Audiodatei einer Rede
Erwartetes Ergebnis:
Ein Talking-Head-Video, bei dem die Person im Bild die Rede mit natürlichen Gesichtsbewegungen und präziser Lippensynchronisation zu halten scheint.
Verwendung von "ai-avatar-video". Original-Schulungsvideo + ĂĽbersetztes spanisches Audio
Erwartetes Ergebnis:
Eine Version des Schulungsvideos, bei der der ursprüngliche visuelle Präsentator nun das übersetzte spanische Audio mit korrekter Lippensynchronisation spricht.
Sicherheitsaudit
SicherDocumentation skill for AI video generation via inference.sh CLI. All static findings are false positives. The external_commands (29) are example CLI commands in code blocks demonstrating belt tool usage. The network URLs (20) reference the inference.sh service API endpoints and documentation. The weak_crypto flag (1) is a false positive triggered by YAML frontmatter text mentioning 'algorithm'. No malicious code, command injection, or data exfiltration patterns present.
Probleme mit hohem Risiko (1)
Probleme mit mittlerem Risiko (1)
Probleme mit niedrigem Risiko (1)
Qualitätsbewertung
Was du bauen kannst
Produktdemo-Videos
Erstellen Sie ansprechende Produktdemonstrationen mit einem KI-Präsentator. Laden Sie ein professionelles Porträt hoch und schreiben Sie Ihre Gesprächspunkte auf - der Avatar präsentiert Ihre Nachricht mit natürlicher Lippensynchronisation.
Schulungsinhalte-Lokalisierung
Übersetzen Sie Schulungsvideos in mehrere Sprachen. Transkribieren Sie das Original, übersetzen Sie das Skript, generieren Sie neues Audio und synchronisieren Sie es mit Ihrem Präsentator-Avatar für einheitliche globale Schulungsmaterialien.
Social-Media-Inhaltserstellung
Erstellen Sie konsistente Avatar-Inhalte für Social-Media-Kanäle. Generieren Sie Talking-Head-Videos aus Porträtbildern mit KI-generierten Stimmen, was die Videoproduktionskosten und Durchlaufzeiten reduziert.
Probiere diese Prompts
Generieren Sie ein Avatar-Video unter Verwendung eines Porträtbildes mit einem Textskript und KI-Stimme
Erstellen Sie ein Talking-Head-Video, das ein bestehendes Porträt mit einer bereitgestellten Audiodatei synchronisiert
Transkribieren, ĂĽbersetzen und erstellen Sie eine lippensynchronisierte Avatar-Version eines Videos in einer Zielsprache
Generieren Sie zuerst ein Porträtbild, dann erstellen Sie ein Avatar-Video aus diesem Porträt mit TTS
Bewährte Verfahren
- Verwenden Sie hochqualitative, frontal aufgenommene Porträtfotos mit klarer Sichtbarkeit des Gesichts und guter Beleuchtung für beste Ergebnisse
- Generieren Sie Audio mit klarer Sprache und minimalem Hintergrundrauschen, bevor Sie Avatar-Videos erstellen
- Verwenden Sie P-Video-Avatar für die beste Balance aus Geschwindigkeit, Kosten und Qualität - es beinhaltet integriertes TTS und 1080p-Ausgabe
Vermeiden
- Verwenden Sie keine low-quality oder stark gefilterten Porträtbilder - die Avatar-Lippensynchronqualität hängt von der Eingabebildklarheit ab
- Verwenden Sie kein Audio mit signifikantem Hintergrundrauschen - dies verschlechtert die Lippensynchron-Genauigkeit
- Ăśberspringen Sie nicht den Audio-Generierungsschritt bei Verwendung von Modellen ohne integriertes TTS (OmniHuman, PixVerse)