Voice Changer + Runway Act-One: Vollstandiger Workflow

Lerne, wie du einen Echtzeit-Voice-Changer mit Runway ML Act-One kombinierst, um charaktergetriebene KI-Kurzfilme mit perfekt abgestimmter Stimme und Performance zu produzieren.

Voice Changer + Runway Act-One: Vollstandiger Workflow fur KI-Kurzfilme

Runway MLs Act-One-Funktion hat verandert, was Solo-Ersteller erreichen konnen. Nimm dich selbst beim Spielen einer Szene auf - nur eine Handykamera und naturliches Licht - und Act-One bildet deine Gesichtsperformance auf jeden Charakter in einem generierten Video ab. Das fehlende Stuck fur die meisten Indie-Filmemacher ist Audio: Act-One verarbeitet das Gesicht, aber die Stimme, die aus deinem Mund kommt, klingt noch immer nach dir.

Ein Echtzeit-Voice-Changer schliesst diese Lucke. Nimm dein Referenzvideo mit bereits transformierter Stimme auf, und der Output-Clip wird mit einer eingebetteten Charakterstimme geliefert - keine Nachbearbeitung, keine Nachsynchronisation.

Dieser Leitfaden fuhrt durch den vollstandigen Workflow: Presets nach Charakter-Archetyp wahlen, die Audiokette so einrichten, dass Runway sauber aufnimmt, und alles in einem Videoeditor fur die Distribution zusammenstellen.


TL;DR

  • Runway Act-One liest Gesichtsbewegungen aus einem Referenzvideo und bildet sie auf einen generierten Charakter ab.
  • Ein Echtzeit-Voice-Changer, der uber ein virtuelles Mikrofon lauft, ermoglicht die Aufnahme des Referenzvideos mit bereits angewendetem Charakter-Audio.
  • Der Audiotrack aus deiner Referenzaufnahme wird zum endgultigen Dialog - Act-One beruehrt das Audio nicht.
  • Passe dein Stimmpreset an deinen Charakter-Archetyp an, bevor du auf Aufnahme druckst.
  • VoxBoosters WASAPI-virtuelles Mikrofon wird von OBS, Webcam-Software und Bildschirmrekordern ohne Treiberinstallation erkannt.
  • Die finale Assemblierung ist unkompliziert: Importiere den Act-One-Video-Output, synchronisiere den verarbeiteten Audiotrack, mache eine Farbkorrektur und exportiere.

Was ist Runway Act-One?

Runway ML ist eine generative KI-Plattform, die von Filmemachern, VFX-Studios und Content-Creators fur Videogenerierung und Bearbeitungsaufgaben verwendet wird. Act-One ist eine spezifische Funktion, die eine Gesichtsbewegungsubertragung durchfuhrt: Sie analysiert ein Referenzvideo eines menschlichen Darstellers und steuert die Gesichtsanimation eines Charakters in einem generierten Output-Clip.

Der Workflow unterscheidet sich von reinem Text-zu-Video. Statt Bewegung in einem Prompt zu beschreiben, verkorperst du sie. Dein Augenbrauenheben, deine Lippensynchronisation und deine Kopfneigungen werden zu den Ausdrucken des Charakters. Das erzeugt deutlich natuerlichere und emotional koharentere Animationen als reine Prompt-Generierung, weil die Wahrheitsquelle echte menschliche Performance-Daten sind.

Act-One schliessen sich einem breiteren Toolset an - einschliesslich Runway Gen-4, Greenscreen-Tools und In-Painting -, die zusammen als vollstandige Produktionspipeline fur KI-unterstutzten Film fungieren.


Warum Audio die ubersehene Ebene ist

Wenn Ersteller Act-One zuerst ausprobieren, ist das ubliche Ergebnis visuell beeindruckend, aber klanglich storend. Das Gesicht des Charakters bewegt sich mit der Expressivitat des Schauspielers, aber die Stimme wird roh aufgenommen - naturliche menschliche Klangfarbe, keine Transformation - und unter das generierte Filmmaterial gelegt. Die Diskrepanz ist sofort spurbar.

Die konventionelle Losung ist Post-Produktion-Stimmbearbeitung: Sauber aufnehmen, dann das Audio danach durch Effekte laufen lassen. Das funktioniert, schafft aber ein Synchronisationsproblem. Die Lippensynchronisation in Act-One hangt vom Referenzvideo ab. Wenn du eine subtile Performance aufnimmst und danach eine starke Vokalbearbeitung hinzufugst - Vokale verlangern, Formantverschiebung hinzufugen -, passt die Mundbewegung des Charakters nicht mehr zum verarbeiteten Audio.

Das Aufnehmen mit dem Echtzeit-Voice-Changer lost dieses Problem. Du horst die transformierte Stimme in deinen Kopfhorern wahrend der Performance, was naturlich deine Mundbewegungen und dein Tempo an das verarbeitete Audio anpasst. Act-One erfasst diese angepassten Bewegungen. Das Ergebnis ist eine engere Lippensynchronisation im generierten Output.


Wie Runway Act-One das Referenzvideo liest

Das Verstandnis des Eingabeformats hilft dir, besseres Referenzmaterial aufzunehmen.

Act-One fuhrt Face-Tracking am Referenz-Clip durch. Es erwartet:

  • Frontale oder nahezu frontale Aufnahme - Profile reduzieren die Genauigkeit erheblich. Ziele darauf ab, dass dein Gesicht in der Mitte des Bildes ist, Kamera auf Augenhohe.
  • Konsistente Beleuchtung - harte Schatten uber Nase oder Augen storen die Landmark-Erkennung. Weiches Frontlicht (Ringlicht, Fensterlicht) ist ideal.
  • Minimale Hintergrundbewegung - Menschen, die hinter dir laufen, oder sich bewegende Objekte konnen den Tracker verwirren.
  • Klare Lippensichtbarkeit - Barte und Mikrofone vor dem Mund reduzieren die Lippensync-Genauigkeit.
  • 720p oder hoher, 24fps oder 30fps - niedrigere Auflosung reduziert die Tracking-Prazision.
  • MP4-Container - am zuverlassigsten fur die Upload-Pipeline. MOV funktioniert auch.
  • Unter 30 Sekunden pro Take - Act-One verarbeitet diese Lange effizient; langere Clips sind moglich, erhohen aber die Generierungswarteschlangenzeit.

Der Audiotrack im Referenzvideo wird von Act-One selbst nicht analysiert. Die Generierung wird rein durch visuelle Daten angetrieben. Das bedeutet, dass der Voice-Changer-Output in deinem Audiotrack keinen Einfluss auf die Qualitat der Gesichtsanimation hat - die beiden Ebenen sind vollig unabhangig.


Charakter-Archetypen und Stimmpreset-Paarung

Die starksten Act-One-Filme haben klangliche Koharenz: Die Stimme passt zum Charakter, bevor eine einzige Dialogzeile geschrieben ist. Hier ist ein praktischer Paarungsguide.

Charakter-ArchetypEmpfohlene StimmbehandlungHinweise
Gepanzerter Krieger / RitterPitch down 3-5 Halbtone + leichter RaumhallFugt Gewicht hinzu; Hall simuliert Helmresonanz
Ubernatuerliches / atherisches WesenLangsame Tonhohenmodulation + Formant hochErzeugt eine unruhige, unwirkliche Textur
Roboter / KI-KonstruktHard-Vocoder oder Bit-Crush-PresetFunktioniert am besten mit klarer, bedachter Lieferung
Altes Boses / BosewichStarkes Pitch down + subtiler ChorusChorus vermittelt das Gefuhl mehrerer Stimmen
Junger Held / AuserwahlerLeichtes Pitch hoch + minimale BearbeitungEmotionalen Bereich erhalten; nicht zu viel bearbeiten
Ausserirdischer DiplomatFormantverschiebung + leichte StereobreiteHalt die Sprache verstandlich, klingt aber nicht menschlich
Erzahler / OrakelPitch down 2 Halbtone + langer HallausklangEpische Dokumentarenergie

Die Tabelle ist ein Ausgangspunkt, kein Regelwerk. Mische Presets und vertraue deinem Gehor wahrend der Performance. Wenn sich die Stimme in deinen Kopfhorern richtig anhort, wahrend du spielst, wird sie sich im endgultigen Film richtig anfuhlen.


Einrichten der Audiokette

Das Ziel ist es, verarbeitetes Audio sowohl in deine Aufnahmesoftware (fur den Audiotrack des Referenzvideos) als auch in deine Monitoring-Kopfhorer zu leiten (damit du dich wahrend der Performance im Charakter horst).

Schritt 1 - Voice Changer installieren und konfigurieren

Installiere VoxBooster auf Windows 10 oder 11. Kein Kernel-Treiber ist erforderlich - das virtuelle WASAPI-Mikrofon erscheint in den Windows-Toneinstellungen als Standardeingabegerat innerhalb von Sekunden nach dem ersten Start.

Offne VoxBooster, wahle dein physisches Mikrofon als Eingangsquelle und wahle ein Preset aus der obigen Archetyp-Tabelle. Stelle sicher, dass der Output auf VoxBooster Virtual Mic im Output-Selektor geleitet wird.

Schritt 2 - Monitoring einrichten

Aktiviere in den VoxBooster-Einstellungen das Kopfhorer-Monitoring. Du solltest jetzt deine transformierte Stimme in Echtzeit in deinen Kopfhorern horen. Die Latenz fur DSP-Presets betragt unter 20 ms - nicht spurbar wahrend der Performance. Der KI-Voice-Cloning-Modus fugt ein kurzes Verarbeitungsfenster hinzu (unter 300 ms end-to-end), was einige Darsteller anfangs etwas desorientierend finden; ube einige Zeilen, bevor du den Take machst.

Schritt 3 - Aufnahmesoftware konfigurieren

Offne deinen Bildschirmrekorder oder deine Webcam-Capture-App (OBS, Windows-Kamera, Loom oder ahnliches). Wahle in den Audio-Eingangseinstellungen VoxBooster Virtual Mic anstelle deines physischen Mikrofons. Dies stellt sicher, dass die Aufnahme die verarbeitete Stimme erfasst, nicht den Roheingang.

Wenn du OBS verwendest:

  1. Fuuge in Quellen eine Audio-Eingabe-Capture-Quelle hinzu.
  2. Wahle in den Quelleigenschaften VoxBooster Virtual Mic aus dem Gerate-Dropdown.
  3. Fuuge eine Video-Capture-Device-Quelle hinzu, die auf deine Webcam zeigt.
  4. Starte die Aufnahme. Beide Streams werden in dieselbe Ausgabedatei geschrieben.

Schritt 4 - Referenz-Take aufnehmen

Halte den Take kurz - 10 bis 25 Sekunden sind der optimale Bereich fur Act-One. Spiele naturlich, halte Blickkontakt mit dem Kameraobjektiv. Sprich den Dialog laut mit vollem Engagement fur den Charakter; Act-One liest emotionale Intensitat durch deine Gesichtsmuskelbewebung.

Verifiziere nach der Aufnahme die Ausgabedatei: Der Audiotrack sollte die verarbeitete Stimme enthalten, nicht den rohen Mikrofoneingang. Spiele die Datei in einem Mediaplayer ab, bevor du sie zu Runway hochladst.


Hochladen zu Runway Act-One und Generierung des Outputs

Melde dich in deinem Runway-Konto an und navigiere zur Act-One-Funktion. Die Benutzerflache fordert zwei Eingaben:

  1. Referenzvideo - dein aufgenommener Performance-Clip mit verarbeitetem Audio.
  2. Charakterquelle - entweder ein generiertes Bild aus Gen-4, ein hochgeladenes Charakter-Render oder ein fruherer Generierungs-Output.

Lade das Referenzvideo hoch. Act-One extrahiert die Gesichtsbewegungsdaten wahrend seines Analysedurchgangs. Dann wahle oder generiere deinen Charakter. Konfiguriere die Generierungseinstellungen (Seitenverhaltnis, Stilguide, eventuelle Prompt-Anleitung fur die Szenenumgebung).

Sende die Generierung ab. Warteschlangenzeiten variieren je nach Plan und Plattformauslastung. Wahrend du wartest, kannst du Post-Produktions-Assets vorbereiten: Szenenhntergrundelelmente, Titelkarten oder Musiktracks.

Wenn der Output-Clip heruntergeladen wird, enthalt er das Charaktervideo, das von deiner Performance angetrieben wird. Der Audiotrack in der heruntergeladenen Datei kann stumm sein oder dein Referenz-Audio durchleiten, je nach Runway-Pipeline-Version. In jedem Fall ist dein nachster Schritt der Videoeditor, wo du das finale Komposit zusammenstellst.


Post-Produktions-Assemblierung

Offne deinen Videoeditor (DaVinci Resolve, Premiere Pro, CapCut oder ein beliebiges NLE). Erstelle ein neues Projekt, das deinen Zielausgabe-Spezifikationen entspricht (typischerweise 1920x1080 oder 1080x1920 fur vertikal, 24fps).

Track-Layout:

TrackInhalt
V1Act-One generiertes Charaktervideo
V2Hintergrundplatten oder Umgebungsfilmmaterial
A1Verarbeitetes Audio aus der Referenzaufnahme
A2Musik / Umgebungsklang
A3Optionale SFX-Ebenen

Synchronisiere das verarbeitete Audio aus deiner Referenzaufnahme mit dem Charaktervideo auf V1. Da du Audio und Video gleichzeitig im Referenz-Take aufgenommen hast, ist die Synchronisation bereits eingebettet - du solltest sie nicht manuell anpassen mussen, es sei denn, die Upload-Pipeline hat einige Frames getrimmt.

Fuuge Hintergrundplatten hinzu, farbkorrigiere den Charakter-Clip zur Anpassung und mixe das Audio. Exportiere in H.264 oder H.265 fur den Upload zu YouTube, TikTok oder Instagram.


Haufige Probleme und Losungen

Act-One-Output hat steife oder unheimliche Gesichtsbewegungen Wird ublicherweise durch Tracking-Probleme im Referenzvideo verursacht. Prufe die Beleuchtungsgleichmassigkeit und stelle sicher, dass keine starken Schatten das Gesicht kreuzen. Nimm erneut mit einer weicheren Lichtquelle auf.

Lippensynchronisation driftet im generierten Video Bestatige, dass dein Referenz-Audio und -Video gleichzeitig und synchron aufgenommen wurden, bevor du hochladst. Ein Drift in der Quelldatei wird im Output verstarkt. Wenn du Audio separat aufgenommen und zusammengefuhrt hast, stelle sicher, dass die Zusammenfuhrung frame-genau war.

Voice Changer fugt merkliche Latenz wahrend der Performance hinzu DSP-Presets laufen unter 20 ms und sind im Wesentlichen nicht wahrnehmbar. Wenn du eine Verzogerung bemerkst, prufe, ob die Puffergrosse deiner Audioschnittstelle zu hoch eingestellt ist - reduziere den WASAPI-Puffer in deiner Aufnahmesoftware auf 128 oder 256 Samples.

Die verarbeitete Stimme klingt im finalen Clip uberkomprimiert oder verzerrt Dein Voice-Changer-Gain-Staging konnte zu hoch sein. Senke den Output-Pegel in VoxBooster, bis das Signal bei etwa -6 dBFS spitzt. Dies lasst Headroom fur die Audioverarbeitung des Videoeditors.

Act-One akzeptiert das hochgeladene Referenzvideo nicht Stelle sicher, dass die Datei MP4 (H.264) ist, die Auflosung mindestens 720p betragt und die Dauer unter dem dokumentierten Limit fur deinen Runway-Plan liegt. Kodiere mit HandBrake neu, wenn die ursprungliche Aufnahmesoftware einen ungewohnlichen Container produziert hat.


Vollstandige Produktions-Checkliste

Verwende diese Checkliste pro Szene, bevor du zu Runway hochladst.

  • Preset ausgewahlt und im Charakter geprubt
  • Kopfhorer-Monitoring bestatigt (transformierte Stimme horen)
  • Aufnahmesoftware auf VoxBooster Virtual Mic Eingang eingestellt
  • Beleuchtung gepruft - gleichmassig, frontal, keine starken Schatten im Gesicht
  • Hintergrund frei - keine sich bewegenden Objekte
  • Test-Take aufgenommen und abgespielt - Audio ist verarbeitet, nicht roh
  • Take-Dauer unter 30 Sekunden
  • Datei als MP4 H.264 exportiert, mindestens 720p
  • Datei spielt korrekt im Mediaplayer ab, bevor Runway-Upload

Skalierung auf einen mehrszenigen Kurzfilm

Indie-KI-Filmemacher stossen oft auf dieselbe Mauer: Der erste Test-Clip sieht grossartig aus, aber die Produktion eines koharenten 3-bis-5-minutigen Kurzfilms erfordert Konsistenz uber viele Clips hinweg. Einige Praktiken helfen dabei.

Charakterstimmen-Konsistenz - Speichere deine Preset-Konfiguration, bevor du mit der Produktion beginnst. Jeder Take fur denselben Charakter verwendet das identische Preset und die gleichen Gain-Einstellungen. Selbst kleine Anderungen in der Pitch-Shift-Menge werden uber Schnitte hinweg bemerkbar sein.

Referenzvideo-Konsistenz - Verwende dieselbe Kameraposition, dasselbe Objektiv und dasselbe Beleuchtungssetup fur jeden Take mit demselben Charakter. Act-One wird einen koharenteren Gesichtsstil uber die generierten Clips hinweg produzieren.

Batch-Verarbeitung - Nimm wenn moglich alle Takes in einer einzigen Sitzung auf. Eine konsistente akustische Umgebung (gleicher Raum, gleiche Mikrofonposition) halt das verarbeitete Audio tonal einheitlich.

Audio-Mixing - Da der gesamte Dialog mit demselben Preset verarbeitet wurde, mussen EQ- und Kompressionseinstellungen nur einmal auf dem A1-Bus eingestellt und gleichmassig auf alle Szenen angewendet werden.

Runways eigene Dokumentation und Community-Showcase (runwayml.com) enthalt Beispiele erweiterter Act-One-Projekte als Referenz.


Warum Voice-Changer-Qualitat fur Act-One-Arbeit wichtig ist

Act-One hebt die Indie-Filmproduktion auf ein Niveau, auf dem Audioqualitat zum Engpass wird. Generiertes Charaktervideo dieser Qualitat verdient einen passenden Audiotrack. Einfache Pitch-Shift-Plugins erzeugen metallische Artefakte, die mit hochwertigem visuellem Output kollidieren. Die Referenzaufnahme ist auch der finale Audiotrack - es gibt keine erneute Aufnahmesitzung -, sodass die Aufnahmequalitat permanent ist.

VoxBooster verarbeitet Audio mit unter 300 ms end-to-end fur KI-Voice-Cloning und unter 20 ms fur DSP-Presets, was schnell genug fur naturliche Performance ist. Das virtuelle WASAPI-Mikrofon wird von Windows ohne Treiberinstallation erkannt und erscheint klar in OBS, Webcam-Software und Bildschirmrekordern. Das Ergebnis ist ein Stimmtrack, der neben dem visuellen Output besteht, anstatt ihn zu untergraben.

Preise beginnen bei €5.99/Monat. Eine kostenlose Testversion deckt einen vollstandigen Produktionstest ab, bevor du dich festlegst.


FAQ

Was ist Runway Act-One und wie verwendet es ein Referenzvideo? Act-One ist eine Funktion in Runway ML, die die Gesichtsausdrucke und Kopfbewegungen eines menschlichen Schauspielers auf einen generierten Charakter ubertragt. Du lieferst ein kurzes Referenzvideo von dir selbst bei der Performance - Act-One liest deine Gesichtsbewegungen und bildet sie auf den Charakter ab. Je besser die Performance, desto ausdrucksstarker das Ergebnis.

Kann ich wahrend der Aufnahme des Act-One-Referenzvideos einen Voice Changer verwenden? Ja. Da Act-One nur Gesichtsgeometrie und -bewegung analysiert, nicht die Tonhohe, kannst du einen Echtzeit-Voice-Changer uber ein virtuelles Mikrofon laufen lassen und sowohl Video als auch verarbeitetes Audio gleichzeitig aufnehmen. Das aufgezeichnete Audio wird zum endgultigen Dialogtrack; Act-One verarbeitet die visuelle Seite unabhangig davon.

Welche Stimmpresets eignen sich am besten fur Fantasy- oder Science-Fiction-Charaktere in Act-One? Fur gepanzerte Helden oder Krieger sorgt ein Pitch-Down-Preset mit leichtem Hall fur die richtige Stimmung. Fur ubernatuerliche oder atherische Charaktere erzeugt eine langsame Tonhohenmodulation oder Formantverschiebung eine unwirkliche Textur. Roboter-Presets eignen sich fur Mechs oder KI-Charaktere. Wichtig ist, dass die Energie des Presets zum Charakter-Archetyp passt, den du im Referenzfilm spielst.

Benotigt Runway Act-One ein bestimmtes Referenzvideoformat? Act-One funktioniert am besten mit einer gut beleuchteten Frontalaufnahme, deutlich sichtbarem Gesicht und minimalem Hintergrundunordnung. Eine Auflosung von 720p oder hoher wird empfohlen. MP4 ist der zuverlassigste Container. Halte Clips fur die erste Referenzaufnahme unter 30 Sekunden - du kannst mehrere Aufnahmen fur langere Szenen verketten.

Was ist WASAPI und warum ist es fur die Aufnahme von Voice-Changer-Output wichtig? WASAPI (Windows Audio Session API) ist eine Low-Latency-Audioschnittstelle, die in Windows 10/11 integriert ist. Ein Voice Changer, der ein virtuelles WASAPI-Mikrofon bereitstellt, ermoglicht es jeder Aufnahme-App - einschliesslich Bildschirmrekordern und Webcam-Software - die verarbeitete Stimme mit nahezu null Latenz ohne Treiberinstallation aufzuzeichnen.

Benotige ich einen leistungsstarken PC, um Act-One-Referenzvideos mit einem Echtzeit-Voice-Changer aufzunehmen? Eine Mittelklasse-CPU verarbeitet Echtzeit-DSP-Effekte mit unter 20 ms Latenz ohne merkliche Last. KI-Voice-Cloning-Inferenz erhoht die GPU-Last; eine dedizierte GPU hilft, ist aber nicht zwingend erforderlich. Der Referenzaufnahmeschritt ist typischerweise kurz (unter 30 Sekunden), sodass der Leistungsaufwand auch auf bescheidener Hardware gering ist.

Kann dieser Workflow fur langere KI-Filme oder nur fur kurze Clips verwendet werden? Act-One ist fur kurze bis mittellange Clips optimiert, und die Runway-Generierungswarteschlange bevorzugt Clips unter einer Minute. Fur langere Filme ist der Standardansatz eine szenenweise Produktion: Nimm pro Szene einen Referenz-Take auf, generiere jeden Output-Clip und assembliere ihn dann in einem Videoeditor. Der Voice Changer lauft einmal pro Take und das verarbeitete Audio wird mit jedem Clip exportiert.

VoxBooster testen — 3 Tage kostenlos.

Echtzeit-Stimmklon, Soundboard und Effekte — überall, wo du schon redest.

  • Keine Kreditkarte
  • ~30 ms Latenz
  • Discord · Teams · OBS
3 Tage kostenlos testen