Voice Changer + Runway Act-One : Workflow complet pour les courts-metrages d’IA

La fonctionnalite Act-One de Runway ML a change ce que les createurs solo peuvent accomplir. Enregistrez-vous en train de jouer une scene - juste un telephone et une lumiere naturelle - et Act-One mappe votre performance faciale sur n’importe quel personnage dans une video generee. La piece manquante pour la plupart des cineistes independants est l’audio : Act-One gere le visage, mais la voix qui sort de votre bouche sonne toujours comme vous.

Un voice changer en temps reel comble ce vide. Enregistrez votre video de reference avec la voix deja transformee, et le clip de sortie est livre avec une voix de personnage integree - pas de post-traitement, pas de session de doublage.

Ce guide parcourt le workflow complet : choisir les presets selon l’archetype du personnage, configurer la chaine audio pour que Runway capte proprement, et assembler le tout dans un editeur video pour la distribution.

TL;DR

Runway Act-One lit les mouvements faciaux d’une video de reference et les mappe sur un personnage genere.
Un voice changer en temps reel fonctionnant via un microphone virtuel vous permet d’enregistrer la video de reference avec l’audio du personnage deja applique.
La piste audio de votre enregistrement de reference devient le dialogue final - Act-One ne touche pas l’audio.
Adaptez votre preset vocal a votre archetype de personnage avant d’appuyer sur record.
Le microphone virtuel WASAPI de VoxBooster est reconnu par OBS, les logiciels de webcam et les enregistreurs d’ecran sans installation de pilote.
L’assemblage final est simple : importez la sortie video Act-One, synchronisez la piste audio traitee, appliquez une correction colorimetrique et exportez.

Qu’est-ce que Runway Act-One ?

Runway ML est une plateforme d’IA generative utilisee par les cineistes, les studios VFX et les createurs de contenu pour la generation et l’edition de videos. Act-One est une fonctionnalite specifique qui realise un transfert de mouvement facial : elle analyse une video de reference d’un performeur humain et pilote l’animation faciale d’un personnage dans un clip de sortie genere.

Le workflow differe de la simple generation texte-vers-video. Au lieu de decrire un mouvement dans un prompt, vous l’incarnez. Vos levees de sourcils, votre synchronisation labiale et vos inclinaisons de tete deviennent les expressions du personnage. Cela produit des animations significativement plus naturelles et emotionnellement coherentes que la generation par prompt seul, parce que la source de verite est de vraies donnees de performance humaine.

Act-One s’inscrit dans un ensemble d’outils plus large - dont Runway Gen-4, les outils fond vert et l’in-painting - qui fonctionnent ensemble comme un pipeline de production complet pour le film assiste par IA.

Pourquoi l’audio est la couche negligee

Quand les createurs essaient Act-One pour la premiere fois, le resultat habituel est visuellement impressionnant mais auditivement discordant. Le visage du personnage bouge avec l’expressivite de l’acteur, mais la voix est enregistree brute - timbre humain naturel, sans transformation - et collage sous les images generees. Le decalage est immediat.

La solution conventionnelle est le traitement vocal en post-production : enregistrer proprement, puis faire passer l’audio par des effets par la suite. Cela fonctionne, mais cree un probleme de synchronisation. La synchronisation labiale dans Act-One depend de la video de reference. Si vous enregistrez une performance subtile puis ajoutez un traitement vocal important apres coup - allonger les voyelles, ajouter un decalage de formant - le mouvement de la bouche du personnage ne correspond plus a l’audio traite.

Enregistrer avec le voice changer applique en temps reel resout ce probleme. Vous entendez la voix transformee dans vos ecouteurs pendant la performance, ce qui adapte naturellement vos mouvements de bouche et votre rythme a l’audio traite. Act-One capture ces mouvements ajustes. Le resultat est une synchronisation labiale plus etroite dans la sortie generee.

Comment Runway Act-One lit la video de reference

Comprendre le format d’entree vous aide a enregistrer de meilleures images de reference.

Act-One effectue un suivi du visage sur le clip de reference. Il attend :

Angle frontal ou quasi frontal - les profils reduisent considerablement la precision. Visez votre visage centre dans le cadre, camera au niveau des yeux.
Eclairage coherent - les ombres dures sur le nez ou les yeux perturbent la detection des points de repere. Une lumiere frontale douce (lumiere annulaire, lumiere de fenetre) est ideale.
Mouvement de fond minimal - des personnes qui marchent derriere vous ou des objets en mouvement peuvent perturber le tracker.
Levres clairement visibles - les barbes et les microphones devant la bouche reduisent la fidelite de synchronisation labiale.
720p ou plus, 24fps ou 30fps - une resolution inferieure reduit la precision du suivi.
Conteneur MP4 - le plus fiable pour le pipeline d’upload. MOV fonctionne aussi.
Moins de 30 secondes par prise - Act-One traite efficacement a cette longueur ; des clips plus longs sont possibles mais augmentent le temps de file d’attente.

La piste audio de la video de reference n’est pas analysee par Act-One lui-meme. La generation est pilotee purement par des donnees visuelles. Cela signifie que la sortie du voice changer dans votre piste audio n’a aucun effet sur la qualite de l’animation faciale - les deux couches sont completement independantes.

Archetypes de personnages et association de presets vocaux

Les meilleurs films Act-One ont une coherence sonore : la voix convient au personnage avant qu’une seule ligne de dialogue ne soit ecrite. Voici un guide d’association pratique.

Archetype de personnage	Traitement vocal recommande	Notes
Guerrier en armure / chevalier	Pitch bas 3-5 demi-tons + legere reverb de salle	Ajoute du poids ; la reverb simule la resonance du casque
Etre surnaturel / etheree	Modulation de hauteur lente + formant haut	Cree une texture inquietante et etrange
Robot / construction IA	Preset vocoder dur ou bit-crush	Fonctionne mieux avec une livraison nette et deliberee
Mal ancien / villain	Pitch tres bas + chorus subtil	Le chorus ajoute le sentiment de plusieurs voix
Jeune heros / elu	Pitch legerement haut + traitement minimal	Preserver la plage emotionnelle ; ne pas trop traiter
Diplomate alien	Decalage de formant + legere largeur stereo	Garde la parole intelligible tout en sonnant non-humain
Narrateur / oracle	Pitch bas 2 demi-tons + longue queue de reverb	Energie documentaire epique

Le tableau est un point de depart, pas un reglement. Melangez les presets et faites confiance a votre oreille pendant la performance. Si la voix vous semble juste dans vos ecouteurs pendant que vous jouez, elle sera juste dans le film final.

Configurer la chaine audio

L’objectif est d’acheminer l’audio traite a la fois vers votre logiciel d’enregistrement (pour la piste audio de la video de reference) et vers vos ecouteurs de monitoring (afin de vous entendre en personnage pendant la performance).

Etape 1 - Installer et configurer le voice changer

Installez VoxBooster sur Windows 10 ou 11. Aucun pilote noyau n’est requis - le microphone virtuel WASAPI apparait dans les parametres audio Windows comme un dispositif d’entree standard en quelques secondes apres le premier lancement.

Ouvrez VoxBooster, selectionnez votre microphone physique comme source d’entree et choisissez un preset dans le tableau des archetypes ci-dessus. Verifiez que la sortie est acheminee vers VoxBooster Virtual Mic dans le selecteur de sortie.

Etape 2 - Configurer le monitoring

Dans les parametres de VoxBooster, activez le monitoring casque. Vous devriez maintenant entendre votre voix transformee en temps reel dans vos ecouteurs. La latence pour les presets DSP est inferieure a 20 ms - imperceptible pendant la performance. Le mode de clonage vocal IA ajoute une breve fenetre de traitement (moins de 300 ms de bout en bout), que certains performers trouvent legerement desorientante au debut ; repetez quelques lignes avant la prise.

Etape 3 - Configurer le logiciel d’enregistrement

Ouvrez votre enregistreur d’ecran ou votre application de capture webcam (OBS, Camera Windows, Loom ou similaire). Dans les parametres d’entree audio, selectionnez VoxBooster Virtual Mic a la place de votre microphone physique. Cela garantit que l’enregistrement capture la voix traitee, pas l’entree brute.

Si vous utilisez OBS :

Dans Sources, ajoutez une source Audio Input Capture.
Dans les proprietes de la source, selectionnez VoxBooster Virtual Mic dans le menu deroulant des dispositifs.
Ajoutez une source Video Capture Device pointant vers votre webcam.
Lancez l’enregistrement. Les deux flux s’ecrivent dans le meme fichier de sortie.

Etape 4 - Enregistrer la prise de reference

Gardez la prise courte - 10 a 25 secondes est la plage ideale pour Act-One. Jouez naturellement, en maintenant un contact visuel avec l’objectif de la camera. Prononcez le dialogue a voix haute avec un engagement total pour le personnage ; Act-One lit l’intensite emotionnelle a travers le mouvement de vos muscles faciaux.

Apres l’enregistrement, verifiez le fichier de sortie : la piste audio doit contenir la voix traitee, pas le flux de microphone brut. Lisez le fichier dans un lecteur multimedia avant de le telecharger sur Runway.

Telechargement vers Runway Act-One et generation de la sortie

Connectez-vous a votre compte Runway et naviguez vers la fonctionnalite Act-One. L’interface demande deux entrees :

Video de reference - votre clip de performance enregistre avec audio traite.
Source du personnage - soit une image generee depuis Gen-4, un rendu de personnage telecharge, ou une sortie de generation precedente.

Telechargez la video de reference. Act-One extrait les donnees de mouvement facial pendant sa passe d’analyse. Selectionnez ou generez ensuite votre personnage. Configurez les parametres de generation (ratio d’aspect, guide de style, toute guidance de prompt pour l’environnement de la scene).

Soumettez la generation. Les temps d’attente varient selon le plan et la charge de la plateforme. En attendant, vous pouvez preparer les ressources de post-production : elements d’arriere-plan de scene, cartons de titre ou pistes musicales.

Quand le clip de sortie se telecharge, il contient la video du personnage pilotee par votre performance. La piste audio dans le fichier telecharge peut etre silencieuse ou peut transmettre votre audio de reference selon la version du pipeline Runway. Dans tous les cas, votre prochaine etape est l’editeur video, ou vous assemblerez le composite final.

Assemblage en post-production

Ouvrez votre editeur video (DaVinci Resolve, Premiere Pro, CapCut ou tout NLE). Creez un nouveau projet correspondant a vos specifications de sortie cibles (typiquement 1920x1080 ou 1080x1920 pour le vertical, 24fps).

Disposition des pistes :

Piste	Contenu
V1	Video du personnage generee par Act-One
V2	Plans d’arriere-plan ou images d’environnement
A1	Audio traite de l’enregistrement de reference
A2	Musique / son d’ambiance
A3	Couches SFX optionnelles

Synchronisez l’audio traite de votre enregistrement de reference avec la video du personnage sur V1. Comme vous avez enregistre l’audio et la video simultanement dans la prise de reference, la synchronisation est deja integree - vous ne devriez pas avoir besoin de l’ajuster manuellement a moins que le pipeline d’upload ait tronque quelques images.

Ajoutez des plans d’arriere-plan, effectuez une correction colorimetrique du clip du personnage pour correspondre, et mixez l’audio. Exportez en H.264 ou H.265 pour le telechargement sur YouTube, TikTok ou Instagram.

Problemes courants et solutions

La sortie Act-One a des mouvements faciaux raides ou etranges Generalement cause par des problemes de suivi dans la video de reference. Verifiez l’uniformite de l’eclairage et assurez-vous qu’aucune ombre forte ne traverse le visage. Reenregistrez avec une source lumineuse plus douce.

La synchronisation labiale derive dans la video generee Confirmez que votre audio et votre video de reference ont ete enregistres simultanement et en synchronisation avant le telechargement. Une derive dans le fichier source sera amplifiee dans la sortie. Si vous avez enregistre l’audio separement et l’avez fusionne, assurez-vous que la fusion etait precise a l’image.

Le voice changer ajoute une latence perceptible pendant la performance Les presets DSP tournent sous 20 ms et sont essentiellement imperceptibles. Si vous remarquez un delai, verifiez si la taille du tampon de votre interface audio est regle trop haut - reduisez le tampon WASAPI dans votre logiciel d’enregistrement a 128 ou 256 echantillons.

La voix traitee semble sur-compresslee ou distordue dans le clip final Votre staging de gain du voice changer est peut-etre trop eleve. Baissez le niveau de sortie dans VoxBooster jusqu’a ce que le signal culmine autour de -6 dBFS. Cela laisse de la marge pour le traitement audio de l’editeur video.

Act-One n’accepte pas la video de reference telechargee Assurez-vous que le fichier est MP4 (H.264), que la resolution est d’au moins 720p et que la duree est sous la limite documentee pour votre plan Runway. Reencodez avec HandBrake si le logiciel de capture original a produit un conteneur inhabituel.

Liste de verification de production complete

Utilisez cette liste par scene avant de telecharger sur Runway.

Preset choisi et repete en personnage
Monitoring casque confirme (entendre la voix transformee)
Logiciel d’enregistrement regle sur l’entree VoxBooster Virtual Mic
Eclairage verifie - uniforme, frontal, pas d’ombres fortes sur le visage
Fond libre - pas d’objets en mouvement
Prise de test enregistree et ecoutee - l’audio est traite, pas brut
Duree de la prise sous 30 secondes
Fichier exporte en MP4 H.264, 720p minimum
Le fichier se lit correctement dans un lecteur multimedia avant le telechargement Runway

Passer a un court-metrage multi-scenes

Les cineistes IA independants se heurtent souvent au meme mur : le premier clip de test est superbe, mais produire un court-metrage coherent de 3 a 5 minutes necessite de la coherence sur de nombreux clips. Quelques pratiques aident.

Coherence de la voix du personnage - Sauvegardez votre configuration de preset avant de commencer la production. Chaque prise pour le meme personnage utilise le preset identique et les memes parametres de gain. Meme de petits changements dans la quantite de decalage de hauteur seront perceptibles entre les coupes.

Coherence de la video de reference - Utilisez la meme position de camera, le meme objectif et le meme setup d’eclairage pour chaque prise mettant en scene le meme personnage. Act-One produira un style facial plus coherent sur les clips generes.

Traitement par lots - Enregistrez toutes les prises en une seule session si possible. Un environnement acoustique coherent (meme piece, meme position de microphone) maintient l’audio traite tonalement uniforme.

Mixage audio - Comme tous les dialogues ont ete traites avec le meme preset, les parametres EQ et compression n’ont besoin d’etre regles qu’une seule fois sur le bus A1 et appliques uniformement a toutes les scenes.

La documentation propre a Runway et la vitrine communautaire (runwayml.com) contiennent des exemples de projets Act-One etendus pour reference.

Pourquoi la qualite du voice changer est importante pour le travail Act-One

Act-One eleve la production de films independants a un niveau ou la qualite audio devient le goulot d’etranglement. Une video de personnage generee a cette fidelite merite une piste audio assortie. Les simples plugins de decalage de hauteur produisent des artefacts metalliques qui entrent en conflit avec une sortie visuelle de haute qualite. L’enregistrement de reference est aussi la piste audio finale - il n’y a pas de session de re-enregistrement -, donc la qualite de capture est permanente.

VoxBooster traite l’audio a moins de 300 ms de bout en bout pour le clonage vocal IA et sous 20 ms pour les presets DSP, ce qui est assez rapide pour une performance naturelle. Le microphone virtuel WASAPI est reconnu par Windows sans installation de pilote et apparait clairement dans OBS, les logiciels de webcam et les enregistreurs d’ecran. Le resultat est une piste vocale qui se tient aux cotes de la sortie visuelle plutot que de la compromettre.

Les prix commencent a €5.99/mois. Un essai gratuit couvre un test de production complet avant tout engagement.

FAQ

Qu’est-ce que Runway Act-One et comment utilise-t-il une video de reference ? Act-One est une fonctionnalite de Runway ML qui transfere les expressions faciales et les mouvements de tete d’un acteur humain sur un personnage genere. Vous fournissez une courte video de reference de vous-meme en train de jouer - Act-One lit vos mouvements faciaux et les mappe sur le personnage. Meilleure est la performance, plus expressif sera le resultat.

Puis-je utiliser un voice changer pendant l’enregistrement de la video de reference Act-One ? Oui. Comme Act-One analyse uniquement la geometrie et le mouvement facial, pas la hauteur tonale, vous pouvez faire fonctionner un voice changer en temps reel via un microphone virtuel et enregistrer simultanement la video et l’audio traite. L’audio que vous capturez devient la piste de dialogue finale ; Act-One gere le cote visuel independamment.

Quels presets vocaux fonctionnent le mieux pour les personnages de fantasy ou de science-fiction dans Act-One ? Pour les heros en armure ou les guerriers, un preset pitch-down avec une legere reverb ancre le personnage dans l’espace. Pour les personnages surnaturels ou etherees, une modulation de hauteur lente ou un decalage de formant cree une texture etrange. Les presets robotiques fonctionnent pour les mechas ou les personnages IA. L’essentiel est d’adapter l’energie du preset a l’archetype du personnage que vous jouez dans les images de reference.

Runway Act-One necessite-t-il un format specifique de video de reference ? Act-One fonctionne mieux avec une prise de vue frontale bien eclairee, le visage clairement visible et un fond minimal. Une resolution de 720p ou superieure est recommandee. MP4 est le conteneur le plus fiable. Gardez les clips sous 30 secondes pour la prise de reference initiale - vous pouvez enchainer plusieurs prises pour des scenes plus longues.

Qu’est-ce que WASAPI et pourquoi est-il important pour enregistrer la sortie d’un voice changer ? WASAPI (Windows Audio Session API) est une interface audio a faible latence integree a Windows 10/11. Un voice changer qui expose un microphone virtuel WASAPI permet a n’importe quelle application d’enregistrement - y compris les enregistreurs d’ecran et les logiciels de webcam - de capturer la voix traitee avec une latence quasi nulle sans installation de pilote.

Ai-je besoin d’un PC puissant pour enregistrer des videos de reference Act-One avec un voice changer en temps reel ? Un processeur de milieu de gamme gere les effets DSP en temps reel avec une latence inferieure a 20 ms sans charge perceptible. L’inference de clonage vocal par IA ajoute une charge GPU ; un GPU dedie aide mais n’est pas obligatoire. L’etape d’enregistrement de reference est typiquement courte (moins de 30 secondes), donc meme sur un materiel modeste, le cout de performance est bref.

Ce workflow peut-il etre utilise pour des films d’IA de longue duree ou seulement pour de courts clips ? Act-One est optimise pour les clips courts a moyens, et la file d’attente de generation de Runway favorise les clips de moins d’une minute. Pour les films plus longs, l’approche standard est la production scene par scene : enregistrer une prise de reference par scene, generer chaque clip de sortie, puis assembler dans un editeur video. Le voice changer tourne une fois par prise et l’audio traite est exporte avec chaque clip.