VTubing は、あなたの声が同時に 2 つのタスクを果たす必要があるまれなコンテンツ形式の 1 つです: あなた自身のペルソナを実行し、画面上にのみ存在するキャラクターのアイデンティティを強化することです。良いマイクと良いアバターモデルは、その途中まであなたを連れて行きます。もう一方は音声チェーン — そして、ほとんどの VTuber がそれを間違えます。

このガイドは完全なセットアップについて説明します: あなたの音声ペルソナの選択とトレーニング、WASAPI 経由で VTube Studio と OBS を通してシグナルを配線すること、レーテンシーの排除、および 4 時間後で疲れているときにキャラクターの一貫性を保つこと。

ペルソナの一貫性が本当のゴール

ほとんどの VTuber ボイスチェンジャーガイドはそれを珍奇性として扱います — 楽しい pitch 設定を選んで進みます。それはポイントを逃しています。あなたの視聴者は、数十のストリームにわたってあなたのキャラクターの心的モデルを構築します。声はそのモデルを壊します。ロアドロップ、フェイスリヴィール、カジュアルなコメント — すべてはあなたの声が設定した期待を通してフィルタリングされます。

これは以下を意味します:

1 つのプライマリ音声、エフェクトのラックではない。 エフェクトは瞬間です。あなたのペルソナはインフラストラクチャです。
火曜日の午後 8 時と土曜日の午後 3 時に同じ声。 疲労はあなたをキャラクターから逸脱させ、ボイスチェンジャーが繁雑な仕事をしていない限り。
プラットフォームエッジ全体での一貫性。 クリップ、短編コンテンツ、Discord 通話、および YouTube VOD はすべて同じ人のように聞こえるべきです。

最初にペルソナを選びます。その後、オーディオを設定します。

シグナルチェーンを理解する

任意のソフトウェアに触れる前に、あなたの声がどこで移動するかを知ってください:

マイクロフォン
  → ボイスチェンジャー (WASAPI処理)
    → 仮想オーディオデバイス (または WASAPI ループバック)
      → VTube Studio (口形同期)
      → OBS (ストリーム + 録画)

このチェーンのあらゆる破壊は、レーテンシー、アーティファクト、または不一貫性を導入します。ゴールは、チェーンをできるだけ短くし、VTube Studio と OBS に同じ処理信号を与えることです。

ステップ 1 — 処理アプローチを選択する

Windows でボイスチェンジャーをルーティングするための 2 つの主なオプションがあります。

仮想オーディオデバイス (従来のアプローチ) VB-CABLE のようなソフトウェアは、アプリが読むことができる 2 番目のマイクロフォンを作成します。あなたはあなたの声をそれに処理して、VTube Studio と OBS をその仮想デバイスに向けます。これは機能しますが、デバイスホップを追加し、Windows がオーディオの優先度を再配置するたびにデバイスを再選択する必要があります。

WASAPI ネイティブ処理 (モダンアプローチ) 一部のボイスチェンジャーは、WASAPI レベル (Windows Audio Session API) でオーディオをインターセプトします — シグナルがデバイスとして露出される前に。あなたの本当のマイクロフォンはまだあなたのマイクロフォンとしてリストされていますが、それから読む何かは処理されたオーディオを取得します。管理する仮想デバイスなし、インストールするドライバーなし、Windows 更新後の再ルーティングなし。

VoxBooster は WASAPI 処理を使用します。それが実行されると、VTube Studio と OBS は、どちらかのアプリでも入力変更なしで、あなたの元のマイクデバイスで処理された音声を見ます。これはこのガイドが使用するセットアップです。

ステップ 2 — あなたの音声ペルソナを作成してロックする

VoxBooster を開き、AI クローニングエンジンを使用して、ターゲット音声をキャプチャします。プロセス:

あなたが意図したキャラクター音声であなた自身が話す 3-5 分間を記録します — スローダウン、キャラクターなら声域を下げる、あなたのリズムを見つけます。
クローンを実行します。あなたはライブ入力をそのターゲットにマッピングするモデルを取得します。
ストレステストを行う: 10 分間何かを読み上げてから聴き直します。主なエラーモードは、高速音声でのピッチドリフトと静かなパッセージでの過度な圧縮です。両方がクリーンになるまで感度スライダーを調整します。

モデルが安定したら、名前付きプリセットとして保存します — “Main Persona” または lore に合わせたもの。デフォルトスロットを使用しないでください。あなたは、他のエフェクトを試した後でも、この正確な設定を実行できることを望みます。

ステップ 3 — OBS ルーティング

OBS を開きます。設定 → オーディオ に移動します。

マイク/補助オーディオ で、仮想デバイスではなく物理マイクロフォンが選択されていることを確認します。WASAPI 処理がアクティブな場合、OBS はこの入力から処理されたオーディオを受け取ります。

オーディオモニターを追加して確認します:

オーディオミキサー で、マイク入力のギアアイコンをクリックします。
詳細オーディオプロパティ を選択します。
オーディオ監視 を一時的に 監視のみ (出力をミュート) に設定します。
ヘッドフォンを装着して話しかけます。300 ミリ秒未満のレーテンシーで処理された音声が聞こえるはずです。

代わりに未処理の生音声が聞こえる場合、VoxBooster がまだ実行されていないか、WASAPI インターセプションがオフになっています。VoxBooster をまず開始してから OBS を再度開きます — ここで順序が重要です。

監視をライブに行く前に、ヘッドフォン設定に応じて 監視して出力 または 監視をオフ に戻します。

ステップ 4 — VTube Studio ルーティング

VTube Studio は口形同期 (口のアニメーション) にマイク入力を使用します。オーディオ振幅を読むであって、コンテンツではない — したがって、あなたのボイスチェンジャー出力はシグナルレベルが正しい限り、アニメーションを駆動します。

VTube Studio で:

設定 → マイク に移動します。
物理マイク (OBS が使用しているのと同じデバイス) を選択します。
ゲイン と スムージング スライダーを調整します。

ボイスチェンジャーを使用したゲインキャリブレーション: 処理された音声は、多くの場合、生音声と異なる振幅プロファイルを持っています。通常の音声が口パラメーターを最大値の約 60-70% に移動するようにゲインを設定します。口が常に 100% 開いている場合、ゲインを下げます。ほとんど動かない場合は増やしてください。

スムージング: スムージングを 30-50% の間に保ちます。低すぎると、口が発作しているように見えます。高すぎると、音声の後ろに視覚的に遅れ、オーディオが良くても視聴者は不快になります。

完全なシンクループテスト: OBS と VTube Studio の両方が構成されたら、ライブストリーム前に簡単なサニティチェックを実行します。60 秒間、通常に話している自分を記録してから、その記録を見ます。口が正しい音節で動いていること、そして記録された音声が処理バージョンであることを確認します。どちらかのテストが失敗した場合、シグナルチェーン内で何か壊れています — VoxBooster から外側に向かって後方に動きます。

ステップ 5 — フェイストラッキングと音声同期

フェイストラッキング (Web カメラまたは iPhone ARKit) は物理的な表情をキャプチャします。あなたのアバターの目はあなたのものと一緒にまばたきをします、眉毛はあなたのものと一緒に上がります — しかし、聞く口は生音声ではなく、処理された音声です。

これは潜在的なミスマッチを作成します: あなたの顔は、あなたのキャラクターがほぼ言っていない単語に動きます。実際には、ピッチシフトが極端でない限り、視聴者には気付かれません。ほとんどのボイスチェンジャー設定 (ほとんどの AI クローンマッピングを含む) は、音素のタイミングではなく音色をシフトさせるため、口形同期はじゅうぶん近いままです。

それが壊れる場所: 非常に大きなピッチシフト (1 オクターブ以上) またはフォーマントシフト (母音の形を変える)。非人間的なキャラクターを極端な音声処理で構築している場合、ミスマッチと戦うのではなく、口形同期の感度を下げてください。

ステップ 6 — ロングストリーム耐久力

4 時間のストリームは、ほとんどの VTuber がペルソナを失う場所です。あなたの声は疲れます。あなたは投影をやめます。キャラクターは自然な音声に戻り、入力が多すぎて変わったため、AI クローンは補償できません。

実用的な修正:

水分補給の規律。 机の上に水を置きます。最小で 30-45 分ごとに飲みます。乾いた声帯は、ストリーム中盤の音声ドリフトの第 1 原因です。

ライブに行く前のウォームアップ。 キャラクター音声で 5 分 — スクリプトを読む、何をしているかを説明します。あなたのボイスチェンジャーは、ウォームアップされた入力シグナルでより良く機能します。

あなた自身の出力を監視します。 ストリーム中に、処理された音声を低音量でヘッドフォンに戻してください。キャラクターから逸脱しているときに気付き、自然と自分を正します。

シーン遷移をリセット手がかりとして。 ゲームシーンを変更したり、画面を戻したりするときは、10 秒かけてキャラクター音声でいくつかのフレーズを話し、再びロックインします。

CPU ヘッドルームを保存します。 音声処理はリアルタイム DSP です。ストリーム PC が負荷の下にあり、要求の厳しいゲームがある場合、オーディオバッファーはスタッターすることがあります。VoxBooster は独自のスレッドで実行され、エンド-ツー-エンドで 300 ミリ秒未満を保つけれども、システムが 90% 以上 CPU を持っている場合、オーディオ品質を低下させる前にゲーム内設定を低下させます。

ステップ 7 — 一般的な問題と修正

OBS が処理された音声ではなく、生音声を記録しています。 VoxBooster は OBS がマイクロフォンから読む前に実行する必要があります。OBS を閉じて、VoxBooster を開始し、ペルソナプリセットを有効にしてから、OBS を再度開き、オーディオ入力を確認します。

VTube Studio の口のアニメーションが動いていません。 VTube Studio が同じマイクロフォンデバイスから読んでいることを確認します。VoxBooster の WASAPI 処理がアクティブであることを確認します (単にアプリが開いているのではなく — トグルをオンにする必要があります)。大声で話し、VTube Studio 設定で未処理のマイクレベルを見守ることでテストします。

ヘッドフォンにエコーが聞こえます。 OBS と VoxBooster の両方で監視がアクティブになっています。1 つを選びます。VoxBooster 経由の監視は低レーテンシーを与えます。OBS を通じた監視では、ストリームに流れる正確なシグナルが聞こえます。

ボイスチェンジャーが高ピッチではロボット音です。 AI クローンモデルは、おそらく狭すぎる音声範囲でトレーニングされました。より多くの高さのバリエーションでトレーニングサンプルを再度記録します — 意図したキャラクター範囲の上端に行き、そこで追加の時間を費やします。

チャットは、クリップ対ライブで異なる音を言っています。 記録とストリーミングのビットレート差は、認識される音声品質に影響する可能性があります。OBS で、記録とストリーミングに同じオーディオエンコーダー設定を使用するか、ストリームに流れるのと同じソーストラックから記録します。

すべてをまとめる: ストリーム前チェックリスト

各ストリームの前に:

VoxBooster 実行中、ペルソナプリセット読み込み
ヘッドフォンで処理された音声確認 (300 ms 未満、アーティファクトなし)
OBS マイク出力が物理マイクロフォンデバイスのアクティビティを表示
VTube Studio の口のアニメーションが通常に応答
フェイストラッキングキャリブレーション (まばたきテスト、眉テスト)
机の上に水
5 分間の音声ウォームアップが完了

ストリーム中:

ヘッドフォンで低音量で処理された出力を監視
シーン遷移で音声をリセット
45 分ごとに水を飲む

よくある質問

VTubing にはボイスチェンジャーに仮想オーディオケーブルが必要ですか? ソフトウェアが WASAPI レベルの処理を使用する場合は必要ありません。WASAPI インターセプションを使用して、VTube Studio と OBS は、仮想ケーブルをインストールせず、実マイクロフォンデバイスから処理されたオーディオを読みます。

ライブストリーミング用にターゲットにする最小レーテンシーは? マイク入力から処理された出力まで、合計 300 ミリ秒未満がストリーミングの実用的なターゲットです。300 ミリ秒では、視聴者は口のアニメーション同期の問題に気付きません。400-500 ms を超える場合、ドリフトはクリップで見えるようになります。

異なるキャラクターに異なる音声設定を使用できますか? はい。各ペルソナをボイスチェンジャーに名前付きプリセットとして保存します。スイッチングは数秒かかります。一部の VTuber は同じストリーム内で複数のキャラクターを実行します — 事前にプリセットを準備し、明確にラベルを付けます。

ボイスチェンジャーは VTube Studio の組み込み口形同期で機能しますか? はい。VTube Studio はオーディオ振幅を読むであって、生波形ではありません。処理された音声は、ゲインがキャリブレーションされている限り、自然な音声と同じ方法で口のアニメーションを駆動します。

音声変更はストリーム上のオーディオ品質に影響しますか? クリーン DSP パイプラインを備えた良好なボイスチェンジャーは記録品質に対して透過的であるべきです。処理は無視できるノイズフロアを追加します。オーディオ品質を殺すのは高 CPU 負荷です — システムリソースを無料に保ちます。

Windows 10 でカーネルドライバーなしでボイスチェンジャーを使用できますか? はい。WASAPI ベースのボイスチェンジャーはユーザー空間で完全に機能します。カーネルドライバーなし、管理者のレベルの権限なし、Windows 10 または 11 でのドライバー署名の問題なし。

安定した AI 音声ペルソナをトレーニングするのにどのくらい時間がかかりますか? 3-5 分のクリーントレーニングオーディオは安定したモデルに十分です。鍵は記録中の一貫した配信です — ストリームで使用する予定の同じ音量、ペース、投影で話します。追加データは追加の録画がキャラクターとクリーンである場合にのみ役立ちます。

VTuber ボイスチェンジャーセットアップ: 完全ガイド