ボイスチェンジャーの遅延を修正する方法: レイテンシーガイド

TL;DR

ボイスチェンジャーの遅延はほぼ常にサイズが大きすぎるオーディオバッファです。まず10〜20ミリ秒に削減します。
マイクドライバをWASAPI排他モードに切り替えて、Windowsミキサーをバイパスしてください。
ボイスエンジンプロセスをパフォーマンスコアにピンで止めて、WindowsをHigh PerformanceまたはUltimate Performanceパワープランに設定します。
Discord、OBS、およびチェーン内のその他のアプリで冗長なオーディオ処理をすべて無効にします。
ミッドレンジCPU(6コア、3 GHz+)はリアルタイム効果に十分です。AIボイスクローニングはもう少しヘッドルームが必要です。
各変更の後、先に進む前にループバックテストで往路レイテンシーを測定します。

キーを押すと、音声効果をトリガーし、半秒後にリスナーが既に言ったことの歪んだエコーを聞きます。その間隙が200ミリ秒でも800ミリ秒でも、それはPCの任意のライブボイスチェンジャーで最も不平な単一の問題です。会話を不自然にし、ビデオのリップシンクをスローダウンし、ゲームボイスチャットを混乱させます。

良いニュースは、ボイスチェンジャーの遅延はほぼ常に修正可能です。それはハードウェアの上限ではありません。それは設定の問題です。このガイドでは、Windowsの内部からアプリケーション設定まで、オーディオチェーンのすべてのレイヤーを説明しており、ボトルネックを分離して、リアルタイムボイスチェンジャーPCセットアップをスムーズに実行できるようにします。

ボイスチェンジャーのレイテンシーとは何で、なぜそれが発生するのですか?

音声パイプラインのレイテンシーは、マイクに入っている音と、処理されたオーディオが目的地に到達するまでの時間です。これは、ゲーム、ストリーム、または通話アプリです。チェーンのすべてのステップで遅延が追加されます。

マイクのアナログデジタル変換器があなたの声をサンプリングします。
オーディオドライバはこれらのサンプルをバッファにバッチ処理します。
ボイスエンジンはバッファを読み込み、処理を適用し、出力を書き込みます。
仮想オーディオデバイスまたはループバックが出力をターゲットアプリに提示します。
そのアプリはオーディオをエンコードして送信します。

ステップ2と3は認識される遅延の大部分を占めます。48 kHzで480サンプルを保持するバッファは正確に10ミリ秒を表します。960サンプルに2倍にすると、20ミリ秒になります。一部のドライバは2048または4096サンプルをデフォルトにします。これはボイスエンジンが作業を開始する前に43〜85ミリ秒です。DiscordやOBSのエンコーディング遅延でそれをスタックして、簡単に150〜300ミリ秒の合計です。

このガイドの目標は、チェーンのこれらの制御可能な部分を30ミリ秒未満の合計に取得することです。これはほとんどの人が気付くしきい値以下です。

ステップ1: 何かを変更する前に測定する

推測は時間を浪費します。5分を測定ベースラインを測定するために費やします。

ループバックレイテンシーテスト: ラインアウトからラインインまでケーブルを接続するか(または仮想ケーブルを使用)、スピーカー出力を通じてクリックトラックを再生し、ラインインで記録します。元のクリックと記録されたクリック間のオフセットがあなたの往路遅延です。片方の場合は2で割ります。

ASIO4AllまたはWASAPIテスト: デジタルオーディオワークステーションを開くか、Audacityのような無料ツールを使用し、ゼロバッファで監視されているマイクフィードを使用しながら自分をクラップし、波形にズームインします。入力トラックのクラップピークと出力トラックのエコー間のギャップがハードウェア往路です。

ベースラインを書き直してください。すべての変更をそれに対して比較したいでしょう。

ステップ2: バッファサイズを正しく設定する

これはほとんどの人にとって単一の最大の勝利です。ボイスチェンジャー設定を開きます。VoxBoosterでは、これは設定→オーディオエンジン→バッファサイズの下にあります。現在の値を確認してください。

バッファ(48 kHzでのサンプル)	レイテンシー	判定
64	~1.3 ms	小さすぎます。ほとんどのハードウェアで不具合を引き起こします
128	~2.7 ms	あなたのCPUがそれを維持できるなら理想的です
256	~5.3 ms	ベスト汎用スタートポイント
512	~10.7 ms	ほとんどのリアルタイム使用に対して良い
1024	~21.3 ms	境界線;敏感なユーザーに気付きました
2048	~42.7 ms	明らかに可聴;これを減らします
4096	~85.3 ms	一部のドライバでデフォルト - 常に削減

256サンプルから始めます。クリアリングやドロップアウトが聞こえたら512に上げます。すべてが安定している場合は、128を試してください。目標は、ゲーム、ストリームエンコーディング、ブラウザが開いている状態で、負荷の下で再生する最小値です。

ステップ3: WASAPI排他モードに切り替える

Windowsは、WindowsオーディオセッションAPI(WASAPI)シェアスタックと呼ばれるカーネルモードミキサーを通じてすべてのオーディオを実行します。ミキサーにより、複数のアプリが同時にデバイスを共有できますが、通常20〜80ミリ秒のレイテンシーを追加する追加のバッファリングステップが導入されます。

WASAPI排他モードはミキサーをバイパスし、ボイスエンジンにオーディオデバイスを直接所有させます。トレードオフ: ロックされている間、他のアプリはそのデバイスを使用できません。

VoxBoosterで有効にするには:

設定→オーディオエンジン→モードに移動します。
WASAPI排他を選択します。
デバイスリストからマイクを選択します。
[適用]をクリックしてループバックテストを実行します。

別のボイスチェンジャーソフトウェアを使用している場合は、オーディオ設定で”排他モード”または”低レイテンシー”トグルを探してください。Voicemod、MorphVOX、およびほとんどの他には同様のものがありますが、正確なメニュー場所は異なります。

注: 切り替え後のCPU使用量の大幅な跳躍が見られた場合、サンプルレートが変更された可能性があります。VoxBoosterのサンプルレートがWindowsサウンド→プロパティ→詳細で設定されたマイクのレートと一致することを確認してください(通常は48000 Hz、24ビット)。

ステップ4: Windowsパワープランを修正する

最新のCPU(特に12世代Intelおよび新しいAMD Ryzen)は、ライトロードを検出すると、効率コアを低いクロック速度で駐車します。オーディオ処理はバースト: 10〜20ミリ秒ごとの高CPU需要の短いスパイク。需要スパイクがヒットするときにCPUが駐車されている場合、ドロップアウトまたは遅いフレームが発生します。これは不具合または追加のレイテンシーとして表示されます。

Ultimate Performance パワープランで修正します:

PowerShellを管理者として開きます。
実行: powercfg -duplicatescheme e9a42b02-d5df-448d-aa00-03f14749eb61
コントロールパネル→電源オプション を開き、新しく作成されたUltimate Performanceプランを選択します。

これにより、すべてのコアが継続的に全速力で保持されます。アイドル時はもう少し電力を使用します。これはノートパソコンで重要です。バッテリー寿命が懸念事項の場合は、ストリーミングやゲームをしていないときに切り替え直してください。

また、プロセッサ電源管理→最小プロセッサ状態 を確認してください。アクティブなパワープランの下で100%に設定して、ダウンクロックを防ぎます。

ステップ5: プロセスをパフォーマンスコアに固定する

ハイブリッドアーキテクチャCPU(Intel P+Eコア、AMD X3D亜種)では、効率コアでボイスエンジンをスケジュールするとレイテンシー変動が追加されます。Windowsは常にリアルタイムオーディオの正しいスケジューリング決定を下すわけではありません。

Process Lasso(無料層は十分です)を使用してVoxBoosterのCPUアフィニティを設定します:

Process Lassoを開き、プロセスリストでVoxBoosterを見つけます。
右クリック→常に→CPUアフィニティ→P-coresのみを選択します(通常、12コアIntelで論理プロセッサ0〜11、10コアで0〜7)。
VoxBooster自体ではなく、バックグラウンドプロセスのみにProBalanceを有効にします。

または、オーディオスレッドの優先度を設定します。タスクマネージャー→詳細を開き、VoxBooster.exeを見つけ、右クリック→優先度を設定→高。リアルタイムに設定しないでください。システムスレッドを饑えさせ、より悪い問題を引き起こすことができます。

ステップ6: 競争するオーディオ処理を排除する

オーディオストリームにタッチするアプリはすべて処理遅延を追加します。完全なチェーンを監査します:

Discord: 設定→音声とビデオ→エコーキャンセレーション、ノイズサプレッション(Krisp)、高度な音声アクティビティを無効にします。VoxBoosterには専用モデルで駆動される独自のノイズサプレッションがあります。2つのノイズサプレッションアルゴリズムを連続で実行すると、処理時間が2倍になり、フェーズアーティファクトが発生します。

OBSスタジオ: オーディオソースプロパティで、VoxBoosterも実行している場合は、マイク入力上のVSTプラグインをすべて無効にします。OBSを受動的なレコーダーとして保持し、セカンダリプロセッサではありません。

Realtek/AMDAudioマネージャー: 多くのマザーボードオーディオマネージャーは、“拡張”のためにオーディオストリームをインターセプトするバックグラウンドプロセスをインストールします。オーディオデバイスのコントロールパネルを開き(通常、システムトレイ内)、すべての効果(イコライザー、バスブースト、サラウンド仮想化、ルーム補正)を無効にします。

その他のボイスチェンジャー: 単一のボイスエンジンのみがいつでも仮想オーディオデバイスを所有する必要があります。VoxBoosterを起動する前に、他のボイスソフトウェア(Voicemod、Clownfish、Voice.ai等)をアンインストールまたは完全に終了してください。仮想オーディオデバイス間のドライバの競合は、不規則なレイテンシースパイクの一般的なソースです。

ステップ7: オーディオドライバを更新して構成する

古いオーディオドライバは、Windowsの更新後の説明のないレイテンシー回帰の頻繁な容疑者です。

USBインターフェースとヘッドセットの場合: Windowsアップデートに依存するのではなく、製造業者のWebサイトから直接ドライバをダウンロードしてください。Focusrite、MOTU、および同様のブランドは、ハードウェアバッファをアプリケーションに直接公開するASIOドライバをリリースします。同じハードウェアでWDM/WASAPIよりはるかに低いレイテンシー。

マザーボード組み込みオーディオの場合: マザーボード製造業者のサポートページに移動して、最新のRealtekまたはIntel Smart Sound Technology(SST)ドライバをダウンロードしてください。汎用Microsoft High Definition Audioドライバを避けます。必要なバッファ制御がありません。

新しいドライバをインストールした後、他に何かを変更する前にステップ1からループバックレイテンシーテストを再実行します。

ステップ8: マイク接続を確認する

物理接続は人々が期待するより重要です。

Bluetoothマイク は設計によって100〜300ミリ秒のコーデックレイテンシーを導入します。BluetoothSBCおよびAACはリアルタイムボイス処理用に設計されていません。Bluetoothヘッドセットを使用していて遅延を経験している場合は、有線接続に切り替えることで、ほとんどの問題がすぐに解決される可能性があります。

USBハブ: USBオーディオはアイソクロナス転送で動作し、ホストコントローラーはタイムスロットを保証します。ビジーなUSBハブ(特にキーボード、マウス、ウェブカメラ、ストレージドライブと共有されているもの)はこれらのタイムスロットを逃す可能性があります。USBマイクを直接マザーボードUSBポートの背面に接続して、最低で最も一貫性のあるレイテンシーを実現します。

3.5mmジャックとケーブル品質: アナログ接続はグラウンドループを導入でき、オーディオドライバのエラー回復をトリガーし、臨時バッファリセットが発生します。レイテンシースパイク側でたまの爆音が聞こえたら、別のケーブルまたはUSBオーディオアダプタを試してください。

ステップ9: AIボイスクローニング設定を特に調整する

VoxBoosterのAIボイスクローニング機能を使用している場合、リアルタイムで訓練されたターゲット音声に音声を変換するニューラルボイスコンバージョンは、独自のレイテンシープロファイルを持つ追加の処理層があります。これはパイプライン内で最もCPU集約的なパスです。

いくつかの設定は特にクローニングレイテンシーに影響します:

変換チャンクサイズ: より小さいチャンクサイズはより頻繁にオーディオを処理し、レイテンシーを減らしますが、2番目あたりのCPU時間が増加します。0.3秒(チャンクあたり300ミリ秒のオーディオ)で開始し、下降します。0.1秒以下では、ほとんどのハードウェアは価値がある以上のアーティファクトを導入します。

モデルスレッド: VoxBoosterを使用すると、ニューラル推論エンジンを特定の数のCPUスレッドにピンで止めることができます。6コアマシンでは、推論に4スレッド、オーディオI/Oに2スレッドが通常最適です。スレッドが多すぎるとメモリバス競合が発生します。あまりにも少なくはコアアイドルを残します。

ピッチ補正: ボイス変換中のリアルタイムピッチ補正は別の処理パスを追加します。AIボイスクローニングで特にレイテンシーが発生している場合は、最初にピッチ補正を無効にしてみてください。多くの場合、より粗い補正強度でそれを再度有効にできます。遅延を意味に増やします。

ボイス変換設定がシステムリソースとどのように相互作用するかについての詳細については、ボイスチェンジャーのCPU使用に関するガイドを参照してください。

ステップ10: ターゲットアプリでエンドツーエンドテスト

上記のすべての変更の後、VoxBoosterの組み込みモニターではなく、遅延が重要な実際のアプリケーションでテストします。

Discord: エコーテストボットを使用します(テストサーバーに追加)。これにより、処理された音声がリアルタイムで聞こえます。これは処理レイテンシーとDiscordの受信側がレイテンシーを追加していないことの両方を確認します。

OBS/ストリーミング: 処理されたVoxBooster出力と並行してロウマイク入力をキャプチャする2番目のオーディオトラックを追加します。投稿では、2つのトラック間の正確なオフセットをビジュアルレイテンシー測定として見ることができます。

ゲーム: インゲームボイスチャット(Valorantおよびfortniteのような厳密なアンチチート付きタイトルを含む)を持つほとんどのゲームはVoxBoosterネイティブに動作します。これはカーネルドライバなしでWASAPIを使用するためです。ゲーム内で具体的に遅延に気付いて、ループバックテストではなく、ゲームの音声システムが独自のバッファリングを追加している可能性があります。ゲームに”音声品質”または”マイクサンプルレート”設定があるかどうか確認してください。

持続的なレイテンシースパイクの診断

上記のすべてを行った場合、それでもランダムに表示される散発的なスパイク(200+ミリ秒のバースト)を見た場合、問題は平均処理負荷ではなく、CPUスケジューリングジッターである可能性があります。

DPCレイテンシー: デバイスドライバは、オーディオスレッドからCPU時間を盗む遅延手順呼び出し(DPC)を引き起こす可能性があります。LatencyMon(無料)をダウンロードしてオーディオ再生中に実行します。高いDPCレイテンシーを引き起こしているドライバが識別されます。一般的な容疑者はネットワークドライバ(特にWi-Fi)、GPUドライバ、およびUSBチップセットドライバです。

割り込み調整: 高速ネットワークアダプターは割り込み調整を使用してネットワーク割り込みをバッチ処理し、CPU負荷を削減しますが、ジッターを導入します。デバイスマネージャーで、ネットワークアダプターを見つけます。プロパティ→詳細を開き、割り込み調整または適応割り込み調整を無効に設定します。これはCPU使用率をわずかに増加させますが、オーディオジッターの一般的なソースを排除します。

熱スロットリング: CPUが負荷の下で熱く実行される場合、熱限界内に留まるために間欠的にクロックダウンする可能性があります。フルワークロード実行中にHWiNFOでCPU温度を確認します。温度が90°Cを超える場合、CPUクーラーを再貼り付けするか、ケースエアフローを改善することで、レイテンシー一貫性に有意な影響を与える可能性があります。

一般的なセットアップの比較

リアルタイムボイスチェンジャーPC設定でうまく機能するセットアップを選択する場合は、一般的なハードウェアカテゴリが典型的にどのように実行されるかが次のとおりです。

マイクタイプ	典型的なレイテンシー	ノート
ビルトインノートパソコンマイク	40-100 ms	貧弱;専用マイクを使用します
3.5mm動的マイク(オンボードオーディオ)	20-40 ms	許容可能;ドライバ依存
USB コンデンサー(マザーボードに直接)	15-30 ms	ほとんどのユーザーに適しています
USBインターフェース+XLRマイク(ASIO)	5-15 ms	最高の制御可能なセットアップ
Bluetoothヘッドセット	100-300 ms	リアルタイム処理に不適切
ワイヤレスUSBヘッドセット(2.4 GHz)	10-25 ms	有線に近い;モデル別に異なります

オンボードオーディオと専用USBインターフェース間の違いは実際ですが、高価である必要がありません。40〜80ドルの範囲の基本的なUSBオーディオインターフェイスはオンボードオーディオをレイテンシーとノイズフロアで破ります。

よくある質問

PCのライブボイスチェンジャーで遅延を引き起こす原因は何ですか?

遅延はほぼ常にサイズが大きすぎるオーディオバッファが原因です。ドライバがボイスエンジンに送信する前に多すぎるサンプルを収集すると、話した数秒後に処理された出力が聞こえます。二次的な原因には、CPUスロットリング、オーディオリソースを争うバックグラウンドアプリ、および高レイテンシーBluetoothマイクの使用が含まれます。

PCのリアルタイムボイスチェンジャーに適切なターゲットレイテンシーはいくつですか?

瞬間的に感じるリアルタイムボイスチェンジャーセットアップでは、エンドツーエンドレイテンシーが30ミリ秒未満を目指します。VoxBoosterのWASAPI排他モードは通常、ミッドレンジCPUで10〜20ミリ秒を実現します。60ミリ秒以上の遅延は、ライブストリームやDiscordコールで認識でき、気が散ります。

より優れたCPUはボイスチェンジャーの遅延を減らしますか?

はい。ニューラルボイスコンバージョンやピッチシフトなどのエフェクトはCPU集約的です。より高速なプロセッサは各オーディオフレームをより短い時間で終了し、次のフレームが到着する前にヘッドルームを残します。Process LassoまたはWindowsパワープランを使用してボイスエンジンをパフォーマンスコアで実行することも役立ちます。

WASAPI排他モードに切り替えると遅延が修正されますか?

ほとんどの場合、はい。デフォルトのWindowsシェアオーディオスタックはミキシング手順を追加し、通常20〜80ミリ秒の余分なレイテンシーを導入します。WASAPI排他モードはWindowsオーディオセッションAPIミキサーをバイパスし、ドライバと直接通信し、多くの場合遅延を半分に削減します。デバイスがロックされるため、他のアプリは同じマイクを同時に使用できないことに注意してください。

USB マイクは低レイテンシーで3.5mmマイクより優れていますか?

USBマイクはカプセル内で類似度デジタル変換を処理し、独自のオーディオインターフェイスドライバを公開します。品質の高いUSBマイクには通常、よく調整されたバッファがあり、専用のUSBオーディオインターフェイス上の3.5mmマイクと比較可能に機能します。USBマイクをUSBハブに差し込むのは避けてください。マザーボードポートに直接接続して最良の結果を得てください。

自分のボイスチェンジャーがDiscordでのみ遅延するのに、私のDAWではしないのはなぜですか?

Discordはソフトウェアで独自のノイズサプレッションおよびエコーキャンセレーションスタックを適用します。この追加の処理により、ボイスエンジンが導入するものに加えてレイテンシーが追加されます。Discordの組み込みノイズサプレッション(設定→音声とビデオ→すべての処理をオフにする)を無効にし、VoxBoosterに代わりに処理させることで、通常は不一致が解決されます。

VoxBoosterはカーネルドライバなしで遅延を低く保つことができますか?

VoxBoosterはWASAPIループバックと、ユーザースペース全体で動作する仮想オーディオケーブル抽象化を使用しています。インストールするカーネルドライバがないため、自動的にアンチチート検査に合格します。処理パイプラインは、並列スレッドで各オーディオフレームを実行するように最適化されており、CPUはWASAPI排他モードが提供する10〜20ミリ秒のウィンドウ内で作業を終了します。

結論

ボイスチェンジャーの遅延は解決可能な問題です。順序で手順を進めます。ベースラインを測定し、バッファサイズを削減し、WASAPI排他モードに切り替え、パワープランを修正し、競争するオーディオ処理を排除します。各ステップは独立しています。すべてを行う必要はなく、リストの最後に到達する前に修正が見つかりそうです。

Discordを使用している場合、ステップ2、3、6(バッファ+WASAPI+Discordプロセッシング無効化)の組み合わせがほとんどのユーザーに対する問題を解決します。AIボイスクローニングを使用している場合は、ステップ9を追加してボイスコンバージョン固有の調整を行います。

ボイスセットアップの最大化に関する詳細については、Discordでボイスチェンジャーを使用する方法およびコンテンツクリエーター向けボイスチェンジャーのヒントに関するガイドを参照してください。

Windows用のボイスチェンジャーをスムーズに実行して低レイテンシー用に設計されていますか?VoxBoosterをダウンロードして、既に20ミリ秒以下の処理を取得してください。