ボイス・ピッチ・チェンジャー: リアルタイムで声のピッチを変更する

ボイス・ピッチ・チェンジャーはマイクから出てくるオーディオをとり、その基本周波数をリアルタイムで上下に、またはその間のどこでもシフトします。ストリーミング・ペルソナのためにより深く聞こえたい、ゲーム・キャラクターのためにより高く、またはオンライン・ロビーでプライバシーを保護するために微妙に異なっているかどうか、ピッチシフトはそこに到達するための最速の方法です。

問題は、ピッチだけが物語の半分しか伝えないことです。ピッチをシフトして他に何も触れないと、明らかに処理されているように聞こえるものが得られます - リスの音声的等価物またはスローモーション記録。自然な結果を得るには、フォルマントも理解する必要があります。このガイドは両方をカバーしており、Windowsのステップバイステップのセットアップです。

TL;DR

ボイス・ピッチ・チェンジャーはあなた声の基本周波数をセミトーンまたはセント単位で上下にシフトします
フォルマント補正なしのピッチシフトは人工的に聞こえます - 自然に聞こえる結果のために常に両方を一緒に使用してください
リアルタイム・ピッチ・シフトは15ms以下で任意のCPUで実行されます; GPUは必要ありません
VoxBoosterは独立したピッチとフォルマント・スライダーとともに、一般的なユースケースのプリセットを提供します
Windows 10/11でのセットアップは5分以内: 仮想オーディオドライバーなし、カーネルモジュールなし
ユースケース: ゲーミング・ペルソナ、Discordボイス・プライバシー、ストリーミング・キャラクター、音楽練習、コンテンツ作成

ボイス・ピッチ・チェンジャーとは?

ボイス・ピッチ・チェンジャーはマイク・オーディオをキャプチャし、任意のアプリケーションに到達する前に周波数変換を適用するソフトウェアです。数学的な操作はピッチシフトと呼ばれます - 周波数領域で波形を伸ばしたり圧縮したりして、音の認識されたピッチを上下に移動させます。

結果: あなたは通常の声で話し、マイクを読むあらゆるアプリケーション - Discord、Zoom、ゲーム音声チャット、OBS、記録アプリ - は異なるピッチでバージョンを聞きます。編集は必要ありません。ポスト処理はありません。シフトはあなた口からソフトウェアまであなた声がかかる同じミリ秒で起こります。

ピッチとフォルマントの違いは何ですか?

なぜピッチシフトだけは不自然に聞こえ、代わりに何をすべきですか?

ピッチは基本周波数です - あなた声帯が生成するベース・ノート。フォルマントはあなた声道(喉、口、鼻腔)がその基本にかける共鳴ピークです。これらの共鳴は、別の人が同じピッチで話しているのではなく、あなたのようなあなたに聞こえるようにする声です。

あなたがピッチをシフトしてフォルマントを調整しないでください。基本周波数は移動しますが、声道の共鳴はそのまま留まります。あなた脳とリスナーの脳は、2つが相関していることを期待しています - そうでない場合、結果はテープを加速またはスローダウンのように聞こえます。自然に話す人のように聞こえません。

フォルマント補正はシフトを追跡し、共鳴を比例的に移動するため、結果は処理された記録ではなく、本物のより高いまたはより低い声を持つ人のように聞こえます。優れたボーカル・ピッチ・チェンジャーは常に両方のコントロールを独立して公開します。あなたがピッチを4セミトーン上にシフトするとき、あなたは一般的に同様の(しかし同一ではない)フォルマント量を移動したいです - 正確な比率は結果をどの自然さをしたいか、そしてあなたの元の声の特性に依存します。

セミトーン、セント、そして始める場所

ピッチシフトはセミトーンとセント単位で測定されます。セミトーンは西洋音楽で最小の音程です - ピアノの2つの隣接キー間のステップです。12セミトーンは1オクターブです。セント(cent)はセミトーン100分の1で、知覚可能なステップを越えない微調整に使用されます。

異なるボイス・ピッチ・チェンジャーのユースケースの一般的な開始点:

目標	ピッチシフト	フォルマント・シフト	メモ
わずかに深い(微妙)	-2から-3セミトーン	-1から-2セミトーン	自然に聞こえ、検出しにくい
明らかに深い声	-4から-6セミトーン	-3から-4セミトーン	ゲーミング・ペルソナ、ストリーミング・キャラクター
わずかに高い	+2から+3セミトーン	+1から+2セミトーン	より柔らかく、より若く聞こえる
明らかに高い声	+4から+6セミトーン	+3から+4セミトーン	キャラクター音声、プライバシー
誇張された深い(エフェクト)	-8から-12セミトーン	0(意図的)	モンスター、デーモン・エフェクト - 人工的がポイント
誇張された高い(エフェクト)	+8から+12セミトーン	0(意図的)	リス・エフェクト - 意図的に人工的

中央の列は大ほどんどの人が間違う場所です。ピッチシフトと同じ方向のフォルマント・シフトは、自然な結果ほぼ常に正しい動きです。比率は1:1ではありません - 4セミトーンのピッチシフトは通常2~3セミトーンのフォルマント・シフトと組み合わされ、4ではありません。正確な値は、あなたの特定の声でいくつかの秒のA/Bテストが必要です。

リアルタイム・ピッチ・チェンジャーがどのように技術的に機能するか

リアルタイム・ピッチ・シフトは2つの主要なアルゴリズムのいずれかを使用します: 位相ボコーダーまたは時間領域オーバーラップ追加(TDOLA/PSOLA)。両方は以下によって機能します:

マイクから短いオーディオ・ウィンドウをキャプチャする(通常64~256サンプル)
FFT経由のそのウィンドウの周波数コンテンツを分析する
周波数ビンをターゲット・ピッチ比に上下にスケールする
シフトされた周波数データから時間領域信号を再構築する
オーディオストリームに結果を出力する

全サイクルは任意の最新CPUで10ms未満で実行されます - これがピッチシフトにGPUが不要な理由です。これは軽量の数学的操作です。ニューラル推論ではありません。このタイプのボーカル・ピッチ・シフターは約5~15msの遅延を追加します。これは会話では知覚できません。

フォルマント・シフトはピッチシフト信号に2番目のパスとして実行され、基本から独立して共鳴ピークを移動するスペクトルエンベロープ変換を適用します。VoxBoosterを含む一部のツールは、順次ではなく単一パイプラインで両方のパスを同時に実行します。これにより、追加の遅延積み重ねを回避します。

Windows上でリアルタイム・ボイス・ピッチ・チェンジャーをセットアップする方法

次のステップはWindows 10または11上のVoxBoosterに適用されます。セットアップは5分以内です。

VoxBoosterをダウンロードしてインストール voxbooster.com/downloadから。インストーラーを実行します - 再起動は必要なく、カーネルドライバーはインストールされません。
VoxBoosterを起動します。 初回実行時に、オーディオルーティングウィザードはマイクを確認するよう求めます。あなたが通常話す実際の物理的なマイクを選択します。
エフェクトパネルを開きます。 “Pitch & Formant” プリセットグループをクリックするか、フルコントロールを希望する場合は手動スライダーに移動します。
あなたのピッチシフトを設定します。 ピッチスライダーをドラッグするか、セミトーンで値を入力します。負の値はピッチを低下させます; 正の値はそれを上げます。
あなたのフォルマント・シフトを設定します。 ピッチシフト値の約半分から開始します(例えば、ピッチが+4の場合、フォルマントを+2で試してください)。文を話し、処理されるのではなく自然に聞こえるまで調整します。
Discord、あなたのゲーム、または他のアプリケーションを開きます。 すべてのアプリでマイク入力をあなた通常の実際のマイクに設定したままにします。VoxBoosterはWindowsオーディオレベルで処理します - アプリケーションはあなた通常のマイクを見て、シフトされた出力を聞きます。アプリごとの変更は必要ありません。
設定を再利用する予定の場合はプリセットとして保存します。 プリセットはホットキー経由でインスタントロードされるため、セッション中途で自然な声とピッチ・ペルソナの間を切り替えることができます。

拡張ルーティングおよびトラブルシューティングのチュートリアルについては、ボイス・チェンジャーDiscordセットアップガイドはゲーム音声チャットとOBS同時キャプチャを含むすべてのエッジケースをカバーしています。

ボイス・ピッチ・チェンジャーのユースケース

ゲーミングとDiscord

リアルタイム・ピッチ・チェンジャーの最も一般的な使用は、ゲーミング・ロビーとDiscordサーバーでのボイス・プライバシーとペルソナ・メンテナンスです。どちらかの方向で3~5セミトーンのシフトは、マッチングフォルマント補正を伴う、あなたを認識不可能にしながら完全に自然に聞こえるのに十分です - 処理されません。あなたのチームメイトは微妙に異なる声を聞きます; 彼らの誰も、あなたが彼らに話さない限り知りません。

RPGサーバーのキャラクター・ロールプレイ、Discord上のテーブルトップ・ゲーム、またはRPGゲーム内音声チャットでは、より劇的なシフトはAIクローニング遅延に到達することなく異なる声の同一性を作成します。ゲーム用音声チェンジャーのゲーム固有のルーティング・メモを参照してください。

ストリーミングとコンテンツ作成

ストリーマーはピッチシフトを使用して、長いセッション(疲労、周囲温度、水分補給はすべてピッチに影響)全体で自然な声が変化するときの一貫性を保ちます。1~2セミトーン上の微妙なピッチ補正を軽いフォルマント補正と組み合わせると、その分散をスムーズにすることができます。処理されずに。より重いシフトはストリーミング・ペルソナを作成します - 異なるキャラクター音声は視聴者が特定のコンテンツ形式と関連付けます。

VoxBoosterは、ピッチシフトを他の音声チェンジャー・エフェクトと積み重ねることができるため、ピッチ音声は単一のプリセットで追加のキャラクター処理(リバーブ、圧縮、軽いモジュレーション)も運ぶことができます。

音楽練習と作曲

ミュージシャンは、リアルタイム・ピッチ・チェンジャーを使用して、自分自身と調和を練習し、メロディが転調する前にどの異なるキーでどう聞こえるかを確認し、または自然な声が快適に到達できない登録でリリックがどう座るかを探索します。15ms以下の遅延で、モニタリング遅延はヘッドフォン経由で無聞きです。

これはピッチ補正(オートチューン)とは異なります。これはあなたのピッチを最も近い音に巻き付けます。ピッチ・チェンジャーは信号全体を固定間隔でシフトします; イントネーションを補正しません。補正動作が必要な場合、それは異なるツールです。リアルタイム・クリエイティブまたはエクスプロレーション・ツールとしてのピッチシフトの場合、DSPベースのシフトは正しいアプローチです。

ボイス・プライバシー

ボイス・ピッチを変更したい人のすべてがペルソナを構築しているわけではありません。競争的マルチプレイヤー・ゲームでは、ボイス・デアノニマイゼーションは実際の懸念です - 一部のプレイヤーは音声オーディオを記録して分析します。フォルマント補正を伴う3~4セミトーン・シフトは、会話では明らかに処理されることなく、記録からの音声同定を著しく困難にします。

VoxBoosterのピッチ・チェンジャーが他のツールとどう比較するか

いくつかのツールはボイス・ピッチシフトを提供します。フォルマント・コントロールの実装方法、オーディオの処理場所、必要なセットアップで異なります。

Voicemodはエフェクト・ライブラリ内のピッチシフトを提供しますが、フォルマント・コントロールは独立したスライダーではなくプリセット結合値に制限されます。プリセットのフォルマント比率があなたの声に適さない場合、結果は人工的に聞こえ、追加パックを購入することなしのリコースは限定されます。

Clownfish Voice Changerは基本的なピッチシフトを提供しますが、まったくフォルマント補正はありません。3セミトーン以上のシフトでの結果は明らかに不自然です - それはコミック効果の目的に対して機能しますが、現実的なボイス・ペルソナ・メンテナンスではありません。

Audacityのピッチ・ツールはオフライン・オーディオ編集に優れていますが、リアルタイムでは動作しません。あなたは最初に記録し、ファイルを処理して、エクスポートします。あなたのユースケースが生ボイス・チャット、ゲーミング、またはストリーミングの場合、Audacityはこの特定のタスクに対して間違ったツールです。

VoxBoosterはリアルタイム・プレビューを備えた独立したピッチとフォルマント・スライダーを提供します。仮想ドライバー・インストールなし、および15ms未満のDSPベースのピッチシフトのための現地低遅延処理。カーネルドライバーなしのアーキテクチャは、互換性の警告、ドライバー署名の問題、またはカーネル・オーディオ・ドライバーが導入するときどきシステム不安定性なしでWindows 10および11全体で信頼できる実行を意味します。また、AIボイス・チェンジングとピッチシフトを同じインターフェース内でサポートします。アプリケーション・スイッチングなしで両方のモードを使用できます。

DSPピッチシフトがAIクローニングを打ちのめし、その逆をいつの比較を深める場合、AIボイス・チェンジャーVSピッチシフトは詳細のトレードオフをカバーしています。

特定のボイス目標のためのピッチシフト

より深く聞こえる

ピッチスライダーを3~~5セミトーン下げ、フォルマントを2~~3セミトーン下げます。ゆっくり話し、シフトが機能させます - 急いで話すことは自然性を打ち負かします。-4セミトーン・シフトは、典型的な男性の声を権威的に読む範囲に置きます; -6以上は自然な声ではなくキャラクター効果のように聞こえ始めます。

より高いまたはより女性らしく聞こえる

ピッチを4~~6セミトーン上げ、フォルマントを2~~3セミトーン上げます。フォルマント・シフトはここで特に重要です - 高いピッチシフトは加速テープのように聞こえます。それがなければ。それがあれば、声は本物のより軽いボーカル・キャラクターのように聞こえます。説得力のある女性らしい声をターゲットにしている場合、VoxBoosterのAIボイス・クローニングによるピッチとフォルマント・シフトの組み合わせ、DSPピッチシフトだけより自然な結果を生成します - より高い遅延のコストで。

キャラクター音声とエフェクト

誇張されたアニメーション・エフェクトの場合 - 極端に高い、または低い - フォルマントとピッチのズレは意図的です。ピッチを-10セミトーンに設定し、遅いモンスター効果のままフォルマントを無変更のままにします。ピッチを+10に設定し、リス結果のままフォルマントを無変更のままにします。これらのエフェクトは正確に機能します。彼らは人工的に聞こえるため。人工性がポイントです。

ボイス・ピッチ・シフターを使用するときの一般的な間違い

フォルマント調整なしでピッチをシフトします。 これはピッチシフト音声が自然ではなく処理されるように聞こえる最も一般的な理由です。常に両方のコントロールを一緒に使用してください。

太速く、すぐに移動しすぎます。 どちらかの方向で6~7セミトーン以上は、かなりのフォルマント補正が必要です。より自然に聞こえます。より劇的に異なる声が必要な場合、AIボイス・クローニングはより大きな変形をより説得力を持って処理します。

必要ないバーチャル・オーディオ・デバイスを実行します。 多くの古いガイドはVB-CABLEまたは同様の仮想オーディオ・デバイスをインストールするよう指示します。VoxBoosterはこれを必要としません - より低いレベルでオーディオを処理します。不要な仮想デバイスを追加すると、追加の遅延が導入され、別の障害ポイントです。

セッション前にテストしません。 静かな部屋で正しく聞こえるピッチとフォルマント設定は、ゲーミング・マイク・ゲインがブーストされるときは異なる聞こえ方ができます。デスクトップレベルではなく、実際のセッション・マイク・レベルでテストしてください。

AIクローニングが最適に機能するときはピッチシフトを使用します。 あなたのゴールが、完全に異なる人のように聞こえる説得力のあるペルソナの場合、AIボイス・クローニングは任意のシフト量ではるかに自然な結果を生成します。価格のプランを確認してください。これは完全なAIクローン・アクセスを含みます。

よくある質問

ボイス・ピッチ・チェンジャーとは? ボイス・ピッチ・チェンジャーはあなた声の基本周波数をリアルタイムで上下にシフトするソフトウェアです。マイク入力をキャプチャし、ピッチシフトアルゴリズムを適用し、変更されたオーディオを出力します。品質はツールが新しいピッチに合わせてフォルマントも調整するかどうかによって異なります。

ピッチとフォルマントの違いは? ピッチは基本周波数です - 音がどう聞こえるか高い、または低い。フォルマントは声道の共鳴ピークであり、声にその特徴的な音色と色合いを与えます。フォルマント補正なしのピッチシフトだけは、不自然でアニメーションのように聞こえます。

反対の性別のように聞こえるためにどのくらいのセミトーン移動する必要がありますか? 大まかな開始点は、男性から女性へのシフトで4~~6セミトーン上、または女性から男性へで4~~6セミトーン下です。これらの範囲ではフォルマント補正が不可欠です - フォルマント調整なしのピッチシフトだけは人工的に聞こえます。

リアルタイム・ピッチ・チェンジャーはDiscordとゲームで機能しますか? はい。VoxBoosterのようなツールはWindows ドライバーレベルでオーディオを処理するため、Discord、ゲームボイスチャット、OBS、およびマイクを読み取る他のアプリケーションは、アプリごとの設定なしで、ピッチシフトされた出力を聞きます。

ピッチシフトでセント(cent)とセミトーン(semitone)の違いは? セミトーンは色度スケール上のステップです - 隣接する2つのピアノキーの間の間隔です。セント(cent)はセミトーンの100分の1です。セミトーンは粗いピッチシフトに使用されます; セント(cent)は知覚可能なジャンプなしでセミトーン内の微調整を可能にします。

ピッチシフトはGPUなしのCPUで機能しますか? はい。ピッチシフトとフォルマントシフトはDSP操作であり、ニューラル推論ではありません - 任意の最新CPUで15ms未満の遅延で実行されます。ピッチシフトの上に AI音声クローニングを実行している場合のみGPUが必要です。

ボーカル・ピッチ・チェンジャーはAI音声チェンジャーとどう異なりますか? ボーカル・ピッチ・チェンジャーはあなたの既存の声の周波数をシフトします。AI音声チェンジャーはあなたの音声コンテンツを完全に異なるターゲット音声の音色で再合成します。ピッチ・チェンジャーは高速(15ms未満)でハードウェアで動作します; AIクローニングはより自然に聞こえますが、より多くの処理能力が必要です。

結論

ボイス・ピッチ・チェンジャーは利用可能な最もアクセス可能なリアルタイム・オーディオ・ツールの1つです - 任意のCPUで実行され、15ms以下を追加し、特別なハードウェアは必要ありません。自然に聞こえる結果とともに聞こえる処理結果の違いは、フォルマント・コントロールから来ます。フォルマント・シフトを正しく取得し、4セミトーン変更は検出不可能です; 無視し、同じシフトはアニメーション効果のように聞こえます。

VoxBoosterはあなたに独立したピッチとフォルマント・スライダー、一般的なユースケースのためのプリセット・ライブラリ、およびより劇的な変形が必要なときDSP基のシフトの上にAIボイス・クローニングをスタックするオプションを与えます。インストールするカーネルドライバーはなく、設定する仮想オーディオ・デバイスはありません - Discordで動作します。ゲームボイスチャット、OBS、およびマイクを読むその他のWindowsアプリケーション。

VoxBoosterをvoxbooster.com/downloadからダウンロードし、クレジットカードは必要なしに3日間無料で試してください。セットアップは5分以下です。遅延ディスプレイはあなたのハードウェアが正確に配信するものを伝えます。