リアルタイムで声をピッチシフトする方法

ボーカルピッチチェンジャーは、実際に構築するまで些細なツールのように見えますが——その時点で、「ピッチを上げる」と「まだ人間のように聞こえる」の間にどれだけの信号処理があるかに気づきます。ストリーミング用にもっと低いラジオ音声が欲しい場合、キャラクター用により高い音、または単にストリーミングソフトウェアが何をしているかを理解したい場合——このガイドは全体をカバーします：DSP理論、実際に重要な設定、およびDiscord、ゲーム、OBS用のVoxBoosterでの実用的なステップバイステップセットアップ。

要約

ピッチシフトは周波数を変更しますが速度は変更しません——この区別は遅延と品質に重要です。
フェーズボコーダーと時間領域アルゴリズムはそれぞれトレードオフがあります。どのツールを使用しているかを知ると聞こえるアーティファクトが説明されます。
セントは正しいユニットです。±3–6セントはほとんどのリアルな音声変更をカバーしています。
フォルマント補正は、人間のように聞こえたい場合は必須ではありません。
VoxBoosterは標準仮想マイク（WASAPI、カーネルドライバーなし）を登録します——任意のアプリが選択できます。
10ms未満の遅延は最新ハードウェアで正しいバッファ設定で達成可能です。

ピッチシフトが実際にすること

テープ録音を速めると、ピッチが上がります。遅くすると、ピッチが下がります。速度とピッチの関係は素朴なアプローチです——そしてそれはリアルタイム音声作業には無用です。なぜなら時間も伸縮し、音声は理解不可能になるからです。

真のピッチシフトはピッチと時間を分離します。信号は重なり合う短いセグメントに分割されます。各セグメントは周波数シフトされます（周波数領域の分光的操作を介して、またはフェーズボコーダー)、セグメントは元のテンポで再度一緒に組み立てられます。リスナーは、あなたが話した速度で正確にピッチが変わった声を聞きます。

この分離は全体の技術的課題です。これはまた、高品質のピッチシフトが些細でないCPUコストを持ち、安い実装が特性的な金属またはロボットアーティファクトを生成する理由です。

フェーズボコーダー：支配的なアルゴリズム

フェーズボコーダーとは何か、そしてなぜそれはリアルタイムオーディオにとって重要なのか？

フェーズボコーダーは短時間フーリエ変換（STFT）を使用してオーディオ信号を周波数領域に変換します。各周波数ビンを定数乗数にシフトします（例えば、+3セント場合×1.189、2^(3/12) ≈ 1.189）。次に逆STFTで時間領域信号を再構築します。周波数と位相が別々に追跡されるため、時間は一定に保つことができます。名前の「位相」は、合成オーバーラップアドウィンドウ上のトランジェントのスミアリングを回避するために必要な位相コヒーレンス追跡を指します。

キーパラメータ：

FFTウィンドウサイズ — より大きなウィンドウはより良い周波数分解能（きれいなピッチ）を与えますが、より多くの遅延があります。48 kHzで2048ポイントのウィンドウは、ウィンドウだけで約42msの遅延を追加します。512ポイントウィンドウはそれを~10msに削減しますが、より多くの周波数領域ぼかしを導入します。
ホップサイズ — 分析ウィンドウがフレームごとにどの程度進むか。より小さいホップ=より多くのオーバーラップ=より滑らかですが、より重いCPU。
位相ロック — 一部の実装は周波数ピークの位相を一緒にロックし、かなりの音声で「位相性」を減らしますが、少しより多いCPUの代償があります。

リアルタイム使用の場合、トレードオフは簡単です。低遅延用の小さいウィンドウ、品質用の大きいウィンドウ。良いツールはこれをRawFFTパラメータではなく単純な品質/遅延ダイヤルとして公開します。

フェーズボコーダー設計に関する広範な学術文献があります——Flanagan and Golden（1966）の基礎論文およびLaroche and Dolsonによる後の作業は、より深く知りたい場合の良い出発点です。Wikipediaのフェーズボコーダー記事は数学の合理的な概要です。

時間領域ピッチシフト：PSOLAとバリアント

アルゴリズムの代替ファミリーは周波数領域ではなく時間領域で動作します。最も一般的なのはPSOLA（Pitch-Synchronous Overlap-Add）で、これは：

音声信号の基本周期（ピッチ周期）を検出します。
ピッチ周期サイズの粒を抽出します。
異なる間隔で再度組み立てて、ピッチを変更します。

PSOLAは極めてCPU効率的で、クリーンで単一音声の音声で非常に自然な結果を生成します——ボーカルピッチチェンジャーが機能するもの。無声子音（/s/、/f/などの摩擦音）とノイズの多い入力には苦労します。ここではピッチ周期が未定義です。多くの商用ボーカルチェンジャーはハイブリッドを使用します：音声音声はPSOLA、他はすべてFFTベースです。

実用的な要点：シビラント音（s、sh、f、th）に特にアーティファクトを聞きますが、母音はクリーンに聞こえます。おそらくPSOLAベースのツールを使用しています。アーティファクトがより一様です——すべての音に金属色——おそらくより単純なFFT実装です。

セント：ピッチシフトの正しいユニット

周波数はHz単位で測定されますが、ピッチ間の知覚距離は対数です。セントは1オクターブの1/100で、周波数比2^(1/100) ≈ 1.0059に対応します。つまり：

セントシフト	周波数乗数	知覚効果
+1	×1.01	ほぼ目立たない
+3	×1.06	やや高い、まだ自然
+6	×1.12	目立つほど高い、フォルマント修正なしでリス境界
+12	×1.26	1オクターブ上——明らかに処理済み
-3	×0.94	やや低い、信じられる
-5	×0.89	目立つほど低い、「ラジオ音声」に最適
-8	×0.84	非常に低い、フォルマント補正なしでロボット的
-12	×0.79	1オクターブ下——明らかに合成

ほとんどのリアルな音声変換は±2〜±7セントの範囲に存在します。それ以上は、フォルマント補正がロボット効果ではなく人間の声のように聞こえるようにするために重要になります。

多くのツールはセント、セント（1/100セント）、または時々原フィクション周波数比でピッチを表示することに注意してください。VoxBoosterはセントを主要ユニットとして使用します——これは音声作業に最も直感的です。

フォルマント：ピッチだけではなぜ不十分か

フォルマントに触れずにピッチをシフトすると、古典的なリスまたはオーガー効果が得られます。ここが理由です。

人間の声には2つの主要なコンポーネントがあります：ソース（声帯のドローン。ピッチを決定）とフィルター（喉と口の共鳴キャビティ）。フォルマント——フィルターの共鳴ピーク。

ピッチが6セント上昇すると、ソースがシフトします。ただし、声道は物理的には長さが変わりません——フォルマントはそこに留まります。結果は脳がスピーカーのサイズを判断するための基本周波数とフォルマント間の比率を使用するため、間違っているように聞こえます。低フォルマントの高いフォーカスは、大きな体の小さな動物のように聞こえます。

フォルマント補正は、フォルマントピークをピッチシフト比例して移動し、自然にピッチが高い声帯を持つ人（より小さなスピーカー）が同じことを言うような場合をシミュレートします。結果はあなたの処理版ではなく、本当に別の人のように聞こえます。

VoxBoosterでは、プリセットを選択するとデフォルトでフォルマント補正が有効になります。また、ピッチノブの横にある別のフォルマントノブを使用して手動で調整することもできます。両方は独立して移動できます——深い音声の体がわずかに上昇したピッチ、または逆が欲しい場合に便利です。

より深い対。より高い：実用的な設定

より深くなる（男性的、ラジオ、モンスター）

まだ自然に聞こえる深い声：

ピッチ： -3〜-5セント
フォルマント： -1〜-2セント（自然な結果のためにピッチ未満のフォルマントをシフト）
ノイズ抑制： オン——より深い音声はより多くの呼吸音を露出させます
圧縮： ライト（3:1比）を動的に均等にします

一般的な間違いは、速すぎて深すぎることです。-5セントは既に重大な変換です。-7以下では、-2セント以上のフォルマント補償が必要です——そうしないと、結果は深いのではなく窟窿のように聞こえます。

完全なモンスターまたはロボット効果については、過剰なアーティファクトが必要です——フォルマントリンクを無効にしてピッチを-8または-10に押してください。ロボット音声効果ガイドとラジオ音声効果投稿を参照して、専用のプリセットを確認してください。

より高くなる（女性的、リス、キャラクター）

より高くより軽い声：

ピッチ： +3〜+6セント
フォルマント： +2〜+4セント（説得力のある女性/子供の音声のため、ピッチシフトに一致または超過）
シビランス： 誇張された/s/音に注意——デエッサーまたは8 kHz上の軽い高周波カットが助けます
呼吸音： より高いピッチでより明確；ノイズゲートを使用します

意図的なリス効果のために、フォルマントがロックされているか、はるかに少なくシフトされた+8〜+12をピッチします——上記で説明した不一致フォルマント状況、意図的に使用されます。ステップバイステップの場合、リス音声効果を参照してください。

遅延：原因と最小化方法

リアルタイムピッチシフトは、2つのソースから遅延を追加します：アルゴリズム遅延（分析ウィンドウ）とドライバー/バッファ遅延。

アルゴリズム遅延は、特定のアルゴリズムとウィンドウサイズに対して既約です。48 kHzでの512ポイントFFTは約10.7msのウィンドウを与えます。256サンプルのホップを追加すると、実装に応じて5-11msの必然的なアルゴリズム遅延を見ています。一部の時間領域アルゴリズムはより短い粒を処理するため、低遅延で実行できます。

バッファ遅延はハードウェアに依存しています。128サンプルバッファ（48 kHz）では、チェーン内のバッファあたり2.7msを追加します。典型的なチェーンには2つのバッファ（入出力）が含まれるため、約5ms。より大きなバッファ（1024+サンプル）は安定していますが、約21msを追加します。

適切に構成されたセットアップで達成可能な総遅延：8–15ms。VoxBoosterは、128サンプルWASAPIバッファを処理できるハードウェア上で10ms未満の追加遅延を保つように設計されています。

遅延を最小化するための実用的なヒント：

Windowsサウンドデバイスを48 kHz、24ビットに設定します——VoxBoosterの内部処理速度に一致します
セットアップが許可する場合は排他的WASAPIモードを使用します
他のオーディオソフトウェア（DAW、他の音声アプリ）をオーディオデバイスを閉じます
マイクデバイスでWindowsオーディオエンハンサーを無効にします（右クリック>プロパティ>エンハンサー>すべて無効）
Bluetooth——BTオーディオはソフトウェアとは独立して40–200msを追加する代わりに有線ヘッドセットを使用してください

ステップバイステップ：VoxBoosterでピッチシフトを設定する

1. VoxBoosterをインストールして開く

voxbooster.com/downloadからダウンロードしてインストーラーを実行します。VoxBoosterは仮想マイク（標準WASAPIデバイス、カーネルドライバーなし）を登録します。3日間の無料試用版は、ピッチシフトおよびフォルマント制御を含むすべての効果への完全なアクセスを提供します。

2. 入力デバイスを選択します

VoxBoosterを開き、メインウィンドウで物理マイクを入力デバイスとして選択します。USB MICがある場合は、名前で選択してください。オーディオインターフェースがある場合は、そのデバイスのWASAPI入力を選択します。

3. ピッチシフトをダイヤルイン

Voice Effectsタブをクリックします。ピッチノブ（セント）とフォルマントノブが表示されます。ターゲット値にピッチを設定します——より深い音声の場合は-4から始まるか、より高い場合は+4から。フォルマントを同じ方向に調整します。

リアルタイムメーターは処理されたオーディオレベルを表示します。話してその応答を見てください。

4. アプリケーション内の入力としてVoxBoosterを設定します

Discord： 設定→音声とビデオ→入力デバイス→「VoxBooster Virtual Mic」を選択してください。スクリーンショットについては、完全なDiscord音声チェンジャーセットアップガイドを参照してください。

OBS： ソース→オーディオ入力キャプチャ→「VoxBooster Virtual Mic」を追加します。または、OBSオーディオミキサーを使用して、VoxBoosterデバイスをモニタリングソースとしてルーティングします。OBSのオーディオセットアップドキュメントではルーティングオプションをカバーしています。

ゲーム： ほとんどのゲームはWindows既定の通信デバイスを使用します。Windowsサウンド設定でVoxBooster Virtual Micをデフォルト通信デバイスとして設定します（スピーカーアイコンを右クリック→サウンド設定→入力）。

5. テストと微調整

Discord Echo Testボットまたはobsの監視を使用して自分自身を聞きます。一般的な問題と修正：

ロボティック/金属音： ピッチシフト量を減らすか、フォルマント補正を有効にします
高ピッチでリス： フォルマントシフトを増やして、ピッチシフトと一致するか超過します
ノイズの多い出力： VoxBooster効果チェーンでノイズ抑制を有効にします
クリップ： Windowsのマイク利得を低下させます。VoxBoosterのリミッターはピークをキャッチしますが、クリーン入力が必要です

6. プリセットを保存します

気に入った設定ができたら、VoxBoosterにプリセットを保存して、1クリック（またはホットキー）で通常の音声とピッチシフト版を切り替えることができます。ホットキーバインディングは特にストリーム中に便利です。

ピッチシフト対その他の音声効果

ピッチシフトは、より完全なキャラクター音声のために他の効果と組み合わされることが多いです。主な効果がどのように相互作用するかは次のとおりです：

エフェクト	その機能	ピッチと組み合わせられますか？
ピッチシフト	基本周波数を変更します	—（ほとんどのキャラクター音声の中心）
フォルマントシフト	声道文字を変更します	ピッチと常に組み合わせます
リバーブ	ルーム/スペースを追加します	ラジオ/アナウンサー音声に良好
歪み	高調波飽和を追加します	デーモン/ロボット音声
ノイズゲート	静寂/呼吸音を切ります	常に便利
EQ	周波数帯を増幅/カットします	ピッチ後の微調整トーン
圧縮	動的を均等にします	ストリーミング/放送
ノイズ抑制	背景音を削除します	常に便利

特定の効果プリセットを探索する場合、音声エフェクト機能ページはVoxBoosterが含むものの完全なリストを持っています。

ボーカルピッチチェンジャーツールの比較

オプションを評価している場合、このスペースのメインツールの正直な比較は次のとおりです：

ツール	リアルタイム？	フォルマント制御？	仮想マイク？	遅延	価格
VoxBooster	はい	はい（独立）	はい（WASAPI）	<10ms	トライアル+有料
Voicemod	はい	限定	はい	~15–25ms	フリーミアム
MorphVOX	はい	基本的	はい	~20ms	トライアル+有料
Clownfish	はい	いいえ	はい	変数	無料
DAW +プラグイン	はい	プラグイン依存	ループ経由	5–40ms	異なります

品質のピッチプラグイン付きDAW（ReaperまたはREAPER Liteなど）は最大の柔軟性を提供しますが、かなりのセットアップが必要です——仮想ケーブル経由のルーティング、セッション構成の管理、バックグラウンドでの完全DAWの実行。ストリーマーとゲーマー向けに素早いセットアップと信頼できるホットキーが必要な場合、専用の音声変更ソフトウェアはより実用的な選択です。

一般的な問題と解決策

ピッチシフトは単独で良く聞こえますが、Discordの友人がアーティファクトを聞きます。 Discordは独自のノイズ抑制を適用します（Krispベース）。これはピッチシフトされたオーディオと相互作用し、独自のアーティファクトを追加できます。Discordノイズ処理を無効にします（設定→音声→詳細→ノイズ抑制→なし）。代わりにVoxBoosterの組み込みノイズ抑制を使用してください。

ピッチは変わりますが、声は中空または「位相的」に聞こえます。 フェーズボコーダースミアリング——ピッチシフト量をわずかに減らすか、別の品質モードに切り替えてください。より大きなFFTウィンドウ（より高い遅延モード）は、維持された母音でこれを頻繁に解決します。

私の声はより深く聞こえますが、誰もが私がそれであることを知ることができます。 ピッチシフトだけは、スピーチパターン、ケイデンス、またはアクセントを変更しません。より認識不可能な結果のために、ピッチシフトをフォルマント補正と軽いリバーブと組み合わせます。一部のユーザーは意識的に話すリズムを変調します。

エコーやフィードバックがあります。 監視はおそらく仮想出力で有効になっています。Windowsサウンドプロパティのこのデバイスを聞き「を無効にして、代わりにVoxBoosterの内部監視（ヘッドフォンアイコン）を使用してください。

よくある質問

ボーカルピッチチェンジャーとは何ですか？

ボーカルピッチチェンジャーは、再生速度を変えずに、リアルタイムで声の基本周波数を上下にシフトするソフトウェアです。オーディオを分析し、各周波数成分を転置し、最小限の遅延で結果を出力することで機能します——通常は高品質ツールで10ms未満です。

別の人のように聞こえるには、何セントシフトする必要がありますか？

3〜5セント下にシフトするとかなり低い声が出ます。4〜6セント上にシフトするとより高くより軽い音になります。8セント以上の大きなシフトは、フォルマントを補正しない限りロボット的に聞こえます。最も説得力のある結果は2〜6セントの範囲にあります。

ピッチシフトは仮想マイクなしで機能しますか？

ソフトウェア自体は内部でオーディオを処理できますが、Discord、ゲーム、またはストリーミングアプリで使用するには仮想オーディオデバイスが必要です。VoxBoosterは標準のWASAPI仮想マイクをインストールします——カーネルドライバーは不要です。

リアルタイムピッチシフトはゲームで禁止されますか？

VoxBoosterはWASAPIを使用し、通常の仮想マイクとして登録されるため、アンチチートシステムには何も異常は見えません。カーネルレベルのドライバーはインストールされていません。リスクはほぼゼロですが、個々のゲームのオーディオ変更に関するポリシーは異なる場合があります。

フォルマント補正とは何ですか、必要ですか？

フォルマント補正は、ピッチとは独立して声道共鳴（声の音色「色」）を調整します。ピッチを上げるとリス化して聞こえます。下げると不自然に篭ります。フォルマントリンクを有効にするとより自然で人間的な結果が得られます。

リアルタイムピッチシフト時の遅延を減らすにはどうすればよいですか？

遅延は分析ウィンドウサイズ（より大きい=アーティファクトは少ないがより遅い）、バッファサイズ、およびドライバーオーバーヘッドから生じます。専用オーディオインターフェースまたはマザーボードのWASAPIドライバーを使用し、VoxBoosterバッファを128または256サンプルで保ち、他のオーディオが多いソフトウェアを閉じます。

別のアプリなしでDiscordで声をピッチシフトできますか？

Discord自体はピッチシフト機能を持っていません。VoxBoosterのような専用ソフトウェアが必要です。これは処理されたオーディオを、Discordがそれを入力として選択する仮想マイクを通してルーティングします。セットアップには約2分かかります。

結論

リアルタイムボーカルピッチシフトは技術的観点から解決された問題です——アルゴリズムは成熟し、よく理解されています。良いツールを凡庸なものと分離するのは実装品質です：位相コヒーレンス、フォルマント処理、遅延管理、仮想オーディオルーティングが実際に使用するアプリでどの程度スムーズに機能します。

基本的なもの——セントを正しいユニット、フォルマントをピッチの補足、ウィンドウサイズを遅延/品質トレードオフ——を理解することで、単にノブを回してから何か許容可能に聞こえるまでのボキャブラリーが与えられます。

VoxBoosterは、フェーズボコーダーピッチエンジンと独立したフォルマント制御、WASAPI仮想マイク、sub-10msレイテンシを持つ、約2分でセットアップを取り込むパッケージに組み合わせます。3日間の無料試用版はすべての機能をカバーしているため、決定する前にすべてのピッチ設定とプリセットをテストできます。

VoxBoosterをダウンロード——3日間の無料試用版、Windows 10/11。