ロボット音声チェンジャー:リアルタイムでロボット音声を取得する

マイクをリアルタイムでロボットに変換します。リング変調、ボコーダー、ピッチ量子化、ビットクラッシング、ゲーミングとストリーミング向けAI音声クローンをカバー。

ロボット音声チェンジャー:リアルタイムでロボット音声を取得する

ロボット音声チェンジャーは、その名前の通りです。マイクから出る通常の人間の音声を取得し、リアルタイムで何か機械的で合成的なものに変換するソフトウェアです。説得力のあるロボット音声を取得するには、ボタンを押す以上のことが必要です。結果の品質は、ソフトウェアが使用するDSP技術と、それらがどのように組み合わされるかに直接依存します。このガイドは、ロボット効果の背後にあるオーディオサイエンス、ゲームやストリームでのライブ使用のためにそれを設定する方法、そして本当に良いロボット音声を単にこもった音が違うものを分離するものをカバーしています。


TL;DR

  • ロボット音声効果は、リング変調、ボコーダー合成、ピッチ量子化、ビットクラッシング、金属的なリバーブを重ね合わせることから生じます。レイヤーが多いほど、キャラクターが豊かです。
  • リアルタイム使用(Discord、OBS、ゲームロビー)の場合:VoxBoosterはWASAPI傍受を使用します。仮想ケーブルなし、カーネルドライバーなし、アンチチート安全。
  • DSPベースのロボットエフェクトは15~40msのレイテンシーを追加します。AI音声クローンは200~300msを追加しますが、一貫性のある個人的なロボット的なキャラクター音声を生成します。
  • Voicemod、MorphVOX、Clownfish、Voice.aiが主な代替手段です。すべて以下で説明します。
  • キャリア周波数、ビット深度、量子化ステップサイズを調整することで、ロボット効果を微調整して、特定のサイエンスフィクションロボットスタイルに合わせることができます。
  • 完全なDiscordおよびOBSセットアップウォークスルーが含まれています。

どのDSPが実際にロボット音を作成しますか?

ロボット音声チェンジャーの背後にある信号処理を理解することは重要です。なぜなら、プリセットをサイクリングして何かが正しく聞こえることを願う代わりに、設定を意図的に調整することができるからです。ほとんどのツールは、次の5つのテクニックの少なくとも3つを組み合わせています。

リング変調

リング変調は、オーディオ信号に固定周波数(「キャリア」)で正弦波を掛けます。数学的な結果は、2つの新しい周波数成分です。各元の周波数とキャリアの合計と差です。150 Hzで基本音を60 Hzキャリアで話し、90 Hzと210 Hzでサイドバンドが得られます。これをボーカル全体に適用すると、結果は密集した金属的なきらめきです。

低いキャリア周波数(20~60 Hz)では、リング変調はfluttery、ビンテージサイエンスフィクションロボット品質を作成します。Doctor WhoのDalekはリング変調装置で構築されました。高いキャリア周波数(100~250 Hz)では、効果はより粗くなり、より産業的になります。リング変調は計算的には些細で、本質的にゼロレイテンシーを追加します。これにより、ライブボイス処理に適した選択肢になります。

ボコーダー合成

ボコーダーは入力音声信号を複数の周波数帯域に分割し、各帯域の振幅エンベロープを測定し、それらのエンベロープを使用して別の合成装置キャリア(通常は鋭い鋸波またはパルス波)を形成します。ハーモニクスはシンスから来ており、声帯からではないため、結果はロボット的に聞こえます。しかし、言葉の形成はまだ口から来ているため、音声は理解可能なままです。

キャリア周波数は、実際に話す方法に関係なく、ロボット音声の基本周波数を決定します。80~100 Hzに設定すると、低音の重いロボット音が生成されます。120~160 Hzはより中域のAndroid音を与えます。ボコーダーは、DiscoveryのDaft Punkのボーカル音声化された音声の背後にある技術です。および最も合成波音楽の機械的な音質。リング変調装置よりも多くのCPUが必要ですが、より清潔でより認識可能な音声出力を生成します。

ピッチ量子化

人間の声は連続ピッチを持っています。シラブル内および内で自然にスライド、ぐらぐら、そして変動します。ピッチ量子化(「ハードピッチ補正」または「ピッチロック」とも呼ばれます)は、音声を特定の音楽間隔に強制し、その連続的な変動を取り除きます。最大速度で半音のステップに設定すると、合成音声に関連付けられた硬いグリッドロック品質が生成されます。

単独で使用すると、ピッチ量子化はChereの「Believe」またはT-Painからのオートチューンアーティファクト音を与えます。機械的に音楽的ですが、必ずしもロボット的ではありません。Formant処理またはボコーダーと組み合わせると、ピッチロック音が面白く聞こえるようにする人間的な特性を排除し、本当に合成的に聞こえさせます。

ビットクラッシングとサンプルレート削減

ビットクラッシングはオーディオ信号のビット深度を削減します。最新のオーディオインターフェイスの24ビット動的範囲の代わりに、信号は8、6、または4ビットに量子化されます。結果は聞こえる量子化ノイズと調和高調波歪みであり、デジタル、ロー・ファイテクスチャです。サンプルレート削減は信号をダウンサンプリングし、高周波コンテンツを削除し、合成品質に加えてエイリアシング成果物を作成します。

穏やかな設定では、ビットクラッシングは古いコンピュータハードウェアを示唆する粒状のデジタルグリットを追加します。PortalゲームのGLaDOSは、ピッチ処理の上に微妙なビットクラッシングを使用して、無菌、老化システムを暗示します。積極的な設定では、ビンテージテキストツースピーチエンジンのカリカリ8ビット電話品質が生成されます。ビットクラッシングはピッチとFormant構造に関係なく独立して動作するため、他のテクニックできれいに積み重なります。

メタルリック・リバーブ

標準リバーブは、オーディオが物理スペースで記録されたように音声を聞かせるルームリフレクションを追加します。金属的なリバーブは、非常に短い、密に間隔を開いたリフレクションを高い反射係数で使用します。部屋のように聞こえるのではなく、共鳴金属エンクロージャのように聞こえます。ボコーダーまたはリング変調音声に適用される場合、金属的なリバーブは合成調和コンテンツを拡張し、機械的な深さの感覚を追加します。

金属パイプまたはタンク内で記録されたインパルス応答を持つConvolution Reverbはこの効果を自然に生成します。アルゴリズム金属リバーブ(ほとんどのリバーブプラグインで調整可能)はチューニングが速くなります。キーパラメータは、プレディレイ(短く保つ、10 ms未満で知覚可能性を維持)と減衰時間(ロボット用100~300 ms。長い減衰は洞窟ではなく機械のように聞こえ始めます)です。


良いロボット音声チェンジャーを良くするもの?

最高のロボット音声チェンジャーは、単なるオン/オフトグルの代わりに、基礎となるDSPのパラメーター制御を提供します。単一のプリセットは1つの特定のシナリオで機能します。調整可能なパラメータにより、以下を作成できます。

  • クラシックAndroid音声:100 Hzキャリアでボコーダー、低リングMod、ビットクラッシングなし、光金属リバーブ。知覚可能、明らかに人工的、SFキャラクターに最適。
  • Dalek /産業用ロボット:50~70 Hz、高い貢献、平坦化されたFormants、軽い金属リバーブでのリング変調装置。攻撃的、粗い、最高の悪役キャラクター。
  • Vintageコンピューター/ HAL-9000スタイル:ゼロリチューンスピードでピッチ量子化、80 Hzキャリアを搭載したFormant合成装置、微妙なビットクラッシング(8ビット)。フラットアフェクト、処理ではなく辞書によって暗示される不気味な知性。
  • 破損AI /グリッチロボット:6ビット、150 Hzでのリング変調装置、間欠的なピッチ量子化成果物でのビットクラッシング。不安定、機能不全品質。ホラーまたはディストピア設定に効果的。

ロボット音声チェンジャー比較表

ツールリアルタイムエフェクトアプローチレイテンシー(エフェクト)無料オプションアンチチート安全
VoxBoosterはいボコーダー+リングMod+ピッチクオント+Bitcrush+AI Clone~15~40ms3日間試用はい(WASAPI、カーネルドライバーなし)
VoicemodはいPresetチェーン(ボコーダーベース)~50~100ms回転無料プリセットはい
MorphVOX ProはいFormant-Shift+ピッチ(ボコーダーなし)~20~50msMorphVOX Juniorはい
ClownfishはいリングMod+基本的なピッチシフト~30~60ms完全無料はい
Voice.aiはいコミュニティニューラルモデル~300~600ms限られた無料モデルはい
Audacity+プラグインいいえ(オフライン)完全なDSP(ボコーダー、リングMod、VST)N/A完全無料N/A

ポップカルチャー全体のロボット音声スタイル

各アイコニックロボット音声が何を区別するかを知ることで、一般的なビープ音ではなく特定の美学を再現するのに役立ちます。

Daft Punk –ドライミックスをブレンドしたボコーダー

フランスのデュオの「Harder、Better、Faster、Stronger」などのトラックシグネチャー音声効果は、ハードウェアボコーダーを使用しています(早期の作業でKorg VC-10、後で。ソフトウェア)は重要な詳細です。ドライ信号の微妙なブレンド。ドライミックスなしで、ボコーダー出力は子音を洗い流し、知覚可能性を減らします。わずか10~15%のドライシグナルを混ぜると、子音は突き刺さり、声は読み取り可能なままですが、ロボット調和コンテンツが支配します。

これを複製するには:90~110 Hzのボコーダーキャリア、鋸波、16~32周波数帯域を解像度として、出力に10%のドライシグナルをブレンドします。ボコーダー出力に軽いステレオ拡大を追加します。

GLaDOS –Bitcrush+ピッチチルト+共鳴EQ

PortalゲームのGLaDOSは、女優Ellen McLainの音声から始まり、わずかに下に下げられています(約2~3セミトーン)。その後、800~1200 Hz範囲を強調する共鳴フィルターを通過します。「鼻のコンピュータ」周波数ゾーン。光8ビットのビットクラッシングは無菌デジタルテクスチャを追加します。GLaDOSのロボット品質は、処理と同じくらい、声の演技(フラットアフェクト、臨床ペーシング、長い一時停止)から来ます。

これは処理だけで完全に再現することが最も難しいスタイルです。パフォーマンスはDSPよりも多く寄与します。処理方向:ピッチ-2セミトーン、1 kHzで適度なQでのバンドパスEQピーク、~30%ウェットでの8ビットビットクラッシング。

Dalek(Doctor Who) –リング変調装置、純粋

Dalek音声は1960年代から使用されており、約30 Hzのキャリアを備えた記録された音声に適用されたリング変調装置です。結果は、6十年間SFロボット音声を定義した特徴的なfluttering金属のきらめきです。元のハードウェアは単純な電子リング変調装置回路でした。最新のソフトウェア実装は、25~40 Hzの間にキャリア正弦波で同じ結果を生成します。

Voice Changer Appにキャリア周波数調整可能なリング変調装置が含まれている場合、30~35 Hzを100%ウェットで他の処理なしで設定します。これはDalekであり、忠実に再現されます。

Stephen Hawkingの合成装置–Formant Synth+モノトーン

Hawkingの通信装置を駆動したDECtalkシステムはFormant合成を使用しました。音声シグナルは、固定基本周波数(~80 Hz)と、男性のアメリカ英語音声に似ていると調整されたFormant位置を持つ合成装置から完全に生成されました。単調なキャラクターは固定ピッチから来ました。シラブル間のピッチ変動なし、自然なProsodie。特定のFormantピーク(特に「鼻」品質のための1100 Hz周辺のやや高いF2)は、Hawkingが見かけ上愛着したという独特の音を与えました。

ライブボイスチェンジャーでこれを完全に複製することはできません。DECtalkの出力は人間の音声から処理されず、最初から合成されたためです。しかし、おおよそ:80 Hz基本周波数を持つFormant合成装置、最大速度でのピッチ量子化(ゼロセミトーン幅許容)、1100 Hzでの軽いEQピーク。


ゲーミング向けロボット音声チェンジャーの使用

アンチチート互換性

ゲーム内音声の使用に関する最初の懸念は、ソフトウェアがアンチチートシステムと矛盾するかどうかです。2つのカテゴリがあります。

Kernelドライバー実装はOS レベルに位置し、カーネルモードアンチチート(主にカーネルドライバー自体として実行されるVanguard)によってフラグが立つ理論的可能性があります。実際には、標準オーディオドライバーはフラグが立てられませんが、一部の古いまたは書かれた音声チェンジャー実装は問題を引き起こしました。

WASAPIユーザースペース実装は、カーネルコンポーネントなしのユーザースペース全体で動作します。VoxBoosterはWASAPI注入を使用します。これは標準Windows Audio Session APIを通じてオーディオを処理し、カーネルドライバーなしです。ゲームメモリまたはゲームクライアントコードとの相互作用はないため、EAC、Vanguard、BattlEye、または他のアンチチートシステムでゼロのアンチチート露出を作成します。

疑わしい場合は、ゲームの利用規約を確認してください。関連テストは「これはオーディオを変更するか」(常に許可されている)ではなく、「これはアンチチートスキャンするゲームクライアントまたはOSカーネルに触れるか」です。

ロボット音声に推奨されるゲーム

ロボット音声効果は以下で良好に着地します。

  • SFマルチプレイヤーゲーム(Starfieldのco-op Mods、Elite Dangerous、Star Citizen):音声は自然に設定に一致します。
  • Among Us:ロボットプリセットはCrewmate/Impostorロールプレイに文字を追加します。
  • Voice Chat(D&D in Discord、Foundry VTT)でのTabletop RPGセッション:ロボット音声、Warforged文字、または機能しないAI NPCの構造化生物向け。
  • コンテンツ作成(ストリームハイライト、YouTubeの反応):ロボット音声は、喜劇的なビットとキャラクター音声の同時に機能します。

ゲーム固有の音声チェンジャーセットアップ用に、ゲーム向け音声チェンジャーガイドはゲームごとのオーディオルーティングとアンチチート考慮をカバーしています。


DiscordおよびOBSのロボット音声チェンジャーの設定

Discordセットアップ(VoxBooster –仮想ケーブルは不要)

  1. VoxBoosterをダウンロードしてインストーラーを実行します。再起動は不要、ドライバーインストールプロンプトはありません。
  2. VoxBoosterを開き、プロンプトが表示される場合は無料試用版にサインアップします。
  3. VoxBoosterのInput設定で、物理マイクが選択されていることを確認します。
  4. Effectsタブに移動します。Robotプリセットを選択するか、カスタムチェーンを構築します。リング変調装置のオン、キャリアを60 Hzに設定します。ボコーダーをオンにし、キャリアを100 Hzに設定し、50%ウェット。8ビット、25%ウェットでビットクラッシャーを追加します。
  5. VoxBoosterのプリプロセッサ設定でNoise Suppressionを有効にします。これにより、バックグラウンドサウンドがエフェクトチェーンの前に削除されるため、ロボット効果は音声のみを処理します。
  6. Discord → Settings → Voice & Video → Input Deviceを開きます。物理マイクに設定されたままにしてください。仮想デバイスに変更しないでください。VoxBoosterのWASAPI傍受は、Discord実際のマイクからロボット処理されたオーディオを自動的に選択することを意味します。
  7. Discordの高度なオーディオ設定の下:Noise Suppression(またはLowに設定)を無効にし、ノイズリダクションを無効にし、Automatic Gain Controlを無効にしてください。二重処理はロボット効果にアーティファクトを作成します。
  8. Discordのマイテスト機能をテストしてください。通常どおり話してください。再生中にロボット処理を聞く必要があります。

OBSセットアップ

  1. OBS → Settings → Audio、物理マイクがグローバルオーディオ入力ソースとしてリストされていることを確認します。
  2. まだ存在しない場合は、Mic/Auxiliary Audioソースを追加し、物理マイクを指す場合。
  3. OBSオーディオフィルターチェーンを空のままにしてください。VoxBoosterはWASAPIレベルで処理してから、OBSシグナルを見ます。OBSフィルターを上に追加するには、二重処理アーティファクトが作成されます。
  4. OBSオーディオミキサーを開きます。話している間、入力ゲイン-12から-6 dBのピークをターゲットに調整します。ロボット効果はキャリア設定に応じて音量を変更するため、VoxBoosterでエフェクトを有効にした後にレベルを確認してください。
  5. ローカルに記録している場合、セカンドオーディオトラックをクリーン(未処理)マイクソースとして安全コピーとして追加します。ポスト内の異なる設定でリプロセッシングに役立ちます。

一貫性のあるロボット的なキャラクター音声のためのAI音声クローン

DSPベースのロボット効果は、同じプリセットを読み込むすべてのユーザーで同じように聞こえます。音声にはパーソナルキャラクターがありません。ロボット音声があなたのロボットペルソナのように異なり、一般的なエフェクトではなく聞こえるようにしたいのであれば、AI音声クローンが方法です。

VoxBoosterにはPC上でローカルに実行されるAI音声クローンが含まれています。ワークフロー:

  1. 30~60秒のオーディオを、クローンしたい音声品質で記録します(これは自分の音声、合成音声、またはTTS出力が好きなことができます)。
  2. VoxBoosterのVoice Cloneタブで、参照オーディオをインポートし、モデルトレーニングプロセスを開始します。
  3. モデルが訓練されたら(Mid-Range GPUで数分)、標準エフェクトチェーンの代わりにCloneモードを有効にします。
  4. 通常どおり話してください。出力はクローンされた音声のように聞こえ、参照のティンブラル特性が保存されています。

ロボット的なキャラクター音声の場合、最も効果的なアプローチは、最初にAudacityとフリーTAL-Vocoder VSTを使用してロボット音響リファレンスを生成し、その出力を保存してからクローンを作成することです。クローンされた音声は、参照のロボット音色のキャラクターを保持しますが、自然に音声パターンと時間に応答するため、静的DSPプリセットよりも生きているようです。

処理は完全にローカルです。オーディオはサーバーに送信されません。クローンモードのレイテンシーは約200~280msで、これは会話で注目に値しますが、ストリーミングのコメントと記録に機能します。

クローニングワークフローの完全なガイドについては、AIで音声をクローンする方法およびリアルタイムAI音声チェンジャーを参照してください。


ロボット音声チェンジャー比較:Voicemod、MorphVOX、Clownfish、Voice.ai

Voicemodは最大のプリセットライブラリと消費者音声チェンジャースペースで最も認識可能なブランドを持っています。ロボット効果はボコーダーチェーンを使用し、良いマイクで固体の音がします。無料層は毎日利用可能な音声を回転させるため、ロボットプリセットはProサブスクリプションなしで指定された日にアクセスできない可能性があります。Voicemodは仮想オーディオデバイスをインストールし、Discord設定でのデバイス切り替えが必要です。

MorphVOX Proは異なる技術的アプローチを採用しています。古典的なボコーダーではなく、Formant転位。ロボット出力は「電子」というほど聞こえず、より臨床的なAIアシスタントのように聞こえます。ボコーダー実装よりも低いCPU使用量。MorphVOX Junior(無料)はロボットプリセットを含みます。新しいバージョンでは仮想ケーブルは不要です。

Clownfish Voice Changerは完全に無料で、システムレベルでWindowsオーディオにフックし、アカウントは必要ありません。ロボット効果は基本的です。主にピッチ操作と単純なリング変調装置ですが、カジュアルなDiscord使用に機能します。ノイズ抑制がないということは、バックグラウンドノイズもロボット化されます。環境が騒々しい場合、結果は混沌としています。

Voice.aiはロボット音声を異なって処理します。DSPエフェクトチェーンの代わりに、ロボット的なキャラクターを備えたコミュニティアップロード音声モデルを選択します。品質は、コミュニティメンバーがアップロードしたことに完全に異なります。処理レイテンシーはニューラルネットワーク推論がオーディオチャンクごとに実行されるため、DSPツールより高く実行されます。一般的なエフェクトではなく、特定のサイエンスフィクションロボット文字の美学が必要な場合は、閲覧する価値があります。

競合他社のいずれもオーディオルーティング用WASAPI傍受を使用していません。すべて仮想オーディオデバイスまたは仮想ケーブルに依存しています。これは、VoxBoosterでアンチチート互換性とゼロ設定Discordセットアップを可能にする建築的な区別です。


よくある質問

ロボット音声チェンジャーとは何ですか? ロボット音声チェンジャーは、ライブマイクロフォン信号を処理して、リアルタイムで機械的で合成的な音を生成するソフトウェアです。リング変調、ボコーダーキャリア合成、ピッチ量子化、ビットクラッシングなどのテクニックを組み合わせて、音声から人間的な特性を取り除き、ロボット的なキャラクターで置き換えます。

リアルタイムでロボット音声エフェクトを取得するにはどうしますか? VoxBoosterなどのリアルタイム音声チェンジャーをインストールし、ロボット音声プリセットを読み込んで、通常どおりに話してください。VoxBoosterはWindowsオーディオレベルでマイクを傍受します。実行するすべてのアプリ(Discord、OBS、ゲームロビー)は、入力デバイス設定を変更することなく、処理されたロボット出力を自動的に受け取ります。

ロボット音声を作成するDSP技術は何ですか? 主なテクニックは、リング変調(信号に正弦波キャリアを掛けて金属的なサイドバンドを生成)、ボコーダー合成(音声のスペクトル包絡形によって形成されたキャリア波)、ピッチ量子化(人間の変動を取り除くために固定のセミトーンステップに音声をロック)、ビットクラッシング(デジタルグリットのためにビット深度を削減)、金属的リバーブ(合成的な広がりを追加する短い共鳴反射)です。

ロボット音声チェンジャーはアンチチート対応ゲームで安全ですか? はい。ソフトウェアがカーネルレベルドライバーではなくWASAPIオーディオルーティングを使用する場合です。VoxBoosterはWASAPI注入を使用します。それはユーザースペース全体で動作し、ゲームクライアントやメモリとの相互作用がないため、EAC、Vanguard、またはBattlEyeの保護されたゲームではゼロのアンチチート露出を作成します。

AI音声クローンで一貫性のあるロボット的なキャラクター音声を取得できますか? はい。VoxBoosterはリアルタイムのAI音声クローンを含みます。30~60秒の参照オーディオ(自分の音声または合成音声)でモデルを訓練すると、ロボット音声はセッション間で一貫した音色を保持します。これは、すべてのユーザーで同じ音になるDSPプリセットとは異なります。

TwitchまたはYouTubeでストリーミングするのに最適なロボット音声チェンジャーはどれですか? VoxBoosterはストリーマーにとって最強のオプションです。低レイテンシーWASAPI処理はオーディオをゲームプレイと同期させ、組み込みノイズ抑制はエフェクトチェーンの前に実行されるため、バックグラウンドノイズがロボット化されず、Whisper転写は追加ソフトウェアなしでキャプションを生成します。

ロボット音声チェンジャーは仮想オーディオケーブルなしでDiscordで機能しますか? はい。アプリが仮想デバイスではなくオーディオサブシステム傍受を使用する場合です。VoxBoosterはWindows WASAPIレベルで傍受するため、Discordの入力デバイスは物理マイクのままで、ロボット効果は透過的に適用されます。VoicemodとMorphVOXは仮想ケーブルと、Discord設定でのデバイス切り替えが必要です。


結論

リアルタイムで説得力のあるロボット音声を取得することは、どのDSP層が何をするかを知ることになります。金属的なきらめきのためのリング変調、知覚可能な合成音声のためのボコーダー、人間のピッチ変動を排除するためのピッチ量子化、デジタルグリットのためのビットクラッシング、合成深度のための金属リバーブ。これらのパラメータを公開するロボット音声チェンジャーは、単一の一般的なプリセットに満足するのではなく、特定のロボット的なキャラクターをターゲットにするコントロールを提供します。

Windows上のライブゲーミング、Discord、ストリーミング用、VoxBoosterは単一のチェーンで5つのDSP技術をカバーし、ノイズ抑制を追加して音声のみが処理され、WASAPIを通じてオーディオをルーティングするため、仮想ケーブルインストールがなく、アンチチート懸念がありません。組み込みAI音声クローンは上部に層を追加します。ロボット音声、個人的な音色が焼き込まれ、すべてのセッション間で一貫性があります。

VoxBoosterをダウンロードして、ロボット音声効果を無料で試してください。試用版は完全なエフェクトチェーンとAIクローンを網羅しており、クレジットカードは必要ありません。

VoxBoosterを試す — 3日間無料。

リアルタイム音声クローン、サウンドボード、エフェクト — 会話するすべての場所で。

  • カード不要
  • ~30msのレイテンシ
  • Discord · Teams · OBS
3日間無料で試す