スティーヴン・ホーキング音声チェンジャー:シンセサイザーボイスの音

TTSとDSP効果でアイコニックなスティーヴン・ホーキング合成音声を再現します。DECtalk Perfect Paulボイスプリセットの歴史、動作方法、Discordとストリーミングでのセットアップをカバーしています。

スティーヴン・ホーキング音声チェンジャー:シンセサイザーボイスの音

スティーヴン・ホーキング音声チェンジャーは音声効果の世界における最も珍しいリクエストの1つです。技術的に難しいからではなく、元々はソフトウェアプログラムであったからです。ホーキングはフィルターを通じて自然な声を変調させていませんでした。彼は入力し、スピーチシンセサイザーが彼に代わって話しました。この区別を理解することは、音を再現するあなたのアプローチを変え、技術的なパスがほとんどの人が期待するよりも興味深いことが判明しました。

このガイドは完全なストーリーをカバーしています。元の音声が実際に何であったか、なぜそれがシグナル処理レベルでそのように聞こえるのか、どのように音が文化的にアイコニックになったのか、そして2026年のストリーミング、Discord、ゲーミング、またはクリエイティブプロジェクト用に類似した合成ロボット音声を再現する最も実用的な方法。


TL;DR

  • ホーキングの音声はDECtalkベースのTTSシステム「Perfect Paul」プリセットで生成され、自然な声を変更したものではありません
  • 特徴的な音はフォルマント合成:音声サンプルではなく、声道の数学モデルから構築された母音と子音から来ています
  • 再現にはTTS出力と軽いDSPが必要です:ピッチ変動の平坦化、軽いローパスフィルター、軽い電子テクスチャ
  • 現代のTTSエンジンを音声効果ソフトウェアと組み合わせると、驚くほど近づくことができます
  • この効果はDiscord、OBS、および仮想マイクを受け入れるあらゆるアプリケーションで動作します
  • VoxBoosterのTTSパネルとロボット音声効果がこのワークフローをエンドツーエンドでカバーします

スティーヴン・ホーキングの実際の音声は何でしたか?

ほとんどの人はホーキングが彼の声にフィルターを適用していると仮定しています。そうではありませんでした。1985年の緊急気管切開手術後に話す能力を失った後、彼は最初に眉毛を上げて綴字カードから文字を選択して通信し、その後、車椅子のコンピューター上のスクロールインターフェースから言葉を選択できるようにする頬の筋肉センサーを使用していました。

その後、コンピューターは選択されたテキストをスピーチシンセサイザーを使って大声で話しました。オリジナルハードウェアはWords+によって構築され、Digital Equipment Corporationが開発したDECtalkを使用していました。特定の音声プリセットは「Perfect Paul」と呼ばれており、DECtalkシステムに組み込まれたいくつかのキャラクター音声の1つでした。

DECtalkは当時、最先端でした。ほとんどのモダンTTSシステムで使用されている事前録音された音素サンプルをいくつかに組み立てるのではなく、フォルマント合成と呼ばれる方法を使用しました。これは、数学的方程式を使用して最初の原理からスピーチ音を生成する声道のコンピューターモデルです。結果には独特な品質があります。それは認識可能な音声ですが、フォルマント(母音に個性を与える共鳴周波数のピーク)は実際の喉と口によってではなく、フィルターバンクで生成されます。これが、音声に軽く空洞状、完全に一貫性のある、非人間的な品質を与えるものです。

ホーキングは、数十年にわたって基礎となるハードウェアが複数回アップグレードされた場合でも、音声を保持していました。他の人が彼により自然に聞こえる代替案を提供した場合、彼は拒否しました。その声は彼の身元になっていました。何年間もの公開出演、講演、ドキュメンタリーの後、人間の声が等しくなることができないほど国際的に認識されていました。


フォルマント合成が現代的なTTSと異なる理由

あなたが再現しようとしている音響署名を理解するには、フォルマント合成が現代の神経TTS システムと比較してどのように聞こえるかを知ることが役に立ちます。

最新のTTS(Windows、macOS、Google Cloud TTSなどのクラウドサービスに組み込まれた音声を含む)は、通常、記録された人間の音声の大規模なデータセットで訓練された神経ネットワークを使用しています。モデルが実際の音声パフォーマンスの音響パターンを学んでいるため、出力は自然に聞こえます。呼吸、共関節化、ピッチのマイクロ変動、ストレスのない音節の微妙な強調低下。目を閉じると、本物の人と勘違いしることができます。

フォルマント合成はこれらのいずれも行いません。声道の物理学(声門、咽頭、口腔、唇)を一連の共鳴管とフィルターとしてモデル化します。各音素のパラメータは数学的に指定されます。結果は:

  • フラット韻律: シラビ間のイントネーション曲線は、より均一で、段階的ではなく急激なピッチ遷移を持ちます。
  • 呼吸音なし: 吸引がなく、子音に微妙な摩擦がなく、部屋の音が流入しません。
  • 一貫したフォルマント: すべての「o」母音は他のすべての「o」母音と同じに聞こえます。これは人間がどのように話すかではありません。
  • 電子音色: ソース信号(声道モデルを駆動する「グロッタルパルス」)は、生物学的な声帯振動よりもわずかにバズ品質が高いです。

これらの特性は、同時に音声と機械のように聞こえるものを作り出すために積み重なります。これはまさにそれです。


音声の文化的意義

シグナル処理の観点からこのトピックを純粋に議論することは不完全です。ホーキングの合成音声は世界で最も認識されている音声の1つになりました。ドキュメンタリー、テレビ出演、主要大学での講演、音楽に登場しています。ピンク・フロイドは1994年のディヴィジョン・ベルの「Keep Talking」に彼の音声の録音を含めました。彼はシンプソンズのゲスト役に定期的に出演していました。彼はスタート・トレック:ネクスト・ジェネレーションに出演し、ニュートン、アインシュタイン、データとポーカーをプレイしていました。

音声は知性、機知、科学的権威と非常に関連付けられたため、多くの人々はDECtalkスタイルの合成が特定の文脈では自然な音声よりも知的にもっともらしいと報告しています。完全に主観的な反応ですが、文書化されています。ストリーマーやコンテンツクリエーターにとって、落ち着いた平坦で合成された音声の一般的な美学を再現することは、リスナーが意識的に参照を認識していない場合でもその文化的な共鳴を運びます。


音を再現する方法:技術的アプローチ

ホーキングスタイルの合成音声を再現するための2つの主要なパスがあり、より良い選択は何を使用しているかによって異なります。

パス1 – DSP仕上げ付きテキスト音声合成

これは歴史的に正確なアプローチであり、スクリプトコンテンツ、ビデオ、または話す代わりに入力するシナリオに最適です。

考え方は、任意のTTSエンジンを取得してポストプロセッシングを適用し、フォルマント合成のようにサウンドさせることです:

  1. 表現性が低いTTS音声を選択します。 高い表現性の神経音声は矛盾します。自然な音声パターンをシミュレートするためにピッチと速度が変わります。より単調な、古いスタイルのTTS音声は、より良い開始点を提供します。
  2. ピッチ変動を平坦化します。 わずかなピッチ補正またはピッチ量子化効果は、最も高いピッチと最も低いピッチポイント間の範囲を縮小し、フォルマント合成の平坦な配信に向かって韻律曲線を狭めます。
  3. ローパスフィルターを適用します。 約4,000~6,000Hzを超える周波数をカットします。これにより、明るい子音と摩擦音が削除され、神経型TTSが鮮明で自然に聞こえるのに役立ちます。結果は、より古いシンセサイザーハードウェアの軽く消音された、中周波重いキャラクターです。
  4. 非常に軽い調和歪みまたはリング変調を追加します。 わずか2~5%の調和歪みでさえ、ギターオーバードライブのように明らかに聞こえずにソース信号の電子バズを追加します。
  5. 一貫した音量に正規化します。 フォルマント合成は、すべてのサウンドにほぼ同じ振幅を生成します。高比率で穏やかなコンプレッサーを実行すると、人間の音声が完全に達成することのない方法でダイナミクスが正規化されます。

パス2 – リアルタイムユースのためのライブ音声チェンジャー

自然に話し、あなたの声をリアルタイムで変換したい場合(Discordコール、ゲーミングセッション、ライブストリーミング用)、マイクで実行する音声チェンジャーが実用的なオプションです。

ここのDSP チェーンは概念的には同じですが、ライブオーディオに適用されます:

  1. 固定ターゲットまたは狭い範囲へのピッチ補正。 自然なピッチ変動を平坦化することは、最も重要な単一のステップです。質問に向かって自然にピッチがグライドし、ステートメントで下がる場合、タイトなピッチ補正はこれらの曲線を削除します。
  2. ニュートラルに向かったフォルマント シフト。 より平均的な声道長に向かってフォルマントをわずかにシフトすると、あなたの声の個人的な音響署名が削除されます。
  3. ローパスフィルター、上記と同じパラメーター。 約4~6kHzのカットオフ、緩やかなスロープ。
  4. 微妙なリング変調またはボコーダー効果。 低キャリア周波数(約80~120Hz)での最小限のリング変調でさえ、音声を非知的化に圧倒することなく電子的なキャラクターを追加します。
  5. 呼吸音を除去するための穏やかなノイズゲート。 フォルマント合成には呼吸がないため、単語間のポーズをゲートすることは、合成された感覚を維持するのに役立ちます。

比較:ロボット合成音声への異なるアプローチ

方法リアリズムセットアップの容易さリアルタイム最適な用途
純粋なTTS(DSPなし)中程度非常に簡単いいえ(タイプ)スクリプト動画、ナレーション
TTS +ポストプロセッシングDSP高い中程度いいえYouTubeコンテンツ、ポッドキャスト
ライブ音声チェンジャー(DSPのみ)中程度簡単はいDiscord、ゲーミング
ライブ音声チェンジャー+ TTSパネル高い中程度両方のモードストリーミング、オールラウンド使用
専用フォルマント合成器最高難しい部分的オーディオエンジニアリング、研究

ほとんどのコンテンツクリエーターの甘い場所は、組み合わせたTTS +ライブ音声チェンジャーアプローチです。スクリプト行の入力と自然な音声(適用された効果)間で切り替えることができます。


Discordの設定

Discord で効果を機能させることは、3つのステップのプロセスです。

ステップ1 – 仮想マイクを設定します

仮想マイクを介してルーティングする音声チェンジャーはここで機能します。VoxBoosterは、物理マイクのようなデバイスマネージャーとアプリ設定に表示される標準のWindows仮想マイクをインストールします。VoxBooster アプリケーションを開き、ロボット/シンセプリセットをロードし、仮想マイクがアクティブであることを確認します。

ステップ2 – Discord入力デバイスを設定します

Discordを開き、ユーザー設定に移動し、音声とビデオに移動します。入力デバイスの下で、VoxBooster 仮想マイク(または音声チェンジャーが作成する仮想デバイス)を選択します。入力感度テストを実行して、Discordがオーディオを受け取っていることを確認します。

ステップ3 – テストして調整します

実際のマイクに話しかけてください。モニターモードがオンになっている場合はヘッドフォンで処理された音声が聞こえ、コール内の他の人が効果を聞きます。音声が処理されすぎたり、理解するのが難しいほどロボット的に聞こえる場合は、リング変調の強度を減らし、ローパスフィルターのカットオフを少し上げてください。完全な美的忠誠度より知識性が重要です。

TTS モードの場合、プロセスは同じですが、VoxBooster TTSパネルにテキストを入力し、合成音声が自動的に仮想マイク経由で再生されます。


OBSとストリーミング用のセットアップ

OBSはシステムオーディオルーティングからオーディオを読み取るため、セットアップはDiscordとは少し異なります。

マイクロフォンソースとして使用

OBSで仮想マイクをオーディオ入力キャプチャソースとして追加します。目的のトラック(ストリーム出力の標準はトラック1、生の音声を別のトラックにしたい場合はローカル録音用の別のトラック)にルーティングします。より多くのクリーンアップを望む場合はOBS組み込みノイズ抑制フィルターを適用しますが、優れた音声チェンジャーはすでにそれを処理しています。

リアルタイムモニタリング

OBSオーディオ設定で、監視デバイスをヘッドフォンに設定し、仮想マイクソースで「監視と出力」を有効にします。これにより、ストリームが受信しているものを聞くことができ、合成音声処理チェーン内の予期しないアーティファクトをキャッチするために重要です。

実用的なヒント:あなたのコミュニティの友人でストリーム前の短いテストを実施します。ホーキングスタイルの音声は狭い知識性ウィンドウに位置しています。リスナーは較正するためにいくつかの文を聞く必要があり、その後それはクリックします。冷たく始まるストリームはしばしば最初の30秒間人々を混乱させ、クリッププラットフォームの保持に重要です。


このエフェクトはアンチチート安全ですか?

正直な答えは、あなたが適用する効果ではなく、音声チェンジャーが内部でどのように機能するかによります。

Easy Anti-Cheat、BattlEye、Riot’s Vanguardなどのアンチチート システムは、コード注入またはメモリ操作の兆候についてカーネルレベルのアクティビティを監視します。彼らはあなたのオーディオパイプラインそのものを監視していないが、いくつかの音声チェンジャーソフトウェアはカーネルドライバーを使用するか、誤検知をトリガーできる方法でオーディオシステムプロセスに注入します。

VoxBoosterはWindows WASAPI オーディオAPIを直接使用しています。カーネルドライバーなし、ゲームプロセスへの注入なし。作成される仮想マイクは、通常のデバイスドライバースタック経由で登録される標準のWindows オーディオデバイスです。このアプローチは、アンチチート環境に対して検証可能に安全です。異なるツールを使用している場合、WASAPI またはユーザーモードオーディオアプローチを具体的に文書化しているかどうかを確認してください。


最新のオーディオでのDECtalkレガシー

DECtalkは1つの有名な科学者の声ではありませんでした。1980年代と1990年代には、電話カスタマーサービスシステム、アクセシビリティツール、および初期コンピューティングアプリケーション向けに広く展開されたシステムでした。Perfect Paul、Beautiful Betty、Huge Harryなどの音声は、不本意な文化的アーティファクトになりました。

音楽プロデューサーは数十年間DECtalkスタイルの合成をサンプリングして操作しています。初期のチップミュージックとデモシーン作曲家が使用していました。アーティストDaft Punkは、ボコーダーとシンセボイス美学を中心に、部分的に全体的な美学を構築しました。Portal ゲームのGLaDOS音声は、DECtalkが定義するのに役立つ合成音声の系統から由来しています。

2023年、オリジナルDECtalkエンジンの完全なオープンソース実装がGitHubでリリースされ、特定の音響プロファイルに対する関心を再燃させました。オーディオエンジニアと音楽プロデューサーが本物のフォルマント合成に興味を持つ場合、それはオリジナルの音への最も直接的なルートのままです。他のすべての人にとって、現代的なTTSエンジンは上記で説明されるDSP チェーンで、はるかに少ない摩擦に驚くほど近づきます。


このワークフローにおけるVoxBoosterの役割

VoxBoosterは単一のアプリケーション内でこのワークフロー の両側を処理しています。音声チェンジャーエンジンは、ピッチ平坦化と電子テクスチャを処理するロボット/シンセプリセット付きで、リアルタイムでDSP効果チェーンを通じてマイクを処理します。テキスト音声パネルでは、テキストを入力して仮想マイク経由で話させることができます。ライブスピーチが実用的でないシナリオをカバーしています。

価格ページには各プランに含まれるものに関する詳細が含まれており、支払い情報を入力することなく3日間の無料トライアルですべてをテストできます。アンチチート対応ゲーミング使用の場合、WASAPIルーティングはプレミアム追加ではなく基本セットアップの一部です。

サウンドボードクリップと組み合わせている場合(例:参照またはイントロサウンドとして実際のDECtalkオーディオのクリップを再生)、soundboard documentationホットキーバインディングとOBSルーティングをカバーしています。


関連する設定の読み

ロボット合成音声の方向があなたを興味づけている場合、いくつかの関連する設定があなたのツールキットに持つ価値があります:


よくある質問

スティーヴン・ホーキング音声チェンジャーとは何ですか?

ホーキングがDECtalkスピーチシステム経由で使用していた単調でロボット的な合成音声を複製するソフトウェアを指しています。ピッチ補正、軽いローパスフィルター、および自然な声の抑揚を除去するために軽いフォルマント平坦化を備えたテキスト音声エンジンを組み合わせることで、これを近似することができます。

スティーヴン・ホーキングはどのような音声合成器を使用していましたか?

ホーキングはPerfect Paulという音声プリセットを実行していたDECtalkベースのスピーチシンセサイザーを使用していました。ハードウェアはその後ソフトウェア実装に置き換えられましたが、彼の要望により音声プロファイルが保持され、リスナーが彼の特徴的な音を認識し続けることができました。

ホーキングのようなロボット的なテキスト音声を取得するにはどうすればよいですか?

任意のTTSエンジンを、ピッチ変動を平坦化(イントネーション範囲を低減)し、4~6kHzを超える軽いローパスフィルターを適用し、非常に軽い電子ハム音またはフォルマント狭窄を追加し、音量を正規化する音声効果チェーンを通して実行します。結果は自然な音声と純粋なサイン波音の間に位置します。

Discordでスティーヴン・ホーキングボイスを使用できますか?

はい。VoxBoosterのようなツールを使用してTTS出力を仮想マイク経由でルーティングし、DiscordSettings で仮想マイクを選択します。TTSパネルにテキストを入力すると、Discordはライブマイク からのように合成オーディオを受け取るため、すべてのサーバーまたはコールで機能します。

スティーヴン・ホーキング音声の再作成は敬意を持った行為ですか?

トリビュート、教育、またはエンターテイメントのための合成音声の情報提供的またはクリエイティブな使用は広く受け入れられています。機密な話題で彼に虚偽の言葉を入れたり、本当の発言と混同される可能性のある方法での使用を避けてください。声自体は技術的なアーティファクトであり、彼の医学的状態の表現ではありません。

VoxBoosterはロボットやシンセボイス効果を持っていますか?

VoxBoosterはリアルタイムTTSパネルとロボットや単調なプリセットを含む音声効果のセットを含みます。テキストを入力して仮想マイク経由で話させるか、ライブマイクに効果を適用してイントネーションを平坦化し特徴的な電子テクスチャを追加できます。

このエフェクトの音声チェンジャーとテキスト音声の違いは何ですか?

音声チェンジャーはライブマイク入力をリアルタイムで処理してDSP効果を適用します。TTSは入力したテキストから音声を生成します。ホーキングスタイルの音声には、TTSがより正確です。なぜなら、元々はTTSシステムであったからです。両方を組み合わせることで柔軟性が得られます:精密性にはTTS、ライブ会話には音声チェンジャー。


結論

スティーヴン・ホーキング音声チェンジャーの質問は、音声効果の世界で最も技術的に興味深いコーナーの1つとなっています。自然な声にフィルターを適用するほとんどのキャラクターボイスリクエストとは異なり、ホーキング音は既に1980年代のハードウェアで実行されている数学的声道モデルの産物から一から合成されていました。それを再現することは、あなたが聞いているものを知っている程度に少なくともフォルマント合成を理解し、それからモダンツールを使用してこれらの同じ音響プロパティを近似することを意味します。

DECtalkの「Perfect Paul」音声は、その程度の尊敬と理解に値する本物の音声歴史の一部です。トリビュートプロジェクトを構築している場合でも、クリエイティブコンテンツの合成音声の美学を探索している場合でも、または単に歴史上最も有名なスピーチシンセサイザーがどのように実際に機能したかについて興味がある場合でも、TTS プラス軽いDSP効果の組み合わせにより、驚くほど近づきます。

実用的なセットアップのために、VoxBoosterは複雑なオーディオルーティング設定を必要とせずに、単一の仮想マイク経由でTTS出力とリアルタイム音声効果の両側を処理します。3日間の無料トライアルにより、コミットする前にワークフロー全体をテストできます。

VoxBoosterをダウンロード – 3日間の無料トライアル、開始に支払い不要。

VoxBoosterを試す — 3日間無料。

リアルタイム音声クローン、サウンドボード、エフェクト — 会話するすべての場所で。

  • カード不要
  • ~30msのレイテンシ
  • Discord · Teams · OBS
3日間無料で試す