アクセシビリティTTS向け音声クローニング:デバイス用パーソナルボイス

アクセシビリティボイスクローニングとパーソナルボイスTTSが、ALS、喉頭摘出、AACユーザーが自分の声をあらゆるデバイスで保存・使用するためにどのように役立つかを解説。

アクセシビリティTTS向け音声クローニング:デバイス用パーソナルボイス

アクセシビリティボイスクローニングは、数年の間に研究室から病院のベッドサイドへと移動しました。ALS、MND、喉頭摘出、またはその他の発話能力を徐々に侵食する状態を持つ人々にとって、自分の声(汎用的なロボット合成音声ではなく)をTTSデバイスやスマートフォンを通じて保存し、後で使用できるようにする能力は、もはや遠い可能性ではありません。今日利用可能であり、このガイドではその方法を説明します。

技術を明確に説明し、Apple Personal Voice、Acapela My-own-voice、VocaliD、ElevenLabs、VoxBoosterを含む主要なプラットフォームを比較し、タイミング、録音品質、AACデバイス統合に関する実践的なアドバイスを提供します。


主要なポイント

  • ボイスバンキングは早期に始めるべきです(発話の大幅な悪化前に)。最良のソース素材を確保するためです。
  • Apple Personal Voice(iOS 17+)は、サポートされている言語のユーザーに無料のデバイス上音声クローニングを提供します。
  • プロのAACプラットフォーム(Acapela、VocaliD)は、拡大補助コミュニケーションデバイス専用に設計された高品質モデルを提供します。
  • AI音声合成プラットフォーム(ElevenLabs、VoxBooster)はより速い処理時間とより柔軟なルーティングオプションを提供します。
  • クローンされた声はAAC機器、スクリーンリーダー、仮想マイク、Windows、iOS、Android全体のTTSアプリで使用できます。
  • 外科手術を前提とした選択的音声クローニング(例:がん治療のための喉頭摘出)も同様に有効であり、術前に計画すべきです。

アクセシビリティボイスクローニングとは何ですか?

アクセシビリティボイスクローニングは、特定の人物の録音に基づいてパーソナライズされたテキスト読み上げモデルを作成するためのAI音声合成の適用です。結果として得られるモデルにより、その人はテキストを入力し、汎用的な合成音声ではなく自分に似た声で読み上げてもらうことができます。

これが重要な直接的な人間的理由があります:アイデンティティです。人の声は個性、地域のアクセント、感情的な色彩、そしてその音に基づいて築かれた数十年の人間関係を運んでいます。ある状態が発話する物理的能力を奪うとき、コミュニケーションの喪失に加えて声のキャラクターを失うことは、複合的な悲しみです。クローニングはそのアイデンティティ層を保存・復元する方法を提供します。

この基盤となる技術は劇的に変化しました。以前の連接型ボイスバンキングシステムは音素録音をつなぎ合わせていました(機能的ですが、新しい文に対してはロボット的)。現在のニューラルTTSモデルは声の音響的特性を全体的に学習し、自然なプロソディ、イントネーション、さらには感情的な色彩を持つ任意のテキストを合成できます。

アクセシビリティTSS音声クローニングを使用する人は誰ですか?

ALS・MND患者

筋萎縮性側索硬化症(ALS)と運動ニューロン疾患(MND)は、ボイスバンキングの需要を引き起こす最も一般的な診断です。疾患は異なる速度で進行しますが、球麻痺発症のALSは診断後数ヶ月以内に発話に影響を与える可能性があります。臨床医と慈善団体は診断後できるだけ早く(理想的には発話がまだ100%明瞭で、顕著な疲労や発音不明瞭がない間に)音声録音を始めることを一貫して推奨しています。

Stephen Hawking Communication CentreやMotor Neurone Disease Associationなどの組織は、このプロセスへのガイダンスと時に財政的支援を提供しています。

喉頭摘出患者

喉頭全摘出術(喉頭の外科的除去、最も多くの場合は喉頭がんまたは甲状腺がんによる)は、自然な声の完全な喪失をもたらします。ALSとは異なり、これは通常予定された手術であるため、術前の音声録音は可能であり、強く推奨されます。手術前に声を録音した患者は、術後すぐに電気喉頭や気管食道プロテーゼだけではなく、クローンされたTTS音声を使用できます。

これらの患者にとって、音声クローニングは長期プロジェクトではなく、明確な締め切りのある特定の術前タスクです。

痙攣性発声障害とパーキンソン病

痙攣性発声障害は声帯の不随意痙攣を引き起こし、発話を力んで不安定にします。パーキンソン病はしばしば低声症(非常に静かで柔らかい発話)と発音障害を引き起こします。両方の集団は、発話によるコミュニケーションを辛そうに続けるよりもTTSの補完または代替を好む段階に達することがあります。

発話がまだ比較的明瞭な間に録音することが依然として最良の戦略です(低声症のパーキンソン声は、進行前の録音よりも弱いモデルを生成します)。

選択的状況

TTS使用のための音声クローニングがすべて医療診断から始まるわけではありません。まだボイストレーニングを受けていないトランスジェンダーの人々は、自然な声が発達する間に好みのジェンダーのTTS出力としてクローンされた声を使用することがあります。アクセス可能なオーディオブックやAIナレーターバージョンの声を作成したい公人は、スケーラブルなTTS制作にクローニングを使用します。声に大きく依存する教師やコミュニケーターは予防措置として声をバンキングすることがあります。

Apple Personal Voice:全員向けのデバイス上クローニング

Appleは2023年にiOS 17とmacOS SonomaでPersonal Voiceをアクセシビリティ機能として導入しました。サブスクリプション不要で完全にデバイス上で処理されます。現在、英語(US、UK、オーストラリア、インド)、スペイン語、フランス語、ドイツ語、イタリア語、韓国語、北京語、広東語、日本語で利用可能です。

Apple Personal Voiceの設定方法

  1. 設定 > アクセシビリティ > パーソナルボイスに移動します。
  2. パーソナルボイスを作成をタップし、セットアップの指示に従います。
  3. 約150のランダムなフレーズを声に出して読むよう求められます(広い音声範囲をカバーするために各セッションで同じフレーズが使用されます)。
  4. 各セッションは好きな長さにできます。録音は進捗を保存するため、数日に分けて完了できます。
  5. 録音が完了したら、デバイスが充電中に一晩かけてモデルを処理します。
  6. 設定 > アクセシビリティ > ライブスピーチを有効にし、パーソナルボイスを選択すると、コントロールセンターからクローンされた声でタイプして話すことができます。

ライブスピーチ統合により、パーソナルボイスはFaceTimeコール、電話コール、システムオーディオを使用する他のすべてのアプリで利用可能です(スタンドアロンのTTSアプリだけではありません)。

Appleのデバイス上処理は重要です:音声はデバイスを離れず、サブスクリプション料金はなく、モデルはiCloudバックアップのためにApple IDに紐付けられています。消費者向けのデバイス上システムとしては印象的な品質ですが、プロのAACプラットフォームの出力レベルには達していません。

制限事項

  • 英語および限られた言語セットのみ(徐々に拡大)。
  • iPhone 12以降またはApple Silicon Macが必要。
  • APIアクセスなし(非Appleアプリに声を転送できない)。
  • 150フレーズはアクティブ録音で約20〜30分かかります。疲れた話者は数日に分ける必要があるかもしれません。

AACデバイスとプロのボイスバンキングプラットフォーム

拡大補助・代替コミュニケーション(AAC)デバイスは、専用のハードウェア(Tobii Dynavox、PRC-Saltilloデバイス)からiPadやWindowsタブレットのソフトウェアまで多岐にわたります。最新のAACシステムの多くは、ソフトウェア層を通じてカスタム合成音声を受け入れます。

Acapela My-own-voice

Acapela GroupのMy-own-voiceサービスは、最も古く最も広く使われているプロのボイスバンキングプラットフォームの1つです。主要なAACデバイスメーカーとのパートナーシップにより、AACワークフローを中心に設計されています。

プロセス: ユーザーはウェブプラットフォームを通じてフレーズのセット(通常50〜200)を録音します。Acapelaのチームがモデルを処理し、Windows にインストールされてSAPI5音声として出力されるAcapela Voice技術と互換性のある音声ファイルを提供します(Tobii Dynavox Communicator、Grid 3などのほとんどのAACソフトウェアとネイティブ互換)。

強み: 直接のAAC機器とソフトウェア統合、ALS/MNDケース専用サポート、高品質の出力、SLP(言語聴覚士)ガイダンス利用可能。

制限事項: サブスクリプションまたは音声ごとの価格設定(無料ではない)。言語サポートは様々。

VocaliD

VocaliDは独特のアプローチを取っています:もし人が自分の声の使用可能な音声が少なすぎる場合、VocaliDは既存の録音をVocaliD HumanVoice Bank(この目的のために音声録音を提供するドナー)の「サロゲート」声とブレンドします。ブレンドにより、明瞭な発話が数分しか残っていない場合でも患者から一部の音響的特性を保存できます。

プロセス: できることを録音します(劣化した発話も有用)。VocaliDのシステムがブレンドされた声を作成します。Windows AACソフトウェア用のSAPI5互換音声として提供されます。

強み: 発話の大幅な悪化がある場合でも使用可能。音声ドナーコミュニティが大きい。AAC専用に設計されています。

制限事項: サブスクリプションモデル。ブレンドされた結果は早期録音からのクリーンなクローンよりも「純粋にあなたの声」ではない。USを中心としたサポートですが、より広い言語カバレッジが拡大中。

プラットフォーム比較

プラットフォーム最適な用途最小録音量出力形式コストデバイス上?
Apple Personal VoiceiPhone/Macユーザー、iOSライブスピーチ約150フレーズ / 20分Appleライブスピーチ無料はい
Acapela My-own-voiceAACデバイス、プロのSLPワークフロー50〜200フレーズSAPI5(Windows)有料いいえ
VocaliD残存発話が限られている、ドナーブレンド任意の量SAPI5(Windows)有料/サブスクいいえ
ElevenLabs高速処理、アプリ開発者約1分の音声API / ウェブプレーヤー無料枠 + 有料いいえ
VoxBoosterWindowsリアルタイムルーティング、柔軟なアプリ数分の音声仮想マイク有料(3日間トライアル)いいえ

アクセシビリティTTSのためのElevenLabs

ElevenLabsはアクセシビリティアプリの開発者向けの主要プラットフォームとなっています。主な理由はAPI-firstの設計と高速な音声クローニング(Professional Voice Cloningには少なくとも30分のクリーンな音声が必要。Instant Voice Cloningは最低1分で機能しますが、品質は低い)です。

アクセシビリティの使用事例:

  • クローンされた音声出力を話すためにElevenLabs APIを呼び出すiOSまたはAndroid用カスタムTTSアプリ。
  • 生産性ツールへの統合(Notionボイスリーダー、メールリーダー)。
  • 保存された声を使用したオーディオブック制作。
  • クリエイターの声が変化または失われたアクセシブルなビデオコンテンツ。

制限事項: 音声はElevenLabsサーバーで処理されます(デバイス上ではない)。一部のユーザーにとってプライバシーの懸念となります。出力は主にAPI呼び出しまたはウェブプレーヤーを通じて行われます(Windows AACソフトウェアへの接続にはカスタムブリッジまたは仮想マイクルーティングが必要)。

アクセシブルなTTSルーティングへのVoxBooster活用

VoxBoosterは医療用AACのために特別に構築されているわけではありませんが、アクセシビリティ音声クローニングパイプラインで特定の実用的な役割を果たします:Windows上の柔軟なルーティングです。

シナリオ:ElevenLabsからのクローンされた声、微調整されたAI音声モデル、またはその他の合成プラットフォームがあります。ただし、その音声出力をビデオ通話、Windowsディクテーションインターフェース、またはSAPI5音声ではなくマイク入力を期待するAACソフトウェアパッケージに転送する必要があります。

VoxBoosterの仮想マイク出力は、標準のWindowsオーディオ入力デバイスとして登録されます。マイクを受け入れるすべてのアプリケーション(Zoom、Teams、Discord、Windows音声認識、OBS)は、ライブマイクフィードかのようにクローンされた声を受信できます。

実践的なワークフロー:

  1. VoxBoosterで声モデルをトレーニングまたはアップロードします(短い録音セッション、数分の音声)。
  2. テキストをタイプまたはディクテートします。VoxBoosterはクローンされた声モデルを通じてそれを合成します。
  3. 任意のWindowsアプリでVoxBoosterをマイク入力として選択します。
  4. クローンされた声がリアルタイムで受信アプリに表示されます。

これはSAPI5統合が利用できないビデオ通話とリアルタイムコミュニケーション、および別々のソフトウェアスタックなしに音声エフェクトとTTSルーティングの両方を処理する単一ツールを望むWindowsユーザーに特に有用です。

障害関連の声の変化を持つリアルタイムコミュニケーションに特に焦点を当てたユーザーには、障害者向け音声チェンジャーのアクセシビリティのガイドが、補助的なコンテキストでリアルタイム音声ツールがどのように使用されるかの全体像をカバーしています。

選択的手術のための声の保存:術前チェックリスト

喉頭摘出またはその他の声を永続的に変えるプロセスに直面している場合、術前の音声録音は明確な優先事項です。実践的なフレームワークを以下に示します。

手術の少なくとも4週間前:

  1. AACとボイスバンキングに詳しい言語聴覚士に連絡します。 彼らはあなたの言語とコミュニケーションスタイルに合ったプラットフォームの選択とフレーズセットをガイドできます。
  2. ハードウェア(Appleエコシステム対Windows AACデバイス)、予算、言語に基づいてプラットフォームを選択します。 Acapela My-own-voiceとVocaliDには確立された臨床経路があります。Apple Personal VoiceはiPhoneユーザーに実用的です。
  3. 静かな部屋でUSBコンデンサーマイクまたは口から15〜20cm離したスマートフォンで録音します。 疲れているとき、病気のとき、またはアルコール摂取後の録音は避けてください(声の品質が劣化し、その劣化をモデルが保存します)。
  4. まず個人的なフレーズを録音します: あなたの名前、家族の名前、一般的な挨拶、あなたの役職、緊急フレーズ。これらはあなたが自分らしく聞こえたいと最も思う文章です。
  5. プラットフォームのフレーズセットを完全に完了します。 ランダム化された音声カバレッジは理由があります。部分的な録音はより弱いモデルを生成します。

手術後:

  • クローンされた声を使用するように選択したAACまたはTTSプラットフォームを設定します。
  • SLPと協力してAACデバイスまたはWindows TTSワークフローに統合します。
  • 元の録音をアーカイブとして保持します(クローニング技術は急速に改善しており、2〜3年後に同じデータからより良いモデルがトレーニング可能になるかもしれません)。

スクリーンリーダーのカスタムTTS

自分の声を強く好む(または特定の理由でクローンされた声を必要とする)視覚障害のユーザー(例:キャラクターボイスを維持しているVTuber、ジェンダー肯定のTTS出力を望むユーザー)は、Windows上のスクリーンリーダーでクローンされた声を使用できます。

NVDAとSAPI5: NVDA(NonVisual Desktop Access)は最も多く使われている無料スクリーンリーダーの1つで、SAPI5音声合成をサポートしています。SAPI5としてエクスポートされたクローンされた声(Acapela、VocaliD)はNVDAの合成器設定のオプションとして表示されます。インストールは通常、単一のMSIまたは実行可能ファイルのインストール後、NVDA設定から音声を選択するだけです。

JAWS: JAWSはSAPI5をサポートし、独自のVocalizer Expressiveエンジンも持っています。ボイスバンキングプラットフォームのSAPI5音声と互換性があります。

ナレーター(Windows組み込み): Windowsナレーターは設定 > ナレーター > 音声の選択からSAPI5音声をサポートします。NVDAやJAWSほど柔軟ではありませんが、すべてのSAPI5音声で動作します。

仮想マイクブリッジ(VoxBoosterルート): 柔軟な音声選択がないがディクテーション用のマイク入力を許可するスクリーンリーダーやアプリには、VoxBoosterの仮想マイク出力が回避策を提供します(クローンされた声はマイク入力パスを通じて任意のアプリに入ります)。

アクセシビリティのための音声クローニングの倫理

このトピックは誠実な議論に値します。音声クローニング技術は強力であり、そのアクセシビリティ応用は真に有益ですが、正当な理由に関わらず、同意なく他人の声を使用することは有害です。2つの点を直接述べる価値があります。

同意と所有権: クローンされたアクセシビリティ音声は、クローンされた人がモデルを誰が使用できるか、どのデバイスで、どのような条件下で使用できるかについて情報に基づいた選択をした場合に倫理的に根拠があります。家族や介護者は、その人の明確な同意と参加なしに、他人の声のクローンを依頼すべきではありません。

死後: 一部の家族は、故人の声モデルを記念または治療目的で使用することを尋ねます。これは音声クローニングの記念倫理の記事で探求される別の微妙な問題です。アクセシビリティコンテキストは特に生きているユーザーのためのものです(決定は彼らのものであるべきです)。

医療機器の境界: AAC音声はコミュニケーションツールであり、ディープフェイクではありません。その人が許可していないコンテキスト(金融取引、法的宣言、ソーシャルメディア)でクローンされたアクセシビリティ音声を使用することは、これらのツールへの信頼を広く損なう乱用です。

これらの問題のより広い議論については、2026年の音声クローニング倫理に関する記事をご覧ください。

始め方:あなたに合ったプラットフォームはどれですか?

状況推奨される出発点
iPhoneまたはMacユーザー、英語話者、限られた予算Apple Personal Voice(無料、デバイス上、良質)
ALS/MND診断、Tobii DynavoxまたはGrid 3使用Acapela My-own-voice(SLPサポート付き、SAPI5出力)
発話の大幅な悪化がすでに存在するVocaliD(ドナーブレンドアプローチは限られた音声で機能)
アクセシビリティアプリの開発者ElevenLabs API(最速の統合、強力なドキュメント)
柔軟な通話/会議ルーティングを必要とするWindowsユーザーVoxBooster(仮想マイク出力、カーネルドライバ不要)
喉頭摘出前、任意のプラットフォームApple Personal VoiceまたはAcapelaから始める。手術4週間前に録音

決定は排他的ではありません。録音の努力が重複し、冗長なモデルを持つことが賢明な予防策であるため、多くのユーザーは複数のプラットフォームで声をバンキングします。

内部リソース

ゲームまたはストリーミングのバックグラウンドから来て、音声クローニングを初めて探索している場合、AIで声をクローニングする方法の入門記事が技術を基礎から解説しています。ALSや同様の診断のボイスバンキングの具体的な医療コンテキストについては、医療患者向けボイスバンキングの詳細な記事が臨床ワークフロー、プラットフォーム選択、SLP協力についてさらに詳しく説明しています。

よくある質問

アクセシビリティボイスクローニングとは何ですか?

アクセシビリティボイスクローニングはAIを使用して、音声録音から人の声の合成バージョンを作成します。ALS、喉頭摘出、またはその他の発話に影響する状態を持つ人々は、クローンされた声をAACデバイス、スクリーンリーダー、またはTTSアプリを通じて使用し、自分の声のように聞こえる声でコミュニケーションを続けます。

Apple Personal Voiceには何件の音声サンプルが必要ですか?

Apple Personal Voice(iOS 17およびmacOS Sonoma以降)では、約150のフレーズを声に出して読む必要があります。プロセス全体で15〜30分かかり、モデルはデバイス上でトレーニングされるため、声のデータがiPhoneやMacから外に出ることはありません。

すでに声を失った人に音声クローニングは機能しますか?

声を失う前に録音が存在する場合のみ機能します。そのため、ALS、MNDまたはその他の進行性疾患の診断後、できるだけ早くボイスバンキングを開始することが強く推奨されます。VocaliD、Acapela My-own-voice、および同様のサービスは、20分から数時間の事前録音音声からモデルを構築できます。

アクセシビリティのための音声クローニングは保険でカバーされますか?

一部のAACデバイスおよび関連ソフトウェアは、米国ではMedicare、Medicaid、または民間保険、英国ではNHSの補助機器スキームを通じて資金援助の対象となります。クローニングサービス自体は多くの場合、別のコストです。ALS AssociationやMND Associationなどの組織が助成金を提供することもあります。必ずAACを専門とする言語聴覚士に相談してください。

ボイスバンキングと音声クローニングの違いは何ですか?

ボイスバンキングは通常、新しい文を生成するために音素的に繋ぎ合わせるフレーズのライブラリを録音することを指します(連接的アプローチ)。音声クローニングは録音からニューラルモデルを構築し、元の声の自然に聞こえるバージョンで任意のテキストを生成できます。現代のプラットフォームはこの境界を曖昧にしていますが、クローニングは一般的に新しい文に対してより自然に聞こえます。

クローンした声をスクリーンリーダーやWindowsで使用できますか?

一部のプラットフォームはクローンされた声をSAPI5(Windows)またはNVDA互換の音声合成として公開し、任意のスクリーンリーダーまたはTTS対応アプリケーションで使用できます。互換性はプロバイダーによって異なります。VoxBoosterは仮想マイクを通じてクローンされた声を任意のアプリにルーティングできます。直接SAPI5統合が利用できない場合の柔軟な回避策です。

アクセシビリティ用に声をクローニングするのにどのくらい時間がかかりますか?

現代のAI音声合成では、わずか20〜30分のクリーンなソースオーディオから数分から数時間で使用可能なモデルが準備できます。Apple Personal Voiceはデバイス上で一晩かけて処理されます。AAC向けのエンタープライズプラットフォームは品質レビューのために通常1〜3営業日かかります。クリーンな音声が多いほど、結果が自然になります。

まとめ

アクセシビリティボイスクローニングは、AI技術が意味のある人間中心の価値を提供する最も明確なケースの1つになりました。ALSを抱えて声が変わる前にバンキングしている人であれ、喉頭摘出を準備している人であれ、家族のAACソフトウェアの設定を手伝っている介護者であれ、ツールはここにあり、プロセスは文書化されており、結果は人間のアイデンティティの基本的な部分を保存することです。

実践的なアドバイス:早く始め、クリーンな音声を録音し、デバイスのエコシステムに合ったプラットフォームを選択し、できれば言語聴覚士と協力してください。Personal VoiceはiPhoneとMacユーザーに無料の出発点として最適な答えです。AcapelaとVocaliDはAAC機器統合のプロフェッショナルな選択肢です。ElevenLabsは開発者とアプリビルダーのユースケースをカバーします。VoxBoosterは他のツールがアプリケーションに直接接続しない場合のWindowsルーティングのギャップを埋めます。

パーソナルボイスTTSがWindows環境でどのように見えるかを探索したい場合(クローンされた声が仮想マイクを通じて通話、ストリーム、アクセシビリティソフトウェアにどのようにフィードされるかを含む)、VoxBoosterはクレジットカード不要の3日間無料トライアルを提供しています。作成した声モデルはあなたのものであり、処理はローカルで実行され、カーネルドライバのインストールは不要です。

声の保存の臨床的側面については、次に医療患者向けボイスバンキングの詳細なガイドをお読みください。

VoxBoosterを試す — 3日間無料。

リアルタイム音声クローン、サウンドボード、エフェクト — 会話するすべての場所で。

  • カード不要
  • ~30msのレイテンシ
  • Discord · Teams · OBS
3日間無料で試す