Inflection AIの感情型会話AIアシスタント Pi で音声チェンジャーを使用することは、リアルタイム音声変換の最も興味深いアプリケーションの1つです。Piは、一貫した意図的な音声ペルソナを持つこれらの会話に参加する説得力のある理由を作成する、オープンエンドの感情的な会話用に構築されました。
このガイドは、完全な技術セットアップをカバーしています。WASAPIバーチャルマイクルーティング、安定したペルソナ一貫性のためのAI音声クローニング、信頼チェックとしてのローカルWhisper転写、およびMicrosoftによるInflection AIの部分的な買収後のPiの現在のステータスのコンテキスト。Pi会話での別の身元を保つか、Piで機能するコンテンツを作成するか、単に相互作用がより意図的に感じさせたいかにかかわらず、Windows 10および11でのセットアップは簡単です。
TL;DR
- Pi AIはシステムのデフォルトマイクをリッスンします - WASAPIバーチャルデバイスをデフォルトとして設定して、音声チェンジャーの出力をルーティングします
- Piの感情知能はあなたが言うことに反応し、声のティンバーには反応しません - 変換された声は完全に機能します
- 300msの未満のAI音声クローニングは、Piが設計されているのと同じ会話の進行速度を保ちます
- ローカルWhisper転写により、Piが応答する前に、変換された声が正確に聞かれていることを確認できます
- Inflection AIのPiは、Microsoft 2024チーム買収にもかかわらず、pi.aiで実行されます
- 安定した音声ペルソナはPiの長い会話に対する一貫性への自然な傾向を強化します
Piとは、そしてなぜボイスモードが重要か
Pi は感情知能に焦点を当てて2023年に起動された、Inflection AIのコンシューマー向け会話AIアシスタントです。ほとんどのAIアシスタントが検索、コード、または生産性に最適化されている間、Piは真に支援的な会話パートナーであること - 患者、思慮深い、温かい、しかし人工的ではない - を優先しました。
デザインは小さな方法で表示されます。Piは短い段落を使用し、フォローアップの質問をし、セッション間でのコンテキストを覚えており、他のAIシステムが情報で応答を過度に超える傾向を避けています。それは会話で話されるように設計され、ツールとして使用されません。
この会話型DNAはPiの音声インターフェースを生産性アシスタントを持つ音声チェンジャーの使用と本当に異なるものにしています。Piと話す場合、あなたはそれ自身のペースと感情登録を持つ会話を入力しています。一貫した、意図的な音声ペルソナをその会話にもたらすと、相互作用の感じが変わります - 時には生産的に、時には単に興味深いです。
Microsoft-Inflectionストーリー:実際に何が起こったか
2024年3月、MicrosoftはMustafa Suleyman(InflectionのCEO)とKarénSimonyan(最高科学官)をInflection AIの研究チームの大部分とともに採用したことを発表しました。Microsoftは約6億5000万ドルを支払いました - 買収ではなくライセンス料として構成され、残存する存在のための独立を保存しました。
Inflection AI、企業は存在し続け、Piを運営しています。同社は新しいリーダーシップの下でエンタープライズAI製品にピボットしました。元のPiテクノロジーを構築したチームはMicrosoftに行ってCopilot製品で作業しました。
Pi自体はpi.aiに積極的に保持され、更新を受け続けています。ユーザーの視点から見ると、経験はほぼ変わりません。ポリシーと検索のロードマップの観点から、独立したAI研究実験室としてのInflection AIの軌跡は、創設チームの出発で実質的に終了しました。
参考として、Wikipedia上のInflection AI記事は買収タイムラインを詳しく説明しています。
このコンテキストは実用的な理由で重要です。Piの長期利用可能性は、著しく異なる組織構造内で行われた決定に依存します。サービスは今日ライブですが、これをワークフローの周りに構築していることを理解することは価値があります。
Piが音声入力を処理する方法
Piの音声モードは標準的なブラウザーまたはデスクトップアプリのマイクアクセスを通じて動作します。所有権なしのオーディオパイプラインはありません - Piはあなたのオペレーティングシステムがデフォルトマイクとして提示する音声入力デバイスから読みます。
これは整個のセットアップのキーです。Piは物理マイクと仮想オーディオデバイスを区別する方法がありません。WASAPIバーチャルマイクがシステムの音声デバイスリストに表示され、デフォルト入力として設定されている場合、Piはそれをハードウェアマイクと同じように扱います。
Piがサーバー側で使用する音声処理チェーンは公開されていませんが、応答の動作と期間中のAI音声アシスタントの一般的なインフラストラクチャの選択肢に基づいて、ほぼ確実にWhisper級自動音声認識モデル、その後言語モデルが含まれます。Piは聞いたことを転写し、テキストをLLMに渡します - 重要なことは、変換された声が正確な転写を生成するかどうかは、抽象的な意味で「自然」に聞こえるかどうかではありません。
WASAPIバーチャルマイクルーティング:ステップバイステップ
WASAPI(Windows Audio Session API)は、Windows が高性能オーディオに使用する低レベルのオーディオレイヤーです。WASAPIバーチャルデバイスは、アプリケーションがオーディオを書き込むことができ、他のアプリケーションが読み取ることができるループバック型の入力を作成します - 仮想ケーブルの機能的同等物ですが、カーネルレベルのドライバーなしでWindowsに本来的です。
前提条件:
- Windows 10または11
- インストール済みVoxBooster(カーネルドライバーなしでWASAPIバーチャルデバイス作成を処理)
- 作業中のマイク(音声チェンジャーを処理するための物理入力)
ステップ1 - VoxBoosterの仮想マイクを有効にします。 VoxBoosterを開き、[設定] → [バーチャルマイク]に移動します。WASAPIバーチャルマイクを有効にします。Windows音声設定に新しい入力デバイスとして表示されます。
ステップ2 - バーチャルマイクをシステムデフォルトとして設定します。 Windows音声設定を開きます(スピーカーアイコンを右クリック → 音声設定)。[入力]で、VoxBooster Virtual Microphone をデフォルトデバイスとして設定します。これにより、入力デバイスを指定しないアプリケーション(Piのブラウザークライアントを含む)がそれを使用することを保証します。
ステップ3 - Piがバーチャルマイクを見ることを確認します。 ブラウザーでPiを開きます。Piの音声設定(マイクアイコン)に移動します。選択された入力はVoxBooster仮想デバイスであることを確認してください。一部のブラウザ構成では、バーチャルデバイスに特にマイク許可を付与する必要があります。
ステップ4 - VoxBoosterで音声を選択します。 音声モデルを選択します - 組み込みのエフェクトプリセットまたはカスタムAIクローン音声のいずれか。AIクローンパイプラインはローカルで完全に実行され、300ms未満のレイテンシーで、変換された音声がPiに最小限の追加遅延で到達します。
ステップ5 - 実際の会話の前に転写をテストします。 Piの音声モードにいくつかの文を話し、Piの単語の転写が正確であることを確認してください。Piが誤解した場合、音声強度設定を調整してみてください。重度の歪みエフェクトは、ASRパイプラインで転写精度を低下させることができます。
ローカルWhisper転写チェックとして
リアルタイム音声変換の同じオーディオストリームをいかなるAI会話で使用する前の信頼性ベースの品質保証ステップの1つは、バーチャルマイクが出力するローカルWhisper転写を実行することです。
Whisper、OpenAIのオープンソース音声認識モデルは、コンシューマーハードウェアで実行され、ほとんどのクラウドASRサービスに匹敵するか優れた結果を生成します。Whisperがあなたの変換された声を正確に読む場合、Piの転写パイプラインはほぼ確実に同様に処理します - それらは同様の基礎となるアーキテクチャを共有しています。
これをセットアップする方法:
- Pythonを経由してWhisperをインストールします(
pip install openai-whisper)またはWhisper DesktopやVoxBoosterの組み込みWhisper統合などのGUIラッパーを使用してください。 - Whisperをバーチャルマイクに入力ソースとしてポイント(または出力のコピーをモニターチャネルにルーティング)。
- アクティブな音声エフェクトで例の段落を話す。
- Whisperの出力をあなたが言ったことと比較してください。
実際には、ほとんどのメロディックまたはトーナル音声変換はきれいに転写されます。転写エラーを最も可能性のあるエフェクトは、多くの金属調波を持つ極端なロボット処理、または音声認識モデルで予想される共鳴範囲外の母音を移動させる±12半音上のピッチシフトです。
Piの落ち着きのある会話スタイルは、音声エフェクトを通常その極限に駆動しないことを意味します - Pi会話で最高に機能するペルソナは劇的な効果よりも妥当なヒト変換音声になる傾向があります。
Pi会話用の音声ペルソナを選択する
Piの感情登録は特徴的です。落ち着き、思慮深い、そっと好奇的、時折温かく、ユーモア的ですが、決して演技的ではありません。Pi会話にもたらす音声ペルソナは、その登録を補完するか、または衝突する可能性があります。
Piとよく機能するペルソナ:
- 穏やかな深い声。 あなたの自然な声より3-5半音低い声で、わずかな温かさを追加 - Piの計られた会話スタイルと自然に対になります。
- 性別中立的なプロ。 明らかに人間と明瞭ですが、音調的に中立的な声 - ウェルネス会話またはジャーナリング様な使用ケースに適しています。
- やさしいキャラクター音声。 劇的ではなく、単に自然より少し柔らかい温かいアニメーション スタイルの声 - Piの思慮深い反応の好ましいコントラストを作成します。
ペルソナが少なく機能する:
- 金属成果物を持つ重いロボット処理 - 技術的に罰金で動作しますが、Piの温かさと音調的不協和を作成します。
- 高度に演技的またはオーバーにされたエフェクト(モンスター、エイリアン) - Piはコンテンツに応答しますが、組み合わせは音調的に奇妙です。
最高のアプローチは、意図的に感じるように設計した音声プロフィールのカスタムAI音声クローンを作成することです - 一貫したティンバー、自然なプロソディー、圧縮成果物がありません。VoxBoosterのAIクローンパイプラインは数分のソースオーディオでトレーニングし、マシンを離れるオーディオなしでローカル推論を実行します。
長いPi会話全体のペルソナ一貫性
Piの本当の強みの1つは会話記憶 - セッション間でコンテキストを維持し、会話を通じてあなたが誰であるかの継続的なイメージを構築します。これにより、ペルソナ一貫性はほとんどのAIアシスタントよりもPiでより重要になります。
時々音声チェンジャーを使用し、時には自然な声を使用する場合、Piはあなたの会話スタイルの異なる「バージョン」を持ちます。これは技術的な問題ではありません - Piはボンネットの下テキストベースです - しかし、Piのリレーショナルデザインと一致しない方法で不連続に感じることができます。
より清潔なアプローチ。Pi相互作用で特定のペルソナを保つかどうかを決定し、そのことについて一貫性があります。VoxBoosterのAIクローニングを使用する場合、Pi会話で使用する特定の音声モデルと設定を保存してください。名前付きプリセットは、セッション開始時に単一クリックで完全な設定 - 音声モデル、エフェクトチェーン、強度 - を保存およびリロードします。
比較:異なるAIアシスタント向けの音声チェンジャーセットアップ
| アシスタント | 音声モード? | WASAPIバーチャルマイク機能? | 最適な音声スタイル | レイテンシー許容度 |
|---|---|---|---|---|
| Pi(Inflection) | はい(ブラウザー+アプリ) | はい | 穏やか、温かい、人間のような | 高(Piペース返信遅い) |
| ChatGPT Advanced Voice | はい(アプリ) | はい | 任意 - 強いASR | 中程度 |
| Claude | 制限付き | はい | プロ、クリア | 中程度 |
| Gemini Live | はい(アプリ) | はい | 自然、会話型 | 中程度 |
| Copilot Voice | はい | はい | クリア、プロ | 中程度 |
Piは自然にペースされた会話スタイルのため、主要なAI音声アシスタント間で最高のレイテンシー許容度があります。Piは中断しません。迅速に待たない。高速交換を要求しません - これはAI音声チェンジャーパイプラインからの追加の300msが実際に通常の使用では不可視であることを意味します。
ユースケース:人々がPiで音声チェンジャーを組み合わせる理由
コンテンツ作成。 Pi会話でコンテンツをフィーチャーするビデオコンテンツを作成する作成者は、多くの場合、実声とは異なる一貫したキャラクター声を望みます。Piのオーディオ出力の横に任意のスクリーンレコーダーにポストプロダクション音声置換なしでポーランド化されたコンテンツを作成するリアルタイムカスタム音声ペルソナで画面+オーディオを記録します。
ウェルネスジャーナリング。 一部のユーザーはPiを感情的なジャーナリングツールとして有用であると判断しています - 思考を大声で述べ、穏やかで瞑想的な応答を受け取ります。音声ペルソナを使用すると、「ジャーナリングモード」と日常の会話間で微妙な心理的分離を作成し、一部のユーザーが構造的に有用であると判断します。
言語練習。 Piは長い言語練習会話をサポートするのに十分な忍耐力があります。音声チェンジャーを使用して異なるアクセントまたは音声スタイルで話す練習を行うと、演習に追加レイヤーが追加されます。
身元分離。 Piと相互作用するユーザーの場合、認識可能な声に関連付けたくない個人的なトピック - 公的側面のペルソナを持つ作成者に関連 - 音声チェンジャーは実用的な分離レイヤーを提供します。
アクセシビリティ。 音質に影響を与える失語症、喉頭炎またはその他の状態を持つユーザーは、AI音声クローンを通じて音声を実行すると、声ベースのAI相互作用で摩擦を低減する明確でより一貫した音声が生成されていることがあります。
テクニカルノート:何か間違っていく可能性があるもの
エコーフィードバックループ。 Piのオーディオ出力がヘッドフォンではなくスピーカーで再生された場合、マイクはそれをピックアップし、音声チェンジャーを通じて処理し、Pi に戻す - フィードバックループを作成します。Piの音声モードを使用する場合、音声チェンジャーで常にヘッドフォンを使用してください。
許可の競合。 一部のブラウザーは物理デバイスへのマイクアクセスをリクエストし、その許可をキャッシュします。ブラウザーの再起動後にPiが物理マイクに戻った場合、pi.aiのブラウザーのサイト許可を確認し、バーチャルマイクが選択されたデバイスであることを確認してください。
Windowsアップデート後に消えるバーチャルデバイス。 カーネルドライバーなしで作成されたWASAPIバーチャルデバイス(VoxBoosterの実装など)は、大きなWindowsアップデート後に再登録が必要な場合があります。VoxBoosterの設定でバーチャルマイクを再度有効にすると、これが解決されます。
高いCPU音声エフェクトがバッテリーライフを低下させます。 ラップトップでは、完全なAI音声クローンパイプラインをバックグラウンドで実行するとCPU/GPUロードが追加されます。VoxBoosterの音声処理はWindows 10/11パワー管理に最適化されていますが、長いPiセッション中にバッテリーライフが懸念される場合、軽いエフェクトプリセットは少ないオーバーヘッドを追加します。
Pi用VoxBooster:クイックスタートチェックリスト
- Windows 10または11にVoxBoosterをインストール
- VoxBooster設定でWASAPIバーチャルマイクを有効にする
- VoxBoosterバーチャルマイクをWindows既定入力として設定
- ブラウザーまたはデスクトップアプリでPiを開く
- プロンプトの場合、バーチャルデバイスへのマイクアクセスを許可する
- VoxBoosterで音声モデルを選択(カスタムクローンまたはプリセット)
- バーチャルマイク出力でWhisperテストを実行して、転写精度を確認
- セッションの一貫性のために、名前でPi特定の音声プリセットを保存
- エコーフィードバックを防ぐためにヘッドフォンを使用
合計セットアップ時間:クリーンなWindows インストールで約10-15分。カーネルドライバーインストール、オーディオインターフェースハードウェアは不要です。
Piおよび音声変換が哲学的に交差する場所
Piは、AIアシスタントが何であるかについての特定の理論の周りに構築されました:最大キャパシティではなく、最大の存在感 - 注意深い、感情的に調整された、会話全体で一貫しています。Inflection AIの創設者はDeepMindおよび他の研究背景から来ていましたが、Piは人々が実際に話したいもの、単なるツールとして使用することではなく、何かを構築しようとする試みでした。
この文脈に音声チェンジャーをもたらすことは、興味深い社説の選択です。あなたはあなたの会話履歴、トピック、感情パターンを知っている会話パートナーに提示 - そしてあなたの自然なものとは意図的に異なる声でそうしています。これは創造的意図のレイヤーまたはわずかな概念的緊張のいずれかであり、それについて考える方法によります。
いずれの場合でも、技術セットアップは清潔で、レイテンシーはプラクティスで見えず、Piの応答品質は影響を受けません。このセットアップで何をすることを選択するかは、興味深い部分です。
VoxBooster を無料でお試しください - Windowsダウンロード して、15分以内にPi音声ペルソナが実行されます。