Whisper リアルタイム音声認識 Windows版:完全セットアップガイド

Windows上でWhisperリアルタイム音声認識を実行します。ローカルWhisper-large-v3推論、300ms以下のレイテンシ、ライブキャプション、音声コマンドワークフロー — クラウドは不要です。

Whisperリアルタイム音声認識(Windows版)はモデルをオフラインバッチツールからライブ転写エンジンに変換します — ローカル、プライベート、およびライブストリームをキャプション、会議を転写、または音声コマンドワークフローにフィード充分正確 — クラウドに1バイトも送信しません。

このガイドは次をカバーしています:Whisperリアルタイム推論はどのようにフードの下で機能するか、各モデルサイズのハードウェア要件、3つの実践的なデプロイメントパス、Windows固有のWASAPIオーディオルーティング、およびVoxBoosterがWhisperを直接オーディオパイプラインに統合する方法。


なぜリアルタイムWhisperはオフラインWhisperと異なるのか

元のWhisperペーパーは680,000時間のオーディオで訓練されたシーケンスツーシーケンスモデルを説明します。ファイルを与えます。転写を返します。ポストプロセッシングに優れていますが、音声の1秒以内にキャプションが表示される場合は役に立ちません。

リアルタイムWhisperはマイクストリームを重複する窓に分割します — 通常1-3秒。各窓は独立してモデルを通過します。結果は表示の前に組み立てられます。トレードオフは、モデルが完全な文脈を見ません。これは窓の境界で「幻覚」を導入します。Whisper-large-v3は以前のバージョンより短いオーディアを堅牢に処理することでこれを大幅に削減します。

他の重要な要素は音声アクティビティ検出(VAD)です。VADなしで、Whisperは沈黙で実行して、ファントムテキストを生成します。Silero VADは現在の標準です — 音声が存在する場合のみ推論が動作することを保証し、典型的な使用で40-70%レイテンシとCPU/GPU負荷を削減します。


ハードウェア要件

GPU パス(推奨)

モデル必要なVRAM一般的なRTX 3060レイテンシ
tiny1 GB~50ms
small2 GB~80ms
medium4 GB~150-250ms
large-v36 GB~200-350ms

ほとんどの転写ユースケース — アクセシビリティキャプション、会議メモ、ストリーマーキャプション — 4 GB カードのWhisper-mediumは精度とレイテンシの甘いスポットを打ちます。

CPU パス

CPU専用推論はsmallおよびtinyモデル用のみ実行可能です。500ms-2秒のレイテンシを予想します。後で再生される会議転写のような非インタラクティブな使用には顕著ですが許容可能。会話中のライブキャプションの場合、CPU専用は壊れたように感じるラグ効果を生成します。

オーディオ ハードウェア

任意のマイクが機能しますが、信号品質は転写精度に直接影響します。Whisperは多様なオーディオ条件で訓練されたため、ノイズを合理的に処理しますが、ヘッドセットのクローズトークマイクはリアルタイム使用のためにファーフィールドデスクマイクを常に優れたことは表します。Whisper入力の前に適用されたノイズサプレッション。チェーンに処理ステップを追加するコストで手助けします。


Windows上のWASAPIオーディオ ルーティング

WindowsはWindows Audio Session API(WASAPI)経由でオーディオをルーティングします。Whisperを正しく設定するためにはWASAPIの理解が必要です。特に、システム出力(聞く内容)をマイク入力ではなく転写したい場合、またはポスト処理オーディオをWhisperにフィードしたい場合は。

エクスクルーシブモード対共有モード

エクスクルーシブモードは最小レイテンシで1つのアプリケーションに直接ハードウェアアクセスを与えますが、他はすべてロックアウトします。共有モードは複数のアプリケーションが同じエンドポイントを共有し、Windowsがミックスを処理します。Whisper入力キャプチャの場合、共有モードはほぼ常に正しい — 他のアプリケーションが使用する同じマイクストリームからWhisperが読む必要があります。何もブロックしません。

マイク入力の キャプチャ

sounddeviceおよびpyaudioのようなPythonライブラリはデバイスインデックスによるWASAPIエンドポイントにアクセスします。利用可能なすべてのオーディオデバイスを一覧するために以下を実行します:

import sounddevice as sd
print(sd.query_devices())

マイクが入力デバイスとして表示されます。インデックスをメモしておきます — オーディオストリームを開く際にdeviceパラメータとして渡します。

ループバック キャプチャ(システムオーディオ)

スピーカー経由で再生される内容を転写するには — ビデオ通話、ゲーム、任意のアプリオーディオ — WASAPIループバックキャプチャを使用します。sounddeviceでは、wasapi_exclusive=Falseを設定して出力デバイスを対象;ライブラリはWindows上で内部的にループバックを処理します。ビデオ会議のキャプション処理またはすべてのPCオーディオでキャプションが必要なアクセシビリティワークフロー用に便利。


3つのデプロイメント パス

パス1:faster-whisper + カスタムPythonスクリプト

faster-whisperはCTranslate2ベースのWhisper再実装で、元のより4倍高速で実行し、メモリ使用量が少なく実行されます。すべてのモデルサイズをサポートし、リアルタイムオーディオループにクリーンに統合されます。

セットアップ:

pip install faster-whisper sounddevice numpy silero-vad

基本ループは:

  1. 16 kHz mono(Whisperのネイティブサンプリングレート)でsounddeviceを使用してオーディオストリームを開く
  2. 入力オーディオをローリング窓にバッファ
  3. Silero VADを実行;音声が検出されない場合は推論をスキップ
  4. 音声セグメントをfaster-whispertranscribe()メソッドに渡します(beam_size=1(より高速)またはbeam_size=5(より正確))
  5. 結果を出力またはパイプ

このパスは最大の制御を提供しますがPythonの快適性が必要。マイクのバッファサイズとVADしきい値の調整に30-60分を予算します。

パス2:whisper.cpp

whisper.cppはWhisperのC++ポートで、CUDAサポート付きのネイティブWindowsバイナリにコンパイル。マイクを開くリアルタイムデモ(stream.exe)で出荷。構成可能なウィンドウサイズで推論を実行します。出力をstdoutに出力。

**Pythonより使用する理由?**起動時間はほぼ瞬時(Python インタプリタをロード)、メモリ使用量が低い、非Pythonツールチェーンに簡単に統合。ストリーミング出力をOBSがライブキャプションソースとして読むファイルにリダイレクト可能。

ビルドステップ(PowerShell):

git clone https://github.com/ggerganov/whisper.cpp
cd whisper.cpp
cmake -B build -DGGML_CUDA=1
cmake --build build --config Release
.\build\bin\Release\stream.exe -m models\ggml-large-v3.bin -t 8

パス3:VoxBooster統合Whisper

VoxBoosterはアプリケーションに直接組み込まれたWhisper推論で出荷 — 別のPython環境なし、手動CUDAセットアップなし。モデルは最適化バックエンドを経由してGPUでローカルに実行されます。WASAPIオーディオキャプチャは内部的に処理されます。出力はオーバーレイ、OBS用のライブキャプションファイル、または音声コマンド処理用のロー レイテンシ入力として利用可能。

手動Pythonセットアップからの主な違いは統合ノイズ削減段階。オーディオはWhisperバッファに到達する前にVoxBoosterの削減層を通ります。ノイズの多い環境 — ヘッドセットファンノイズ、HVAC、キーボードクリック — で転写精度を測定可能に改善し、ユーザーに見えるレイテンシを追加しません。音声表示キャプション までのエンドツーエンドレイテンシは過去3年間のハードウェアで300ms未満。

カーネルドライバがインストールされません。つまり、UAC昇格なし、アンチチートソフトウェアとの競合なし、デバイスマネージャーに表示されるデバイスなし。WASAPIフックはセッションレベルで、アプリが閉じるとクリーンに破損。


ライブ ストリーミングおよび アクセシビリティのためのキャプション

OBS統合

faster-whisper、whisper.cpp、またはVoxBoosterを使用するかに関わらず、OBSとの統合ポイントはリアルタイムで更新されるテキストファイルです。

  1. Whisperツールを転写出力をファイル(例:C:\captions\live.txt)に書き込むように構成
  2. OBSで、**Text (GDI+)**ソースを追加
  3. Read from fileをチェックして同じパスを指す
  4. OBSはファイルをポーリングして各フレームでソースを更新

テキストソースを半透明の背景でスタイル化して、ゲームフッテージまたはウェブカメラ上で読みやすく保つ。

アクセシビリティ ユースケース

聴覚障害のあるユーザーの場合、Windows上のWhisperキャプションはWindows 11 Live Captionsより複数の利点を提供:

  • 技術的語彙、強いアクセント、非英語言語の精度向上
  • カスタマイズ可能な表示:フォントサイズ、位置、色、永続性
  • マルチ入力:マイクとループバックの両方を同じWhisperインスタンスにフィード
  • 完全にオフライン:Microsoftの音声認識サーバーへの依存なし

Live Captions アクセスのないWindows 10ユーザーの場合、ローカルWhisperはサブスクリプション無しが必要なプライマリリアルタイム アクセシビリティオプション。


音声 コマンド ワークフロー

Whisper音声認識は、キーまたはボタンクリック押下なしでPCに命令を話すワークフロー — アンビエント音声コマンドシステムの電源投入に十分正確です。

アーキテクチャは一般にこのように見えます:

マイク → VAD フィルター → Whisper → テキストバッファ → インテント解析器 → アクション ディスパッチャー

インテント解析器はsubprocess.run()呼び出しにマップされたトリガーフレーズのPythonディクショナリのように単純である可能性があり、または自然言語コマンドを処理するローカル言語モデルのように洗練される可能性があります。ゲームおよびコンテンツ作成、一般的なコマンドは:

  • 記録開始/停止
  • OBSシーン切り替え
  • サウンドボードクリップをトリガー
  • マイク ミュート/ミュート解除

Whisperがローカルであるため、クラウドラウンドトリップレイテンシはありません。制約は推論時間です:Whisper-mediumはチャンク当たり150-250msを取ります — ストリーミングに目に見えず、リアルタイムゲーム制御の限界。openwakewordのようなキーワードスポッターは共通コマンド(50ms未満)の高速パス として機能でき、Whisperが他のすべてを処理。


精度:期待するもの

Whisper-large-v3はクリーンな英語オーディオで約3-5%のワード エラー率を達成します — 商用クラウドサービスと競争力。1-3秒ウィンドウのリアルタイムモードでは、推論呼び出しごとに削減されたコンテキストのため5-8%のWERを予想します。

精度向上要因:

  • マイク配置の改善:クローズトークヘッドセット対ファーフィールドデスクマイクは簡単に2-3%のWER差
  • 入力前ノイズ削減:プリフィルタリングはバックグラウンド音でトリガーされた幻覚削減
  • ビームサイズ:1から5への増加はチャンク当たり約50msの追加レイテンシのコストで精度向上
  • 温度temperature=0(欲欲デコーディング)を設定出力で分散減少および不確定なオーディオの「幻覚」創造的転写からモデルを防ぐ

精度害要因:

  • ウィンドウ境界分裂:推論ウィンドウ間の正確な境界に落ちる単語は誤り傾向 — オーバーラップバッファリングはこれを緩和
  • 沈黙幻覚:VADなし、Whisperはしばしば沈黙をフィラーフレーズとして転写 — 常にVAD実行
  • ファインチューニングギャップ:バニラWhisperはゲーミング解説またはヘビー地域アクセントで訓練されていません — そこでもっと誤りを予想

Whisper リアルタイムとWindows 11 Live Captions間の選択

基準Windows 11ライブ キャプションローカルWhisper
セットアップ時間~90秒15-60分
精度(クリーンEN)良好優秀(large-v3)
精度(アクセント/専門用語)適度良好–優秀
言語サポート30+言語99言語
レイテンシ200-400ms150-800ms(GPU依存)
OBS統合なしファイル出力
オフラインはいはい
Windows 10サポートいいえはい
プライバシーローカル(Microsoft)完全ローカル
ハードウェア コストなしGPUが大幅に役立つ

Windows 11上で、最小セットアップのアクセシビリティ用英語キャプションのみが必要な場合は、Live Captionsが正しい答え。Windows 10サポート、特定ドメイン上の高い精度、OBSキャプション、音声コマンド、または転写パイプラインの制御が必要な場合、ローカルWhisperが優れた選択肢です。


今日開始

機能するWhisper リアルタイム転写への最速パス:

  1. VoxBooster付き:アプリを開き、Settings → Transcription に進み、Whisperを有効化、モデルサイズを選択。他のすべては自動的に処理されます。オーディオルーティング、VAD、OBS出力ファイルを含む。

  2. 手動faster-whisperpip install faster-whisper sounddevice silero-vad、次にfaster-whisper GitHubからストリーミング例のいずれかを適応。機能するプロトタイプを取得するのに30分を予想。

  3. whisper.cpp:クローン、CMakeのコンパイル、stream.exeを実行。手動パス中で最も高速なセットアップ(CMakeに快適な場合)。

Whisper リアルタイムWindows版は実験的ではありません。適切なモデル、ミッドレンジGPU、クリーンなオーディオ入力で、商用クラウドサービスを一致させるか超える転写品質とレイテンシ — マシンを離れる音声バイトなしで。

VoxBoosterを試す — 3日間無料。

リアルタイム音声クローン、サウンドボード、エフェクト — 会話するすべての場所で。

  • カード不要
  • ~30msのレイテンシ
  • Discord · Teams · OBS
3日間無料で試す