WindowsでのWhisperを使用した音声会議メモ

WhisperとWASAPIループバックを使用してWindows上でZoom、Teams、およびMeetの通話をローカルで転写します—クラウドアップロードなし、完全なプライバシー、Markdownアクションアイテムサマリー。

すべての会議が「実際に何を決定したのか」と尋ねるメール連鎖で終わる場合、問題は会議ではなく、信頼できるトランスクリプトの欠如です。クラウド転写サービスはこれを部分的に解決していますが、通話オーディオをサードパーティサーバーにアップロードする必要があります。法的、コンプライアンス、またはプライバシー上の理由から、これは常に受け入れられるわけではありません。

このガイドは、Windows PCで完全な音声会議メモワークフローを構築する方法を示しています:WASAPIループバックを使用して会議オーディオをキャプチャし、OpenAIのWhisperモデルをローカルで実行してから、決定とアクションアイテムを含むMarkdownサマリーを自動抽出します。クラウドアップロードなし。サブスクリプションなし。処理はお使いのマシンで行われます。


TL;DR

ステップツール時間
オーディオをキャプチャFFmpeg + WASAPIループバックライブ
転写Whisper(medium.en)~4分/1時間会議
アクションを抽出Python +ローカルLLMまたはAIに貼り付け~2分
出力Markdown .mdファイル即座に

会議のためにローカル転写がクラウドを打つ理由

ほとんどのクラウド転写サービス—Otter.ai、Fireflies、Zoom AI Notes—はオーディオをリモートサーバーに送信して処理し、多くの場合、モデルトレーニング用に保存されています。個人的なキャッチアップコールの場合は問題ありません。クライアント名、財務予測、医療情報、または法的議論を含む通話の場合はそうではありません。

Whisperをローカルで実行することは、オーディオファイルがマシンを離れることがないことを意味します。会社のアカウントに関連付けられているAPIキーがなく、読む保持ポリシーがなく、サードパーティのセキュリティ侵害があなたの通話内容を公開する可能性がありません。トランスクリプトとサマリーは、保存する場所に存在します。

また、コスト論があります。大規模なクラウド転写—月に100時間のチームミーティング—ほとんどのプラットフォームでユーザーあたり月に40~200ドルかかります。すでに所有しているGPUでのローカル推論は、セットアップ後のトランスクリプトあたりのコストがかかりません。


法的問題と同意—最初にこれをお読みください

参加者の同意なしに会議を記録または転写することは、多くの米国州(二者間同意法)、EU(GDPR記事6)、および世界中の多くの他の法域を含む、多くの法域で違法です。

会議を転写する前に:

  1. 開始時に明確に発表してください:「トランスクリプト会議メモを作成するためにローカル転写用の音声をキャプチャしています。」
  2. 参加者にオプトアウトまたはオフレコで話す選択肢を与えてください。
  3. 企業の通話記録ポリシーを確認してください—多くはIT or法務承認が必要です。
  4. トランスクリプトを安全に保存し、他の機密文書と同じデータ処理ルールを適用してください。

このエントリは技術ガイドです。法的助言ではありません。


必要なもの

  • Windows 10または11 — WASAPIループバックは両方で利用可能です
  • Python 3.10+ — python.orgまたはwingetから
  • FFmpeg — ループバックデバイスからのオーディオキャプチャ用
  • openai-whisperまたはfaster-whisper — 転写エンジン
  • NVIDIA GPU(オプションだが推奨) — 高速推論のためのRTX 2060以上; CPUも機能します
  • 会議アプリ:Zoom、Microsoft Teams、Google Meet、またはオーディオを生成する他のアプリケーション

ステップ1—WASAPIループバックデバイスを特定する

WASAPIループバックは、Windows出力デバイスを通じて再生しているもの—ヘッドフォンで聞いているのと同じオーディオをキャプチャします。ドライバのインストールは不要です。Vistaからのことですが、WindowsオーディオスタックのJavaScriptの一部です。

ターミナルを開き、実行:

ffmpeg -list_devices true -f dshow -i dummy 2>&1 | findstr /i "audio"

次のような出力が表示されます:

"Speakers (Realtek High Definition Audio)" (audio)
"Headphones (USB Audio Device)" (audio)

アクティブな出力デバイスの正確な名前をメモしてください。ループバックキャプチャの場合、FFmpegで使用するときにデバイス名に(loopback)を追加します。

別の方法として、Pythonを使用してデバイスをリストします:

import sounddevice as sd
print(sd.query_devices())

(loopback)というデバイスを名前に含むか、ホストAPIとしてWASAPIを探します。


ステップ2—会議オーディオを記録する

Zoom、Teams、またはMeetコールを開始してください。メインコンテンツが始まる前に、別のターミナルでFFmpegを起動します:

ffmpeg -f dshow -i audio="Speakers (Realtek High Definition Audio) (loopback)" \
  -ar 16000 -ac 1 -c:a pcm_s16le \
  meeting_2026-06-12.wav

主要フラグ:

  • -ar 16000 — Whisperのネイティブサンプリングレート; リサンプリングは不要です
  • -ac 1 — モノ; ファイルサイズを削減し、Whisperの予想される入力と一致します
  • -c:a pcm_s16le — 最良の精度のための非圧縮WAV

会議が終わったらCtrl+Cで記録を停止します。これらの設定では、1時間の会議がおおよそ115MBを生成します。

ヒント: バックグラウンドノイズのためにオーディオ品質が悪い場合、通話の前にマイクチャネルでVoxBoosterのノイズ抑制を実行して、キャプチャで自分の声をクリーンに保ってください。WASAPIループバックはミックス出力をキャプチャするため、他の参加者のオーディオは独自のプラットフォームのノイズ処理から受益します。


ステップ3—Whisperをインストール

Whisperをまだインストールしていない場合:

pip install openai-whisper
# より高速なCPU/GPU推論の場合:
pip install faster-whisper

GPU加速(NVIDIA)の場合は、次もインストールしてください:

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

まずnvidia-smiでCUDAバージョンを確認し、それに応じてcuバージョンを調整してください。


ステップ4—記録を転写する

openai-whisperを使用(CLI)

whisper meeting_2026-06-12.wav --model medium.en --output_format txt --output_dir ./transcripts

これは.txtファイルと.srtサブタイトルファイルを保存します。medium.enモデルは英語のみで、多言語mediumよりも英語の会議の方が速く、より正確です。

faster-whisperを使用(Pythonスクリプト)

from faster_whisper import WhisperModel

model = WhisperModel("medium.en", device="cuda", compute_type="float16")

segments, info = model.transcribe("meeting_2026-06-12.wav", beam_size=5)

with open("transcript.txt", "w", encoding="utf-8") as f:
    for segment in segments:
        timestamp = f"[{segment.start:.1f}s]"
        f.write(f"{timestamp} {segment.text.strip()}\n")

print("Transcription complete.")

faster-whisperは内部でCTranslate2を使用し、同じハードウェアでのオリジナルより2~4倍高速です。


ステップ5—Markdownにアクションアイテムを抽出

生のトランスクリプトはテキストの壁です。有用なアーティファクトは構造化されたサマリーです:下された決定、割り当てられたタスク、未決定の質問。次に、Ollama(ローカルLLM)を使用して1つを生成するシンプルなPythonスクリプトがあります:

import subprocess
import sys

transcript_path = sys.argv[1]

with open(transcript_path, "r", encoding="utf-8") as f:
    transcript = f.read()

prompt = f"""You are a meeting notes assistant. Given the transcript below, produce a Markdown document with:
1. **Meeting Summary** (3-5 sentences)
2. **Decisions Made** (bulleted list)
3. **Action Items** (bulleted list with owner and deadline if mentioned)
4. **Open Questions** (bulleted list)

Transcript:
{transcript}
"""

result = subprocess.run(
    ["ollama", "run", "llama3"],
    input=prompt,
    capture_output=True,
    text=True,
    encoding="utf-8"
)

output_path = transcript_path.replace(".txt", "_summary.md")
with open(output_path, "w", encoding="utf-8") as f:
    f.write(result.stdout)

print(f"Summary saved to {output_path}")

実行:

python extract_actions.py transcripts/meeting_2026-06-12.txt

Ollama? 生のトランスクリプトを同じプロンプトでチャットAIに貼り付けます。出力は同じです—自動化ステップのみが異なります。


モデル選択ガイド

モデルVRAM速度(GPU)速度(CPU)最適な用途
tiny.en1GB非常に高速5分/時クイックドラフト、テスト
small.en2GB高速20分/時CPU専用マシン
medium.en5GBバランス型60分/時デフォルト推奨
large-v310GB低速実用的ではない最大精度、RTX 4070+

すべてのモデルは初期ダウンロード後、完全にオフラインで実行されます。


比較:ローカルWhisper vs.クラウド転写サービス

機能Whisper(ローカル)Otter.aiFirefliesZoom AI Notes
データはデバイスを離れるいいえはいはいはい
月額費用$0$10–$20/ユーザー$10–$19/ユーザーZoomに含まれる
精度(英語)88–94% WER~88%~87%~85%
スピーカーダイアリゼーションpyannoteではいはいはい
カスタムボキャブラリプロンプト経由有料有料いいえ
オフライン対応はいいいえいいえいいえ
セットアップ時間30分5分5分0分

クラウドサービスは利便性と既製のダイアリゼーション用です。ローカルWhisperはプライバシー、大規模なコスト、およびインターネットなしで機能する能力のためです。


スピーカーダイアリゼーションを追加

Whisperだけでは誰が何を言ったかを識別しません。帰属が重要な会議の場合、pyannote.audioと組み合わせます:

pip install pyannote.audio
from pyannote.audio import Pipeline

pipeline = Pipeline.from_pretrained(
    "pyannote/speaker-diarization-3.1",
    use_auth_token="YOUR_HF_TOKEN"
)

diarization = pipeline("meeting_2026-06-12.wav")

for turn, _, speaker in diarization.itertracks(yield_label=True):
    print(f"{speaker}: {turn.start:.1f}s – {turn.end:.1f}s")

その後、ダイアリゼーションタイムスタンプをWhisperセグメントタイムスタンプと配置して、スピーカーラベル付きトランスクリプトを生成できます。Pyannoteモデルはダウンロード後にローカルで実行されます—HuggingFaceアカウントはモデルライセンスを受け入れるために必要ですが、推論は完全にオフラインです。


フルパイプラインの自動化

3つのステップが個別に機能したら、会議後に実行するシングルスクリプトに鎖を結び付けます:

# record.bat — 会議中に実行
ffmpeg -f dshow -i audio="Speakers (Realtek High Definition Audio) (loopback)" ^
  -ar 16000 -ac 1 -c:a pcm_s16le ^
  "meetings\%DATE:~10,4%-%DATE:~4,2%-%DATE:~7,2%.wav"
# process.bat — 会議後に実行
set FILE=%1
python transcribe.py %FILE%
python extract_actions.py %FILE:.wav=.txt%
start "" "%FILE:.wav=_summary.md%"

process.bat meetings\2026-06-12.wavを実行すると、サマリーがデフォルトのMarkdownエディタで自動的に開きます。


プライバシーとストレージの考慮事項

会議トランスクリプトを保存するときは、以下に注意してください:

  • 機密ビジネス情報を含む場合、WAVおよびトランスクリプトファイルを暗号化します。 Windows BitLockerまたはVeraCryptはフォルダレベルでこれを処理します。
  • 保持ポリシーを設定 — 転写後に生ファイルを削除; 逐語的な引用が必要な場合を除き、サマリーのみを保持してください。
  • 共有ドライブ: トランスクリプトをOneDriveまたはSharePointに同期する場合、これらのシステムがアップロードされたドキュメントにOCRまたはAIインデックスを適用するかどうかを確認してください。
  • アクセス制御: トランスクリプトファイルを参加者のみに制限してください。ネットワークドライブの共有\meetings\フォルダは会社全体に対して開く必要があります。

ソフトCTA

VoxBoosterのノイズ抑制により、オーディオがWASAPIループバックに到達する前にマイクチャネルがクリーンに保たれ、Whisperの単語エラー率が直接改善されます。Windows 10/11でローカルに実行され、Kernelドライバは不要で、会議アプリと統合されます。クレジットカードは不要で3日間の無料トライアルが利用可能です。

試用後:プランは月額$6.99 USDから開始します。


FAQ

通常のWindowsPCではWhisperはリアルタイムで転写しますか? 完全なリアルタイムではなく、完全な精度では転写しません—Whisperはバッチモデルです。ミッドレンジGPU(RTX 3060)では、小中モデルが1時間の会議をおおよそ3~5分で転写します。ライブキャプションについては、Whisper LiveやWhisper-Streamingフォークを検討してください。ただし、精度のために遅延をトレードオフしてください。

ZoomまたはTeamsの会議を転写するのは合法ですか? 合法性は管轄権と企業のポリシーに依存します。ほとんどの場所では、記録または転写する前にすべての参加者に通知する必要があります。会議の開始時に音声をメモのためにキャプチャしていることを常に発表し、明示的な同意を得てください。このエントリは技術ガイドであり、法的助言ではありません。

どのWASAPIループバックデバイスをインストールする必要がありますか? ドライバのインストールは必要ありません。WASAPIループバックはネイティブWindowsAPI(Windows 10/11)で、スピーカーまたはヘッドフォンなど、アクティブな出力デバイスをキャプチャソースとしてミラーリングします。FFmpeg、Python sounddevice、およびほとんどのオーディオライブラリは直接公開されています。仮想ケーブルやサードパーティドライバは不要です。

会議の転写にはどのWhisperモデルを使用すべきですか? medium.enモデルは最適な実用的なバランスを提供します:1.5GBのVRAM、tinyと比べて約90%の単語エラー率削減、GPUで4~6倍高速化。CPU専用マシンの場合、small.enを使用してください—最新のCPUで約20分で1時間の会議を転写します。Large-v3はRTX 4070以上をお持ちの場合のみ意味があります。

GPUなしで会議を転写できますか? はい。Whisperはopenai-whisperパッケージまたはより高速なwhisper CTranslate2バックエンドを経由してCPUで実行でき、CPU推論時間を約半分に短縮します。GPUで8分かかる会議は、最新のIntelまたはAMD CPUでsmall.enを使用して約20~25分かかります—会議後のバッチ処理に許容できます。

トランスクリプトからアクションアイテムを自動的に抽出するにはどうすればよいですか? 最も簡単な方法は、Whisper転写をローカルLLMプロンプト(Ollama + llama3またはMistral)にパイプし、決定とタスクの�条書きリストを要求するPythonスクリプトです。代わりに、生のトランスクリプトを任意のチャットAIに貼り付けます。VoxBoosterのノイズ抑制により、キャプチャされたオーディオがクリーンに保たれ、トランスクリプト精度が直接向上します。

このワークフローはMicrosoft Teamsの記録された会議で機能しますか? はい、2つの方法があります:通話中にWASAPIループバック経由でライブオーディオをキャプチャするか、OneDriveからTeams会議の記録をダウンロードしてWhisperをMP4ファイルで実行します。2番目の方法がより簡単で、会議に滞在することなくいつでも再転写できます。


さらに詳しく読む

VoxBoosterを試す — 3日間無料。

リアルタイム音声クローン、サウンドボード、エフェクト — 会話するすべての場所で。

  • カード不要
  • ~30msのレイテンシ
  • Discord · Teams · OBS
3日間無料で試す