ボイスチェンジャー + Obsidian ボイスメモ完全ガイド

Obsidianでノートを取るナレッジワーカーは、ローカルに保存されたプレーンテキストのセカンドブレインの価値をすでに理解しています。多くの人がまだ探っていないのは、文字入力の上にリアルタイム音声処理を重ねることです。これにより、マイクがPKMボルトに直接フィードするプライバシー保護されたペルソナ対応の入力デバイスになります。

このガイドでは完全なワークフローをカバーします：マイクをVoxBoosterのAI音声処理にルーティングし、そのシグナルをObsidianのWhisperを使ったトランスクリプションプラグインに送り、出力をDaily Notes、Mermaidダイアグラム、オーディオレビューセッションに接続します。Obsidianをすでに使用しており、より速くプライベートなキャプチャ方法を望むWindows 10/11のナレッジワーカーを対象としています。

要点まとめ

VoxBoosterの仮想WASAPIマイクはObsidianのSpeech to TextおよびAudio Notesプラグインに直接接続
300ms未満のAI音声処理により録音が自然に保たれる；発話とトランスクリプション間に知覚できる遅延なし
ローカルWhisperトランスクリプションにより生の声紋が外部サーバーに送られない
音声ペルソナによりノートを独自の「朗読声」でナレーション・レビュー可能
ObsidianはクロスプラットフォームだがVoxBoosterはWindows 10/11のみ — ノートはどこでも同期、音声処理はWindowsに残る
カーネルドライバー不要、仮想ケーブルソフトウェア不要、2分以内でインストール完了

ObsidianとはなにかそしてPKMに音声入力が重要な理由

Obsidianはローカルのプレーンテキストファイルボルトを中心に構築されたMarkdownベースの知識管理アプリケーションです。クラウドファーストのノートツールとは異なり、すべてのノートはあなたが所有する.mdファイルとしてマシンに保存されます。パーソナル知識管理コミュニティはその周りに密度の高いプラグインエコシステムを構築しました。

音声入力は特定の方法でPKMを加速します。問題を声に出して考えることで、キーボード入力が中断する推論をキャプチャできます。手が塞がっていても分析の流れが保たれます。研究者やコンサルタントは通常、文字入力の600〜800語/時間に対して録音で2,000〜3,000語/時間をキャプチャします。

ほとんどのセットアップで欠けているのは、トランスクリプション前にその音声シグナルに何が起こるかです。生のマイクキャプチャはあなたの実際の声紋をWhisper（またはクラウドトランスクリプションサービス）に送ります。プライバシー意識の高いナレッジワーカーにとって、これは重大な露出です。

このワークフローが埋めるギャップはまさにそこです。

2つの主要なObsidianプラグイン

Speech to Text

Speech to Textプラグイン（Obsidianコミュニティプラグインディレクトリで利用可能）は選択した入力デバイスからオーディオをキャプチャし、トランスクリプションのためにWhisperエンドポイントに送ります。結果のテキストはカーソル位置にインラインで挿入されます。設定オプションには以下が含まれます：

入力デバイス選択 — 仮想WASAPIマイクを含む任意のオーディオ入力を選択
Whisperエンドポイント — クラウド（OpenAI APIキーが必要）またはローカル（Whisper.cppサーバー、Faster-Whisperなど）
ターゲットファイル — カーソルに挿入、または設定されたDaily Notesパスに追加
言語ヒント — 英語以外または混合言語の録音のWhisper精度を向上

プライバシー保護セットアップの場合、エンドポイントをローカルWhisperインスタンスに向けます。

Audio Notes

Audio Notesプラグインは異なるアプローチを取ります：ボルトにトランスクリプトとともに生のオーディオファイルを録音します。結果として再生埋め込み（![[recording-2026-06-10.m4a]]）とその下のトランスクリプトテキストの両方を含むMarkdownノートが得られます。これは以下に便利です：

後でトランスクリプションを確認したい参照録音
特定の話者への帰属が重要な会議ノート
ペルソナナレーション付きレビューセッション

Audio Notesも入力デバイス選択をサポートし、Speech to Textと同様にVoxBoosterの仮想WASAPIマイクを取得します。

ObsidianマイクとしてVoxBoosterを設定する

VoxBoosterはWindows 10/11のボイスチェンジャーおよびAIボイスクローニングツールで、WASAPIを介してリアルタイムでマイクを処理します — カーネルドライバーなし、仮想オーディオケーブルソフトウェアなし。Obsidianワークフローの設定には約2分かかります。

ステップ1 — VoxBoosterをインストール。 Windows 10/11にダウンロードしてインストールします。再起動不要。

ステップ2 — 声を選択。 VoiceタブでプリセットまたはカスタムAIクローン済み声プロファイルをロードします。録音には、わずかなピッチ低下と最小限のリバーブを持つ「穏やかなナレーター」プリセットが効果的です。

ステップ3 — 仮想マイクを有効化。 VoxBoosterの出力設定で仮想WASAPIマイクロフォンがアクティブであることを確認します。Windowsサウンド設定に「VoxBooster Virtual Mic」として表示されます。

ステップ4 — Obsidianプラグインを設定。 Speech to TextまたはAudio Notesプラグインの設定で、入力デバイスを「VoxBooster Virtual Mic」に設定します。短い録音でテストします。

ステップ5 — Whisperエンドポイントを設定。 ローカル処理の場合：Whisper.cppまたはFaster-Whisperをインストールし、http://localhost:8080でサーバーを起動し、プラグインのAPI URLをそこに向けます。クラウドの場合：OpenAI APIキーをプラグイン設定に貼り付けます。

完全なスタック：あなたの声 → VoxBooster AI処理 → 仮想WASAPIマイク → Obsidianプラグイン → Whisper → ボルトのMarkdownテキスト。

プライバシー保護された音声キャプチャ

このセットアップのプライバシー論点には2つの層があります。

層1：声紋の難読化。 AI音声処理はあなたの声の音響特性を変更します — ピッチ、音色、ケイデンスエンベロープ — 出力があなたの生体声紋と一致しないほどに。

層2：ローカルトランスクリプション。 Whisperをローカルで実行することは、オーディオがマシンをまったく離れないことを意味します。音声処理と組み合わせることで、音響的に匿名化されローカルで処理された録音が得られます。

ペルソナベースのノートナレーションとオーディオレビュー

PKMで使われていない技術の一つがオーディオレビューです — 視覚的に再読するのではなく、穏やかで集中した朗読声でノートを再生します。ボイスチェンジャーは便利なひねりを加えます。VoxBoosterのAIボイスクローニングを「ナレーター」ペルソナで使ってノートを録音します。

ワークフロー：

ナレーターペルソナ音声を使ってノートを録音
Audio Notesはレコーディングとトランスクリプトの両方をキャプチャ
レビュー時に.m4a埋め込みを再生 — ナレーター音声が意味的な重みを運ぶ
下のトランスクリプトは検索可能でリンク可能なObsidianノードを提供

Daily Notes統合

ObsidianのDaily Notes機能は設定可能なテンプレートを使って毎日新しいノートを作成します。Speech to Textプラグインはトランスクリプションを現在のデイリーノートに自動的に追加するように設定できます。

音声キャプチャのための便利なテンプレートフラグメント：

## 音声キャプチャ

<!-- Speech to TextプラグインによってDictationブロックが以下に追加されます -->

プラグインのターゲットをDaily/{{date}}.mdに設定し、追加モードを有効にすると、各録音セッションが次のようなブロックを作成します：

### 14:23
Q3ロードマップのフレーミングをチームと議論。深さ優先の機能完成と幅優先のプラットフォーム安定性の間の主な緊張がある。

Mermaidダイアグラムワークフロー

MermaidダイアグラムはObsidianでネイティブにレンダリングされます。音声キャプチャ + AI処理は驚くほど効果的なパイプラインを作り出します：

プロセスを録音 — 「ユーザーがフォームを送信すると、メール確認がトリガーされ、確認後にアカウントが有効化されてウェルカムメールが送られる」
Whisperトランスクリプトを取得 — 正確なテキストがノートに届く
言語モデルにプロンプト — トランスクリプトテキストを貼り付けてMermaidフローチャートを求める
結果を貼り付け — \“mermaid`ブロックで囲むとObsidianがライブでレンダリング

比較：Windows上のObsidianの音声キャプチャ方法

方法	プライバシー	トランスクリプション	セットアップ	ペルソナ音声	オフライン動作
生マイク → クラウドWhisper	低	優秀	簡単	なし	なし
生マイク → ローカルWhisper	中	良	中程度	なし	あり
VoxBooster → クラウドWhisper	中〜高	優秀	簡単	あり	なし
VoxBooster → ローカルWhisper	高	良	中程度	あり	あり
手動入力	N/A	N/A	なし	N/A	あり

VoxBooster + ローカルWhisperの組み合わせは高プライバシーかつオフライン対応の組み合わせです。

正直な制限

Windowsのみ。 VoxBoosterはWindows 10/11で動作します。WindowsデスクトップとMacBookを切り替える場合、音声処理はWindowsマシンにのみ適用されます。

ローカルWhisperのハードウェア要件。 Whisperをローカルで実行するには相当なCPUまたはGPUリソースが必要です。mediumモデルは3〜4 GBのRAMを必要とし、古いハードウェアでは顕著なトランスクリプション遅延が生じます。

特殊な語彙のトランスクリプション精度。 PKMノートにはプロジェクトコードネーム、技術用語、固有名詞が含まれることが多いです。Whisperはほとんどを適切に処理しますが、特定の語彙で系統的なエラーが発生します。

モバイル版なし。 iOSとAndroidのObsidianはWindowsデスクトップソフトウェアであるVoxBoosterを使用できません。

はじめ方

作業中のセットアップへの最速ルート：

VoxBoosterをダウンロードして5分間のインストールを完了
ObsidianコミュニティプラグインディレクトリからSpeech to Textプラグインをインストール
プラグインの入力をVoxBooster Virtual Micに、エンドポイントをWhisperサーバーに設定
テストデイリーノートを作成して段落を録音 — トランスクリプトが表示されることを確認
価格を確認 — プランは$6.99 USD/月から；すべてのプランにAIボイスクローニングと仮想WASAPIマイクが含まれる

FAQ

Obsidianボイスチェンジャーとは何ですか？なぜ使うのですか？ ObsidianボイスチェンジャーはObsidianのSpeech to TextプラグインがキャプチャするよりもさきにマイクをリアルタイムAI音声処理に通します。これにより録音時のプライバシーが保護され、ペルソナベースのナレーションが追加され、実際の声がクラウドトランスクリプションサービスに送られるのを防ぎます。

ボイスメモキャプチャに最適なObsidianプラグインはどれですか？ 最も信頼性の高い2つのプラグインはSpeech to TextとAudio Notesです。どちらもVoxBoosterの仮想WASAPIマイクを含む任意のオーディオ入力デバイスで動作します。

VoxBoosterはWindowsのObsidianで動作しますか？ はい。VoxBoosterはObsidianのオーディオ入力プラグインが直接選択できる仮想WASAPIマイクロフォンを提供します。300ms未満のレイテンシーにより、変換された声がWhisperに知覚できる遅延なしに届きます。

プライバシーに敏感なボイスノートにこのセットアップを使用できますか？ Whisperをローカルで実行することで露出を大幅に減らすことができます。音声特性を変える音声処理と組み合わせることで、ローカルトランスクリプションは生の声紋がマシンから離れないことを意味します。

Obsidian自体はWindowsで動作しますか？ ObsidianはクロスプラットフォームでWindows、macOS、Linux、iOS、Androidで動作します。ただしVoxBoosterはWindows 10/11のみです。このワークフローのボイスチェンジャー部分はWindowsにのみ適用されます；生成されたノートはどこでも同期されます。

ObsidianのDaily NotesにボイスメモをどうやってIntegrateしますか？ Speech to Textプラグインはトランスクリプトされたテキストをデイリーノートテンプレートに自動的に追加するように設定できます。ターゲットファイルをDaily Notesパスに設定すると、各録音セッションがその日のノートにタイムスタンプ付きブロックを追加します。

Obsidianのボイスメモからmermaidダイアグラムを生成できますか？ 自動的にはできませんが、ワークフローとの相性は良いです。プロセスの口頭での説明を録音し、Whisperのトランスクリプトを取得し、テキストをmermaidダイアグラムを出力する言語モデルのプロンプトに貼り付けます。結果をfenced mermaidコードブロックにコピーするとObsidianがライブでレンダリングします。