Wenn jedes Meeting mit einer E-Mail-Kette endet, die fragt: “Was haben wir eigentlich entschieden?”, liegt das Problem nicht beim Meeting — sondern am Mangel an zuverlaessigem Transkript. Cloud-Transkriptions-Services loesen diesen Teil, erfordern aber das Hochladen Ihrer Anruf-Audio auf einen Server eines Drittanbieters. Aus rechtlichen, Compliance- oder schlicht Datenschutzgruenden ist das nicht immer akzeptabel.
Diese Anleitung zeigt Ihnen, wie Sie einen kompletten Arbeitsablauf zur Erfassung von Sprachnotizen aus Meetings auf Ihrem Windows-PC aufbauen: Erfassen Sie das Meeting-Audio mit WASAPI-Loopback, fuehren Sie es ueber OpenAIs Whisper-Modell lokal aus und extrahieren Sie automatisch eine Markdown-Zusammenfassung mit Entscheidungen und Aktionspunkten. Kein Cloud-Upload. Kein Abo. Verarbeitung auf Ihrem Rechner.
TL;DR
| Schritt | Werkzeug | Zeit |
|---|---|---|
| Audio erfassen | FFmpeg + WASAPI loopback | Live |
| Transkribieren | Whisper (medium.en) | ~4 min / 1 Std. Meeting |
| Aktionen extrahieren | Python + lokales LLM oder in KI einfuegen | ~2 min |
| Ausgabe | Markdown .md Datei | Sofort |
Warum lokale Transkription Cloud uebertrifft — fuer Meetings
Die meisten Cloud-Transkriptions-Services — Otter.ai, Fireflies, Zoom AI Notes — funktionieren, indem Sie Ihr Audio an Remote-Server senden, wo es verarbeitet und oft fuer Training gespeichert wird. Fuer private Anrufe ist das in Ordnung. Fuer Anrufe mit Kundennamen, Finanzprognosen, medizinischen Informationen oder rechtlichen Diskussionen ist es nicht.
Whisper lokal auszufuehren bedeutet, dass die Audiodatei niemals die Maschine verlaesst. Es gibt keinen API-Schluessel, der an Ihr Unternehmenskonto gebunden ist, keine Aufbewahrungsrichtlinie zu lesen und keine Moeglichkeit eines Drittanbieterverstoesses, der Ihren Anrufinhalt offenlegt. Das Transkript und die Zusammenfassung befinden sich an dem Ort, an dem Sie sie speichern.
Es gibt auch ein Kostenargument. Cloud-Transkription im grosseren Massstab — 100 Stunden Meetings pro Monat ueber ein Team — kostet $40–$200 pro Monat pro Nutzer bei den meisten Plattformen. Lokale Inferenz auf einer GPU, die Sie bereits besitzen, kostet nach dem Setup nichts pro Transkript.
Rechtliche Fragen und Zustimmung — Lesen Sie Zuerst
Die Aufzeichnung oder Transkription eines Meetings ohne Zustimmung der Teilnehmer ist in vielen Rechtsordnungen illegal, einschliesslich vielen US-Bundesstaaten (Zwei-Parteien-Zustimmungsgesetze), der EU (DSGVO Artikel 6) und anderen weltweit.
Vor dem Transkribieren eines Meetings:
- Kuendigen Sie deutlich zu Beginn an: “Ich erfasse Audio fuer lokale Transkription zur Erstellung von Meeting-Notizen.”
- Geben Sie Teilnehmern die Moeglichkeit, sich abzuwaehlen oder off-the-record zu sprechen.
- Pruefen Sie die Call-Recording-Richtlinie Ihres Unternehmens — viele erfordern IT- oder Rechtsgenehmigung.
- Speichern Sie Transkripte sicher und wenden Sie die gleichen Datenbehandlungsrichtlinien wie andere vertrauliche Dokumente an.
Dieser Artikel ist eine technische Anleitung. Es ist keine Rechtsberatung.
Was Sie benoetigen
- Windows 10 oder 11 — WASAPI-Loopback ist auf beiden verfuegbar
- Python 3.10+ — von python.org oder winget
- FFmpeg — fuer Audio-Erfassung vom Loopback-Geraet
- openai-whisper oder faster-whisper — die Transkriptions-Engine
- NVIDIA GPU (optional aber empfohlen) — RTX 2060 oder besser fuer schnelle Inferenz; CPU funktioniert auch
- Eine Meeting-App: Zoom, Microsoft Teams, Google Meet oder eine andere Audio-produzierende Anwendung
Schritt 1 — Identifizieren Sie Ihr WASAPI-Loopback-Geraet
WASAPI-Loopback erfasst, was Windows durch Ihr Ausgabegeraet spielt — das gleiche Audio, das Sie in Ihren Kopfhoerern hoeren. Keine Treiberinstallation erforderlich; es ist seit Vista Teil des Windows-Audio-Stacks.
Oeffnen Sie ein Terminal und fuehren Sie aus:
ffmpeg -list_devices true -f dshow -i dummy 2>&1 | findstr /i "audio"
Sie werden Ausgaben sehen wie:
"Speakers (Realtek High Definition Audio)" (audio)
"Headphones (USB Audio Device)" (audio)
Notieren Sie den genauen Namen Ihres aktiven Ausgabegeraets. Fuer Loopback-Erfassung fuegen Sie (loopback) an den Geraatenamen an, wenn Sie ihn mit FFmpeg verwenden.
Alternativ verwenden Sie Python zum Auflisten von Geraeten:
import sounddevice as sd
print(sd.query_devices())
Suchen Sie nach Geraeten mit (loopback) im Namen oder Host API WASAPI.
Schritt 2 — Erfassen Sie das Meeting-Audio
Starten Sie Ihren Zoom-, Teams- oder Meet-Anruf. Bevor der Hauptinhalt beginnt, starten Sie FFmpeg in einem separaten Terminal:
ffmpeg -f dshow -i audio="Speakers (Realtek High Definition Audio) (loopback)" \
-ar 16000 -ac 1 -c:a pcm_s16le \
meeting_2026-06-12.wav
Wichtige Flags:
-ar 16000— Whisper’s native Sample-Rate; kein Resampling noetig-ac 1— Mono; reduziert Dateigrosse und entspricht Whisper’s erwartetem Input-c:a pcm_s16le— unkomprimiertes WAV fuer beste Genauigkeit
Beenden Sie die Aufzeichnung, wenn das Meeting mit Ctrl+C endet. Ein einstundiges Meeting bei diesen Einstellungen produziert etwa 115 MB.
Tipp: Wenn Ihre Audioqualitaet aufgrund von Hintergrundlarm schlecht ist, fuehren Sie VoxBooster’s Rauschunterdruckung auf Ihrem Mikrofon-Kanal vor dem Anruf durch, um Ihre eigene Stimme bei der Erfassung sauber zu halten. Das WASAPI-Loopback erfasst die gemischte Ausgabe, daher profitiert das Audio anderer Teilnehmer von ihrer eigenen Plattformen-Rauschverarbeitung.
Schritt 3 — Installieren Sie Whisper
Falls Sie Whisper noch nicht installiert haben:
pip install openai-whisper
# Fuer schnellere CPU/GPU-Inferenz:
pip install faster-whisper
Fuer GPU-Beschleunigung (NVIDIA) installieren Sie auch:
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
Pruefen Sie zuerst Ihre CUDA-Version mit nvidia-smi und passen Sie die cu-Version entsprechend an.
Schritt 4 — Transkribieren Sie die Aufzeichnung
Mit openai-whisper (CLI)
whisper meeting_2026-06-12.wav --model medium.en --output_format txt --output_dir ./transcripts
Dies speichert eine .txt Datei und eine .srt Untertitel-Datei. Das medium.en Modell ist englischsprachig, das fuer englische Meetings schneller und genauer ist als das mehrsprachige medium.
Mit faster-whisper (Python-Skript)
from faster_whisper import WhisperModel
model = WhisperModel("medium.en", device="cuda", compute_type="float16")
segments, info = model.transcribe("meeting_2026-06-12.wav", beam_size=5)
with open("transcript.txt", "w", encoding="utf-8") as f:
for segment in segments:
timestamp = f"[{segment.start:.1f}s]"
f.write(f"{timestamp} {segment.text.strip()}\n")
print("Transcription complete.")
faster-whisper verwendet CTranslate2 unter der Haube und ist 2–4x schneller als die Original bei der gleichen Hardware.
Schritt 5 — Extrahieren Sie Aktionspunkte in Markdown
Rohe Transkripte sind Textwaende. Das nuetzliche Artefakt ist eine strukturierte Zusammenfassung: getroffene Entscheidungen, zugewiesene Aufgaben und offene Fragen. Hier ist ein einfaches Python-Skript, das Ollama (lokales LLM) verwendet, um eines zu produzieren:
import subprocess
import sys
transcript_path = sys.argv[1]
with open(transcript_path, "r", encoding="utf-8") as f:
transcript = f.read()
prompt = f"""You are a meeting notes assistant. Given the transcript below, produce a Markdown document with:
1. **Meeting Summary** (3-5 sentences)
2. **Decisions Made** (bulleted list)
3. **Action Items** (bulleted list with owner and deadline if mentioned)
4. **Open Questions** (bulleted list)
Transcript:
{transcript}
"""
result = subprocess.run(
["ollama", "run", "llama3"],
input=prompt,
capture_output=True,
text=True,
encoding="utf-8"
)
output_path = transcript_path.replace(".txt", "_summary.md")
with open(output_path, "w", encoding="utf-8") as f:
f.write(result.stdout)
print(f"Summary saved to {output_path}")
Fuehren Sie aus als:
python extract_actions.py transcripts/meeting_2026-06-12.txt
Kein Ollama? Fuegen Sie das Transkript direkt in eine KI mit dem gleichen Prompt ein. Die Ausgabe ist identisch — nur der Automatisierungsschritt unterscheidet sich.
Modell-Auswahl-Leitfaden
| Modell | VRAM | Geschwindigkeit (GPU) | Geschwindigkeit (CPU) | Beste fuer |
|---|---|---|---|---|
| tiny.en | 1 GB | Sehr schnell | 5 min/Std. | Schnelle Entw. Testen |
| small.en | 2 GB | Schnell | 20 min/Std. | Reine CPU-Maschinen |
| medium.en | 5 GB | Ausgewogen | 60 min/Std. | Standard-Empfehlung |
| large-v3 | 10 GB | Langsam | Nicht praktisch | Max. Genauigkeit, RTX 4070+ |
Alle Modelle laufen vollstaendig offline nach dem initialen Download.
Vergleich: Lokales Whisper gegenueber Cloud-Transkriptions-Services
| Funktion | Whisper (lokal) | Otter.ai | Fireflies | Zoom AI Notes |
|---|---|---|---|---|
| Daten verlaesst Geraet | Nein | Ja | Ja | Ja |
| Kosten pro Monat | $0 | $10–$20/Nutzer | $10–$19/Nutzer | Enthalten in Zoom |
| Genauigkeit (Englisch) | 88–94% WER | ~88% | ~87% | ~85% |
| Sprecher-Diarisierung | Mit pyannote | Ja | Ja | Ja |
| Benutzerdefiniertes Vokabular | Ueber Prompt | Bezahlt | Bezahlt | Nein |
| Offline moeglich | Ja | Nein | Nein | Nein |
| Setup-Zeit | 30 min | 5 min | 5 min | 0 min |
Cloud-Services gewinnen bei Benutzerfreundlichkeit und Diarisierung aus der Schachtel. Lokales Whisper gewinnt bei Datenschutz, Kosten im grosseren Massstab und der Faehigkeit, ohne Internet zu funktionieren.
Hinzufuegen der Sprecher-Diarisierung
Whisper allein identifiziert nicht, wer was sagte. Fuer Meetings, bei denen Zuordnung wichtig ist, kombinieren Sie es mit pyannote.audio:
pip install pyannote.audio
from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained(
"pyannote/speaker-diarization-3.1",
use_auth_token="YOUR_HF_TOKEN"
)
diarization = pipeline("meeting_2026-06-12.wav")
for turn, _, speaker in diarization.itertracks(yield_label=True):
print(f"{speaker}: {turn.start:.1f}s – {turn.end:.1f}s")
Sie koennen dann die Diarisierungs-Zeitstempel mit den Whisper-Segment-Zeitstempeln ausrichten, um Sprecher-beschriftete Transkripte zu produzieren. Die pyannote-Modelle laufen lokal nach dem Download — ein Hugging Face-Konto ist erforderlich, um die Modell-Lizenz zu akzeptieren, aber Inferenz ist vollstaendig offline.
Automatisierung der vollstaendigen Pipeline
Sobald die drei Schritte einzeln funktionieren, kettenverkoetteln Sie sie in ein einziges Skript, das nach jedem Meeting ausgefuehrt wird:
# record.bat — waehrend des Meetings ausfuehren
ffmpeg -f dshow -i audio="Speakers (Realtek High Definition Audio) (loopback)" ^
-ar 16000 -ac 1 -c:a pcm_s16le ^
"meetings\%DATE:~10,4%-%DATE:~4,2%-%DATE:~7,2%.wav"
# process.bat — nach dem Meeting ausfuehren
set FILE=%1
python transcribe.py %FILE%
python extract_actions.py %FILE:.wav=.txt%
start "" "%FILE:.wav=_summary.md%"
Fuehren Sie process.bat meetings\2026-06-12.wav aus und die Zusammenfassung oeffnet sich automatisch in Ihrem Standard-Markdown-Editor.
Datenschutz und Speicherbetrachtungen
Beachten Sie das Folgende, wenn Sie Meeting-Transkripte speichern:
- Verschluesseln Sie die WAV- und Transkript-Dateien, wenn sie sensible Geschaftsinformationen enthalten. Windows BitLocker oder VeraCrypt haendeln dies auf Ordner-Ebene.
- Legen Sie eine Aufbewahrungsrichtlinie fest — loeschen Sie Rohdateien nach der Transkription; behalten Sie nur die Zusammenfassung, es sei denn, Sie benoetigen wortgetreue Zitate.
- Freigegeben Laufwerke: Wenn Sie Transkripte mit OneDrive oder SharePoint synchronisieren, pruefen Sie, ob diese Systeme OCR oder KI-Indexierung auf hochgeladene Dokumente anwenden.
- Zugriffskontrolle: Beschraenken Sie Transkript-Dateien auf Teilnehmer allein. Ein gemeinsames
\meetings\Verzeichnis auf einem Netzwerk-Laufwerk sollte nicht fuer das gesamte Unternehmen offen sein.
Soft CTA
VoxBooster’s Rauschunterdruckung stellt sicher, dass Ihr Mikrofon-Kanal sauber ist, bevor Audio das WASAPI-Loopback erreicht, was direkt Whisper’s Wortfehlerquote bei Ihrer Stimme verbessert. Es laeuft lokal auf Windows 10/11, erfordert keine Kernel-Treiber und wird in jede Meeting-App integriert. Eine kostenlose 3-Tage-Testversion ist verfuegbar — ohne Kreditkarte erforderlich.
Nach der Testversion: Plaene beginnen bei $6,99 USD pro Monat.
FAQ
Transkribiert Whisper in Echtzeit auf einem normalen Windows-PC? Nicht wirklich in Echtzeit mit voller Genauigkeit — Whisper ist ein Batch-Modell. Auf einer Mittelklasse-GPU (RTX 3060) transkribiert das kleine oder mittlere Modell ein einstundiges Meeting etwa 3-5 Minuten nach dem Anruf. Fuer Live-Untertitel erwaegen Sie Whisper Live oder whisper-streaming Ableger, obwohl sie etwas Genauigkeit fuer Latenzbefaehigung opfern.
Ist es legal, ein Zoom- oder Teams-Meeting zu transkribieren? Die Legalitaet haengt von der Rechtsordnung und der Unternehmensrichtlinie ab. In den meisten Laendern muessen Sie alle Teilnehmer vor der Aufzeichnung oder Transkription informieren. Kuendigen Sie am Anfang des Meetings an, dass Sie Audio fuer Notizen erfassen, und holen Sie explizite Zustimmung ein. Dieser Artikel ist eine technische Anleitung, keine Rechtsberatung.
Welches WASAPI-Loopback-Geraet muss ich installieren? Es ist keine Treiberinstallation erforderlich. WASAPI-Loopback ist eine native Windows 10/11 API, die jedes aktive Ausgabegeraet — Lautsprecher oder Kopfhoerer — als Erfassungsquelle spiegelt. FFmpeg, Python sounddevice und die meisten Audio-Bibliotheken machen es direkt verfuegbar. Kein virtuelles Kabel oder Drittanbieter-Treiber erforderlich.
Welches Whisper-Modell sollte ich fuer Meetings verwenden? Das medium.en-Modell bietet die beste praktische Balance: 1,5 GB VRAM, etwa 90% Wortfehlerquoten-Reduktion gegenueber tiny und 4-6x schneller als large auf GPU. Fuer reine CPU-Maschinen verwenden Sie small.en — es transkribiert ein einstundiges Meeting in etwa 20 Minuten auf einer modernen CPU. Large-v3 ergibt nur Sinn, wenn Sie eine RTX 4070 oder besser haben.
Kann ich Meetings ohne GPU transkribieren? Ja. Whisper laeuft auf CPU ueber das openai-whisper-Paket oder das schneller-whisper CTranslate2-Backend, das CPU-Inferenz-Zeit etwa halbiert. Ein Meeting, das 8 Minuten auf GPU dauert, dauert etwa 20-25 Minuten auf einer modernen Intel- oder AMD-CPU mit small.en — akzeptabel fuer Batch-Verarbeitung nach dem Meeting.
Wie extrahiere ich automatisch Aktionspunkte aus dem Transkript? Die einfachste Methode ist ein Python-Skript, das das Whisper-Transkript in ein lokales LLM-Prompt (Ollama + llama3 oder Mistral) weiterleitet und eine Aufzaehlung von Entscheidungen und Aufgaben anfordert. Alternativ koennen Sie das Rohttranskript in jeden Chat-KI einfuegen. Die Rauschunterdruckung von VoxBooster haelt das erfasste Audio sauber, was direkt die Transkriptionsgenauigkeit verbessert.
Funktioniert dieser Arbeitsablauf mit aufgezeichneten Microsoft Teams-Meetings? Ja, auf zwei Arten: Erfassen Sie das Live-Audio ueber WASAPI-Loopback waehrend des Anrufs, oder laden Sie die Teams-Meeting-Aufzeichnung von OneDrive herunter und fuehren Sie Whisper auf der MP4-Datei aus. Der zweite Weg ist einfacher und laesst Sie jederzeit re-transkribieren, ohne im Meeting zu bleiben.
Weitere Lektuere
- OpenAI Whisper auf GitHub — Modell-Gewichte, Benchmarks und Installationsanleitungen
- Zoom-Aufzeichnung und Transkription — Offizielle Hilfe — wie Zoom Cloud-Aufzeichnungen handhabt
- Spracherkennung — Wikipedia — Hintergrund zu ASR-Technologie und WER-Metriken
- Echtzeit-Sprachnotizen mit VoxBooster — wie Echtzeit-Audioverarbeitung funktioniert
- Beste Rauschunterdruckung fuer Windows-Meetings — Vergleich lokaler Rauschunterdruckungs-Tools