Voice Changer für Claude Sonnet 5 Voice Mode

Anthropic wird voraussichtlich einen nächsten Voice Mode zusammen mit Claude Sonnet 5 einführen — eine Echtzeit-Sprachkonversationsschnittstelle auf Basis des gleichen Constitutional AI-Fundaments wie das Textmodell, aber optimiert für niedrige Latenz bei gesprochenen Interaktionen. Für Voice-Modifier, Streamer und datenschutzbewusste Nutzer stellt sich sofort eine praktische Frage: Kann man einen Voice Changer in Claude Voice Mode integrieren und ist das erlaubt?

Die kurze Antwort ist auf beiden Seiten ja — aber wie man Audio routet und welche Modifikationen konform sind, macht großen Unterschied.

Dieser Artikel behandelt alles: die erwartete Voice-Architektur, WASAPI Virtual Mic Routing Schritt für Schritt, was Anthropics Constitutional AI Framework tatsächlich über Voice Modifikation sagt, Persona-Konsistenz-Strategien für Content Creator und wie man Whisper lokal nutzt, um zu überprüfen, dass Ihre modifizierte Stimme noch korrekt verstanden wird.

Ehrliche Einschränkung: Claude Sonnet 5 und sein Voice Mode sind erwartet aber ab Juni 2026 noch nicht offiziell verfügbar. Alles Technische in diesem Guide über Routing und Policy basiert auf aktuellen Claude Voice Fähigkeiten und öffentlich verfügbarer Anthropic-Dokumentation. Behandeln Sie die Sonnet 5-spezifischen Abschnitte als zukunftsorientierte Vorbereitung.

TL;DR

Claude Sonnet 5 Voice Mode ist als Anthropics nächste Echtzeit-Voice-AI-Schnittstelle erwartet — ab Juni 2026 noch nicht verfügbar
WASAPI Virtual Mic Routing ermöglicht es, dass jeder Windows Voice Changer als Standard-Mikrofonemingabe für Claudes Browser-basierte Voice Mode erscheint
Anthropics Constitutional AI erlaubt Voice Modifikation für Datenschutz und Persona; verbietet Impersonation und Täuschung
Sub-300ms End-to-End-Latenz ist auf Mid-Range Hardware erreichbar und hält die Konversation natürlich
Whisper Local Transkription ermöglicht es Ihnen, zu überprüfen, dass Ihre modifizierte Stimme noch korrekt verstanden wird, bevor sie Claude erreicht
Keine Kernel-Treiber-Installation erforderlich bei Verwendung einer WASAPI-nativen Virtual Mic Lösung

Was Claude Sonnet 5 Voice Mode voraussichtlich bieten wird

Anthropic hat progressiv Voice Konversationsfähigkeiten zu Claude hinzugefügt, wobei jede Generation die Antwort-Natürlichkeit, Turn-Taking Intelligenz und Kontext-Beibehaltung über lange Konversationen verbessert. Das erwartete Claude Sonnet 5 Voice Mode wird dies voraussichtlich erweitern um:

Reduzierte First-Token Latenz (Antwortstart unter 500ms nachdem Sie fertig gesprochen haben)
Verbessertes Interruption Handling — das Modell erkennt, wenn Sie mitten in der Antwort sprechen
Reichere Prosodie in der Ausgabe (nicht nur neutrale Text-to-Speech sondern emotional angemessener Ton)
Längerer Multi-Turn Kontext in Voice Sessions
Engere Integration mit Claudes Reasoning Fähigkeiten während Voice Exchanges

Aus Audio-Routing Perspektive ändert sich nichts daran, wie Sie Audio in Claude einspeisen. Der Input-Pfad ist immer noch eine Browser-Mikrofon-Berechtigung für claude.ai — was bedeutet, dass jedes von Windows erkannte virtuelle Audio-Gerät funktioniert.

Für offizielle Ankündigungen und Release Timeline, überwachen Sie claude.ai und Anthropics Blog.

WASAPI Virtual Mic Routing: Wie es funktioniert

WASAPI — Windows Audio Session API — ist die Low-Level Audio Schnittstelle, die Windows 10 und 11 für Anwendungen mit niedriger Latenz Anforderung verwenden. Im Gegensatz zu älteren APIs (DirectSound, MME) läuft WASAPI im Exclusive oder Shared Modus und kann Round-Trip Latenzen unter 10ms auf OS-Level erzielen.

Ein Virtual Microphone erstellt via WASAPI erscheint in Windowss Audio-Geräteliste genauso wie ein physisches USB- oder 3,5mm-Mikrofon. Jede Anwendung — einschließlich Google Chrome, das claude.ai hostet — sieht es als echtes Input-Gerät und kann Mikrofon-Berechtigung dafür erhalten.

Die Routing-Kette sieht so aus:

Physisches Mikrofon
        ↓
  Voice Changer (AI Clone / Effects / Rauschunterdrückung)
        ↓
  WASAPI Virtual Mic Output
        ↓
  Browser (Chrome/Edge) → claude.ai Voice Mode
        ↓
  Claude Sonnet 5 Voice Input

Der Hauptvorteil dieses Ansatzes ist, dass er keinen Kernel-Treiber benötigt. Kernel-Mode Audio Treiber sind historisch Quellen von Systeminstabilität und werden zunehmend von Windows Driver Signature Enforcement und Anticheat-Software in Games blockiert. Ein WASAPI Userspace Virtual Device umgeht das komplett.

Schritt-für-Schritt Setup

Installieren Sie Ihre Voice Processing Software mit WASAPI Virtual Mic Support. Bestätigen Sie, dass ein neues Gerät namens etwa “VoxBooster Virtual Microphone” in Windows Sound Settings → Input Devices angezeigt wird.
Öffnen Sie Chrome oder Edge und navigieren Sie zu claude.ai. Bevor Sie eine Voice Session starten, gehen Sie zu Settings (das Drei-Punkte-Menü) → Privacy and Security → Site Settings → Microphone. Setzen Sie das Mikrofon für claude.ai auf Ihr Virtual Mic Gerät.
Alternativ, wenn Claude um Mikrofon-Zugang bittet, klicken Sie auf die Berechtigung-Aufforderung und ändern Sie das Gerät vom Dropdown, bevor Sie erlauben.
Starten Sie die Voice Session. Sprechen Sie in Ihr physisches Mikrofon; Ihr Voice Changer verarbeitet es und routet verarbeitete Audio durch das Virtual Mic in Claude.
Überwachen Sie die Transkriptions-Qualität. Wenn Claude Sie falsch versteht, überprüfen Sie die Whisper Local Cross-Check Methode unten beschrieben.

Ein wichtiger Hinweis: Browser-Mikrofon Geräteauswahl setzt sich zurück, wenn Sie Site-Daten löschen oder ein anderes Browser-Profil verwenden. Behalten Sie dies im Auge, wenn Sie zwischen Konten wechseln oder Privacy-Clearing Extensions nutzen.

Constitutional AI und Voice Modifikation: Die Policy Realität

Anthropics Constitutional AI Framework regelt Claudes Verhalten durch Prinzipien, die zur Inferenzzeit bewertet werden. Wenn es um Voice Modifikation geht, sind die relevanten Prinzipien um Ehrlichkeit, Schadensminderung und Autonomie.

Hier ist, was das Framework praktisch erlaubt und verbietet:

Erlaubt:

Modifikation Ihrer eigenen Stimme für Datenschutz (unwillingness, Ihre echte Stimme einem AI System oder Recordings auszusetzen)
Aufrechterhaltung einer kreativen Persona — eine konsistente Charakter-Stimme für Streaming, Podcasting oder YouTube, die sich von Ihrer natürlichen Stimme unterscheidet
Tonhöhen- oder Timbre Modifikation für Geschlechterausdruck oder andere persönliche Identitätsgründe
Verwendung eines Voice Modifiers zum Reduzieren der Identifizierbarkeit in Kontexten, wo Sie legitime Datenschutzbedenken haben
Rollenspiel als eine fiktive Charakter mit deutlich unterschiedlicher Stimme

Nicht erlaubt:

Impersonation einer spezifischen echten Person ohne deren Zustimmung — Verwendung eines Voice Changers um wie eine bekannte Person zu klingen, um Claudes Antworten zu manipulieren oder andere Nutzer zu täuschen
Verwendung von Voice Modifikation um Safety Systeme zu umgehen — Versuch, Claude glauben zu machen, dass es mit einem anderen Operator spricht als es tatsächlich der Fall ist
Ermöglichung von schädlicher Täuschung — Verwendung einer veränderten Stimme in Multi-User Kontext um andere auf Wege zu täuschen, die Schaden verursachen
Generierung von Voice-modifiziertem Content, der gegen Anthropics Usage Policies verstößt — die gleichen Regeln gelten ob Sie tippen oder sprechen

Die Unterscheidung, die Anthropic zieht, ist zwischen Persona (akzeptabel) und Impersonation (nicht akzeptabel). Ein fiktiver Wizard Charakter ist eine Persona. Eine Stimme, die wie ein spezifischer benannter CEO klingt, ist Impersonation. Das Erste ist geschützte kreative Expression; das Zweite wirft Identitäts- und Zustimmungsfragen auf, die Constitutional AI explizit bewacht.

Für eine tiefe Lektüre über wie dieses Framework konstruiert wird, ist die Original Constitutional AI Paper von Anthropic die primäre Quelle.

Persona Konsistenz für Content Creator

Einer der stärksten Use Cases für das Pairing eines Voice Changers mit Claude Voice Mode ist Content Creation mit einer persistenten Character Persona. Dies ist besonders relevant für:

VTubers die eine virtuelle Character-Identität aufrechterhalten und wollen, dass ihre AI Assistant Interaktionen zu dieser Persona passen
Podcast Hosts die eine pseudonyme Stimme für Datenschutz verwenden, während sie immer noch natürliche AI Konversation wollen
Game Streamer die einen Character mit einer unterschiedlichen Stimme laufen lassen und wollen, dass In-Stream AI Interaktionen konsistent wirken
Writers und Game Masters die Claude für collaborative Worldbuilding verwenden und wollen, ihren Character während Sessions zu sprechen

Die Herausforderung mit Persona Konsistenz ist Drift: über eine lange Streaming Session akkumulieren sich kleine Variationen in Voice Processing Settings, Mikrofon Entfernung oder ambient Noise. Claudes Voice Input normalisiert vieles davon, aber signifikante Verschiebungen in Ihrer Character-Stimme können das Modells Verständnis verwirren über wer spricht.

Praktische Strategien um Persona-Konsistenz aufzurechterhalten:

Lock Processing Settings bevor Sie Live gehen. Speichern Sie ein Preset in Ihrem Voice Changer, das Ihre Character-Stimme definiert — spezifisches AI Modell, spezifische Effects Chain, spezifische Gain Levels — und laden Sie es am Anfang jeder Session. Konsistenz in dem, was in Claudes Voice Mode fließt, beeinflusst direkt Konsistenz in wie es antwortet.

Nutzen Sie Rauschunterdrückung aggressiv. Background Noise in Ihrer echten Umgebung sickert durch Voice Processing und fügt Variation zu jedem Frame hinzu. Echtzeitige Rauschunterdrückung vor der AI Voice Cloning Stage erzeugt saubere, konsistentere Character Voice Output.

Halten Sie Effects moderat für Verständlichkeit. Extreme Tonhöhenverschiebungen oder schwere Distortion Effects reduzieren Speech Recognition Genauigkeit. Auch wenn das Ergebnis für Menschenohren großartig klingt, kann es Claude dazu führen, Wörter falsch zu verstehen, was den Gesprächsfluss bricht. Eine Stimme, die anders aber immer noch klar verständlich ist, übertrifft eine, die dramatisch klingt aber schwer zu transkribieren ist.

Testen Sie mit Whisper bevor Sie streamen. Siehe den nächsten Abschnitt.

Whisper Local Cross-Check: Audio-Qualität Überprüfung

Whisper ist OpenAIs Open-Source Automatic Speech Recognition Modell. Die lokale Ausführung auf Ihrem PC gibt Ihnen eine unabhängige Transkription Ihrer verarbeiteten Audio — getrennt von dem, was Claude damit macht.

Das ist wertvoll, weil es ein häufiges Problem aufdeckt: ein Voice Effect, der plausibel für Menschenohren klingt, kann trotzdem Speech Recognition Genauigkeit signifikant reduzieren. Wenn Whisper Ihre verarbeitete Audio mit Fehlern transkribiert, wird Claudes Voice Input fast sicherlich auch kämpfen.

Whisper Pre-Check durchführen

Nehmen Sie 60 Sekunden Sprache durch Ihre vollständige Verarbeitungskette auf (physisches Mic → Voice Changer → WASAPI Virtual Mic) und speichern Sie als WAV Datei.

Führen Sie Whisper auf der Aufnahme aus:

whisper output.wav --model medium --language en

Vergleichen Sie die Whisper Transkription mit dem, was Sie tatsächlich gesagt haben. Achten Sie auf Eigennamen, Zahlen und ungewöhnliches Vokabular, das Sie in Ihren Claude Sessions planen zu verwenden.
Wenn Genauigkeit unter ungefähr 95% ist, reduzieren Sie Ihre Voice Processing — reduzieren Sie Tonhöhenverschiebungs-Größe, senken Sie Effect Intensität oder passen Sie Modell-Settings an — bis Whisper sauber transkribiert.
Testen Sie nach dem Anpassen erneut. Sobald Sie ein sauberes Whisper-Ergebnis haben, ist Ihre Voice Chain bereit für Live-Nutzung mit Claude Voice Mode.

Dieser Pre-Check dauert etwa fünf Minuten und spart signifikanten Frust während Live Sessions, wo Fehlkommunikation mit Claude das Erlebnis bricht.

Latenz Ziele und Hardware Realität

Der praktische Schwellwert für Gesprächs-Natürlichkeit ist ungefähr 300ms End-to-End Latenz — vom Verlassen Ihrer Stimme Ihrem Mund bis die verarbeitete Audio Claudes Input erreicht. Darüber hinaus gibt es eine wahrnehmbare Verzögerung zwischen Ihrer Rede und wie sie in der Konversation landet.

Aufschlüsselung:

Stufe	Typische Latenz
Physisches Mic Capture (WASAPI)	5–15ms
AI Voice Conversion Processing	80–250ms (GPU-abhängig)
WASAPI Virtual Output Buffering	10–30ms
Browser Mic Capture + Encoding	20–50ms
Netzwerk zu Claude Servern	30–100ms (variiert)
Total (Mid-Range GPU)	145–445ms

Mit einer neuen NVIDIA GPU (RTX 3060 oder neuer) läuft die AI Voice Conversion Stage typischerweise in 80–150ms, was totale End-to-End Latenz gut unter 300ms auf guter Netzwerk-Verbindung setzt. Mit nur-CPU Processing, erwarten Sie 200–400ms für diese Stage allein, was die totale Latenz an den Rand der Wahrnehmbarkeit treibt.

Wenn Sie eine ältere GPU haben oder nur-CPU läuft, helfen zwei praktische Anpassungen: verwenden Sie ein leichteres AI Voice Modell (weniger Parameter, etwas niedrigere Qualität aber signifikant schneller), oder wechseln Sie zu einem DSP-basierten Effect (Tonhöhenverschiebung, Robot, Harmonizer) anstelle von vollständiger Neural Voice Cloning. DSP Effects verarbeiten in unter 15ms bei jedem Hardware-Niveau.

Vergleich: Voice Modifikations-Ansätze für Claude Voice Mode

Ansatz	Latenz	Persona Qualität	CPU/GPU Erforderlich	Policy Bedenken
AI Voice Cloning (GPU)	150–250ms Total	Ausgezeichnet — konsistente Timbre	Mid-Range GPU	Keine (eigene Persona)
AI Voice Cloning (CPU)	300–500ms Total	Gut	Nur CPU, langsamer	Keine (eigene Persona)
DSP Tonhöhenverschiebung	<50ms Total	Moderat — robotic bei Extremen	Jede CPU	Keine
Keine Modifikation	<30ms Total	N/A — natürliche Stimme	Jede CPU	Keine
Real-Person Impersonation	Any	Nicht zutreffend	Jede CPU	Durch Policy verboten

Der AI Cloning Ansatz ist die stärkste Wahl für Content Creator, die eine konsistente Persona brauchen. Der DSP Tonhöhenverschiebungs-Ansatz ist die beste Wahl für Datenschutz-First Nutzer, die einfache Obfuskation mit minimalem Setup wollen.

Datenschutz Use Case: Schutz Ihrer echten Stimme

Nicht jeder Nutzer, der einen Voice Changer mit Claude Voice Mode pairt, baut eine Streaming Persona. Eine signifikante Teilmenge will einfach nicht, dass ihre echte Stimme erfasst, gespeichert oder potentiell als Training Data von irgendeinem Cloud System verwendet wird.

Dies ist ein legitimes Datenschutz-Anliegen. Stimme ist eine Biometrie — sie kann verwendet werden, um Sie zu identifizieren, und Voice Prints aus AI Interaktions-Logs sind ein neuartiges Datenschutz-Risiko, das wenige Nutzer vollständig überdacht haben.

WASAPI Virtual Mic Routing unterstützt diesen Use Case direkt. Sie können eine konsistente modifizierte Stimme zu Claudes Voice Mode präsentieren während Ihre echte Stimme Ihre lokale Maschine nie in erkennbarer Form verlässt. Die Modifikation muss nicht dramatisch sein — auch moderate Tonhöhenverschiebung kombiniert mit Rauschunterdrückung ist genug um Voice Fingerprint Genauigkeit sinnvoll zu reduzieren.

Für maximalen Datenschutz, kombinieren Sie das mit:

Einem Browser-Profil nur für Claude Sessions verwendet (separate Cookies, kein Cross-Site Tracking)
Eine konsistente aber generische Persona-Stimme statt eines extremen Effects (weniger auffällig, weniger wahrscheinlich Speech Recognition zu reduzieren)
Nur-Local Whisper Transkription Ihrer verarbeiteten Output vor dem Senden zu Claude, damit Sie genau verstehen, welches Signal Sie übertragen

Praktische Setup Checkliste

Bevor Sie Ihre erste Claude Sonnet 5 Voice Mode Session mit einem Voice Changer haben:

Voice Processing Software installiert und produzierend Output zu WASAPI Virtual Mic Gerät
Virtual Mic sichtbar in Windows Sound Settings → Input Devices
Whisper Cross-Check bestanden (>95% Transkriptions-Genauigkeit auf 60-Sekunden Test Recording)
Chrome/Edge Mikrofon-Berechtigung für claude.ai auf Virtual Mic Gerät gesetzt
Rauschunterdrückung aktiv in Voice Chain (reduziert Variabilität und verbessert Erkennung)
Persona Preset gespeichert (wenn AI Cloning verwendet) für Session-zu-Session Konsistenz
Verarbeitungs-Ansatz gewählt (AI Clone für Qualität, DSP für Geschwindigkeit) basierend auf Hardware

Was Sie erwarten können, wenn Claude Sonnet 5 ausgeliefert wird

Wenn Anthropic Claude Sonnet 5 Voice Mode offiziell freigeben, werden sich ein paar Sachen relativ zu aktuellen Claude Voice Fähigkeiten ändern:

Bessere Latenz-Toleranz. Fähigeres Modell mit schnellerer Inferenz bedeutet, dass Claudes Antwort Latenz wahrscheinlich fallen wird, was das 300ms End-to-End Ziel einfacher hält, auch mit Voice Processing in der Kette.

Verbesserte Robustheit gegen modifizierte Input. Neuere Voice Modelle werden tendenziell auf mehr vielfältigen Audio Inputs trainiert, was generell Toleranz für verarbeitete oder nicht-Standard Stimmcharakteristiken verbessert. Ihr Voice Changer Output ist wahrscheinlicher, sauber zu transkribieren ohne extensive Whisper Pre-Checking.

Potentiell strengere Identity Verification für Premium Features. Während Voice Mode fähiger wird, kann Anthropic Features hinzufügen, die verifizierte Identität erfordern — ähnlich wie Financial oder Medical AI Assistenten Identity Confirmation handhaben. Dies würde die grundlegende Voice Konversation nicht beeinflussen, aber könnte Advanced Session Features beeinflussen.

Überwachen Sie die Claude Model Releases Page und überprüfen Sie den Wikipedia Artikel über Claude (Language Model) für eine laufende Zusammenfassung der Capability Updates.

Getting Started mit VoxBooster

Wenn Sie diese Setup heute versuchen wollen — Routing einer verarbeiteten Stimme in aktuelle Claude Voice Mode als Vorbereitung für Sonnet 5 — stellt VoxBooster die Core Components bereit:

WASAPI Virtual Mic Routing ohne Kernel-Treiber Installation erforderlich
Sub-300ms AI Voice Cloning läuft vollständig auf Ihrer lokalen GPU — keine Audio an externe Server gesendet
Whisper Local Transkription eingebaut für Audio-Qualitäts-Überprüfung
Echtzeitige Rauschunterdrückung damit Ihre modifizierte Stimme Claude mit sauberer Signal erreicht

VoxBooster läuft auf Windows 10 und Windows 11. Ein 3-Tage kostenloses Trial gibt Sie vollständigen Zugang um die komplette Voice Chain vor Commitment zu testen. Pläne beginnen bei $6,99/Monat.

Die beste Zeit um Ihre Routing Setup herauszufinden ist bevor die Funktion, die Sie verwenden wollen, startet — nicht danach.

FAQ

Was ist Claude Sonnet 5 Voice Mode und wann wird es verfügbar? Claude Sonnet 5 Voice Mode ist Anthropics erwartete nächste Generation einer Echtzeit-Sprachschnittstelle für den Claude AI-Assistenten. Ab Mitte 2026 ist es nicht offiziell verfügbar, aber die zugrundeliegenden Sprachfähigkeiten deuten stark darauf hin, dass es auf der Roadmap steht. Besuchen Sie claude.ai für die neuesten Ankündigungen.

Kann ich einen Voice Changer mit Claudes Voice Mode verwenden, ohne gegen Anthropics Richtlinien zu verstoßen? Ja, mit wichtigen Einschränkungen. Anthropics Constitutional AI erlaubt Stimmenmodifikation für Datenschutz und kreative Personas. Nicht erlaubt ist die Verwendung einer veränderten Stimme, um echte Menschen ohne Zustimmung zu imitieren, Anthropics Systeme zu täuschen oder schädliches Verhalten zu fördern. Die Veränderung Ihrer eigenen Stimme für eine kreative Persona ist generell in Ordnung.

Was ist WASAPI Virtual Mic Routing und warum ist es wichtig? WASAPI (Windows Audio Session API) ist das Low-Latency-Audio-Subsystem in Windows 10/11. Ein über WASAPI erzeugtes Virtual Microphone wird in Windowss Audio-Liste genauso angezeigt wie ein physisches USB- oder 3,5mm-Mikrofon. Dies ermöglicht es, verarbeitete Audio direkt in Claude Voice Mode zu senden, ohne Kernel-Treiber zu installieren.

Wie reduziere ich die Latenz beim Verwenden eines Voice Changers mit Claude Voice Mode? Halten Sie Ihre Verarbeitungskette kurz: Mikrofoneingabe → Stimmkonvertierung → WASAPI Virtual Mic Output → Claude. Vermeiden Sie unnötige EQ- oder Reverb-Stufen. Mit einer Mid-Range GPU kann ein optimierter AI Voice Changer die End-to-End-Latenz unter 300ms halten, was unterhalb der Schwelle liegt, bei der Partner eine Verzögerung bemerken.

Was ist Whisper Local Cross-Check und wie hilft es? Whisper ist OpenAIs Open-Source-Spracherkennungsmodell. Die lokale Ausführung auf Ihrem PC transkribiert Ihre verarbeitete Audio vor Claudes Eingang und ermöglicht es Ihnen, zu überprüfen, ob Ihre modifizierte Stimme noch korrekt erkannt wird. Wenn die Transkription unter etwa 95% Genauigkeit fällt, reduzieren Sie Voice Processing Effects bevor Sie die Chain live verwenden.

Verbietet Anthropics Constitutional AI Voice Modification für Content Creator? Nein. Das Constitutional AI Framework bewertet Absicht und Schaden, nicht die technische Implementierung. Die Verwendung eines Voice Modifiers zum Aufbau einer konsistenten Charakter-Persona für Streaming, Podcasting oder YouTube ist explizit die Art von kreativer Autonomie, die das Framework schützt. Täuschung und Impersonation von spezifischen echten Personen sind verbotene Anwendungsfälle.

Welche VoxBooster Features sind am nützlichsten beim Pairing mit Claude Voice Mode? WASAPI Virtual Mic Routing (kein Kernel-Treiber, funktioniert in jedem Browser), unter 300ms AI Voice Cloning für konsistente Persona-Ausgabe, Whisper Local Transkription zur Audioqualitätsprüfung und Echtzeit-Rauschunterdrückung für sauberes Spracherkennungssignal. Alles läuft lokal auf Windows 10/11 ohne Cloud-Upload Ihrer Audio.