Comment configurer la transcription Whisper sur Windows (local + gratuit)

Guide complet de la transcription Whisper sur Windows: installer via pip, whisper.cpp, applications GUI ou VoxBooster — sans cloud, sans abonnement, reconnaissance vocale précise hors ligne.

La transcription Whisper sur Windows vous offre une reconnaissance vocale précise et hors ligne qui s’exécute entièrement sur votre propre matériel — aucun abonnement, aucun téléchargement cloud, aucun frais à la minute. Ce guide couvre tout, des prérequis à l’utilisation en production: l’installation Python pip, le port plus léger whisper.cpp, les applications GUI prêtes à l’emploi et que faire quand vous voulez la transcription en temps réel sans un environnement Python.

TL;DR

  • OpenAI Whisper est un modèle de reconnaissance vocale gratuit et open-source avec cinq niveaux de taille (tiny → large-v3)
  • Installez via pip install openai-whisper sur Python 3.9–3.12; nécessite ffmpeg sur PATH
  • whisper.cpp est un port C++ plus léger — pas Python, fonctionne sur CPU via quantification GGML
  • GPU (CUDA) réduit le temps de transcription à temps quasi réel même sur les grands modèles; CPU fonctionne bien pour le petit modèle
  • Pour la transcription live sans configuration Python, VoxBooster bundle la STT locale grade-Whisper avec une touche d’accès global
  • Erreurs courantes: ffmpeg manquant, mauvais env Python, mismatch version CUDA

Qu’est-ce que la transcription Whisper?

OpenAI Whisper est un système de reconnaissance vocale automatique (ASR) open-source entraîné sur 680 000 heures d’audio multilingue. Publié en septembre 2022 et continuellement amélioré depuis, il s’exécute en tant que modèle local — ce qui signifie que vos fichiers audio ne quittent jamais votre PC. Il gère 99 langues, ajoute automatiquement la ponctuation et atteint des taux d’erreur de mots inférieurs à 5% sur audio anglais propre avec le modèle large-v3.

Contrairement aux services cloud (Otter.ai, Rev, couche de transcription de Descript), Whisper sur Windows n’a pas de coût à la minute et pas de politique de données à craindre. La transcription Whisper est véritablement gratuite une fois les poids du modèle téléchargés.


Prérequis avant l’installation

Avant de choisir une méthode d’installation, réglez ces dépendances:

Python 3.9–3.12. Le paquet Whisper officiel nécessite Python. Vérifiez si vous l’avez:

py --version

Si ce n’est pas le cas, téléchargez le dernier installateur 3.12 à partir de python.org. Pendant l’installation, cochez “Add Python to PATH” — c’est important.

ffmpeg. Whisper utilise ffmpeg pour décoder les fichiers audio et vidéo. Sans cela, vous obtiendrez FileNotFoundError ou une sortie vide sur tout ce qui n’est pas un WAV brut. La méthode d’installation la plus rapide sur Windows 10/11:

winget install Gyan.FFmpeg

Ensuite, ouvrez un nouveau terminal et vérifiez: ffmpeg -version.

Un GPU (facultatif mais recommandé). Whisper s’exécute sur CPU, mais un GPU NVIDIA compatible CUDA fait une différence significative. Pour le grand modèle, la transcription CPU d’un fichier de 10 minutes prend 3-6 minutes sur un PC moderne; sur un GPU de gamme moyenne (RTX 3060, 12 Go VRAM) cela prend environ 40 secondes. Plus d’informations sur les tailles de modèle et les exigences VRAM dans le tableau ci-dessous.


Tailles de modèle Whisper: Lequel choisir

ModèleParamètresVRAM (FP16)Vitesse relativeWER anglaisMeilleur pour
tiny39 M~1 Go~32x temps réel~5,7%Brouillons rapides, matériel bas de gamme
base74 M~1 Go~16x temps réel~4,2%Notes rapides, streaming direct
small244 M~2 Go~6x temps réel~3,0%Plupart des utilisateurs — meilleure valeur
medium769 M~5 Go~2x temps réel~2,2%Transcription professionnelle
large-v31550 M~10 Go~1x temps réel~1,6%Accents, multilingue, médical

Le “facteur temps réel” (RTF) ici signifie inférence GPU sur un NVIDIA A100. Sur un RTX 3080 grand public, multipliez environ par 3-4x. Sur CPU, multipliez par 10-20x encore.

Pour la plupart des utilisateurs Windows: commencez par small. Il s’exécute à temps quasi réel sur un CPU moderne, gère mieux les accents que base et tient dans 2 Go de RAM/VRAM. Si la précision sur le vocabulaire technique dense compte (juridique, médical, révisions de code), testez ensuite medium.


Méthode 1: Installation pip (paquet Python officiel)

C’est l’installation canonique d’openai whisper windows — simple si vous êtes à l’aise avec un terminal. Cela vous donne le plus de flexibilité: accès complet à l’API Python, tous les formats de sortie (txt, srt, vtt, json, tsv) et intégration facile avec d’autres scripts.

Étape 1 — Créer un environnement virtuel (recommandé)

py -m venv whisper-env
whisper-env\Scripts\activate

Cela garde les dépendances de Whisper isolées de votre Python système.

Étape 2 — Installer Whisper

pip install openai-whisper

Cela extrait la bibliothèque de modèles et ses dépendances (PyTorch, tiktoken, tqdm, more-itertools). Attendez-vous à 1-3 Go de téléchargements à la première exécution, y compris PyTorch.

Étape 3 — Installer PyTorch avec CUDA (si vous avez un GPU NVIDIA)

Le PyTorch par défaut de la commande ci-dessus est CPU uniquement. Pour l’accélération GPU:

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

Faites correspondre le suffixe cu121 à votre version CUDA installée (nvidia-smi l’affiche). Consultez la matrice d’installation PyTorch si vous ne êtes pas sûr.

Étape 4 — Exécuter votre première transcription

whisper my_audio.mp3 --model small

Le premier lancement télécharge les poids du modèle (~244 Mo pour small). Les lancements suivants sont instantanés. Sortie: un fichier .txt, .srt et .vtt à côté de votre audio.

Étape 5 — Drapeaux utiles

# Forcer l'anglais (ignorer la détection de langue, légèrement plus rapide)
whisper audio.mp3 --model small --language en

# Sortie en texte brut uniquement
whisper audio.mp3 --model small --output_format txt

# Transcrire un segment spécifique (secondes)
whisper audio.mp3 --model small --clip_timestamps "30,90"

# Utiliser explicitement le périphérique GPU
whisper audio.mp3 --model medium --device cuda

Méthode 2: whisper.cpp (Pas Python requis)

whisper.cpp est une réimplémentation C/C++ du moteur d’inférence Whisper. Il s’exécute sans Python, CUDA ou PyTorch. Sur Windows, il utilise des poids quantifiés GGML — le même format utilisé par llama.cpp — et peut accélérer via OpenBLAS (CPU) ou DirectML (GPU AMD/Intel/NVIDIA sans CUDA).

Pourquoi l’utiliser à la place du paquet Python?

  • Démarre en moins d’une seconde (pas d’initialisation PyTorch)
  • Utilise 30-50% moins de RAM sur le même modèle
  • S’expédie en tant que simple .exe — plus facile à bundler dans des scripts ou d’autres applications
  • Mode streaming disponible pour la transcription quasi temps réel

Étapes d’installation Windows

Des binaires précompilés Windows sont disponibles à partir de la page des releases whisper.cpp sur GitHub. Téléchargez whisper-bin-x64.zip, extrayez-le, puis téléchargez un modèle:

# Utilisant PowerShell — télécharge le petit modèle GGML
Invoke-WebRequest -Uri "https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-small.bin" -OutFile "models\ggml-small.bin"

Exécutez la transcription:

.\main.exe -m models\ggml-small.bin -f audio.wav -otxt

Remarque: whisper.cpp nécessite une entrée WAV (16 kHz, mono, 16-bit PCM). Convertissez d’abord avec ffmpeg:

ffmpeg -i input.mp3 -ar 16000 -ac 1 -c:a pcm_s16le output.wav

Méthode 3: Applications GUI construites sur Whisper

Si vous ne voulez pas d’un terminal du tout, plusieurs applications GUI open-source enveloppent Whisper pour une expérience cliquer-pour-transcrire sur Windows:

Whisper Desktop — une application Windows .NET 6 qui enveloppe whisper.cpp avec une interface glisser-déposer. Supporte la sélection de modèle, la langue et le traitement par lot. Nécessite pas Python; l’installateur est disponible sur GitHub.

UIs basées sur FasterWhisper — FasterWhisper est une réimplémentation Python utilisant CTranslate2 qui s’exécute 4x plus vite que l’original sur CPU. Plusieurs wrappers GUI communautaires existent; recherchez “faster-whisper GUI Windows” sur GitHub. Ceux-ci fonctionnent bien pour la transcription par lot de fichiers.

Subtitle Edit — un éditeur de sous-titres open-source populaire qui a ajouté l’intégration Whisper. Bon pour les workflows de sous-titrage vidéo où vous voulez une sortie SRT que vous pouvez ajuster manuellement.

Ces applications GUI couvrent bien la transcription basée sur fichiers. L’écart qu’elles ne comblent pas: la transcription live en temps réel avec une touche d’accès, ce qui mène à la section suivante.


Méthode 4: VoxBooster (Bundled, aucune configuration Python)

Si votre objectif est la transcription live — sous-titres en parlant, dictée dans n’importe quelle application, sous-titrage d’un appel — les méthodes basées sur fichiers ci-dessus ne correspondent pas. Elles sont conçues pour traiter un fichier audio terminé, pas un flux de microphone continu.

VoxBooster bundle la reconnaissance vocale locale grade-Whisper directement dans l’application. Aucun environnement Python, aucun assistant de téléchargement de modèle, aucune dépendance ffmpeg. Vous installez VoxBooster une fois et le moteur de transcription est prêt sous Dictation dans la barre latérale.

Différences pratiques vs. l’installation pip brute:

  • Touche d’accès global — maintenez Ctrl+Shift+D dans n’importe quelle application et parlez; le texte apparaît à votre curseur
  • Suppression du bruit intégrée — nettoie l’entrée du microphone avant qu’elle n’atteigne le modèle de parole, ce qui améliore significativement la précision dans les pièces bruyantes
  • Pas de terminal — la sélection du modèle et les paramètres de langue sont dans une GUI
  • Bundled avec voice changer, soundboard et voice clone — si vous utilisez déjà VoxBooster pour le changement de voix Discord ou OBS, la fonction de dictée est juste un autre onglet

Pour un aperçu plus approfondi du flux de travail de dictée, consultez le guide de dictée vocale sur Windows.


Choisir entre les méthodes

pip Whisperwhisper.cppApplications GUIVoxBooster
Python requisOuiNonParfoisNon
GPU nécessaireNon (facultatif)Non (facultatif)Non (facultatif)Non (facultatif)
Live en temps réelNonPartielNonOui
Touche d’accès globalNonNonNonOui
Transcription par lot de fichiersOuiOuiOuiNon
Sortie SRT/VTTOuiOuiOuiNon
Complexité d’installationMoyenMoyenBasBas

Choisissez pip whisper si vous avez besoin d’une sortie SRT/VTT pour les sous-titres vidéo ou si vous voulez script la transcription par lot en Python. Choisissez whisper.cpp si vous voulez un binaire portable avec surcharge mémoire réduite. Choisissez une application GUI pour la transcription par glisser-déposer de fichiers. Choisissez VoxBooster si vous voulez la dictation live sans une installation Python.


Modèles d’utilisation CLI basiques

Une fois le paquet pip fonctionnant, ces modèles couvrent 90% des cas d’usage réels.

Transcrire un enregistrement de réunion aux sous-titres SRT

whisper meeting.mp4 --model medium --language en --output_format srt

Whisper peut lire directement les fichiers vidéo (il appelle ffmpeg en interne). Sortie: meeting.srt dans le même dossier.

Transcrire un dossier de fichiers audio

for %f in (*.mp3) do whisper "%f" --model small --output_format txt

Exécutez dans l’invite de commande (pas PowerShell — la syntaxe de boucle for diffère). Chaque fichier obtient sa propre sortie .txt.

Forcer la traduction en anglais

whisper french_audio.mp3 --model small --task translate

--task translate produit l’anglais quel que soit la langue d’entrée. Utile pour les entrevues multilingues.

Spécifier le répertoire de sortie

whisper audio.mp3 --model small --output_dir C:\Transcripts

Erreurs courantes et corrections

No module named 'whisper' Vous avez installé whisper dans un environnement Python différent de celui actuellement actif. Exécutez py -0 pour lister tous les installs Python, activez le bon virtualenv, puis réinstallez. Aussi possible: vous avez installé avec pip3 mais exécutez avec py.

FileNotFoundError: [WinError 2] ffmpeg ffmpeg n’est pas sur votre PATH. Installez via winget install Gyan.FFmpeg, fermez et rouvrez votre terminal, puis confirmez avec ffmpeg -version.

CUDA out of memory Vous exécutez un modèle trop grand pour la VRAM de votre GPU. Essayez la taille suivante, ou ajoutez --fp16 False pour forcer FP32 (utilise plus de VRAM mais corrige parfois les problèmes d’allocation sur certaines versions CUDA). Sinon, exécutez sur CPU avec --device cpu.

RuntimeError: Expected all tensors to be on the same device Mismatch version PyTorch CUDA. Réinstallez PyTorch avec le suffixe CUDA correct pour votre version du pilote. Vérifiez votre pilote avec nvidia-smi et faites référence croisée à pytorch.org/get-started/locally.

La sortie est brouillée ou dans la mauvaise langue Whisper détecte automatiquement la langue à partir des 30 premières secondes d’audio. Si votre fichier a du silence ou du bruit au début, la détection échoue. Correction: ajoutez --language en (ou votre langue cible) explicitement.

La transcription est lente même avec un GPU Confirmez que Whisper utilise réellement CUDA: ajoutez --device cuda à votre commande. Si vous voyez FP16 is not supported on CPU; using FP32 instead dans la sortie, CUDA n’est pas utilisé — revérifiez votre installation PyTorch.


Whisper vs. Autres options de transcription Windows

Cela vaut la peine de savoir ce à quoi vous vous comparez avant de vous engager dans une configuration:

Reconnaissance vocale / dictée intégrée Windows (Win+H) — rapide et bien intégrée, mais la précision lags sur les accents, le vocabulaire technique et l’anglais non-américain. Dépendance partielle du cloud en mode par défaut. Pas de sortie SRT.

Dragon NaturallySpeaking / Dragon Professional — historiquement l’étalon de précision, fort pour les flux de travail de dictée, mais coûteux ($300-$500), Windows uniquement et lent pour ajouter le vocabulaire pour les nouveaux domaines. Traitement local, ce qui est un plus.

Otter.ai, Rev, transcription Descript — basée sur cloud, tarification par abonnement, véritablement bonne précision, mais l’audio quitte votre machine. Non viable pour les réunions privées, les enregistrements juridiques ou quoi que ce soit sous NDA.

Azure Cognitive Services / Google Speech-to-Text — API développeur, basée sur cloud, paiement à la minute. Précis, mais nécessite du code et une connexion Internet. Pas un équivalent d’installation whisper local, et la précision de la transcription whisper est compétitive à coût nul continu.

Les forces de Whisper par rapport à tout ce qui précède: gratuit, entièrement local, poids open-source que vous pouvez vérifier, fort support multilingue et précision compétitive avec les services payants sur audio propre. Son faiblesse: pas de mode streaming temps réel natif dans le paquet Python et la configuration nécessite un peu de confort CLI.


Confidentialité: Pourquoi Local compte pour la transcription

Quand vous exécutez Whisper localement sur Windows, l’audio ne touche jamais un serveur externe. Cela compte plus que la plupart des gens ne le réalisent — et c’est l’un des plus grands arguments pratiques pour la transcription Whisper sur les alternatives cloud payantes:

  • Les enregistrements de réunion contiennent souvent des informations commerciales confidentielles
  • La dictée médicale et juridique est soumise aux réglementations de confidentialité (HIPAA, RGPD, etc.)
  • Les entrevues de journalistes et les conversations de sources ne doivent jamais aller aux API cloud
  • Les notes vocales personnelles, entrées de journal, transcriptions de séances de thérapie — des choses que vous préféreriez ne pas avoir sur le serveur de quelqu’un d’autre

Les services de transcription cloud ont des politiques de confidentialité, mais “nous ne vendons pas vos données” et “nous pouvons utiliser l’audio anonymisé pour améliorer les modèles” sont des déclarations différentes. Avec une installation whisper locale sur Windows, la réponse aux deux est hors de propos — l’audio reste sur votre disque.


FAQ

OpenAI Whisper fonctionne-t-il hors ligne sur Windows? Oui. Une fois que vous avez téléchargé les poids du modèle, Whisper s’exécute 100% localement — aucune connexion Internet requise. Le téléchargement initial varie de 75 Mo (tiny) à 3,09 Go (large-v3). Après cela, la transcription se déroule entièrement sur votre CPU ou GPU sans que les données quittent votre machine.

Quel GPU dois-je pour la transcription Whisper sur Windows? Un GPU est facultatif mais accélère beaucoup les choses. Pour le modèle petit, 2 Go de VRAM suffisent. Medium en nécessite 5 Go, large-v3 en nécessite 10 Go. Sur CPU uniquement, le modèle de base transcrit environ 10-15 fois plus vite que le temps réel sur un i5/Ryzen 5 moderne, ce qui signifie qu’une minute d’audio prend environ 4-6 secondes.

Quelle est la différence entre les tailles de modèle Whisper? Whisper est livré en cinq tailles — tiny, base, small, medium et large (avec les variantes large-v2 et large-v3). Les modèles plus grands sont plus précis mais plus lents et plus lourds. Pour la plupart des utilisateurs Windows, small offre le meilleur rapport exactitude-vitesse: ~244 Mo, bonne précision multilingue, s’exécute sur CPU en temps quasi réel sur du matériel moderne.

Puis-je utiliser Whisper pour la transcription live en temps réel sur Windows? Le paquet Python Whisper original est basé sur fichiers et n’est pas conçu pour le temps réel. whisper.cpp dispose d’un mode streaming, mais la configuration est complexe. Pour une transcription live vraiment à faible latence — sous-titres en parlant, dictée, sous-titrage d’appel — une application bundlée comme VoxBooster est plus facile: précision grade-Whisper sans environnement Python requis.

Quelle est la précision d’OpenAI Whisper par rapport à Dragon NaturallySpeaking ou la dictée Windows? Sur audio propre, Whisper large-v3 affiche des taux d’erreur de mots inférieurs à 5% sur la plupart des langues, compétitif avec Dragon Professional et meilleur que la dictée intégrée Windows sur le vocabulaire technique, les accents et le contenu multilingue. La précision diminue dans les conditions bruyantes, mais la combinaison de Whisper avec la suppression du bruit restaure la plupart de celle-ci.

Qu’est-ce que whisper.cpp et pourquoi l’utiliserais-je à la place du paquet Python? whisper.cpp est un port C/C++ du modèle Whisper qui s’exécute sans Python ou CUDA. Sur Windows, il utilise des poids GGML quantifiés et peut exploiter DirectML ou OpenBLAS pour l’accélération. Il démarre plus vite, utilise moins de RAM et est plus facile à intégrer dans d’autres applications que le paquet Python.

Comment corriger l’erreur “No module named whisper” sur Windows? Cela signifie généralement que l’installation pip a été effectuée dans un environnement Python différent de celui que vous exécutez. Vérifiez avec py -0 pour lister les Pythons installés, activez le bon virtualenv, puis réinstallez: pip install openai-whisper. Confirmez également que vous avez ffmpeg sur PATH — Whisper en a besoin pour décoder les fichiers audio.


Conclusion: Quelle configuration de transcription Whisper est la bonne pour vous?

Si vous avez besoin de transcription par lot de fichiers avec sortie SRT/VTT — pour les sous-titres vidéo, les enregistrements de réunion, les notes de podcast — l’installation pip-based openai whisper windows est le chemin le plus flexible. Ajoutez le support CUDA pour votre GPU et vous obtenez un débit quasi temps réel même sur medium.

Si vous voulez une empreinte mémoire plus petite ou construisez un script qui appelle whisper en tant que sous-processus, whisper.cpp avec des poids GGML est l’option plus propre pour une installation whisper local sur Windows — pas Python, pas CUDA, juste un binaire et un fichier de modèle.

Si vous voulez l’intégration Windows de reconnaissance vocale locale sans aucun travail de terminal — spécifiquement la dictation live dans les applications — VoxBooster bundle la même précision grade-Whisper avec une touche d’accès global et la suppression du bruit intégrée. Pas Python, pas d’environnements virtuels, pas de dépannage ffmpeg. C’est particulièrement utile si vous utilisez déjà l’application pour le changement de voix ou le travail soundboard; la fonction de transcription whisper desktop est juste un autre onglet dans la même interface.

Commencez avec le petit modèle quel que soit le chemin que vous empruntez. Il vous fait arriver à 80% de la qualité large-v3 à une fraction du coût de calcul. Vous pouvez toujours mettre à niveau plus tard une fois que vous savez quel niveau de précision votre flux de travail exige réellement.

Pour les options de prix et de plan, consultez voxbooster.com/#pricing.

Essayez VoxBooster — essai gratuit de 3 jours.

Clonage vocal en temps réel, soundboard et effets — partout où vous parlez déjà.

  • Sans carte bancaire
  • ~30 ms de latence
  • Discord · Teams · OBS
Essayer gratuitement 3 jours