Whisper real time speech to text en Windows transforma el modelo de una herramienta batch offline a un motor de transcripción en vivo — local, privado y preciso para subtitular un stream, transcribir una reunión o alimentar un flujo de comandos de voz sin enviar ni un byte a la nube.
Esta guía cubre todo: cómo funciona la inferencia Whisper en tiempo real bajo el capó, los requisitos de hardware para cada tamaño de modelo, tres caminos de despliegue prácticos, el enrutamiento de audio WASAPI específico de Windows y cómo VoxBooster integra Whisper directamente en su pipeline de audio.
Por Qué Whisper Real Time Es Diferente del Whisper Offline
El paper original de Whisper describe un modelo sequence-to-sequence entrenado en 680.000 horas de audio. Le das un archivo; devuelve una transcripción. Eso es excelente para post-procesamiento pero inútil si necesitás subtítulos que aparezcan dentro de un segundo del habla.
Whisper real time funciona tratando el micrófono como un stream continuo y dividiéndolo en ventanas superpuestas, generalmente de 1-3 segundos. Cada ventana pasa por el modelo de forma independiente, y los resultados se cosen y deduplicaban antes de mostrarse. El trade-off es que el modelo nunca ve el contexto completo de una oración antes de producir la salida, lo que introduce ocasionales “alucinaciones” en los bordes de ventana que un procesamiento offline completo resolvería correctamente. Whisper-large-v3 reduce significativamente este problema en comparación con versiones anteriores porque maneja segmentos de audio cortos de forma más robusta.
El otro factor crítico es el detector de actividad de voz (VAD). Sin VAD, Whisper ejecuta inferencia sobre el silencio y produce texto fantasma. Un VAD bien configurado — Silero VAD es el estándar actual — garantiza que la inferencia solo se active cuando hay habla real, reduciendo tanto la latencia como la carga de CPU/GPU en un 40-70% en uso típico.
Requisitos de Hardware
Camino GPU (Recomendado)
| Modelo | VRAM Requerida | Latencia Típica RTX 3060 |
|---|---|---|
| tiny | 1 GB | ~50ms |
| small | 2 GB | ~80ms |
| medium | 4 GB | ~150-250ms |
| large-v3 | 6 GB | ~200-350ms |
Para la mayoría de los casos de uso de transcripción — subtítulos de accesibilidad, notas de reuniones, subtítulos para streamers — Whisper-medium en una tarjeta de 4 GB logra el punto óptimo entre precisión y latencia.
Camino CPU
La inferencia solo en CPU es funcional únicamente para los modelos small y tiny. Esperá 500ms-2 segundos de latencia, perceptible pero tolerable para uso no interactivo como transcripción de reuniones reproducidas después. Para subtítulos en vivo durante una conversación, solo CPU producirá un efecto de retraso que se siente roto.
Hardware de Audio
Cualquier micrófono funciona, pero la calidad de la señal afecta directamente la precisión de la transcripción. Whisper fue entrenado en condiciones de audio diversas, así que maneja el ruido razonablemente bien, pero un headset con micrófono close-talk siempre superará a un micrófono de escritorio de campo lejano para uso en tiempo real.
Enrutamiento de Audio WASAPI en Windows
Windows enruta el audio a través de la Windows Audio Session API (WASAPI). Entender WASAPI es necesario para configurar Whisper correctamente, especialmente si querés transcribir la salida del sistema (lo que escuchás) en lugar de la entrada del micrófono.
Modo Exclusivo vs. Modo Compartido
WASAPI opera en dos modos:
Modo exclusivo da a una sola aplicación acceso directo al hardware con latencia mínima — útil para procesamiento de audio de baja latencia pero bloquea otras aplicaciones del dispositivo.
Modo compartido permite que múltiples aplicaciones compartan el mismo endpoint de audio, con Windows manejando la mezcla. Para captura de entrada de Whisper, el modo compartido es casi siempre correcto — querés que Whisper lea del mismo stream de micrófono que usan otras aplicaciones, sin bloquear nada.
Captura de Entrada de Micrófono
Bibliotecas de Python como sounddevice y pyaudio acceden a los endpoints WASAPI por índice de dispositivo. Ejecutá lo siguiente para listar todos los dispositivos de audio disponibles:
import sounddevice as sd
print(sd.query_devices())
Captura Loopback (Audio del Sistema)
Para transcribir lo que suena por los altavoces — audio del sistema, una videollamada, un juego — necesitás captura loopback WASAPI. En sounddevice, usá wasapi_exclusive=False apuntando al dispositivo de salida; la biblioteca maneja el loopback internamente en Windows.
La captura loopback es útil para subtitular videoconferencias donde querés transcribir a la otra parte, o para flujos de accesibilidad donde necesitás subtítulos para cualquier audio que se reproduzca en la PC.
Tres Caminos de Despliegue
Camino 1: faster-whisper + Script Python Personalizado
faster-whisper es una reimplementación basada en CTranslate2 de Whisper que corre 4x más rápido que el original con menor uso de memoria. Soporta todos los tamaños de modelo y se integra limpiamente con un bucle de audio en tiempo real.
Instalación:
pip install faster-whisper sounddevice numpy silero-vad
El bucle básico es:
- Abrir un stream de audio con
sounddevicea 16 kHz mono (la frecuencia de muestreo nativa de Whisper) - Bufferear el audio entrante en una ventana deslizante
- Ejecutar Silero VAD; omitir inferencia si no hay habla detectada
- Pasar segmentos de habla al método
transcribe()defaster-whisperconbeam_size=1(más rápido) obeam_size=5(más preciso) - Imprimir o enrutar el resultado
Este camino da máximo control pero requiere comodidad con Python. Esperá entre 30-60 minutos ajustando tamaños de buffer y umbrales de VAD para tu micrófono.
Camino 2: whisper.cpp
whisper.cpp es un port en C++ de Whisper que compila a un binario nativo de Windows con soporte CUDA. Incluye una demo en tiempo real (stream.exe) que abre el micrófono, ejecuta inferencia con tamaños de ventana configurables y muestra la salida en stdout.
¿Por qué usar esto en lugar de Python? El tiempo de inicio es casi instantáneo, el uso de memoria es menor y se integra fácilmente en toolchains que no son Python. La salida en streaming puede redirigirse a un archivo que OBS lee como fuente de subtítulos en vivo.
Pasos de compilación (PowerShell):
git clone https://github.com/ggerganov/whisper.cpp
cd whisper.cpp
cmake -B build -DGGML_CUDA=1
cmake --build build --config Release
.\build\bin\Release\stream.exe -m models\ggml-large-v3.bin -t 8
Camino 3: VoxBooster con Whisper Integrado
VoxBooster incluye inferencia Whisper directamente en la aplicación — sin entorno Python separado, sin configuración manual de CUDA. El modelo se ejecuta localmente en tu GPU mediante un backend optimizado, la captura de audio WASAPI se maneja internamente, y la salida está disponible como overlay, archivo de subtítulos en vivo para OBS, o entrada de baja latencia para procesamiento de comandos de voz.
La diferencia clave respecto a las configuraciones Python manuales es la etapa integrada de supresión de ruido. El audio pasa por la capa de supresión de VoxBooster antes de llegar al buffer de Whisper, lo que mejora notablemente la precisión en entornos ruidosos — ruido del ventilador del headset, aire acondicionado, teclas del teclado — sin añadir latencia visible al usuario. La latencia end-to-end del habla al subtítulo mostrado es menor a 300ms en hardware de los últimos tres años.
No se instala ningún driver kernel, lo que significa sin elevación UAC, sin conflictos con software anti-cheat, y sin dispositivos que aparezcan en el Administrador de Dispositivos.
Subtítulos en Vivo para Streaming y Accesibilidad
Integración con OBS
Ya sea que uses faster-whisper, whisper.cpp o VoxBooster, el punto de integración con OBS es un archivo de texto que se actualiza en tiempo real.
- Configurá tu herramienta Whisper para escribir la salida de transcripción en un archivo (por ejemplo,
C:\subtitulos\live.txt) - En OBS, agregá una fuente Texto (GDI+)
- Marcá Leer desde archivo y apuntá al mismo path
- OBS consulta el archivo y actualiza la fuente en cada frame
Estilizá la fuente de texto con un fondo semitransparente para mantener la legibilidad sobre el gameplay o la webcam.
Casos de Uso de Accesibilidad
Para usuarios con discapacidad auditiva, los subtítulos Whisper en tiempo real en Windows ofrecen varias ventajas sobre los Subtítulos en Vivo integrados de Windows 11:
- Mayor precisión para vocabulario técnico, acentos marcados e idiomas distintos al inglés
- Display personalizable: tamaño de fuente, posición, color y persistencia ajustables a necesidades individuales
- Múltiples entradas: podés alimentar tanto micrófono como loopback al mismo Whisper
- Operación offline: sin dependencia de servidores de reconocimiento de voz ni conexión a internet
Para usuarios de Windows 10 sin acceso a los Subtítulos en Vivo, Whisper local es la principal opción de accesibilidad en tiempo real disponible sin un servicio de suscripción.
Flujos de Trabajo de Comandos de Voz
Whisper speech to text es suficientemente preciso para impulsar sistemas de comandos de voz ambientales — flujos de trabajo donde le hablás a tu PC sin presionar una tecla ni hacer clic.
La arquitectura típicamente se ve así:
Micrófono → filtro VAD → Whisper → buffer de texto → parser de intención → despachador de acciones
El parser de intención puede ser tan simple como un diccionario Python de frases trigger mapeadas a llamadas subprocess.run(), o tan sofisticado como un modelo de lenguaje local que maneja comandos en lenguaje natural. Para gaming y creación de contenido, los comandos comunes son:
- Iniciar/detener grabación
- Cambiar escenas de OBS
- Disparar clips de soundboard
- Silenciar/activar micrófono
Una alternativa ligera es ejecutar Whisper para transcripción continua y usar un detector de palabras clave como openwakeword como vía rápida para los comandos más comunes — el detector de palabras clave responde en menos de 50ms, y Whisper maneja todo lo demás.
Precisión: Qué Esperar
Whisper-large-v3 alcanza alrededor de 3-5% de tasa de error de palabras en audio inglés limpio. En modo en tiempo real con ventanas de 1-3 segundos, esperá 5-8% de WER debido al contexto reducido por llamada de inferencia.
Factores que mejoran la precisión:
- Mejor posicionamiento del micrófono: headset close-talk vs. micrófono de escritorio de campo lejano es fácilmente una diferencia de 2-3% de WER
- Supresión de ruido antes de la entrada: el pre-filtrado reduce las alucinaciones disparadas por sonido de fondo
- Beam size: aumentar de 1 a 5 mejora la precisión a costa de ~50ms de latencia adicional por chunk
- Temperature: establecer
temperature=0(decodificación greedy) reduce la varianza en la salida
Factores que perjudican la precisión:
- División en borde de ventana: las palabras que caen exactamente en el borde entre ventanas de inferencia son propensas a errores — el buffering de solapamiento lo mitiga
- Alucinaciones de silencio: sin VAD, Whisper frecuentemente transcribe el silencio como frases de relleno — siempre ejecutá VAD
Eligiendo Entre Whisper Real Time y los Subtítulos en Vivo de Windows 11
| Criterio | Subtítulos en Vivo de Win 11 | Whisper Local |
|---|---|---|
| Tiempo de configuración | ~90 segundos | 15-60 minutos |
| Precisión (inglés limpio) | Buena | Excelente (large-v3) |
| Precisión (acentos/jerga) | Regular | Buena-Excelente |
| Soporte de idiomas | 30+ idiomas | 99 idiomas |
| Latencia | 200-400ms | 150-800ms (depende de GPU) |
| Integración con OBS | Ninguna | Salida a archivo |
| Offline | Sí | Sí |
| Soporte Windows 10 | No | Sí |
| Privacidad | Local (Microsoft) | Completamente local |
| Costo de hardware | Ninguno | GPU ayuda significativamente |
Si estás en Windows 11 y solo necesitás subtítulos en inglés para accesibilidad con configuración mínima, Subtítulos en Vivo es la respuesta correcta. Si necesitás soporte para Windows 10, mayor precisión en dominios específicos, subtítulos en OBS, comandos de voz, o control sobre el pipeline de transcripción, Whisper local es la mejor opción.
Comenzando Hoy
El camino más rápido hacia una transcripción Whisper real time funcionando:
-
Con VoxBooster: abrí la aplicación, andá a Configuración → Transcripción, habilitá Whisper, seleccioná el tamaño del modelo. Todo lo demás se maneja automáticamente incluyendo enrutamiento de audio, VAD y archivo de salida para OBS.
-
faster-whisper manual:
pip install faster-whisper sounddevice silero-vad, luego adaptá uno de los ejemplos de streaming del GitHub de faster-whisper. Esperá 30 minutos para tener un prototipo funcionando. -
whisper.cpp: cloná, compilá con CUDA, ejecutá
stream.exe. La configuración más rápida entre los caminos manuales si te sentís cómodo con CMake.
Whisper real time en Windows ya no es experimental. Con el modelo correcto, una GPU de gama media y una entrada de audio limpia, obtenés calidad de transcripción y latencia que iguala o supera los servicios comerciales en la nube — sin que tu voz salga de la máquina.