วิธีตั้งค่าการแปลงเสียง Whisper บน Windows (ท้องถิ่น + ฟรี)

การแปลงเสียง Whisper บน Windows ให้ความแม่นยำในการรู้จำเสียงและการทำงานแบบออฟไลน์ที่ทำงานอย่างสมบูรณ์บนฮาร์ดแวร์ของคุณ — ไม่มีการสมัครสมาชิก ไม่มีการอัปโหลด cloud ไม่มีค่าธรรมเนียมต่อนาที คำแนะนำนี้ครอบคลุมทุกสิ่งตั้งแต่ข้อกำหนดเบื้องต้นถึงการใช้งานการผลิต: การติดตั้ง Python pip, พอร์ต whisper.cpp ที่เบากว่า, แอปพลิเคชัน GUI ที่พร้อมใช้งาน และสิ่งที่ต้องทำเมื่อคุณต้องการการแปลงเสียงแบบเวลาจริงโดยไม่มีสภาพแวดล้อม Python

TL;DR

OpenAI Whisper คือแบบจำลองการรู้จำเสียงแบบโอเพนซอร์สฟรีที่มี five size tiers (tiny → large-v3)
ติดตั้งผ่าน pip install openai-whisper บน Python 3.9–3.12; ต้อง ffmpeg บน PATH
whisper.cpp เป็นพอร์ต C++ ที่เบากว่า — ไม่มี Python ทำงานบน CPU ผ่านการวัดปริมาณ GGML
GPU (CUDA) ตัดเวลาการแปลงให้เกือบเวลาจริงแม้กระทั่งบนรุ่นขนาดใหญ่; CPU ทำงานได้ดีสำหรับรุ่นเล็ก
สำหรับการแปลงเสียงสดโดยไม่ต้องติดตั้ง Python VoxBooster bundle STT ระดับ Whisper ท้องถิ่นพร้อมกับปุ่มร้อนโลก
ข้อผิดพลาดทั่วไป: ffmpeg หายไป env Python ผิด ไม่ตรงกันของเวอร์ชัน CUDA

การแปลงเสียง Whisper คืออะไร?

OpenAI Whisper เป็นระบบการรู้จำเสียงอัตโนมัติ (ASR) แบบโอเพนซอร์สที่ได้รับการฝึกอบรมบน 680,000 ชั่วโมงของเสียงหลายภาษา เพิ่มเติมในเดือนกันยายน 2022 และปรับปรุงอย่างต่อเนื่องตั้งแต่นั้นมา มันทำงานเป็นแบบจำลองท้องถิ่น — หมายความว่าไฟล์เสียงของคุณไม่เคยออกจากพีซีของคุณ มันจัดการ 99 ภาษา เพิ่มการเว้นวรรคอัตโนมัติ และบรรลุอัตราข้อผิดพลาดคำที่ต่ำกว่า 5% บนเสียงภาษาอังกฤษที่สะอาดสลวยด้วยแบบจำลอง large-v3

ซึ่งแตกต่างจากบริการ cloud (Otter.ai, Rev, ชั้นการแปลงของ Descript) Whisper บน Windows ไม่มีค่าธรรมเนียมต่อนาทีและไม่มีนโยบายข้อมูลที่ต้องกังวล การแปลงเสียง Whisper นั้นฟรีทั้งหมดหลังจากดาวน์โหลดน้ำหนักแบบจำลอง

ข้อกำหนดเบื้องต้นก่อนที่คุณจะติดตั้ง

ก่อนที่จะเลือกวิธีการติดตั้ง ให้จัดเรียงการพึ่งพาเหล่านี้:

Python 3.9–3.12. แพ็คเกจ Whisper อย่างเป็นทางการต้องการ Python ตรวจสอบว่าคุณมีมัน:

py --version

ถ้าไม่ให้ดาวน์โหลดตัวติดตั้ง 3.12 ล่าสุดจาก python.org ในระหว่างการติดตั้ง ให้ทำเครื่องหมาย “Add Python to PATH” — นี่คือสิ่งสำคัญ

ffmpeg. Whisper ใช้ ffmpeg เพื่อถอดรหัสไฟล์เสียงและวิดีโอ หากไม่มี คุณจะได้รับ FileNotFoundError หรือเอาต์พุตว่างเปล่าบนสิ่งใดก็ตามที่ไม่ใช่ WAV ดิบ วิธีการติดตั้งที่เร็วที่สุดบน Windows 10/11:

winget install Gyan.FFmpeg

จากนั้นเปิดเทอร์มินัลใหม่และตรวจสอบ: ffmpeg -version

GPU (ไม่บังคับ แต่แนะนำ). Whisper ทำงานบน CPU แต่ GPU NVIDIA ที่รองรับ CUDA ทำให้เกิดความแตกต่างอย่างมีนัยสำคัญ สำหรับแบบจำลองขนาดใหญ่ การแปลง CPU ของไฟล์ 10 นาที ใช้เวลา 3-6 นาที บนเดสก์ท็อปสมัยใหม่; บน GPU กลาง (RTX 3060, 12 GB VRAM) ใช้เวลาประมาณ 40 วินาที ข้อมูลเพิ่มเติมเกี่ยวกับขนาดแบบจำลองและข้อกำหนด VRAM ในตารางด้านล่าง

ขนาดแบบจำลอง Whisper: เลือกอันไหน

รุ่น	พารามิเตอร์	VRAM (FP16)	ความเร็วสัมพัทธ์	WER ภาษาอังกฤษ	ดีที่สุดสำหรับ
tiny	39 M	~1 GB	~32x เวลาจริง	~5.7%	เรียงร่างด่วน, ฮาร์ดแวร์คลาสต่ำ
base	74 M	~1 GB	~16x เวลาจริง	~4.2%	หมายเหตุด่วน, การสตรีมสด
small	244 M	~2 GB	~6x เวลาจริง	~3.0%	ผู้ใช้ส่วนใหญ่ — มูลค่าที่ดีที่สุด
medium	769 M	~5 GB	~2x เวลาจริง	~2.2%	การแปลงเสียงเชิงวิชาชีพ
large-v3	1550 M	~10 GB	~1x เวลาจริง	~1.6%	ลักษณะเฉพาะ, หลายภาษา, การแพทย์

“ปัจจัยเวลาจริง” (RTF) ที่นี่หมายถึงการอนุมาน GPU บน NVIDIA A100 บน RTX 3080 ผู้บริโภค ให้คูณด้วยประมาณ 3-4 เท่า บน CPU ให้คูณอีก 10-20 เท่า

สำหรับผู้ใช้ Windows ส่วนใหญ่: เริ่มต้นด้วย small มันทำงานเกือบเวลาจริงบน CPU สมัยใหม่ จัดการลักษณะเฉพาะที่ดีกว่า base และพอดีกับ 2 GB ของ RAM/VRAM หากความแม่นยำในศัพท์เฉพาะด้านเทคนิคที่หนาแน่นสำคัญ (กฎหมาย, การแพทย์, การตรวจสอบรหัส) ให้ทดสอบ medium ต่อไป

วิธีที่ 1: การติดตั้ง pip (แพ็คเกจ Python อย่างเป็นทางการ)

นี่คือการติดตั้ง openai whisper windows ตามหลักเกณฑ์ — ตรงไปตรงมาหากคุณสบายใจกับเทอร์มินัล ให้ความยืดหยุ่นสูงสุด: การเข้าถึง API Python เต็ม รูปแบบเอาต์พุตทั้งหมด (txt, srt, vtt, json, tsv) และการรวมง่ายกับสคริปต์อื่น

ขั้นตอนที่ 1 — สร้างสภาพแวดล้อมเสมือน (แนะนำ)

py -m venv whisper-env
whisper-env\Scripts\activate

สิ่งนี้ช่วยให้การพึ่งพา Whisper โดดเดี่ยวจาก Python ระบบของคุณ

ขั้นตอนที่ 2 — ติดตั้ง Whisper

pip install openai-whisper

สิ่งนี้ดึงไลบรารีแบบจำลองและการพึ่งพา (PyTorch, tiktoken, tqdm, more-itertools) คาดว่า 1-3 GB ของการดาวน์โหลดในการรันครั้งแรก รวมถึง PyTorch

ขั้นตอนที่ 3 — ติดตั้ง PyTorch พร้อม CUDA (หากคุณมี GPU NVIDIA)

PyTorch เริ่มต้นจากคำสั่งข้างบนคือ CPU เท่านั้น สำหรับการเร่งความเร็ว GPU:

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

จับคู่ cu121 ต่อหลักสำหรับเวอร์ชัน CUDA ที่คุณติดตั้ง (nvidia-smi แสดงให้เห็น) ดูที่ เมทริกซ์ติดตั้ง PyTorch หากคุณไม่แน่ใจ

ขั้นตอนที่ 4 — เรียกใช้การแปลงเสียงครั้งแรกของคุณ

whisper my_audio.mp3 --model small

การรันแรกดาวน์โหลดน้ำหนักแบบจำลอง (~244 MB สำหรับ small) การรันต่อเนื่องเป็นแบบทันที เอาต์พุต: ไฟล์ .txt, .srt และ .vtt ข้างเสียงของคุณ

ขั้นตอนที่ 5 — ธงที่มีประโยชน์

# บังคับใช้ภาษาอังกฤษ (ข้ามการตรวจหาภาษา เร็วกว่าเล็กน้อย)
whisper audio.mp3 --model small --language en

# เอาต์พุตข้อความธรรมชาติเท่านั้น
whisper audio.mp3 --model small --output_format txt

# แปลงส่วนเฉพาะ (วินาที)
whisper audio.mp3 --model small --clip_timestamps "30,90"

# ใช้อุปกรณ์ GPU อย่างชัดเจน
whisper audio.mp3 --model medium --device cuda

วิธีที่ 2: whisper.cpp (ไม่จำเป็นต้องใช้ Python)

whisper.cpp เป็นการนำกลับมาใช้ C/C++ ของเอนจิน Whisper inference มันทำงานโดยไม่มี Python, CUDA หรือ PyTorch บน Windows มันใช้น้ำหนัก GGML ที่ได้รับการวัด — รูปแบบเดียวกับที่ใช้โดย llama.cpp — และสามารถเร่งความเร็วผ่าน OpenBLAS (CPU) หรือ DirectML (GPU AMD/Intel/NVIDIA โดยไม่มี CUDA)

ทำไมต้องใช้มันแทนแพ็คเกจ Python?

เริ่มต้นในเวลาน้อยกว่าหนึ่งวินาที (ไม่มีการเริ่มต้น PyTorch)
ใช้ 30-50% น้อยกว่า RAM บนแบบจำลองเดียวกัน
ส่งมอบเป็น .exe เดี่ยว — ง่ายต่อการจัดเตรียมไว้ในสคริปต์หรือแอปพลิเคชันอื่น
โหมดการสตรีมมิ่งพร้อมใช้งานสำหรับการแปลงเสียงเกือบเวลาจริง

ขั้นตอนการติดตั้ง Windows

ไบนารี Windows ที่สร้างไว้ล่วงหน้ามีจากหน้าการเผยแพร่ whisper.cpp บน GitHub ดาวน์โหลด whisper-bin-x64.zip แยก จากนั้นดาวน์โหลดแบบจำลอง:

# ใช้ PowerShell — ดาวน์โหลดแบบจำลอง GGML เล็ก ๆ
Invoke-WebRequest -Uri "https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-small.bin" -OutFile "models\ggml-small.bin"

เรียกใช้การแปลงเสียง:

.\main.exe -m models\ggml-small.bin -f audio.wav -otxt

หมายเหตุ: whisper.cpp ต้องการอินพุต WAV (16 kHz, mono, PCM 16-bit) แปลงด้วย ffmpeg ก่อน:

ffmpeg -i input.mp3 -ar 16000 -ac 1 -c:a pcm_s16le output.wav

วิธีที่ 3: แอปพลิเคชัน GUI สร้างขึ้นบน Whisper

หากคุณไม่ต้องการเทอร์มินัลเลยแอปพลิเคชัน GUI แบบโอเพนซอร์สหลายตัวใช้ Whisper สำหรับประสบการณ์คลิกเพื่อแปลงบน Windows:

Whisper Desktop — แอปพลิเคชัน Windows .NET 6 ที่ใช้ whisper.cpp พร้อมกับอินเทอร์เฟสลากและวาง สนับสนุนการเลือกแบบจำลอง ภาษา และการประมวลผลเป็นชุด ไม่จำเป็นต้องมี Python; ตัวติดตั้งพร้อมใช้งาน GitHub

UI ตาม FasterWhisper — FasterWhisper เป็นการนำกลับมาใช้ Python โดยใช้ CTranslate2 ที่ทำงานเร็ว 4 เท่าของต้นฉบับบน CPU ตัวห่อ GUI ชุมชนหลายตัวมีอยู่; ค้นหา “faster-whisper GUI Windows” บน GitHub สิ่งเหล่านี้ทำงานได้ดีสำหรับการแปลงไฟล์เป็นชุด

Subtitle Edit — โปรแกรมแก้ไขคำบรรยายแบบโอเพนซอร์สที่นิยมซึ่งเพิ่มการรวม Whisper ดีสำหรับเวิร์กโฟลว์การจัดตำแหน่งคำบรรยายวิดีโอที่คุณต้องการเอาต์พุต SRT ที่คุณสามารถปรับแต่งได้ด้วยตนเอง

แอปพลิเคชัน GUI เหล่านี้ครอบคลุมการแปลงตามไฟล์ได้ดี ช่องว่างที่พวกเขาไม่เติม: การแปลงเสียงสดแบบเวลาจริงพร้อมกับปุ่มร้อน ซึ่งนำไปสู่ส่วนถัดไป

วิธีที่ 4: VoxBooster (ได้รับการจัดเตรียมไว้ ไม่จำเป็นต้องติดตั้ง Python)

หากเป้าหมายของคุณคือ การแปลงเสียงสด — คำบรรยายขณะคุณพูด การเขียนหนังสือไปยังแอปพลิเคชันใด ๆ การให้คำบรรยายการโทร — วิธีการตามไฟล์ข้างบนไม่เหมาะสม พวกเขาออกแบบมาเพื่อประมวลผลไฟล์เสียงที่เสร็จสิ้นแล้ว ไม่ใช่สตรีมไมโครโฟนต่อเนื่อง

VoxBooster bundle STT ระดับ Whisper ท้องถิ่นโดยตรงเข้าไปในแอปพลิเคชัน ไม่มีสภาพแวดล้อม Python ไม่มีตัวช่วยดาวน์โหลดแบบจำลอง ไม่มีการพึ่งพา ffmpeg คุณติดตั้ง VoxBooster ครั้งเดียวและเครื่องมือแปลงเสียงพร้อมอยู่ภายใต้ Dictation ในแถบข้าง

ความแตกต่างของปฏิบัติเมื่อเทียบกับการติดตั้ง pip บริสุทธิ์:

ปุ่มร้อนโลก — ถือ Ctrl+Shift+D ในแอปพลิเคชันใด ๆ และพูด; ข้อความปรากฏที่เคอร์เซอร์ของคุณ
การปราบปรามเสียงรบกวนในตัว — ล้างอินพุตไมโครโฟนก่อนที่จะถึงแบบจำลองเสียงซึ่งปรับปรุงความแม่นยำอย่างมีนัยสำคัญในห้องที่ศัตรู
ไม่มีเทอร์มินัล — การเลือกแบบจำลองและการตั้งค่าภาษาอยู่ใน GUI
Bundled พร้อมกับ voice changer, soundboard และ voice clone — หากคุณใช้ VoxBooster แล้วสำหรับ การเปลี่ยนเสียง Discord หรือ OBS คุณลักษณะการเขียนหนังสือเป็นเพียงแท็บอื่น

สำหรับมุมมองที่ลึกซึ้งยิ่งขึ้นของเวิร์กโฟลว์การเขียนหนังสือ ดู คำแนะนำการเขียนหนังสือเสียงบน Windows

การเลือกระหว่างวิธีการ

	pip Whisper	whisper.cpp	แอปพลิเคชัน GUI	VoxBooster
Python ที่จำเป็น	ใช่	ไม่	บางครั้ง	ไม่
GPU ที่จำเป็น	ไม่ (ไม่บังคับ)	ไม่ (ไม่บังคับ)	ไม่ (ไม่บังคับ)	ไม่ (ไม่บังคับ)
สดแบบเวลาจริง	ไม่	บางส่วน	ไม่	ใช่
ปุ่มร้อนโลก	ไม่	ไม่	ไม่	ใช่
การแปลงไฟล์เป็นชุด	ใช่	ใช่	ใช่	ไม่
เอาต์พุต SRT/VTT	ใช่	ใช่	ใช่	ไม่
ความซับซ้อนของการติดตั้ง	ปานกลาง	ปานกลาง	ต่ำ	ต่ำ

เลือก pip whisper หากคุณต้องการเอาต์พุต SRT/VTT สำหรับคำบรรยายวิดีโอ หรือคุณต้องการแปลงไฟล์เป็นชุดใน Python เลือก whisper.cpp หากคุณต้องการไบนารีแบบพกพาพร้อมค่าโสหุ่ยของหน่วยความจำที่ต่ำกว่า เลือกแอปพลิเคชัน GUI สำหรับการแปลงไฟล์ลากและวาง เลือก VoxBooster หากคุณต้องการการเขียนหนังสือสดโดยไม่ต้องติดตั้ง Python

ลักษณะการใช้ CLI พื้นฐาน

เมื่อแพ็คเกจ pip ทำงาน ลักษณะเหล่านี้ครอบคลุม 90% ของกรณีการใช้งานจริง

แปลงการบันทึกการประชุมไปยังคำบรรยาย SRT

whisper meeting.mp4 --model medium --language en --output_format srt

Whisper สามารถอ่านไฟล์วิดีโอโดยตรง (เรียก ffmpeg ภายในนอก) เอาต์พุต: meeting.srt ในโฟลเดอร์เดียวกัน

แปลงโฟลเดอร์ของไฟล์เสียง

for %f in (*.mp3) do whisper "%f" --model small --output_format txt

เรียกใช้ในพรอมต์คำสั่ง (ไม่ใช่ PowerShell — ไวยากรณ์ลูป for แตกต่างกัน) ไฟล์แต่ละไฟล์ได้รับเอาต์พุต .txt ของตัวเอง

บังคับการแปลเป็นภาษาอังกฤษ

whisper french_audio.mp3 --model small --task translate

--task translate เอาต์พุตภาษาอังกฤษโดยไม่คำนึงถึงภาษาที่ป้อน มีประโยชน์สำหรับการสัมภาษณ์หลายภาษา

ระบุไดเรกทอรี่เอาต์พุต

whisper audio.mp3 --model small --output_dir C:\Transcripts

ข้อผิดพลาดทั่วไปและการแก้ไข

No module named 'whisper' คุณติดตั้ง whisper ในสภาพแวดล้อม Python ที่แตกต่างจากสภาพแวดล้อมที่ใช้งานอยู่ เรียกใช้ py -0 เพื่อแสดงรายการการติดตั้ง Python ทั้งหมด เปิดใช้งาน virtualenv ที่ถูกต้อง จากนั้นติดตั้งใหม่ นอกจากนี้ยังเป็นไปได้: คุณติดตั้งด้วย pip3 แต่เรียกใช้ด้วย py

FileNotFoundError: [WinError 2] ffmpeg ffmpeg ไม่อยู่บน PATH ของคุณ ติดตั้งผ่าน winget install Gyan.FFmpeg ปิดและเปิดเทอร์มินัลของคุณใหม่ จากนั้นยืนยันด้วย ffmpeg -version

CUDA out of memory คุณกำลังรันแบบจำลองที่ใหญ่เกินไปสำหรับ VRAM GPU ของคุณ ลองขนาดถัดไป หรือเพิ่ม --fp16 False เพื่อบังคับใช้ FP32 (ใช้ RAM มากขึ้น แต่บางครั้งแก้ไขปัญหาการจัดสรรใน CUDA builds บางตัว) หรือ เรียกใช้บน CPU ด้วย --device cpu

RuntimeError: Expected all tensors to be on the same device เวอร์ชัน PyTorch CUDA ไม่ตรงกัน ติดตั้ง PyTorch ใหม่ด้วยต่อหลัก CUDA ที่ถูกต้องสำหรับเวอร์ชันไดรเวอร์ของคุณ ตรวจสอบไดรเวอร์ของคุณด้วย nvidia-smi และอ้างอิงไขว้ที่ pytorch.org/get-started/locally

เอาต์พุตถูกหลอกหรือในภาษาที่ผิด Whisper ตรวจหาภาษาโดยอัตโนมัติจาก 30 วินาทีแรกของเสียง หากไฟล์ของคุณมีความเงียบหรือเสียงรบกวนที่ด้านหน้า การตรวจหาล้มเหลว แก้ไข: เพิ่ม --language en (หรือภาษาเป้าหมายของคุณ) อย่างชัดเจน

การแปลงเสียงช้าแม้ว่าจะมี GPU ยืนยันว่า Whisper ใช้ CUDA จริง: เพิ่ม --device cuda ลงในคำสั่งของคุณ หากคุณเห็น FP16 is not supported on CPU; using FP32 instead ในเอาต์พุต CUDA ไม่ถูกใช้ — ตรวจสอบการติดตั้ง PyTorch ของคุณใหม่

Whisper vs ตัวเลือกการแปลงเสียง Windows อื่น ๆ

เป็นประโยชน์ที่จะรู้ว่าคุณกำลังเปรียบเทียบอะไรก่อนยอมรับการตั้งค่า:

การรู้จำเสียง / การเขียนหนังสือในตัว Windows (Win+H) — เร็วและรวมเข้ากับได้ดี แต่ความแม่นยำล้าหลังบนลักษณะเฉพาะ ศัพท์เฉพาะด้านเทคนิค และภาษาอังกฤษที่ไม่ใช่ของ US การพึ่งพา cloud บางส่วนในโหมดเริ่มต้น ไม่มีเอาต์พุต SRT

Dragon NaturallySpeaking / Dragon Professional — ประวัติศาสตร์มาตรฐานความแม่นยำ แข็งแกร่งสำหรับเวิร์กโฟลว์การเขียนหนังสือ แต่แพง ($300-$500) Windows เท่านั้น และช้าในการเพิ่มศัพท์เฉพาะสำหรับโดเมนใหม่ การประมวลผลในพื้นที่ ซึ่งเป็นปัจจัยบวก

Otter.ai, Rev, การแปลงเสียง Descript — ตามคลาउด์, ราคาการสมัครสมาชิก, ความแม่นยำดี แต่เสียงออกจากเครื่องของคุณ ไม่เหมาะสำหรับการประชุมส่วนตัว การบันทึกทางกฎหมาย หรือสิ่งใด ๆ ภายใต้ NDA

Azure Cognitive Services / Google Speech-to-Text — API ผู้พัฒนา ตามคลาउด์ จ่ายต่อนาที แม่นยำ แต่ต้องการรหัสและการเชื่อมต่ออินเทอร์เน็ต ไม่เทียบเท่ากับการติดตั้ง whisper ท้องถิ่น และความแม่นยำของการแปลง whisper มีการแข่งขันด้วยต้นทุนต่อเนื่องเป็นศูนย์

จุดแข็งของ Whisper เมื่อเทียบกับทั้งหมดข้างต้น: ฟรี, ท้องถิ่นอย่างสมบูรณ์ น้ำหนักแบบโอเพนซอร์สที่คุณสามารถตรวจสอบ, การสนับสนุนหลายภาษาที่แข็งแกร่ง และความแม่นยำที่มีการแข่งขันกับบริการที่ได้รับการสนับสนุนบนเสียงที่สะอาดสลวย จุดอ่อนของมัน: ไม่มีโหมดการสตรีมมิ่งเวลาจริงดั้งเดิมในแพ็คเกจ Python และการตั้งค่าต้องการความสบายใจ CLI เล็กน้อย

ความเป็นส่วนตัว: ทำไมท้องถิ่นถึงสำคัญสำหรับการแปลงเสียง

เมื่อคุณเรียกใช้ Whisper ในท้องถิ่นบน Windows เสียงไม่เคยสัมผัสเซิร์ฟเวอร์ภายนอก สิ่งนี้สำคัญมากกว่าที่คนส่วนใหญ่ตระหนัก — และเป็นข้อโต้แย้งทางปฏิบัติที่ใหญ่ที่สุดข้อหนึ่งสำหรับการแปลงเสียง Whisper เมื่อเทียบกับทางเลือก cloud ที่ได้รับการสนับสนุน:

การบันทึกการประชุมมักมีข้อมูลทางธุรกิจ
การเขียนหนังสือทางการแพทย์และกฎหมายอยู่ภายใต้การควบคุมความเป็นส่วนตัว (HIPAA, GDPR ฯลฯ)
สัมภาษณ์นักข่าวและการสนทนาของแหล่งที่มาไม่ควรไปยัง API cloud
บันทึกเสียงส่วนตัว รายการสมุดบัญชี บันทึกการประชุมเชิงบำบัด — สิ่งต่าง ๆ ที่คุณยินดีไม่มีบนเซิร์ฟเวอร์ของคนอื่น

บริการแปลงเสียง Cloud มีนโยบายความเป็นส่วนตัว แต่ “เราไม่ขายข้อมูลของคุณ” และ “เราอาจใช้เสียงไม่เปิดเผยตัวตนเพื่อปรับปรุงแบบจำลอง” เป็นคำสั่งที่แตกต่างกัน ด้วยการติดตั้ง whisper ท้องถิ่นบน Windows คำตอบสำหรับทั้งคู่ไม่เกี่ยวข้อง — เสียงยังคงอยู่บนดิสก์ของคุณ

FAQ

OpenAI Whisper ทำงานแบบออฟไลน์บน Windows หรือไม่? ใช่ หลังจากที่คุณดาวน์โหลดน้ำหนักแบบจำลอง Whisper จะทำงาน 100% ในเครื่อง — ไม่จำเป็นต้องเชื่อมต่ออินเทอร์เน็ต การดาวน์โหลดครั้งแรกมีตั้งแต่ 75 MB (tiny) ถึง 3.09 GB (large-v3) หลังจากนั้น การแปลงเสียงจะเกิดขึ้นทั้งหมดบน CPU หรือ GPU ของคุณโดยไม่มีข้อมูลออกจากเครื่องของคุณ

ฉันต้องการ GPU ใดสำหรับการแปลงเสียง Whisper บน Windows? GPU เป็นตัวเลือกแต่ช่วยเพิ่มความเร็วมากมาย สำหรับรุ่นเล็ก 2 GB VRAM ก็เพียงพอ ระดับกลางต้องมี 5 GB, large-v3 ต้องมี 10 GB บน CPU เท่านั้น รุ่นพื้นฐานแปลงประมาณ 10-15 เท่าเร็วกว่าเวลาจริงบน i5/Ryzen 5 สมัยใหม่ ซึ่งหมายความว่าเสียงหนึ่งนาทีใช้เวลาประมาณ 4-6 วินาที

ความแตกต่างระหว่างขนาดแบบจำลอง Whisper คืออะไร? Whisper มีขนาดห้าขนาด — tiny, base, small, medium และ large (พร้อมรูปแบบ large-v2 และ large-v3) แบบจำลองที่ใหญ่กว่ามีความแม่นยำมากขึ้นแต่ช้าลงและหนักขึ้น สำหรับผู้ใช้ Windows ส่วนใหญ่ small ให้อัตราส่วนความแม่นยำต่อความเร็วที่ดีที่สุด: ~244 MB, ความแม่นยำหลายภาษาที่ดี, ทำงานบน CPU เกือบเวลาจริงบนฮาร์ดแวร์สมัยใหม่

ฉันสามารถใช้ Whisper สำหรับการแปลงเสียงสดแบบเวลาจริงบน Windows ได้หรือไม่? แพ็คเกจ Python Whisper ดั้งเดิมเป็นแบบตามไฟล์และไม่ได้ออกแบบสำหรับเวลาจริง whisper.cpp มีโหมดการสตรีมมิ่ง แต่การตั้งค่านั้นซับซ้อน สำหรับการแปลงเสียงสดที่มีความหน่วงต่ำจริงๆ — คำบรรยายขณะคุณพูด การเขียนหนังสือ การให้คำบรรยายการโทร — แอปพลิเคชันที่มีการจัดเตรียมไว้เช่น VoxBooster นั้นง่ายกว่า: ความแม่นยำระดับ Whisper โดยไม่จำเป็นต้องมีสภาพแวดล้อม Python

OpenAI Whisper มีความแม่นยำเพียงใดเมื่อเทียบกับ Dragon NaturallySpeaking หรือการเขียนหนังสือ Windows? บนเสียงที่สะอาด Whisper large-v3 โพสต์อัตราข้อผิดพลาดคำต่ำกว่า 5% ในภาษาส่วนใหญ่ ซึ่งมีการแข่งขันกับ Dragon Professional และดีกว่าการเขียนหนังสือในตัว Windows ในการรู้เรื่องด้านเทคนิค ลักษณะเฉพาะของบริบท และเนื้อหาหลายภาษา ความแม่นยำลดลงในสภาพที่ศัตรู แต่การรวม Whisper กับการปราบปรามเสียงรบกวนจะสืบคืนส่วนใหญ่

Whisper.cpp คืออะไรและเหตุใดฉันจึงใช้มันแทนแพ็คเกจ Python? whisper.cpp เป็นพอร์ต C/C++ ของแบบจำลอง Whisper ที่ทำงานโดยไม่มี Python หรือ CUDA บน Windows มันใช้น้ำหนัก GGML ที่ได้รับการวัด และสามารถใช้ประโยชน์จาก DirectML หรือ OpenBLAS เพื่อให้เร่งความเร็ว มันเริ่มต้นเร็วกว่า ใช้ RAM น้อยกว่า และง่ายต่อการรวมเข้ากับแอปพลิเคชันอื่นมากกว่าแพ็คเกจ Python

ฉันจะแก้ไขข้อผิดพลาด “No module named whisper” บน Windows ได้อย่างไร? นี่มักหมายความว่าการติดตั้ง pip ไปยังสภาพแวดล้อม Python ที่แตกต่างจากที่คุณกำลังรัน ตรวจสอบด้วย py -0 เพื่อแสดงรายการการติดตั้ง Python ทั้งหมด เปิดใช้งาน virtualenv ที่ถูกต้อง จากนั้นติดตั้งใหม่: pip install openai-whisper นอกจากนี้ยังต้องยืนยันว่าคุณมี ffmpeg บน PATH — Whisper ต้องการมันเพื่อถอดรหัสไฟล์เสียง

สรุป: เซตอัพการแปลงเสียง Whisper ใดที่เหมาะสมสำหรับคุณ?

หากคุณต้องการการแปลงไฟล์เป็นชุดพร้อมเอาต์พุต SRT/VTT — สำหรับคำบรรยายวิดีโอ การบันทึกการประชุม บันทึกพอดคาสต์ — การติดตั้ง pip-based openai whisper windows คือเส้นทางที่ยืดหยุ่นมากที่สุด เพิ่มการสนับสนุน CUDA สำหรับ GPU ของคุณ และคุณได้รับปริมาณงานเกือบเวลาจริงแม้กระทั่งบน medium

หากคุณต้องการ footprint ที่เล็กลง หรือกำลังสร้างสคริปต์ที่เรียก whisper เป็น subprocess whisper.cpp ด้วยน้ำหนัก GGML นั้นเป็นตัวเลือกที่สะอาดกว่าสำหรับการติดตั้ง whisper ท้องถิ่นบน Windows — ไม่มี Python ไม่มี CUDA เพียงแค่ไบนารีและไฟล์แบบจำลอง

หากคุณต้องการการรวมการรู้จำเสียงท้องถิ่น Windows โดยไม่ต้องใช้งานเทอร์มินัล — โดยเฉพาะการเขียนหนังสือสดลงในแอปพลิเคชัน — VoxBooster bundle ความแม่นยำระดับ Whisper เดียวกันพร้อมกับปุ่มร้อนโลกและการปราบปรามเสียงรบกวนในตัว ไม่มี Python ไม่มี virtualenv ไม่มี ffmpeg troubleshooting สิ่งนี้มีประโยชน์เป็นพิเศษหากคุณใช้แอปพลิเคชันแล้วเพื่อเปลี่ยนเสียงหรือทำงาน soundboard; คุณลักษณะการแปลงเสียง whisper desktop เป็นเพียงแท็บอื่นในอินเทอร์เฟสเดียวกัน

เริ่มต้นด้วยรุ่นเล็กไม่ว่าเส้นทางใดที่คุณใช้ มันทำให้คุณได้ 80% ของวิธีถึงคุณภาพ large-v3 ในส่วนเล็ก ๆ ของต้นทุนการคำนวณ คุณสามารถอัพเกรดในภายหลังเมื่อคุณรู้ว่าระดับความแม่นยำใดที่เวิร์กโฟลว์ของคุณต้องการ

สำหรับตัวเลือกราคาและแผน ดู voxbooster.com/#pricing