Cách Phiên âm Cuộc gọi Discord (Miễn phí, Cục bộ, 2026)

Tìm hiểu cách phiên âm cuộc gọi Discord miễn phí bằng Whisper AI cục bộ — không có bot, không tải lên đám mây. Hướng dẫn từng bước bao gồm ghi âm, độ chính xác và mẹo cho nhiều người nói.

Cách phiên âm cuộc gọi Discord là một câu hỏi liên tục xuất hiện trong các cộng đồng chơi game, nhóm trực tuyến, nhóm podcast và nhân viên kiểm duyệt — và câu trả lời không rõ ràng vì Discord không cung cấp cho bạn cách tích hợp để làm điều đó. Bài viết này hướng dẫn bạn chính xác cách lấy bản ghi sạch và chính xác của bất kỳ cuộc gọi Discord nào bằng các công cụ miễn phí, giải thích những sự đánh đổi thực tế giữa các phương pháp cục bộ và đám mây, và chỉ cho bạn một quy trình làm việc Whisper cục bộ từng bước giữ âm thanh của bạn hoàn toàn ngoài máy chủ của bên thứ ba.


TL;DR

  • Discord không có phiên âm gốc — bạn phải ghi âm cuộc gọi trước, sau đó phiên âm tệp âm thanh
  • Tùy chọn miễn phí cục bộ tốt nhất là OpenAI Whisper, chạy hoàn toàn trên PC của bạn
  • Ghi âm với OBS Studio (chụp âm thanh máy tính để bàn) hoặc bot Craig (bản nhạc cho mỗi người nói)
  • Phiên âm với “whisper audio.mp3 —model small” từ dòng lệnh, hoặc sử dụng ứng dụng máy tính để bàn
  • Để gắn nhãn đa người nói, kết hợp Whisper với pyannote.audio hoặc sử dụng dịch vụ đám mây
  • Luôn thông báo cho những người tham gia rằng bạn đang ghi âm — yêu cầu sự đồng ý khác nhau giữa các quốc gia và tiểu bang Mỹ

Tại sao mọi người phiên âm trò chuyện thoại Discord

Discord bắt đầu như một ứng dụng trò chuyện chơi game nhưng đã phát triển thành lớp cơ sở hạ tầng cho các nhóm độc lập, các cộng đồng trực tuyến, những người tạo nội dung và các dự án hoàn toàn không gặp mặt. Do đó, các cuộc gọi diễn ra trên các kênh thoại Discord không phải lúc nào cũng bất hợp tác — chúng là cuộc họp thường lệ, bản ghi podcast, các phiên chiến lược bang hội, phiên tòa kiểm duyệt và cuộc gọi của khách hàng.

Dưới đây là những lý do chính tại sao mọi người muốn phiên âm cuộc gọi Discord:

Ghi chú cuộc họp và trách nhiệm. Rất nhiều máy chủ do cộng đồng điều hành đưa ra quyết định bằng lời nói qua giọng nói. Bản ghi cho mỗi thành viên một bản ghi có thể tìm kiếm mà không phụ thuộc vào trí nhớ của ai đó hoặc sao chép dán lộn xộn từ trò chuyện luồng.

Khả năng tiếp cận. Những thành viên điếc hoặc khiếm thính cần các phiên bản văn bản của các cuộc trò chuyện thoại. Ngay cả đối với người dùng nghe, bản ghi cho phép mọi người bắt kịp không đồng bộ mà không phải nghe đầy đủ bản ghi.

Tái sử dụng nội dung. Những người podcaster và streamer ghi lại các cuộc trò chuyện trên Discord muốn một bản ghi thô trước khi chỉnh sửa — nó tăng tốc độ tìm kiếm cap thời gian, tạo ghi chú show và rút ra trích dẫn cho phương tiện truyền thông xã hội.

Bản ghi kiểm duyệt. Người kiểm duyệt máy chủ đôi khi cần phải ghi lại những gì được nói trong một xung đột hoặc sự cố qu騷rấu. Bản ghi dễ dàng được xem xét và chia sẻ với một quá trình kháng cáo hơn là một tệp âm thanh kéo dài một giờ.

Dictate và ghi chú podcast. Những nhà văn và người sáng tạo solo sử dụng cuộc gọi Discord như một phương tiện chính tả — nói chuyện qua các ý tưởng và sau đó nuôi dưỡng bản ghi qua Whisper để có được bản nháp đầu tiên. Độ chính xác của Whisper trên giọng nói rõ ràng đủ gần để làm cho điều này thực sự hữu ích.


Discord có tính năng phiên âm gốc không?

Discord không có phiên âm cuộc gọi gốc tính đến 2026. Nền tảng cung cấp các phụ đề trực tiếp trong các kênh thoại — một tính năng khả năng tiếp cận tạo phụ đề thời gian thực khi mọi người nói — nhưng những phụ đề đó chỉ tồn tại trong phiên và không bao giờ được lưu. Khi mọi người rời khỏi kênh, các phụ đề sẽ biến mất.

Phụ đề trực tiếp của Discord sử dụng một công cụ nhận dạng giọng nói dựa trên đám mây và không tạo ra bản ghi có thể tải xuống. Không có lịch sử phiên âm, không có tùy chọn xuất và không có API cho phép bạn kéo dữ liệu phụ đề sau đó. Nếu bạn cần bản ghi lâu dài về những gì được nói, bạn phải xử lý ghi âm và phiên âm cho chính mình.


Cách phiên âm cuộc gọi Discord: Quy trình làm việc cốt lõi

Câu trả lời cốt lõi về cách phiên âm cuộc gọi Discord là một quá trình hai bước: ghi âm âm thanh, sau đó chạy speech-to-text trên tệp.

Bước 1 là cần thiết vì Discord không để lộ các luồng âm thanh thô cho các công cụ máy tính để bàn của bên thứ ba trong thời gian thực mà không có thiết bị âm thanh ảo hoặc bot chuyên dụng. Bước 2 có thể được thực hiện cục bộ (miễn phí, riêng tư) hoặc với dịch vụ đám mây (hỗ trợ đa người nói tốt hơn, chi phí tiền hoặc có giới hạn sử dụng).

Dưới đây là quy trình làm việc cục bộ đầy đủ từ đầu đến cuối.

Bước 1: Ghi âm cuộc gọi Discord

Bạn có ba tùy chọn rắn chắc tùy thuộc vào tình huống của bạn:

OBS Studio (miễn phí, không cần bot)

  1. Tải xuống và cài đặt OBS Studio nếu bạn chưa có.
  2. Trong OBS, bạn có Cài đặt → Đầu ra → Ghi âm. Đặt định dạng thành WAV hoặc FLAC để độ chính xác phiên âm tốt nhất (MP3 cũng được, chỉ chất lượng thấp hơn).
  3. Trong Audio Mixer, hãy chắc chắn “Desktop Audio” được bật. Điều này chụp mọi thứ phát ra từ loa/tai nghe của bạn, bao gồm cả giọng nói Discord.
  4. Tùy chọn thêm một nguồn Mic/Aux để chụp giọng nói của riêng bạn trên một bản nhạc riêng — hữu ích cho độ chính xác phiên âm và phân tách đa người nói sau này.
  5. Bắt đầu ghi âm trước khi cuộc gọi bắt đầu. Dừng lại khi mọi người ngắt kết nối.
  6. Tìm bản ghi trong đường dẫn bạn đặt (mặc định: thư mục Video).

Craig Bot (có tầng miễn phí, bản nhạc cho mỗi người nói)

Craig là một bot Discord được tạo đặc biệt để ghi âm. Mời nó đến máy chủ của bạn, nhập “/join” trong kênh thoại, và nó ghi mỗi người tham gia trên một bản nhạc âm thanh riêng. Sau cuộc gọi, nó gửi cho bạn một liên kết tải xuống với các tệp FLAC riêng biệt cho mỗi người nói. Định dạng cho mỗi người nói này làm cho phân tách dễ dàng hơn nhiều — bạn đã biết tệp nào của người nói.

Tầng miễn phí của Craig bao gồm hầu hết các nhu cầu ghi âm cộng đồng. Định dạng cho mỗi người nói là lợi thế lớn nhất so với OBS để phiên âm các cuộc gọi nhóm.

Ghi âm tích hợp VoxBooster (chỉ Windows)

VoxBooster bao gồm một lớp ghi âm âm thanh chụp âm thanh được xử lý — vì vậy nếu bạn cũng đang chạy các hiệu ứng thoại hoặc triệt tiêu tiếng ồn trong suốt cuộc gọi, bản ghi phản ánh những gì bên kia thực sự nghe được. Đầu ra là một tệp WAV sạch sẽ sẵn sàng để phiên âm. Vì tất cả xử lý là cục bộ, không có gì được tải lên đâu cả.

Bước 2: Phiên âm bản ghi với Whisper

OpenAI Whisper là một mô hình nhận dạng giọng nói miễn phí và mở ra chạy hoàn toàn trên PC của bạn. Không có tài khoản, không có kóa API, không có giới hạn sử dụng. Đọc thêm về việc thiết lập nó trong hướng dẫn phiên âm Whisper trên Windows.

Cài đặt Whisper

Bạn cần Python 3.9-3.12 và ffmpeg trên PATH. Cài đặt Whisper qua pip:

pip install openai-whisper

Xác minh ffmpeg có thể truy cập:

ffmpeg -version

Nếu điều đó gây ra lỗi, hãy cài đặt ffmpeg qua winget: “winget install Gyan.FFmpeg”

Chạy một phiên âm

whisper discord_call.wav --model small --language en --output_format txt
  • “—model small” là mặc định tốt: 244 MB, nhanh, chính xác trên giọng nói sạch
  • “—language en” bỏ qua phát hiện ngôn ngữ và tăng tốc độ nếu bạn biết ngôn ngữ
  • “—output_format txt” cung cấp tệp văn bản thuần túy; sử dụng “srt” nếu bạn muốn phụ đề có cap thời gian

Đối với bản ghi kéo dài một giờ trên CPU hiện đại, mô hình nhỏ mất khoảng 8-15 phút. Với GPU Nvidia (CUDA), nó giảm xuống dưới 2 phút.

Vị trí đầu ra: Whisper lưu bản ghi trong cùng thư mục với tệp nguồn theo mặc định.


Các phương pháp phiên âm được so sánh

Phương phápChi phíQuyền riêng tưĐộ chính xácĐa người nóiNỗ lực thiết lập
Whisper cục bộ (CLI)Miễn phíHoàn toàn cục bộCao (mô hình nhỏ/trung bình)Không (chỉ từ ngữ)Trung bình — cần Python + ffmpeg
Whisper cục bộ + pyannoteMiễn phíHoàn toàn cục bộCaoCó (nhãn người nói)Cao — thư viện bổ sung, GPU giúp
Craig bot + WhisperMiễn phíBot có quyền truy cập vào âm thanh của bạnCaoCó (tệp cho mỗi bản nhạc)Thấp-trung bình
AssemblyAI / DeepgramTrả tiền mỗi phútTải lên đám mâyRất caoCó (tích hợp sẵn)Thấp — chỉ kóa API
Otter.aiFreemiumTải lên đám mâyTốtRất thấp — dựa trên trình duyệt
Phụ đề trực tiếp DiscordMiễn phíĐám mây (Discord)Cơ bảnKhôngKhông có — tích hợp sẵn, không lưu

Lựa chọn đúng phụ thuộc vào mô hình đe dọa của bạn. Nếu bạn đang phiên âm các cuộc trò chuyện kiểm duyệt nhạy cảm hoặc các cuộc gọi kinh doanh nội bộ, Whisper cục bộ giữ âm thanh hoàn toàn ngoài máy chủ của bên thứ ba. Nếu bạn là một người podcaster chỉ muốn ghi chú show tốt một cách nhanh chóng, một dịch vụ đám mây như AssemblyAI ít ma sát hơn. Đối với hầu hết các game thủ và người quản lý cộng đồng, sự kết hợp OBS + Whisper cục bộ là điểm ngọt.


Xử lý nhiều người nói trong phiên âm âm thanh Discord

Whisper tạo ra một luồng teks đơn. Nó không biết rằng “Hey, tôi không đồng ý với điều đó” đến từ một người và “Hãy để tôi kết thúc” đến từ người khác. Đối với các cuộc gọi đơn giản giữa hai người, điều này có thể quản lý được — bạn có thể đọc bản ghi và hiểu ngữ cảnh. Đối với các cuộc gọi với năm hoặc nhiều người nói hơn, văn bản không được gắn nhãn trở nên khó sử dụng.

Tùy chọn 1: Tệp cho mỗi người nói từ Craig

Nếu bạn ghi âm bằng Craig, bạn đã có các tệp FLAC riêng biệt cho mỗi người tham gia. Chạy Whisper trên mỗi tệp một cách độc lập:

whisper alice.flac --model small --output_format txt
whisper bob.flac --model small --output_format txt

Sau đó hợp nhất các đầu ra được gắn tag thời gian theo thứ tự niên đại. Các cap thời gian mà Whisper tạo ra (“[00:00 —> 00:15]”) cho phép bạn xen kẽ chúng. Đây là thủ công nhưng cách tiếp cận đáng tin cậy nhất.

Tùy chọn 2: pyannote.audio để phân tách

pyannote.audio là thư viện phân tách người nói open-source. Kết hợp với Whisper, nó tạo ra đầu ra như:

[SPEAKER_00] 00:00:02 - 00:00:08: Chúng ta nên chuyển sự kiện này đến thứ Bảy.
[SPEAKER_01] 00:00:09 - 00:00:14: Tôi đồng ý, Chủ nhật đã đầy đủ cho nửa máy chủ.

Thiết lập phức tạp hơn (mã thông báo Hugging Face cho trọng số mô hình, GPU được khuyến khích mạnh mẽ), nhưng đầu ra dễ sử dụng hơn nhiều cho ghi chú cuộc họp. Kiểm tra GitHub pyannote để biết hướng dẫn cài đặt hiện tại vì API thay đổi giữa các phiên bản.

Tùy chọn 3: Đám mây với phân tách tích hợp sẵn

Các dịch vụ như AssemblyAI và Deepgram đều cung cấp phân tách người nói là tùy chọn một cú nhấp chuột trong API của họ. Bạn tải lên tệp, chỉ định “diarization: true” và nhận lại JSON được gắn nhãn. Sự đánh đổi là âm thanh của bạn rời khỏi máy của bạn — hãy xem xét điều đó vào quyết định của bạn nếu nội dung cuộc gọi nhạy cảm.


Ghi âm và phiên âm Discord: Xem xét sự đồng ý và pháp lý

Trước khi bạn ghi âm và phiên âm các cuộc trò chuyện Discord, bạn cần suy nghĩ về sự đồng ý. Đây không chỉ là lịch sự — đó là một yêu cầu pháp lý ở nhiều nơi.

Sự đồng ý của một bên so với tất cả các bên. Tại Mỹ, luật liên bang (ECPA) cho phép sự đồng ý của một bên — có nghĩa là bạn có thể ghi âm một cuộc gọi bạn tham gia mà không thông báo cho những người khác. Nhưng khoảng mười hai tiểu bang Mỹ, bao gồm California, Illinois và Florida, yêu cầu sự đồng ý của tất cả các bên. Ghi âm cuộc gọi với cư dân California mà không có kiến thức của họ có thể khiến bạn phải chịu trách nhiệm dân sự.

EU và GDPR. Tại EU, ghi âm giọng nói của ai đó cấu thành xử lý dữ liệu cá nhân. Bạn cần một cơ sở hợp pháp — thường là sự đồng ý rõ ràng. Thông báo cho những người tham gia và nhận được sự xác nhận bằng lời nói ở đầu cuộc gọi.

Quy tắc Discord. Hướng dẫn cộng đồng và Điều khoản dịch vụ của Discord không cấm rõ ràng ghi âm cuộc gọi bởi những người tham gia, nhưng phân phối bản ghi để gây hại hoặc quấy rối những người khác vi phạm các hướng dẫn. Nếu bạn ghi âm cho mục đích kiểm duyệt, hãy tuân theo các quy tắc máy chủ của riêng bạn và giữ bản ghi an toàn.

Thực hành tốt nhất thực tế: Công bố nó to tiếng vào đầu. “Hey, tôi đang ghi âm cuộc gọi này để lấy ghi chú” là đủ để đồng ý trong hầu hết các ngữ cảnh. Đối với bất cứ điều gì chính thức, hãy nhận được sự xác nhận văn bản trong trò chuyện máy chủ.


Cải thiện độ chính xác phiên âm cho âm thanh Discord

Codec Opus của Discord nén âm thanh một cách tích cực. Bản ghi từ các kênh thoại Discord có xu hướng có nhiều tạo phẩm nén hơn bản ghi microphone cục bộ, điều này có thể làm hỏng độ chính xác của Whisper trên những người nói yên tĩnh hơn hoặc các bộ lạc không bản địa.

Một vài điều giúp:

Triệt tiêu tiếng ồn trước khi ghi âm. Chạy triệt tiêu tiếng ồn trong suốt cuộc gọi (tích hợp sẵn trong máy khách Discord hoặc qua ứng dụng máy tính để bàn) tạo ra âm thanh nguồn sạch sẽ hơn để phiên âm. Triệt tiêu tiếng ồn cục bộ của VoxBooster, ví dụ, xử lý âm thanh trong thời gian thực mà không có sự phụ thuộc vào đám mây — và vì xử lý xảy ra trên thiết bị, bạn có thể ghi lại đầu ra sạch sẽ trực tiếp. Xem cách các tính năng thoại hoạt động trên Discord.

Sử dụng mô hình Whisper cao hơn cho âm thanh khó. Nếu mô hình nhỏ tạo ra luyên thuyên trên bản ghi ồn ào, hãy thử trung bình hoặc large-v3. Bước nhảy độ chính xác có ý nghĩa trên giọng nói rất nén hoặc không phải bản địa.

Mono so với stereo. Whisper hoạt động tốt hơn trên các bản ghi mono. Nếu thiết lập OBS của bạn ghi stereo (kênh trái mic, kênh phải Discord), downmix sang mono bằng ffmpeg trước khi phiên âm:

ffmpeg -i stereo_recording.wav -ac 1 mono_recording.wav

Chỉ định ngôn ngữ. Nếu mọi người trên cuộc gọi nói tiếng Anh, hãy chuyển “—language en” đến Whisper. Bỏ qua phát hiện ngôn ngữ loại bỏ một điểm lỗi tiềm năng và tăng tốc độ lượt chuyển đầu tiên.

Nhắc nhở ban đầu. Whisper chấp nhận một đối số “—initial_prompt” giúp mô hình hướng tới từ vựng nó thấy trong nhắc nhở. Nếu cuộc gọi của bạn liên quan đến một trò chơi hoặc chủ đề kỹ thuật cụ thể, khối lượng mô hình với các thuật ngữ có liên quan có thể giảm các lỗi tên đúng:

whisper call.wav --initial_prompt "Chiến lược gameplay Valorant, lựa chọn tác nhân, kiểm soát trang web"

Phiên âm Whisper Discord mà không cần dòng lệnh

Không phải ai cũng muốn chạy các lệnh Python. Nếu bạn thích GUI, có một vài cách tiếp cận:

VoxBooster kết hợp speech-to-text cục bộ chất lượng Whisper với giao diện đồ họa. Bạn có thể thả một tệp âm thanh vào màn hình phiên âm và nhận một tệp văn bản mà không cần mở terminal. Tất cả xử lý chạy trên PC của bạn — không có tệp nào rời khỏi máy của bạn. Tải xuống VoxBooster để thử, hoặc xem các tùy chọn giá nếu bạn muốn bộ tính năng đầy đủ bao gồm chính tả thời gian thực trong các cuộc gọi.

Whisper Desktop / Whisper Transcriber. Có một số trình bao lại GUI mã nguồn mở xung quanh Whisper trên GitHub. Chất lượng khác nhau và chúng được duy trì kém tích cực, nhưng chúng hoạt động nếu bạn chỉ cần phiên âm tệp điểm-và-nhấp.

whisper.cpp với GUI. Port whisper.cpp là một triển khai C++ không yêu cầu Python. Một số giao diện cộng đồng bao lại nó trong một giao diện kéo-và-thả đơn giản. Xem hướng dẫn chính tả Whisper trên Windows của chúng tôi để biết thêm ngữ cảnh về cài đặt Whisper máy tính để bàn.


Sử dụng bản ghi cho ghi chú cuộc họp Discord

Khi bạn có bản ghi thô, thách thức tiếp theo là biến nó thành cái gì đó hữu ích. Đầu ra Whisper là một bức tường văn bản dày đặc với cap thời gian nhưng không có định dạng. Dưới đây là quy trình làm sạch nhanh:

  1. Xóa cap thời gian nếu bạn không cần chúng. Trình soạn thảo văn bản có tìm kiếm-thay thế biểu thức chính quy xử lý điều này nhanh chóng: tìm ”[\d{2}:\d{2}.\d{3} —> \d{2}:\d{2}.\d{3}]” và thay thế bằng không có gì.
  2. Thêm nhãn người nói bằng cách sử dụng cách tiếp cận phân tách được mô tả ở trên, hoặc thủ công nếu bạn biết cuộc gọi tốt.
  3. Chạy qua một trình tóm tắt. Dán bản ghi sạch vào bất kỳ giao diện trò chuyện LLM nào và yêu cầu nó tạo các mục tindakan với dấu đầu dòng. Điều này biến một cuộc gọi lộn xộn kéo dài một giờ thành một bản tóm tắt năm đầu dòng trong khoảng 30 giây.
  4. Đăng lên máy chủ của bạn. Dán bản tóm tắt (không phải bản ghi thô) vào kênh “#meeting-notes” chuyên dụng. Những thành viên của bạn có thể tìm kiếm nó, liên kết tới nó, và giữ mọi người chịu trách nhiệm về những gì thực sự được nói.

Các câu hỏi thường gặp

Discord có tính năng phiên âm tích hợp không?

Không. Tính đến 2026, Discord không có tính năng phiên âm cuộc gọi gốc. Discord cung cấp phụ đề trực tiếp trong các kênh thoại như một tùy chọn khả năng tiếp cận, nhưng những phụ đề đó chỉ tồn tại trong phiên và không bao giờ được lưu. Để có được bản ghi lâu dài, bạn phải ghi âm cuộc gọi và phiên âm âm thanh riêng.

Có hợp pháp ghi âm và phiên âm cuộc gọi Discord không?

Tùy thuộc vào khu vực pháp lý của bạn. Nhiều tiểu bang Mỹ chỉ yêu cầu sự đồng ý của một bên (bạn có thể ghi âm cuộc gọi bạn tham gia mà không thông báo cho bên kia), nhưng một số tiểu bang và hầu hết các quốc gia EU yêu cầu sự đồng ý của tất cả các bên. Luôn thông báo cho những người tham gia trước khi ghi âm. Điều khoản dịch vụ của Discord chính nó không cấm ghi âm, nhưng vi phạm luật ghi âm đặc biệt cục bộ là trách nhiệm của bạn.

Phiên âm miễn phí chính xác nhất cho âm thanh Discord là gì?

Mô hình large-v3 của OpenAI Whisper cung cấp tỷ lệ lỗi từ dưới 5% trên âm thanh sạch và hoàn toàn miễn phí để chạy cục bộ. Đối với các cuộc gọi Discord được ghi lại bằng tai nghe chất lượng tốt trong môi trường yên tĩnh, mô hình Whisper nhỏ hoặc trung bình thường đủ chính xác và nhanh hơn nhiều so với large-v3.

Tôi có thể phiên âm các cuộc gọi Discord với nhiều người nói không?

Whisper riêng không thực hiện phân tách người nói — nó phiên âm các từ nhưng không nói ai nói chúng. Để có được đầu ra được gắn nhãn người nói, bạn cần kết hợp Whisper với một công cụ phân tách như pyannote.audio, hoặc sử dụng một dịch vụ đám mây như AssemblyAI xử lý phân tách một cách riêng. Phân tách cục bộ hoạt động nhưng yêu cầu thiết lập thêm.

Làm cách nào để ghi âm cuộc gọi Discord trên Windows?

Phương pháp đơn giản nhất là OBS Studio được đặt để chụp âm thanh máy tính để bàn hoặc cáp âm thanh ảo. Định tuyến đầu ra Discord đến nguồn ghi âm, bắt đầu phiên và xuất bản ghi âm dưới dạng WAV hoặc MP3 sau khi cuộc gọi kết thúc. Craig bot là tùy chọn gốc Discord phổ biến ghi mỗi người tham gia trên một bản nhạc riêng.

Whisper mất bao lâu để phiên âm bản ghi Discord kéo dài một giờ?

Trên CPU hiện đại (Ryzen 5 / Core i5) với mô hình nhỏ, dự kiến khoảng 8-15 phút cho bản ghi kéo dài một giờ. Với GPU tầm trung (RTX 3060 hoặc tốt hơn) và mô hình trung bình, cùng một tập tin được phiên âm trong vòng 3 phút. Mô hình large-v3 trên GPU xử lý nó trong 5-8 phút với độ chính xác cao hơn.

Định dạng âm thanh nào mà Whisper chấp nhận cho phiên âm Discord?

Whisper chấp nhận WAV, MP3, FLAC, M4A, OGG và hầu hết các định dạng âm thanh phổ biến vì nó sử dụng ffmpeg ở phía sau. Bản ghi Discord được lưu dưới dạng MP3 hoặc WAV hoạt động hoàn hảo. Nếu bạn ghi âm bằng OBS, xuất dưới dạng WAV để có độ chính xác tốt nhất — các định dạng nén có thể giới thiệu các tạo phẩm làm hại chất lượng phiên âm.


Kết luận

Cách phiên âm cuộc gọi Discord được rút gọn thành hai bước: ghi âm bằng OBS hoặc Craig, sau đó chạy qua Whisper cục bộ. Sự kết hợp đó miễn phí, chính xác và riêng tư — âm thanh của bạn không bao giờ rời khỏi máy của bạn. Đối với các cuộc gọi nhóm, kết hợp bản ghi cho mỗi người nói từ Craig với các lần chạy Whisper riêng lẻ, hoặc thêm pyannote.audio để phân tách tự động nếu bạn không nhất phải có thêm thiết lập. Các dịch vụ đám mây là một lựa chọn thay thế hợp lý khi bạn cần phân tách out-of-the-box và quyền riêng tư ít quan trọng hơn.

Nếu bạn muốn hoàn toàn bỏ qua thiết lập dòng lệnh, VoxBooster kết hợp phiên âm chất lượng Whisper cục bộ trong ứng dụng máy tính để bàn Windows bên cạnh các hiệu ứng thoại thời gian thực, triệt tiêu tiếng ồn và soundboard — tất cả xử lý trên thiết bị, không cần driver kernel. Đó là một giải pháp all-in-one thực tế cho bất kỳ ai dành nhiều thời gian trong các kênh thoại Discord và muốn quy trình làm việc của họ được giữ ngoại tuyến và nhanh chóng.

Dùng thử VoxBooster — 3 ngày dùng thử miễn phí.

Nhân bản giọng thời gian thực, soundboard và hiệu ứng — ở mọi nơi bạn đã nói chuyện.

  • Không cần thẻ tín dụng
  • ~30ms độ trễ
  • Discord · Teams · OBS
Dùng thử miễn phí 3 ngày