Hướng Dẫn Cài Đặt Bot Text to Speech Discord (2026)

Hướng dẫn hoàn chỉnh để cài đặt bot text to speech Discord năm 2026. Bao gồm Voicemod TTS, Streamcord, bot Discord.js tùy chỉnh + ElevenLabs, định tuyến voice channel, và hotkey.

Nếu bạn muốn Discord nói chuyện đầu tiếp - cho dù bạn là người phát trực tiếp định tuyến chat Twitch vào voice channel, người dùng thích gõ hay nhà phát triển xây dựng công cụ kể chuyện tùy chỉnh - bot text to speech Discord là giải pháp đúng. Hướng dẫn này bao gồm mọi tùy chọn thực tế có sẵn vào năm 2026: các bot được lưu trữ mà bạn có thể thêm bằng một cú nhấp chuột, lệnh TTS Discord gốc và hướng dẫn từng bước xây dựng bot tùy chỉnh bằng Discord.js và API ElevenLabs.


TL;DR

  • Lệnh /tts gốc của Discord là phía khách hàng - phát âm thanh qua loa người nghe, không phải qua voice channel.
  • Streamcord TTS là tùy chọn được lưu trữ phổ biến nhất cho người phát trực tiếp muốn chat Twitch được đọc trong voice channel Discord.
  • Voicemod TTS cung cấp giọng nói mới lạ và nhân vật thông qua bot được quản lý.
  • Bot Discord.js + ElevenLabs tùy chỉnh mang lại chất lượng giọng nói tốt nhất và kiểm soát đầy đủ, với thời gian xây dựng dưới một giờ.
  • Hotkey để kích hoạt các lệnh TTS có thể được ánh xạ thông qua cài đặt keybind Discord hoặc thông qua các công cụ bên ngoài như AutoHotkey.
  • VoxBooster kết hợp với các bot TTS cho quy trình làm việc lai nơi bạn muốn kể chuyện trò chuyện tổng hợp và giọng nói được sửa đổi trực tiếp.

Tại Sao Bot TTS Tồn Tại và Những Gì Họ Thực Sự Làm

Lệnh /tts tích hợp của Discord thường bị hiểu sai. Khi bạn gõ /tts hello, máy khách desktop Discord đọc văn bản đó to qua loa của bạn bằng cách sử dụng công cụ TTS hệ điều hành cục bộ. Những người dùng khác trong channel không nghe nó qua voice channel - họ chỉ nghe nó nếu họ cũng có TTS Discord riêng được bật và máy khách của họ đọc tin nhắn cục bộ.

Bot text to speech Discord hoạt động khác nhau. Bot là một quy trình phía máy chủ với kết nối voice channel riêng của nó. Khi được kích hoạt, nó tổng hợp lời nói từ văn bản và phát trực tuyến âm thanh kết quả vào chính voice channel đó. Mọi người ở trong voice channel đó đều nghe nó, cách tương tự như họ nghe những người tham gia khác nói. Sự khác biệt đó - client-local versus channel-broadcast - là lý do duy nhất mà bot tồn tại cho trường hợp sử dụng này.

Các tình huống phổ biến nơi điều này quan trọng:

  • Thiết lập phát trực tiếp: Bạn đang phát trực tiếp trên Twitch và muốn tin nhắn trò chuyện của người xem được đọc to trong cuộc gọi suara Discord mà bạn chia sẻ với co-streamer.
  • Khả năng truy cập: Thành viên máy chủ không thể hoặc không thích sử dụng micrô; bot TTS cho phép họ tham gia các cuộc thảo luận suara bằng cách gõ.
  • Thông báo: Bot đọc cảnh báo kiểm duyệt, gán vai trò hoặc tin nhắn lên lịch vào channel mà không cần người điều hành con người.
  • Kể chuyện tùy chỉnh: Nhà phát triển xây dựng bot kể lại các sự kiện trò chơi, điểm số hoặc cảnh báo theo thời gian thực bằng giọng nói AI chất lượng cao.

Tùy chọn 1: Lệnh /tts Gốc Discord

Trước khi sử dụng bot, hãy kiểm tra xem lệnh tích hợp của Discord có đáp ứng nhu cầu của bạn không.

Cách bật nó: Trên máy chủ của bạn, bật Server Settings → Overview → Enable Text-To-Speech. Theo cài đặt Advanced của channel, hãy đặt Allow anyone to post TTS messages (hoặc hạn chế các vai trò cụ thể).

Cách sử dụng nó: Trong bất kỳ text channel nào có TTS được bật, gõ /tts [your message]. Discord đọc tin nhắn to qua loa người nhận bằng công cụ TTS OS của họ.

Hạn chế:

  • Âm thanh được sử dụng cho loa cục bộ, không phải cho broadcast voice channel.
  • Chất lượng giọng nói phụ thuộc vào công cụ TTS OS của người nhận (Microsoft David, Zira, v.v. trên Windows).
  • Mỗi người nghe phải riêng lẻ bật TTS trong Settings → Accessibility → Allow playback and usage of /tts command.

Tốt nhất cho: Sử dụng khả năng truy cập nhanh chóng, hoặc các tình huống nơi mỗi người dùng chỉ cần nghe văn bản được đọc cục bộ - không phải cho phát trực tiếp hoặc thông báo nhóm.


Tùy chọn 2: Bot Voicemod TTS

Voicemod, nổi tiếng với công cụ thay đổi giọng nói desktop của nó, điều hành bot Discord mang thư viện giọng nói của nó vào chức năng text-to-speech.

Nó cung cấp những gì:

  • Thư viện giọng nói nhân vật và mới lạ (robot, hoạt hình, sâu và hơn thế nữa).
  • Giao diện lệnh dấu gạch chéo đơn giản: /tts [voice] [message].
  • Không có tải mô hình giọng nói tùy chỉnh - bạn bị giới hạn ở thư viện đặt trước Voicemod.
  • Tầng miễn phí có sẵn; giọng nói cao cấp yêu cầu đăng ký Voicemod.

Cài đặp:

  1. Truy cập trang bot Discord Voicemod và nhấp vào Add to Server.
  2. Ủy quyền bot với quyền Connect, Speak và Read Messages.
  3. Tham gia voice channel trên máy chủ của bạn.
  4. Sử dụng /tts theo sau tên giọng nói được chọn và văn bản tin nhắn.

Hạn chế: Lựa chọn giọng nói bị giới hạn ở thư viện Voicemod. Nếu bạn cần giọng nói nghe như con người hoặc nhân cách tùy chỉnh, điều này sẽ không bao gồm nó.


Tùy chọn 3: Streamcord TTS cho Streamer

Streamcord là bot text to speech Discord được lựa chọn cho người phát trực tiếp muốn tin nhắn trò chuyện Twitch được đọc to trong voice channel Discord. Nó kết nối Twitch và Discord natively.

Nó cung cấp những gì:

  • Kết nối channel Twitch của bạn với voice channel Discord.
  • Đọc các tin nhắn trò chuyện Twitch to bằng giọng nói, tốc độ và cao độ có thể cấu hình.
  • Hỗ trợ TTS chỉ dành cho người đăng ký, quyền redeem điểm kênh làm trình kích hoạt TTS và lọc tin nhắn.
  • Lệnh dấu gạch chéo và cấu hình bảng điều khiển.

Cài đặp:

  1. Bật streamcord.io và nhấp vào Add to Discord.
  2. Ủy quyền trên máy chủ của bạn với các quyền cần thiết.
  3. Sử dụng /tts setup và làm theo các lời nhắc để liên kết channel Twitch của bạn và chọn target voice channel Discord.
  4. Định cấu hình cài đặt giọng nói tại streamcord.io/dashboard.

Định tuyến voice channel: Streamcord tham gia voice channel mà bạn chỉ định trong quá trình cài đặp. Bạn có thể thay đổi target channel thông qua bảng điều khiển mà không cần mời lại bot. Để làm cho nó theo bạn giữa các channel, sử dụng lệnh /tts move.

Cài đặt hotkey cho Streamcord: Streamcord tự nó không có hệ thống hotkey desktop chuyên dụng. Người phát trực tiếp thường ràng buộc khóa Push-to-Talk trong Discord cho micrô của họ, sau đó sử dụng keybind riêng biệt trong OBS hoặc StreamDeck để kích hoạt các lệnh trò chuyện. Để kiểm soát chi tiết hơn, các tập lệnh AutoHotkey có thể gửi các lệnh /tts thông qua các lần bấm phím bằng cách mô phỏng nhập liệu Discord.


Tùy chọn 4: Bot Tùy chỉnh với Discord.js + API ElevenLabs

Để có chất lượng giọng nói cao nhất và kiểm soát đầy đủ trên hành vi, xây dựng bot text to speech Discord của riêng bạn bằng Discord.js v14 và API ElevenLabs. Điều này cung cấp cho bạn quyền truy cập vào các giọng nói chất lượng studio ElevenLabs, voice cloning, tổng hợp đa ngôn ngữ và điều chỉnh tham số theo yêu cầu.

Điều kiện tiên quyết

  • Node.js 18+
  • Ứng dụng Discord và mã thông báo bot (discord.com/developers)
  • Khóa API ElevenLabs (elevenlabs.io)
  • FFmpeg được cài đặt và trên PATH của bạn (được yêu cầu bởi @discordjs/voice để mã hóa âm thanh)

Bước 1: Khởi tạo Dự án

mkdir discord-tts-bot && cd discord-tts-bot
npm init -y
npm install discord.js @discordjs/voice @discordjs/opus elevenlabs libsodium-wrappers ffmpeg-static

Bước 2: Đăng ký Lệnh Dấu Gạch Chéo

Tạo deploy-commands.js:

const { REST, Routes, SlashCommandBuilder } = require('discord.js');

const commands = [
  new SlashCommandBuilder()
    .setName('tts')
    .setDescription('Speak text in your voice channel')
    .addStringOption(opt =>
      opt.setName('text').setDescription('Text to speak').setRequired(true)
    )
].map(cmd => cmd.toJSON());

const rest = new REST({ version: '10' }).setToken(process.env.DISCORD_TOKEN);

(async () => {
  await rest.put(
    Routes.applicationGuildCommands(process.env.CLIENT_ID, process.env.GUILD_ID),
    { body: commands }
  );
  console.log('Commands registered');
})();

Chạy node deploy-commands.js một lần để đăng ký lệnh dấu gạch chéo /tts trên máy chủ của bạn.

Bước 3: Xây Dựng Bot

Tạo index.js:

const { Client, GatewayIntentBits } = require('discord.js');
const { joinVoiceChannel, createAudioPlayer, createAudioResource, AudioPlayerStatus } = require('@discordjs/voice');
const { ElevenLabsClient } = require('elevenlabs');
const { Readable } = require('stream');

const client = new Client({ intents: [GatewayIntentBits.Guilds, GatewayIntentBits.GuildVoiceStates] });
const eleven = new ElevenLabsClient({ apiKey: process.env.ELEVENLABS_API_KEY });

const VOICE_ID = 'your-elevenlabs-voice-id'; // e.g. 'EXAVITQu4vr4xnSDxMaL' for Rachel

client.on('interactionCreate', async interaction => {
  if (!interaction.isChatInputCommand() || interaction.commandName !== 'tts') return;

  const text = interaction.options.getString('text');
  const voiceChannel = interaction.member?.voice?.channel;

  if (!voiceChannel) {
    return interaction.reply({ content: 'Join a voice channel first.', ephemeral: true });
  }

  await interaction.deferReply({ ephemeral: true });

  const audioStream = await eleven.textToSpeech.convertAsStream(VOICE_ID, {
    text,
    model_id: 'eleven_multilingual_v2',
    voice_settings: { stability: 0.5, similarity_boost: 0.75 }
  });

  const connection = joinVoiceChannel({
    channelId: voiceChannel.id,
    guildId: interaction.guildId,
    adapterCreator: interaction.guild.voiceAdapterCreator,
  });

  const player = createAudioPlayer();
  const resource = createAudioResource(Readable.from(audioStream));

  player.play(resource);
  connection.subscribe(player);

  player.on(AudioPlayerStatus.Idle, () => connection.destroy());

  await interaction.editReply({ content: 'Speaking.' });
});

client.login(process.env.DISCORD_TOKEN);

Bước 4: Định Cấu Hình Biến Môi Trường

Tạo .env:

DISCORD_TOKEN=your_bot_token
CLIENT_ID=your_app_client_id
GUILD_ID=your_server_id
ELEVENLABS_API_KEY=your_elevenlabs_key

Chạy node index.js, tham gia voice channel trên máy chủ của bạn và gõ /tts Hello, this is my custom TTS bot.

Chọn Mô Hình Giọng Nói

ElevenLabs cung cấp một số mô hình vào năm 2026:

Mô HìnhĐộ TrễChất LượngNgôn Ngữ
eleven_turbo_v2_5~250msTốt32
eleven_multilingual_v2~400msRất Tốt29
eleven_flash_v2_5~75msTốt32

Để sử dụng Discord thời gian thực, eleven_flash_v2_5 giảm thiểu độ trễ giữa lệnh và lời nói. Để kể chuyện hướng tới chất lượng, eleven_multilingual_v2 là lựa chọn tốt hơn.


Định Tuyến Voice Channel: Mô Hình Thực Tế

Bất kể bạn sử dụng bot nào, định tuyến voice channel tuân theo các mô hình cơ bản tương tự.

Mô hình follow-the-user: Bot tham gia voice channel nào mà người gọi đang sử dụng khi lệnh được sử dụng. Đây là mặc định cho hầu hết các bot và triển khai trong ví dụ Discord.js ở trên. Không cần cấu hình trước.

Mô hình kênh cố định: Bạn chỉ định ID kênh cụ thể trong cấu hình bot. Bot luôn nói trong kênh đó bất kể người gọi ở đâu. Tốt nhất cho các bot thông báo hoặc phòng TTS chuyên dụng.

Mô hình đa kênh: Cài đặt phức tạp hơn nơi các kênh văn bản khác nhau ánh xạ đến các kênh giọng nói khác nhau. Trong Discord.js, bạn triển khai điều này bằng đối tượng ánh xạ kênal và phân giải target voice channel từ source text channel.

Mô hình follow động: Bot giám sát các sự kiện voiceStateUpdate và di chuyển để theo sau người dùng được chỉ định giữa các voice channel. Hữu ích cho những người phát trực tiếp thường chuyển đổi phòng trong một phiên.


Cài Đặt Hotkey cho Lệnh TTS

Hầu hết các bot TTS được kích hoạt bằng lệnh dấu gạch chéo, không phải hotkey. Nhưng bạn có thể tạo quy trình làm việc hotkey hiệu quả với một vài cách tiếp cận.

Keybind tích hợp Discord: Bật Discord Settings → Keybinds. Bạn không thể ràng buộc các lệnh văn bản tùy ý ở đây - chỉ push-to-talk, câm, im lặng và các tác vụ Discord tương tự. Đối với TTS, keybind không thể áp dụng trực tiếp.

AutoHotkey (Windows): Bạn có thể ánh xạ hotkey để gõ lệnh /tts [preset message] và nhấn Enter trong cửa sổ Discord:

^F1:: ; Ctrl+F1
  WinActivate, Discord
  Send, /tts Your preset message here{Enter}
return

StreamDeck: Nếu bạn sử dụng Elgato StreamDeck, tác vụ “Text” có thể gửi các lần bấm phím đến cửa sổ đang hoạt động. Định cấu hình nút StreamDeck để tập trung đầu vào văn bản Discord và gõ lệnh /tts của bạn. Điều này nhanh hơn và đáng tin cậy hơn AutoHotkey cho các tình huống phát trực tiếp.

Bot-side hotwords: Đối với bot tùy chỉnh, bạn có thể triển khai trình kích hoạt tiền tố trong text channel thay vì lệnh dấu gạch chéo - bất kỳ tin nhắn nào trong kênal được chỉ định bắt đầu bằng tiền tố đã định cấu hình tự động được gửi đến TTS. Điều này biến bất kỳ tin nhắn nào thành trình kích hoạt TTS không hotkey.


Quy Trình Làm Việc Lai: Bot TTS + Bộ Sửa Đổi Giọng Nói Trực Tiếp

Bot TTS xử lý lời nói tổng hợp từ văn bản. Nó không chạm vào micrô của bạn. Điều này có nghĩa là bot TTS và bộ sửa đổi giọng nói trực tiếp như VoxBooster cùng tồn tại mà không có xung đột trong cùng một voice channel.

Cài đặt lai thực tế cho những người phát trực tiếp:

  1. Streamcord TTS đọc các tin nhắn trò chuyện Twitch của bạn to trong voice channel Discord nơi co-streamer của bạn ở.
  2. VoxBooster sửa đổi giọng nói micrô trực tiếp của bạn theo thời gian thực - cho dù đó là loại bỏ tiếng ồn, hiệu ứng pitch hay nhân cách giọng nói được sao chép.
  3. Co-streamer của bạn nghe cả hai: bot TTS nói các tin nhắn người xem và giọng nói trực tiếp được sửa đổi của bạn.

Hai luồng âm thanh độc lập. Bot TTS tạo âm thanh từ kết nối riêng của nó. Âm thanh micrô của bạn đi qua thiết bị ảo VoxBooster trước khi đến Discord. Discord trộn nó cách tương tự như trộn bất kỳ hai người tham gia nào trong một kênal.

Cách tiếp cận này hybrid đặc biệt hiệu quả cho những người sáng tạo nội dung muốn một môi trường âm thanh phong phú hơn mà không yêu cầu người xem hoặc co-streamer cài đặt bất cứ điều gì ngoài Discord.


Khắc Phục Sự Cố Phổ Biến

Bot tham gia nhưng không tạo ra âm thanh: Kiểm tra xem FFmpeg có ở PATH của bạn không và @discordjs/opus được cài đặt thành công. Chạy ffmpeg -version trong terminal để xác minh. Nếu opus bị thiếu, hãy thử npm rebuild @discordjs/opus.

Lệnh TTS có độ trễ dài: Độ trễ API ElevenLabs phụ thuộc vào mô hình bạn chọn và độ dài của tệp đầu vào văn bản. Chuyển sang eleven_flash_v2_5 để giảm độ trễ. Đối với tin nhắn dài hơn ~200 ký tự, hãy cân nhắc phân chia văn bản trước khi gửi.

Bot ngắt kết nối giữa chừng playback: Đây thường là timeout kết nối giọng nói. Thêm trình xử lý connection.on('error') và kết nối lại khi thất bại. Đảm bảo máy chủ của bạn có kết nối UDP outbound ổn định trên cổng 443 (giao thức giọng nói Discord).

Streamcord TTS không đọc tất cả tin nhắn: Streamcord lọc các loại tin nhắn nhất định theo mặc định. Kiểm tra bảng điều khiển Streamcord của bạn trong Filters để cho phép các tin nhắn không phải của người đăng ký và vô hiệu hóa lọc nội dung nếu muốn.

Lệnh Discord /tts không hoạt động: Xác nhận TTS được bật trong cài đặt máy chủ của bạn và kênal cụ thể cho phép TTS. Người dùng riêng lẻ cũng cần TTS playback được bật trong cài đặt Khả năng truy cập của riêng họ.


Tóm Tắt

Năm 2026, cài đặt bot text to speech Discord mất từ hai phút (Streamcord hoặc Voicemod) đến dưới một giờ (Discord.js + ElevenLabs tùy chỉnh). Lựa chọn đúng phụ thuộc vào yêu cầu chất lượng giọng nói của bạn, bạn cần bao nhiêu tùy chỉnh và liệu bạn đang xây dựng cho máy chủ riêng hay cho cài đặt phát trực tiếp sản xuất. TTS /tts gốc Discord bao gồm phát trực tiếp cơ bản phía khách hàng mà không cần bot. Bot được lưu trữ như Streamcord bao gồm trường hợp sử dụng streamer với cài đặt tối thiểu. Bot Discord.js tùy chỉnh với ElevenLabs cung cấp cho bạn giọng nói AI chất lượng studio với kiểm soát lập trình đầy đủ trên mọi khía cạnh của lời nói.

Để có cài đặt phát trực tiếp âm thanh linh hoạt nhất, kết hợp bot TTS để kể chuyện trò chuyện với VoxBooster để sửa đổi giọng nói trực tiếp - hai công cụ, một voice channel, không xung đột.

Dùng thử VoxBooster — 3 ngày dùng thử miễn phí.

Nhân bản giọng thời gian thực, soundboard và hiệu ứng — ở mọi nơi bạn đã nói chuyện.

  • Không cần thẻ tín dụng
  • ~30ms độ trễ
  • Discord · Teams · OBS
Dùng thử miễn phí 3 ngày