Text-to-Speech Discord Bot Einrichtungsanleitung (2026)

Vollständige Anleitung zur Einrichtung eines Text-to-Speech Discord Bots in 2026. Behandelt Voicemod TTS, Streamcord, benutzerdefinierte Discord.js + ElevenLabs Bots, Voice-Channel-Routing und Hotkeys.

Wenn Sie möchten, dass Discord Text laut vorliest – ob Sie ein Streamer sind, der Twitch-Chat in einen Voice-Channel leitet, ein Benutzer, der lieber schreibt, oder ein Entwickler, der ein benutzerdefiniertes Narrations-Tool erstellt – ist ein Text-to-Speech Discord Bot die richtige Lösung. Diese Anleitung behandelt alle praktischen Optionen, die in 2026 verfügbar sind: die gehosteten Bots, die Sie mit einem Klick hinzufügen können, den nativen Discord TTS Befehl und eine Schritt-für-Schritt-Anleitung zum Erstellen eines benutzerdefinierten Bots mit Discord.js und der ElevenLabs API.


TL;DR

  • Der native Discord /tts Befehl ist clientseitig – er spielt Audio durch die Lautsprecher des Zuhörers ab, nicht durch einen Voice-Channel.
  • Streamcord TTS ist die beliebteste gehostete Option für Streamer, die Twitch-Chat laut in Discord Voice-Channels vorlesen möchten.
  • Voicemod TTS bietet Fantasie- und Charakterstimmen über einen verwalteten Bot.
  • Ein benutzerdefinerter Discord.js + ElevenLabs Bot bietet die beste Stimmqualität und vollständige Kontrolle mit einer Aufbauzeit von unter einer Stunde.
  • Hotkeys zum Auslösen von TTS Befehlen können durch Discord Tastenkombinationen oder externe Tools wie AutoHotkey zugeordnet werden.
  • VoxBooster passt zu TTS Bots für Hybrid-Workflows, bei denen Sie sowohl synthetisierte Chat-Erzählung als auch eine Live-modifizierte Stimme möchten.

Warum TTS Bots existieren und was sie wirklich tun

Der integrierte /tts Befehl von Discord wird häufig missverstanden. Wenn Sie /tts hallo eingeben, liest der Discord-Desktop-Client diesen Text laut durch Ihre Lautsprecher mit dem TTS-Engine des Betriebssystems vor. Andere Benutzer im Channel hören es nicht durch den Voice-Channel – sie hören es nur, wenn sie auch ihr eigenes Discord TTS aktiviert haben und ihr Client die Nachricht lokal vorliest.

Ein TTS Discord Bot funktioniert anders. Der Bot ist ein serverseitiger Prozess mit seiner eigenen Voice-Channel-Verbindung. Wenn ausgelöst, synthetisiert er Sprache aus Text und streamt das resultierende Audio in den Voice-Channel selbst. Jeder im Voice-Channel hört es genauso, wie er einen anderen Teilnehmer sprechen hören würde. Dieser Unterschied – clientlokal versus Channel-Broadcast – ist der ganze Grund für die Existenz von Bots für diesen Anwendungsfall.

Häufige Szenarien, in denen dies wichtig ist:

  • Streaming-Setup: Sie sind live auf Twitch und möchten, dass die Chatnachrichten der Zuschauer laut in dem Discord Voice-Call vorgelesen werden, den Sie mit Co-Streamern teilen.
  • Barrierefreiheit: Ein Server-Mitglied kann oder möchte kein Mikrofon verwenden; der TTS Bot ermöglicht es ihm, an Voice-Diskussionen teilzunehmen, indem er eingibt.
  • Ankündigungen: Ein Bot liest Moderations-Benachrichtigungen, Rollenzuordnungen oder geplante Nachrichten in einen Channel, ohne einen menschlichen Betreiber.
  • Benutzerdefinierte Erzählung: Entwickler erstellen Bots, die Spielereignisse, Punktzahlen oder Warnungen in Echtzeit mit hochqualitativen KI-Stimmen erzählen.

Option 1: Discord’s nativer /tts Befehl

Vor dem Greifen nach einem Bot, überprüfen Sie, ob der integrierte Befehl Discord Ihre Anforderungen erfüllt.

So aktivieren Sie ihn: Gehen Sie auf Ihrem Server zu Servereinstellungen → Übersicht → Text-to-Speech aktivieren. Legen Sie in den erweiterten Einstellungen Ihres Channels fest, dass jeder TTS Nachrichten senden darf (oder beschränken Sie es auf bestimmte Rollen).

So verwenden Sie ihn: Geben Sie in jedem Textkanal mit aktivierter TTS /tts [Ihre Nachricht] ein. Discord liest die Nachricht durch die Lautsprecher des Empfängers mit dem TTS-Engine des Betriebssystems vor.

Einschränkungen:

  • Audio geht an lokale Lautsprecher, nicht an den Voice-Channel-Broadcast.
  • Die Sprachqualität hängt vom TTS-Engine des Betriebssystems des Zuhörers ab (Microsoft David, Zira usw. unter Windows).
  • Jeder Zuhörer muss TTS in Einstellungen → Barrierefreiheit → Wiedergabe und Verwendung von /tts Befehl aktiviert haben.

Am besten für: Schnelle Barrierefreiheit oder Situationen, bei denen jeder Benutzer einfach nur Text lokal vorgelesen bekommen muss – nicht für Streaming oder Gruppen-Ankündigungen.


Option 2: Voicemod TTS Bot

Voicemod, das für seinen Desktop-Sprachänderer bekannt ist, betreibt einen Discord Bot, der seine Stimmbibliothek in Text-to-Speech-Funktionalität bringt.

Was es bietet:

  • Eine Bibliothek mit Fantasie- und Charakterstimmen (robotisch, Cartoon, tief und vieles mehr).
  • Einfache Schrägstrich-Befehlsoberfläche: /tts [Stimme] [Nachricht].
  • Kein benutzerdefiniertes Stimmmodell-Upload – Sie sind auf Voicemods vordefinierte Bibliothek beschränkt.
  • Kostenlose Stufe verfügbar; Premium-Stimmen erfordern ein Voicemod-Abonnement.

Setup:

  1. Besuchen Sie die Voicemod Discord Bot Seite und klicken Sie auf Zum Server hinzufügen.
  2. Autorisieren Sie den Bot mit den Berechtigungen Verbinden, Sprechen und Nachrichten lesen.
  3. Treten Sie einem Voice-Channel auf Ihrem Server bei.
  4. Verwenden Sie /tts gefolgt von Ihrem gewählten Stimmennamen und Nachrichtentext.

Einschränkungen: Die Stimmauswahl ist auf Voicemods Bibliothek beschränkt. Wenn Sie eine natürlich klingende menschliche Stimme oder eine benutzerdefinierte Persona benötigen, wird dies nicht ausreichend sein.


Option 3: Streamcord TTS für Streamer

Streamcord ist der Go-to TTS Discord Bot für Streamer, die Twitch-Chat-Nachrichten laut in einen Discord Voice-Channel vorgelesen haben möchten. Es verbindet Twitch und Discord nativ.

Was es bietet:

  • Verbindet Ihren Twitch-Channel mit einem Discord Voice-Channel.
  • Liest Twitch-Chat-Nachrichten mit konfigurierbarer Stimme, Geschwindigkeit und Tonhöhe laut vor.
  • Unterstützt nur Abonnenten-TTS, Channel Point Einlösungen als TTS Auslöser und Nachrichtenfilterung.
  • Schrägstrich-Befehl und Dashboard-Konfiguration.

Setup:

  1. Gehen Sie zu streamcord.io und klicken Sie auf Zu Discord hinzufügen.
  2. Autorisieren Sie auf Ihrem Server mit den erforderlichen Berechtigungen.
  3. Verwenden Sie /tts setup und folgen Sie den Eingabeaufforderungen, um Ihren Twitch-Channel zu verknüpfen und einen Ziel-Discord Voice-Channel auszuwählen.
  4. Konfigurieren Sie die Stimmeinstellungen unter streamcord.io/dashboard.

Voice-Channel-Routing: Streamcord tritt dem Voice-Channel bei, den Sie während der Einrichtung angeben. Sie können den Ziel-Channel über das Dashboard ändern, ohne den Bot erneut einzuladen. Um ihn zwischen Channels folgen zu lassen, verwenden Sie den Befehl /tts move.

Hotkey-Setup für Streamcord: Streamcord selbst hat kein dediziertes Desktop-Hotkey-System. Streamer binden normalerweise eine Push-to-Talk-Taste in Discord für ihr eigenes Mikrofon, verwenden dann eine separate Tastenbindung in OBS oder StreamDeck zum Auslösen von Chat-Befehlen. Für präzisere Kontrolle können AutoHotkey-Skripte /tts Befehle über Tastaturkürzel auslösen, indem sie Discord-Input simulieren.


Option 4: Benutzerdefinerter Bot mit Discord.js + ElevenLabs API

Für höchste Stimmqualität und vollständige Kontrolle über das Verhalten erstellen Sie Ihren eigenen TTS Discord Bot mit Discord.js v14 und der ElevenLabs API. Dies gibt Ihnen Zugriff auf ElevenLabs’ Studio-Qualitätsstimmen, Sprachklonen, mehrsprachige Synthese und Parameter-Abstimmung pro Anfrage.

Voraussetzungen

  • Node.js 18+
  • Ein Discord-Anwendungs- und Bot-Token (discord.com/developers)
  • Ein ElevenLabs API-Schlüssel (elevenlabs.io)
  • FFmpeg installiert und auf Ihrem PATH (erforderlich durch @discordjs/voice für Audio-Kodierung)

Schritt 1: Das Projekt initialisieren

mkdir discord-tts-bot && cd discord-tts-bot
npm init -y
npm install discord.js @discordjs/voice @discordjs/opus elevenlabs libsodium-wrappers ffmpeg-static

Schritt 2: Den Schrägstrichbefehl registrieren

Erstellen Sie deploy-commands.js:

const { REST, Routes, SlashCommandBuilder } = require('discord.js');

const commands = [
  new SlashCommandBuilder()
    .setName('tts')
    .setDescription('Sprich Text in deinem Voice-Channel')
    .addStringOption(opt =>
      opt.setName('text').setDescription('Zu sprechender Text').setRequired(true)
    )
].map(cmd => cmd.toJSON());

const rest = new REST({ version: '10' }).setToken(process.env.DISCORD_TOKEN);

(async () => {
  await rest.put(
    Routes.applicationGuildCommands(process.env.CLIENT_ID, process.env.GUILD_ID),
    { body: commands }
  );
  console.log('Befehle registriert');
})();

Führen Sie node deploy-commands.js einmal aus, um den /tts Schrägstrichbefehl auf Ihrem Server zu registrieren.

Schritt 3: Den Bot erstellen

Erstellen Sie index.js:

const { Client, GatewayIntentBits } = require('discord.js');
const { joinVoiceChannel, createAudioPlayer, createAudioResource, AudioPlayerStatus } = require('@discordjs/voice');
const { ElevenLabsClient } = require('elevenlabs');
const { Readable } = require('stream');

const client = new Client({ intents: [GatewayIntentBits.Guilds, GatewayIntentBits.GuildVoiceStates] });
const eleven = new ElevenLabsClient({ apiKey: process.env.ELEVENLABS_API_KEY });

const VOICE_ID = 'your-elevenlabs-voice-id'; // z. B. 'EXAVITQu4vr4xnSDxMaL' für Rachel

client.on('interactionCreate', async interaction => {
  if (!interaction.isChatInputCommand() || interaction.commandName !== 'tts') return;

  const text = interaction.options.getString('text');
  const voiceChannel = interaction.member?.voice?.channel;

  if (!voiceChannel) {
    return interaction.reply({ content: 'Tritt zuerst einem Voice-Channel bei.', ephemeral: true });
  }

  await interaction.deferReply({ ephemeral: true });

  const audioStream = await eleven.textToSpeech.convertAsStream(VOICE_ID, {
    text,
    model_id: 'eleven_multilingual_v2',
    voice_settings: { stability: 0.5, similarity_boost: 0.75 }
  });

  const connection = joinVoiceChannel({
    channelId: voiceChannel.id,
    guildId: interaction.guildId,
    adapterCreator: interaction.guild.voiceAdapterCreator,
  });

  const player = createAudioPlayer();
  const resource = createAudioResource(Readable.from(audioStream));

  player.play(resource);
  connection.subscribe(player);

  player.on(AudioPlayerStatus.Idle, () => connection.destroy());

  await interaction.editReply({ content: 'Spreche.' });
});

client.login(process.env.DISCORD_TOKEN);

Schritt 4: Umgebungsvariablen konfigurieren

Erstellen Sie .env:

DISCORD_TOKEN=your_bot_token
CLIENT_ID=your_app_client_id
GUILD_ID=your_server_id
ELEVENLABS_API_KEY=your_elevenlabs_key

Führen Sie node index.js aus, treten Sie einem Voice-Channel auf Ihrem Server bei und geben Sie /tts Hallo, das ist mein benutzerdefinierter TTS Bot ein.

Stimmmodell auswählen

ElevenLabs bietet mehrere Modelle in 2026:

ModellLatenzQualitätSprachen
eleven_turbo_v2_5~250msGut32
eleven_multilingual_v2~400msAusgezeichnet29
eleven_flash_v2_5~75msGut32

Für Echtzeit-Discord-Nutzung minimiert eleven_flash_v2_5 die Verzögerung zwischen Befehl und Sprache. Für qualitätsorientierte Erzählung ist eleven_multilingual_v2 die bessere Wahl.


Voice-Channel-Routing: Praktische Muster

Unabhängig davon, welchen Bot Sie verwenden, folgt das Voice-Channel-Routing den gleichen grundlegenden Mustern.

Folge-dem-Benutzer-Muster: Der Bot tritt dem Voice-Channel bei, in dem sich der aufrufende Benutzer zum Zeitpunkt des Befehls befindet. Dies ist die Standardeinstellung für die meisten Bots und die Implementierung im Discord.js-Beispiel oben. Keine Vorkonfiguration erforderlich.

Fester-Channel-Muster: Sie bestimmen eine spezifische Channel-ID in der Konfiguration des Bots. Der Bot spricht immer in diesem Channel, unabhängig davon, wo sich der aufrufende Benutzer befindet. Am besten für Ankündigungs-Bots oder dedizierte TTS-Räume.

Mehrkanal-Muster: Ein komplexeres Setup, bei dem verschiedene Textkanäle verschiedenen Voice-Kanälen zugeordnet sind. In Discord.js implementieren Sie dies mit einem Channel-Mapping-Objekt und lösen den Ziel-Voice-Channel aus dem Quell-Textkanal.

Dynamisches-Folge-Muster: Der Bot überwacht voiceStateUpdate Events und folgt einem bestimmten Benutzer zwischen Voice-Kanälen. Nützlich für Streamer, die häufig während einer Sitzung Räume wechseln.


Hotkey-Setup für TTS Befehle

Die meisten TTS Bots werden durch Schrägstrichbefehle ausgelöst, nicht durch Hotkeys. Aber Sie können effektive Hotkey-Workflows mit einigen Ansätzen erstellen.

Discord’s integrierte Tastenbindungen: Gehen Sie zu Discord Einstellungen → Tastenbindungen. Sie können hier keine beliebigen Textbefehle binden – nur Push-to-Talk, Stummschalten, Deafen und ähnliche Discord-Aktionen. Für TTS sind Tastenbindungen nicht direkt anwendbar.

AutoHotkey (Windows): Sie können einen Hotkey auf die Eingabe eines /tts [vordefinierte Nachricht] Befehls und Drücken von Enter im Discord-Fenster abbilden:

^F1:: ; Strg+F1
  WinActivate, Discord
  Send, /tts Ihre vordefinierte Nachricht hier{Enter}
return

StreamDeck: Wenn Sie ein Elgato StreamDeck verwenden, kann die “Text”-Aktion Tastendrücke an jedes aktive Fenster senden. Konfigurieren Sie einen StreamDeck-Button, um den Discord-Text-Input zu fokussieren und Ihren /tts Befehl einzugeben. Dies ist schneller und zuverlässiger als AutoHotkey für Live-Streaming-Szenarien.

Bot-seitige Hotwords: Für benutzerdefinierte Bots können Sie einen Präfix-Auslöser in einem Textkanal implementieren, anstelle eines Schrägstrichbefehls – jede Nachricht in einem bestimmten Kanal, die mit einem konfigurierten Präfix beginnt, wird automatisch an TTS gesendet. Dies schaltet jeden Nachrichteneingabe in einen Hotkey-freien TTS-Auslöser.


Hybrid-Workflows: TTS Bots + Live-Sprachmodifikator

Ein TTS Bot verarbeitet synthetisierte Sprache aus Text. Es berührt Ihr Mikrofon nicht. Dies bedeutet, dass TTS Bots und Live-Sprachmodifikatoren wie VoxBooster ohne Konflikt im gleichen Voice-Channel koexistieren.

Eine praktische Hybrid-Setup für Streamer:

  1. Streamcord TTS liest Ihre Twitch-Chat-Nachrichten laut in dem Discord Voice-Channel vor, in dem sich Ihre Co-Streamer befinden.
  2. VoxBooster modifiziert Ihre Live-Mikrophonstimme in Echtzeit – ob das Rauschunterdrückung, ein Pitch-Effekt oder eine geklonte Stimmen-Persona ist.
  3. Ihre Co-Streamer hören beides: den TTS Bot, der Zuschauer-Nachrichten spricht, und Ihre modifizierte Live-Stimme.

Die zwei Audio-Streams sind unabhängig. Der TTS Bot generiert Audio aus seiner eigenen Verbindung. Ihr Mikrophon-Audio geht durch VoxBooster’s virtuelles Gerät, bevor es Discord erreicht. Discord mischt sie auf die gleiche Weise wie zwei beliebige Teilnehmer in einem Channel.

Dieser Hybrid-Ansatz ist besonders effektiv für Content Creator, die eine reichhaltigere Audio-Umgebung mögen, ohne dass Zuschauer oder Co-Streamer etwas über Discord hinaus installieren müssen.


Häufige Probleme beheben

Bot tritt bei, produziert aber kein Audio: Überprüfen Sie, dass FFmpeg auf Ihrem PATH vorhanden ist und dass @discordjs/opus erfolgreich installiert wurde. Führen Sie ffmpeg -version in einem Terminal aus, um zu überprüfen. Wenn opus fehlt, versuchen Sie npm rebuild @discordjs/opus.

TTS Befehl hat lange Latenz: Die ElevenLabs API-Latenz hängt vom Modell ab, das Sie gewählt haben, und von der Länge des Eingabetexts. Wechseln Sie zu eleven_flash_v2_5 für niedrigere Latenz. Für Nachrichten länger als ~200 Zeichen sollten Sie den Text vor dem Senden aufteilen.

Bot trennt sich während der Wiedergabe ab: Dies ist normalerweise ein Voice-Connection-Timeout. Fügen Sie einen connection.on('error') Handler hinzu und verbinden Sie sich bei Fehler erneut. Stellen Sie sicher, dass Ihr Server stabile ausgehende UDP-Konnektivität auf Port 443 hat (Discords Voice-Protokoll).

Streamcord TTS liest nicht alle Nachrichten vor: Streamcord filtert bestimmte Nachrichtentypen standardmäßig. Überprüfen Sie Ihr Streamcord-Dashboard unter Filters, um Nicht-Abonnenten-Nachrichten zu erlauben und Inhaltsfilterung bei Bedarf zu deaktivieren.

Discord /tts Befehl funktioniert nicht: Bestätigen Sie, dass TTS in Ihren Servereinstellungen aktiviert ist und dass der spezifische Channel TTS zulässt. Einzelne Benutzer müssen auch TTS-Wiedergabe in ihren eigenen Discord-Barrierefreiheitseinstellungen aktiviert haben.


Zusammenfassung

In 2026 dauert die Einrichtung eines TTS Discord Bots zwischen zwei Minuten (Streamcord oder Voicemod) und unter einer Stunde (benutzerdefinerter Discord.js + ElevenLabs). Die richtige Wahl hängt von Ihren Stimmqualitätsanforderungen, wie viel Anpassung Sie benötigen, und ob Sie für Ihren eigenen Server oder für ein Produktiv-Streaming-Setup bauen. Der native Discord /tts deckt grundlegende clientseitige Wiedergabe ohne Bot ab. Gehostete Bots wie Streamcord decken den Streamer-Anwendungsfall mit minimalem Setup ab. Ein benutzerdefinerter Discord.js Bot mit ElevenLabs bietet Ihnen Studio-Qualitäts-KI-Stimmen mit vollständiger programmgestützter Kontrolle über jeden Aspekt der Sprachsynthese.

Für das vielseitigste Streaming-Audio-Setup kombinieren Sie einen TTS Bot für Chat-Erzählung mit VoxBooster für Live-Sprachmodifikation – zwei Tools, ein Voice-Channel, null Konflikte.

VoxBooster testen — 3 Tage kostenlos.

Echtzeit-Stimmklon, Soundboard und Effekte — überall, wo du schon redest.

  • Keine Kreditkarte
  • ~30 ms Latenz
  • Discord · Teams · OBS
3 Tage kostenlos testen