เครื่องเปลี่ยนสำเนียงแบบเรียลไทม์สำหรับ Discord: คำแนะนำการตั้งค่าโดยตรง (Windows)
เครื่องเปลี่ยนสำเนียงแบบเรียลไทม์ที่ใช้งานได้สำหรับ Discord รวมเทคโนโลยีที่แตกต่างกันสองแบบภายใต้ไมโครโฟนเสมือนเดียว: DSP แบบพารามิเตอร์ที่หล่อมสีเสียงเสียงและ formant และการแปลงเสียง AI ที่เรียนรู้รูปแบบเสียงเฉพาะสำเนียงจากข้อมูลการฝึกอบรม ทั้งคู่เพียงอย่างเดียวจะสร้างผลกระทบบางส่วน ร่วมกันพวกเขาจะเปลี่ยนไม่เพียงแต่วิธีที่เสียงของคุณฟังได้ แต่วิธีที่ฟังได้เป็นสำเนียงที่รู้จัก
คำแนะนำนี้ครอบคลุมการตั้งค่าบน Windows 10/11 หมายเหตุการตั้งค่าตามสำเนียง (British RP อเมริกาใต้ รัสเซีย ฝรั่งเศส ออสเตรเลีย) และกฎความล่าช้าที่ช่วยให้การสนทนาเปลี่ยนสำเนียงสะดวกแทนที่จะเป็นแบบถูกบังคับ
TL;DR
- การเปลี่ยนสำเนียงแบบเรียลไทม์ต้องการการแปลง AI เพื่อให้ได้ผลลัพธ์ที่น่าเชื่อถือ DSP บริสุทธิ์หล่อมสีเสียงเท่านั้น
- ไมโครโฟนเสมือน WASAPI → อินพุต Discord คือเส้นทางการตั้งค่ามาตรฐานที่ไม่มี driver kernel
- ความล่าช้า total sub-300 ms คือเกณฑ์สำหรับการเปลี่ยนเปลี่ยนการสนทนาทั่วไป
- การเปลี่ยนปุ่มลัดระหว่างการตั้งค่าสำเนียงใช้ได้ในช่วงการโทร โดยไม่ต้องเชื่อมต่อใหม่
- VoxBooster รวมการแปลง AI + DSP + soundboard + STT Whisper บน Windows โดยไม่มี driver kernel
DSP vs AI: อะไรเปลี่ยนสำเนียงจริง ๆ
สำเนียงไม่ใช่เพียงแค่วิธีที่เสียงฟัง — มันเป็นระบบของการทดแทนเสียง รูปแบบการออกเสียง และการหมดเวลาจังหวะที่ผู้ฟังรู้จัก ผู้พูดภาษาฝรั่งเศสของภาษาอังกฤษแทนที่เสียงบางอย่าง ยืดเสียงสระบางอย่าง และเน้นพยางค์บางอย่างแตกต่างจากวิธีที่ผู้พูดชาวอังกฤษ การจัดการพิช และ formant บริสุทธิ์ไม่สามารถทำซ้ำได้
DSP สามารถทำ:
- เปลี่ยนการสั่นพ้องของท่อเสียง (formant shift) เพื่อจำลองกายวิภาคผู้พูดที่แตกต่างกัน
- ปรับช่วงพิชและ contours intonation
- เพิ่มการแต่งสีฮาร์มอนิก ที่ละเอียดอ่อนที่แนะนำ วิธีการเสียงบางอย่าง
- ใช้การหล่อม EQ ที่ตรงกับลักษณะสาขา/มืด ของ เสียงระดับภูมิภาค
สิ่งที่การแปลง AI ทำบนยอด:
- แทนที่ phonemes ด้วยรูปแบบสำเนียง (เช่น “r” อเมริกา แทนที่ด้วยรูปแบบ non-rhotic ของอังกฤษ)
- ปรับ formant สระบนพื้นฐาน per-vowel แทนที่จะเป็นระดับโลก
- จับภาพจังหวะและรูปแบบความเครียดจากข้อมูลการฝึกอบรม
- ผลลัพธ์ที่เชื่อถือได้มากขึ้นสำหรับผู้ฟังที่คุ้นเคยกับสำเนียงเป้าหมาย
สำหรับการใช้ Discord การตั้งค่าสำเนียง DSP เพียงอย่างเดียว ไม่เป็นไร สำหรับงานบทบาทที่ร้ายแรงกว่า การสร้างเนื้อหา หรือการฝึกเสียง การแปลง AI คือเครื่องมือที่ดีกว่า
Stack ฮาร์ดแวร์และซอฟต์แวร์
การตั้งค่า Windows ขั้นต่ำ:
- Windows 10 (บิวด์ 1909+) หรือ Windows 11
- CPU สี่แกนจากห้าปีที่ผ่านมา (การแปลง AI ถูกผูกไว้กับ CPU)
- 8 GB RAM
- ไมโครโฟนสายหรือ USB (โปรไฟล์ HFP Bluetooth ทำลายการประมวลผลแบบเรียลไทม์)
- ไคลเอนต์เดสก์ท็อป Discord (ไคลเอนต์เว็บไม่สามารถเลือกอุปกรณ์ไมโครโฟนเสมือนได้อย่างเชื่อถือ)
ข้อกำหนดชุดเครื่องมือเสียง:
- เอาต์พุตไมโครโฟนเสมือน WASAPI (ไม่มี driver kernel)
- โมดูลการแปลงเสียง AI
- การสนับสนุนปุ่มลัดสำหรับการเปลี่ยนการตั้งค่า
- ความล่าช้า sub-300 ms ที่มีเอกสาร
VoxBooster ครอบคลุมทั้งหมดนี้ในการติดตั้งเดียว
การตั้งค่าทีละขั้นตอน
- ติดตั้งชุดเครื่องมือเสียง บน Windows 10/11 เรียกใช้เป็นผู้ใช้มาตรฐาน ไม่จำเป็นต้องมีสิทธิ์ผู้ดูแลระบบ
- กำหนดค่าไมโครโฟนจริงของคุณ เป็นแหล่งที่มาอินพุตของชุดเครื่องมือภายใต้การตั้งค่าอุปกรณ์เสียง
- โหลดหรือสร้างการตั้งค่าสำเนียง — ดูหมายเหตุตามสำเนียงด้านล่างสำหรับจุดเริ่มต้นของพารามิเตอร์
- ตรวจสอบไมโครโฟนเสมือนปรากฏบน Windows ภายใต้การตั้งค่า → ระบบ → เสียง → อินพุต ควรแสดงเป็น VoxBooster Virtual Microphone
- เปิด Discord ด้วยชุดเครื่องมือที่ทำงานอยู่แล้ว
- เปิดการตั้งค่า Discord → การตั้งค่าผู้ใช้ → เสียง และวิดีโอ → อุปกรณ์อินพุต → เลือก VoxBooster Virtual Microphone
- ปิดการใช้งานการดำเนินการเสียงรบกวน Discord และการยกเลิกเสียงสะท้อน ภายใต้ Advanced สิ่งนี้ขัดแย้งกับการประมวลผลชุดเครื่องมือและลดคุณภาพสำเนียง
- ทดสอบด้วยปุ่ม “ช่วยตรวจสอบ” ในการตั้งค่าเสียง Discord บันทึกวลีสั้น ๆ และเล่นกลับเพื่อตรวจสอบเสียงที่ประมวลผลถึง Discord
หากไมโครโฟนเสมือนไม่ปรากฏในรายการแบบเลื่อนลงของ Discord ให้เปิดใหม่ Discord รายการอุปกรณ์จะถูกสร้างขึ้นเมื่อเปิด
หมายเหตุการตั้งค่าตามสำเนียง
British RP (Received Pronunciation)
สำเนียง “BBC English” แบบคลาสสิก Non-rhotic (ไม่มี “r” ที่ยากหลังสระ) พยางค์ที่สั้นลง สูงกว่าเล็กน้อยกว่า General American สำหรับผู้พูดเดียวกัน
- โมเดล AI: ฝึก referential voice ชาวอังกฤษ RP หากมี มิฉะนั้น ให้ใช้การตั้งค่าอังกฤษทั่วไปของชุดเครื่องมือ
- Fallback DSP: การเปลี่ยน formant +5% เพิ่มขึ้นเล็กน้อย (+1 semitone สำหรับเสียงชาย) เพิ่ม 3 kHz โดย 2 dB สำหรับนิยามพยางค์
- เคล็ดลับการฝึก: การทดแทน non-rhotic เป็นสัญญาณที่ยิ่งใหญ่ที่สุดของสำเนียงอังกฤษ ฝึกพูด “car” เป็น “cah” — โมเดล AI จัดการส่วนที่เหลือ
อเมริกาใต้
ความอบอุ่น สระที่ลากออกมา การลดลงของ diphthong ที่มีลักษณะเฉพาะ (“ride” ออกเสียงใกล้เคียงกับ “rahd”) พิช โดยเฉลี่ยต่ำกว่า เลกิน่า intonation ปลายน้อยขึ้นในประโยคประกาศ
- โมเดล AI: ฝึก สำเนียงอเมริกาใต้ หรือใช้การตั้งค่าระดับภูมิภาค ของชุดเครื่องมือ
- Fallback DSP: การเปลี่ยน formant -5% หนึ่งเล็กน้อย (-1 semitone) เพิ่ม 200-400 Hz โดย 1.5 dB สำหรับตัว
- เคล็ดลับการฝึก: ช้าลงพูดของคุณ 10-15% จังหวะใต้ อยู่ในการหมดเวลามากเท่ากับการออกเสียง
รัสเซีย (ภาษาอังกฤษพร้อมสำเนียงรัสเซีย)
พยางค์ที่ เข้มข้นกว่า “th” แทนที่ด้วย “z” หรือ “s” “r” retroflex การใช้บทความลดลง มักจะเสียงที่ลึกขึ้นสำหรับผู้พูดชาย
- โมเดล AI: ฝึก ภาษาอังกฤษที่มีสำเนียงรัสเซีย
- Fallback DSP: การเปลี่ยน formant -8% หนึ่งหา -2 semitones เพิ่ม 500-800 Hz สำหรับ กึ่งกลาง
- เคล็ดลับการฝึก: “th” → “z/s” เป็นคิวที่ผู้ฟังสนใจ โมเดล AI จัดการ DSP อย่างเดียวไม่
ฝรั่งเศส (ภาษาอังกฤษพร้อมสำเนียงฝรั่งเศส)
สระ nasalized “h” มักจะเลิกใช้ที่ “r” ออกเสียงเป็น trill uvular (ในหลัง) บจ rhythm ที่ยึดพยางค์ แทนที่ stress-timed
- โมเดล AI: ฝึก ภาษาอังกฤษที่มีสำเนียงฝรั่งเศส
- Fallback DSP: การเปลี่ยน formant +3% เพิ่มเล็กน้อย boost ความถี่สูง ที่ 4-5 kHz สำหรับ nasal การระบายสี
- เคล็ดลับการฝึก: วาง “h” ที่ต้นคำในการส่งมอบของคุณ (“ello” มากกว่า “hello”) DSP ตัวเดียวจะไม่ทำ
ออสเตรเลีย
ปลายน้อยขึ้นบนคำสั่ง สระ (โดยเฉพาะอย่างยิ่ง “i” ออกเสียง “oi” ใกล้เคียงกับ) โดยทั่วไป relaxed ส่งมอบ
- โมเดล AI: ฝึก อังกฤษออสเตรเลีย referential
- Fallback DSP: การเปลี่ยน formant +2% พิช เพิ่มน้อยมาก brighten ตรงกลาง สูง
- เคล็ดลับการฝึก: ปลายน้อยขึ้น intonation คือทำให้เปิดเผย — ให้ปูพบ ปลายสูงขึ้น
สำเนียงเปรียบเทียบคุณภาพ
| วิธี | ชำ native speakers | การตั้งค่าเวลา | ระหว่าง CPU | การใช้ดีที่สุด |
|---|---|---|---|---|
| DSP บริสุทธิ์ | โหลต่ำ — ฟัง ได้รับการประมวลผล | 5 นาที | <5% | ตลกหัวเราะ casual |
| โดยทั่วไป AI สำเนียง | ปานกลาง — จ้อม non-natives | 5 นาที | 15-25% | ลักษณะ roleplay |
| ฝึก AI บน referential | สูง | 30-60 นาทีสำหรับ ฝึก | 20-30% | สร้างเนื้อหา การแสดงพูด |
| DSP + AI รวม | สูงสุด | 15 นาที | 25-35% | Discord ที่แล้ว |
ความล่าช้า ที่ด้อย
เกณฑ์สำหรับการสนทนา อย่างน้อยคือ sub-300 ms ยอด round-trip จากปากไปหูผู้ฟัง ทั้ง สาม buffer มีส่วนร่วม:
- ประมวลผลชุดเครื่องมือ: AI การแปลงใช้เวลานานกว่า DSP บริสุทธิ์ คาดว่า 80-150 ms บน ที่ทันสมัย
- Discord encoding และ: 50-150 ms เนื่องจากระยะจาก แม่บ้าน discord เสียง
- buffers playback ผู้รับ: 20-60 ms สำหรับ jitter นำ
ด้าน toolkit ส่วนใหญ่ผู้ใช้ดู จุด hones ปล่อย ท้าย การตั้งค่า ช่วย:
- ขนาดบัฟเฟอร์: เล็กเร็ว กว่า dropouts หากเป็น สายเริ่ม 256 ตัวอย่าง ต่ำ CPU ก่อน
- ความแม่นยำของอนุมาน AI: บาง toolkit เปิดเผย quality/latency ทำการค้นหา การตั้งค่าคุณภาพสูงสุดประหยัด 150 ms
- พื้นหลัง : เบราว์เซอร์วิดีโอ เล่น ธรรมชาติ CPU จาก soundcloud บดขยี้ได้ปิด
Hotkey สำหรับวิดีโอ Discord
มูลค่าที่จริง ออก สำเนียง อาจแบ่ง:
- F6: เสียง (ไม่นอกจากผล)
- F7: British RP
- F8: รัสเซีย
- F9: อเมริกาใต้
- F10: ประเทศปีศาจ/ตัวอักษร (สำหรับ “ทำ demon”)
ของ ล้อมจำนวน เสียง ไม่เหล่า discord อ่าน อยากจะ บริเวณ
อำ ธรรมชาติ ออก ใจกลาง ได้ ยิ่งสนใจกว่า ม
สำเนียงส์และ ToS
discord การปรับเปลี่ยนเสียง เป็นคำสำสั่งของการ:
- ม ใช้เสียง ล่อลวง เงิน
- หลิกระหวือ ทำให้
ความลำเอียง ลักษณะอักษร คน ขี่มา ได้ scot
อื่น คนอื่นใช้
ตั้ง แข้ง ใน Zoom ที่ Google Meet OBS สำหรับการสตรีม ไฟ
VoxBooster รวม AI คลอนสำหรับ soundboard และ Whisper จึง ทำให้เป็น app 10/11 ไม่มี kernel sub-300 ms laten $6.99 ต่อเดือนหรือ R$29,90
ในการรับประมาณ ดู [setup] คำแนะนำ