จนถึงปี 2024 การโคลนเสียงที่มีคุณภาพยอมรับได้หมายถึงการส่งตัวอย่างไปยังบริการคลาวด์ รอการฝึกอบรม ดาวน์โหลดโมเดลขนาดใหญ่ และเรียกใช้บนเซิร์ฟเวอร์ ไม่มีอะไรเป็นแบบ real-time และไม่มีอะไรเป็นส่วนตัว
ปี 2026 นั้นแตกต่าง โมเดลเสียงประสาทเทียมทำงานโดยตรงบน GPU ของคุณ (หรือแม้กระทั่ง CPU สมัยใหม่) พร้อมด้วยความล่าช้าต่ำกว่า 500 มิลลิวินาที — เพียงพอสำหรับแชตบน Discord บันทึกพอดแคสต์ หรือสตรีมโดยไม่ให้อีกฝ่ายหนึ่งสังเกตว่านี่ไม่ใช่เสียงดั้งเดิมของคุณ
การโคลนเสียงหมายความว่าอย่างไรจริง ๆ
การโคลนเสียง ไม่ใช่ การเปลี่ยนความสูง การเปลี่ยนความสูงเพียงแค่เปลี่ยนความถี่ของสิ่งที่คุณพูด — ตัวตนของเสียงของคุณยังคงอยู่ เพียงแค่ลึกกว่าหรือสูงกว่า การโคลนเสียงคือเครือข่ายประสาทที่ใช้เนื้อหาสัทศาสตร์ของสิ่งที่คุณพูด (คำพูด จังหวะ เสียงสูง-ต่ำ) และสังเคราะห์ใหม่ในสีเสียง (timbre) ของอีกคนหนึ่ง
ผลลัพธ์: เมื่อคุณพูด เสียงที่แตกต่างออกไปอย่างสิ้นเชิง — แต่มีจังหวะของคุณ การหยุดชั่วคราวตามธรรมชาติของคุณ การเน้นของคุณ นี่คือสิ่งที่ทำให้โคลนฟังเหมือนมีชีวิตแทนที่จะเป็นหุ่นยนต์
สองเส้นทาง: เสียงที่สร้างไว้ล่วงหน้าหรือของคุณเอง
เสียงที่สร้างไว้ล่วงหน้า (แนะนำสำหรับส่วนใหญ่). ไลบรารี่ VoxBooster มีเสียงมากมายที่ได้รับใบอนุญาตสำหรับการใช้งานเชิงพาณิชย์ — ผู้บรรยายลึก สาวสดใส โฮสต์วิทยุ ตัวละครอนิเมะ หุ่นยนต์อบอุ่น และอื่น ๆ คุณเลือกหนึ่งตัว คลิก “Real-time” และเสร็จสิ้น ไม่มีการตั้งค่า ไม่มีการฝึกอบรม ไม่มีการบันทึก
เสียงโคลนของคุณเอง. หากคุณต้องการให้ซอฟต์แวร์เลียนแบบ คุณ — เพื่อห่อเสียงวิดีโอ สร้างการบรรยายในภาษาอื่นโดยรักษาสีเสียงของคุณ หรือสร้างเวอร์ชัน “ตัวละคร” ของตัวคุณเอง — บันทึก 3 ถึง 5 นาทีของคำพูดที่สะอาดในวิซาร์ด VoxBooster โมเดลจะถูกฝึกอบรมในเครื่องบน PC ของคุณใน 10 ถึง 20 นาที (ขึ้นอยู่กับ GPU)
เหตุใดการทำงานในเครื่องจึงสำคัญ
เมื่อคุณใช้บริการคลาวด์เพื่อโคลนเสียง สามสิ่งเกิดขึ้น:
- เสียงของคุณไปยังเซิร์ฟเวอร์. แม้ว่าจะมีนโยบายความเป็นส่วนตัวที่ดี สีเสียงของคุณจะเป็นไฟล์บนดิสก์ของใครสักคน
- ความล่าช้าต่ำสุด 1-2 วินาที. การเดินทางระหว่างเครือข่ายและการประมวลผลระยะไกล ไม่สามารถใช้งานสำหรับการสนทนา real-time
- คุณจ่ายต่อนาที. การใช้งานหนักจะแพงขึ้นอย่างรวดเร็ว
การประมวลผลในเครื่องจะกำจัดทั้งสามอย่าง เสียงของคุณไม่ต้องออกจาก PC ของคุณ ความล่าช้าเป็นเพียงเวลาการอนุมานของโมเดล และคุณจ่ายการสมัครสมาชิกแบบคงที่แทนต่อนาที
การตั้งค่าการปฏิบัติ
- ดาวน์โหลด VoxBooster จาก voxbooster.com/download.
- เข้าสู่ระบบ ไปที่แท็บ Voice Clone
- เลือกเสียงจากไลบรารี่ หรือ คลิก “Clone my voice” เพื่อฝึกอบรมของคุณเอง
- เปิด “Real-time”
- เปิดแอปพลิเคชันใด ๆ ที่ใช้ไมโครโฟน — Discord, OBS, Teams, เกม — และพูด เสียงโคลนออกมาอีกฝั่งหนึ่ง
ไม่มีไดรเวอร์เสียงเสมือนในการกำหนดค่า ไม่มีอุปกรณ์ Windows ในการสลับ ไม่มีการรีสตาร์ท
ข้อจำกัดที่ซื่อสัตย์
- สำเนียงระดับภูมิภาคที่แข็งแกร่งมาก อาจรั่วไหลลงในโคลน หากคุณมีสำเนียงสก็อตแลนด์ที่หนาและเลือกเสียงที่ได้รับการสร้างแบบจำลองบนภาษาอังกฤษอเมริกันที่เป็นกลาง บางส่วนของสำเนียงนั้นจะคัดเลือก มันไม่ใช่ข้อบug — โมเดลกำลังถือเสียงสูง-ต่ำของคุณ
- กระซิบและตะโกนแบบสุดขีด ลดลงในคุณภาพ โมเดลได้รับการฝึกอบรมในการพูดสนทนา เสียงที่อยู่ไกลจากการสร้างใหม่นั้นแย่ลง
- ความล่าช้า real-time ~500 ms. ดีสำหรับการสนทนาปกติ ไม่สะดวกสำหรับดนตรีสดพร้อมการมอนิตอร์ in-ear