การเลื่อนฟอร์แมนต์อธิบาย: การเปลี่ยนแปลงเสียงตามธรรมชาติ
เครื่องเปลี่ยนเสียง AI ที่เพียงแค่เลื่อนระดับเสียงฟังเป็นเทียมภายในสามวินาที ความลับที่แท้จริงเบื้องหลังการแปลงเสียงที่เชื่อถือได้คือการเลื่อนฟอร์แมนต์ - การปรับความถี่การสั่นพ้องที่กำหนดลักษณะของท่อเสียงของคุณโดยไม่ขึ้นกับระดับเสียง เมื่อคุณเข้าใจวิธีการทำงานของฟอร์แมนต์ คุณจะได้ยินทันทีว่าเครื่องเปลี่ยนเสียงราคาถูกส่วนใหญ่กำลังทำอะไรและคุณจะรู้ว่าควรหยิบปุ่มใดเมื่อการแปลงของคุณเองฟังเหมือนการประมวลผล
บทความนี้ครอบคลุมฟิสิกส์เบื้องหลังฟอร์แมนต์ในภาษาธรรมดา เหตุใดการเลื่อนระดับเสียงโดยไม่มีการควบคุมฟอร์แมนต์จึงฟังเหมือนกระรอกหรือเทปที่ช้าลง วิธีการเปลี่ยนเสียง AI สมัยใหม่จัดการฟอร์แมนต์เมื่อเทียบกับเครื่องมือ DSP เก่าแกและวิธีการใช้การควบคุมฟอร์แมนต์ VoxBooster เพื่อให้ได้ผลลัพธ์ที่เป็นธรรมชาติที่สุด
TL;DR
- ฟอร์แมนต์คือยอดความถี่การสั่นพ้องที่สร้างขึ้นจากรูปร่างของท่อเสียงของคุณ - พวกเขากำหนดเสียงสระและลักษณะเสียง
- การเลื่อนระดับเสียงเพียงอย่างเดียวจะเลื่อนความถี่พื้นฐาน แต่ปล่อยให้ฟอร์แมนต์อยู่ในตำแหน่ง ส่งผลให้เกิดเอฟเฟกต์ “การ์ตูน” ที่ไม่เป็นธรรมชาติ
- การเลื่อนฟอร์แมนต์ปรับซองจดหมายของเครือข่ายแยกจากระดับเสียง ซึ่งเป็นสิ่งที่ทำให้การแปลงเสียงฟังเหมือนคนที่แตกต่างกันจริงๆ
- อัตราส่วนที่เหมาะสมของการเลื่อนระดับเสียงต่อการเลื่อนฟอร์แมนต์ขึ้นอยู่กับเป้าหมายการแปลง: การปลอมตัวที่ละเอียด เสียงตัวละคร หรือการข้ามเพศอย่างสมบูรณ์
- เครื่องเปลี่ยนเสียง AI สร้างแบบจำลองวิถีฟอร์แมนต์อย่างต่อเนื่อง ส่งผลให้ได้ผลลัพธ์ที่ราบรื่นกว่า DSP ที่บิดเบี้ยวของเครือข่ายคงที่
- VoxBooster มีตัวเลื่อนระดับเสียงและฟอร์แมนต์อิสระ บวกกับการโคลนเสียง AI ที่จัดการฟอร์แมนต์โดยอัตโนมัติ
ฟอร์แมนต์คืออะไร
เสียงตัดเสียงของคุณสร้างเสียงกระดิ่งที่มีความถี่พื้นฐาน - นั่นคือระดับเสียงของคุณ แต่เสียงกระดิ่งอันดิบนั้นแทบจะรู้จักกันว่าเป็นเสียง สิ่งที่หล่อมันเป็นสระที่รู้จัก ผ้าใบอารมณ์ และสีเสียงส่วนบุคคลคือการสั่นพ้องของห้องที่อยู่เหนือกระดูกอยอดของคุณ: คอ ปาก ริมฝีปาก และช่องเสียงโพรงจมูก ร่วมกันสร้างท่อเสียง
ท่อเสียงเป็นหลอดที่มีรูปร่างซับซ้อนและเปลี่ยนแปลงอย่างต่อเนื่อง เช่นเดียวกับห้องที่มีการสั่นพ้องใดๆ มันมีความถี่การสั่นพ้องตามธรรมชาติ - แถบความถี่ที่คลื่นเสียงเสริมซึ่งกันและกันแทนที่จะยกเลิก ยอดเหล่านี้ในสเปกตรัมผลลัพธ์เรียกว่าฟอร์แมนต์ และหมายเลขจากต่ำสุดถึงสูงสุด: F1, F2, F3 และอื่นๆ
F1 และ F2 ทำความหมายอนุภูมิส่วนใหญ่ สระใน “heed” มี F1 ต่ำและ F2 สูงมาก สระใน “hod” มี F1 และ F2 ในช่วงกลาง แต่ใกล้กันมากขึ้น สมองของคุณใช้ยอดทั้งสองนั้นเพื่อตรวจสอบสระเกือบทันที ซึ่งเป็นเหตุว่าทำไมฟอร์แมนต์จึงบางครั้งถูกอธิบายว่าเป็น “ลายนิ้วมือ” ของสระ สำหรับการอ่านเพิ่มเติมเกี่ยวกับทฤษฎีเสียง บทความวิกิพีเดียเกี่ยวกับฟอร์แมนต์ เป็นจุดเริ่มต้นที่มั่นคง และ บทความเกี่ยวกับท่อเสียง ให้บริบทที่เป็นวิวรรณกรรม
F3 และที่สูงกว่าอื่น ๆ มีส่วนร่วมในสีเสียงส่วนบุคคล - คุณภาพที่ช่วยให้คุณรู้จักเสียงของเพื่อนบนโทรศัพท์ก่อนที่พวกเขาจะพูดชื่อของพวกเขา F3 มีความสัมพันธ์อย่างแน่นแฟ้นกับความยาวของท่อเสียงและอนาตโนมีปัจเจกบุคคล
ทำไมความยาวของท่อเสียงจึงสำคัญ
บุคคลที่มีท่อเสียงยาวกว่าจึงมีฟอร์แมนต์ที่มีระยะห่างต่ำกว่าในสเปกตรัม นี่คือเหตุผลว่าทำไมโดยเฉลี่ยผู้ชายจึงมีฟอร์แมนต์ต่ำกว่าผู้หญิงและผู้ใหญ่มีฟอร์แมนต์ต่ำกว่าเด็ก - ไม่ใช่เพราะระดับเสียงเพียงอย่างเดียว แต่เพราะความยาวของท่อที่เป็นจริง ชายหกฟุตและผู้หญิงห้าฟุตอาจเป็นไปตามระดับเสียงดนตรีเดียวกันเป็นครั้งคราว แต่ฟอร์แมนต์ของพวกเขาจะยังคงอยู่ในตำแหน่งเครือข่ายที่แตกต่างกันโดยสิ้นเชิง
ความสัมพันธ์ระหว่างขนาดร่างกาย ความยาวของท่อ และตำแหน่งของฟอร์แมนต์ไม่ได้เป็นแค่เรื่องราวสถาบัน มันเป็นเหตุผลทั้งหมดว่าทำไมการเลื่อนระดับเสียงเพียงอย่างเดียวจึงฟังผิด เมื่อคุณลดความเร็วการบันทึกลงเพื่อลดระดับเสียง คุณจะช้าลงตามการเลื่อนฟอร์แมนต์ทุกครั้ง - ทำให้สระฟังยาวและยืดเหยื่อ เหมือนบันทึกที่เล่นด้วยความเร็วที่ผิด เมื่อคุณเร่งความเร็วขึ้น ฟอร์แมนต์จะคงที่ตามสัดส่วน แต่ตอนนี้รู้สึกสูงเกินไปและแพ็ชชั่นเกินไป ส่งผลให้เกิดสิ่งประดิษฐ์กระรอกที่คุ้นเคย
เสียงจริงที่ทำงานในระดับเสียงที่แตกต่างจริงมีฟอร์แมนต์ที่สร้างขึ้นจากการกำหนดค่าท่อเสียงที่แตกต่างกัน ตำแหน่งของฟอร์แมนต์เปลี่ยนแปลง แต่ไม่ใช่ในสัดส่วนเชิงเส้นอย่างง่าย ๆ ต่อระดับเสียง การแปลงเสียงที่ดีจะต้องให้แบบจำลองความสัมพันธ์นั้น
การเลื่อนระดับเสียงเทียบกับการเลื่อนฟอร์แมนต์
นี่คือที่ที่เครื่องเปลี่ยนเสียงราคาถูกส่วนใหญ่ล้มเหลว การเลื่อนระดับเสียงนั้นง่าย: ทวีคูณหรือแบ่งเนื้อหาความถี่ของสัญญาณเสียง ชดเชยเวลาเพื่อหลีกเลี่ยงการเล่นเหมือนการเปลี่ยนเทป ทำเสร็จ ผลลัพธ์คือเสียงของคุณที่มีพื้นฐานยกหรือลดตัวแต่ซองจดหมายของเครือข่าย - รูปร่างโดยรวมของการตอบสนองความถี่ - เหมือนกับเสียงเดิมของคุณ
การเลื่อนฟอร์แมนต์บนมืออื่น ๆ เลื่อนซองจดหมายของเครือข่ายในขณะที่ปล่อยให้โครงสร้างระดับเสียงพื้นฐานอยู่ตามลำพัง (หรือปรับมันแยกต่างหาก) มันทำงานโดยการวิเคราะห์สเปกตรัมระยะสั้นของเสียง ประมาณการซองจดหมาย (เส้นโค้งเรียบที่เชื่อมต่อยอดฮาร์มอนิก) บิดซองจดหมายนั้นขึ้นหรือลงในความถี่ จากนั้นหมดสิ้นสัญญาณ
ความแตกต่างในทางปฏิบัติ:
| เทคนิค | สิ่งที่เลื่อน | สิ่งที่ยังคงอยู่ | สิ่งประดิษฐ์ทั่วไป |
|---|---|---|---|
| เพียงการเลื่อนระดับเสียง | ความถี่พื้นฐาน | ซองจดหมายเครือข่าย / ฟอร์แมนต์ | กระรอก (ขึ้น) หรือการเคลื่อนไหวช้า (ลง) |
| เพียงการเลื่อนฟอร์แมนต์ | ซองจดหมายเครือข่าย | ระดับเสียงพื้นฐาน | ฟังเหมือนคนอื่นพูดกับระดับเสียงเดิมของคุณ |
| ทั้งคู่ อัตราส่วนที่ถูกต้อง | ทั้งคู่ ตรงกัน | — | การแปลงที่เชื่อถือได้ไปยังประเภทเสียงที่แตกต่างกัน |
| ทั้งคู่ อัตราส่วนที่ผิด | ทั้งคู่ ไม่ตรงกัน | — | เสียงการประมวลผล หุ่นยนต์ หรือกลวง |
“อัตราส่วนที่ถูกต้อง” ขึ้นอยู่กับการแปลงที่คุณพยายามบรรลุ การเลื่อนระดับเสียงขึ้น 4 กึ่งโทนและฟอร์แมนต์ 15-20% เป็นการประมาณคร่าวๆ ของสิ่งที่เกิดขึ้นเมื่อบุคคลที่สูงขึ้นพูดที่ระดับเสียงเดียวกับบุคคลที่เตี้ยกว่า แต่ความสัมพันธ์จริงนั้นไม่เป็นเชิงเส้นและขึ้นอยู่กับเสียง ซึ่งเป็นที่ที่แบบจำลอง AI มีข้อได้เปรียบที่มีนัยสำคัญเหนือเชนต่อเนื่อง DSP
การรักษาฟอร์แมนต์: กรณีการใช้อื่น
ไม่ใช่ทุกการจัดการฟอร์แมนต์เกี่ยวกับการแปลง การรักษาฟอร์แมนต์ - ความสามารถในการถือฟอร์แมนต์คงที่ในขณะที่ระดับเสียงเปลี่ยนไป - มีความสำคัญเท่ากันในสถานการณ์บางอย่าง
เมื่อนักร้องแก้ไขระดับเสียงของเสียงของพวกเขาหรือขนส่งการแสดง ไร้เดียงสาการเลื่อนระดับเสียงหมุนสระของพวกเขาเป็นบางสิ่งบางสิ่งที่ไม่สามารถรู้จักได้ที่สุด การรักษาฟอร์แมนต์รักษาคุณภาพสระที่มั่นคงแม้ว่าจะมีการเปลี่ยนแปลง นี่คือมาตรฐานในซอฟต์แวร์การแก้ไขระดับเสียงมืออาชีพ
สำหรับเครื่องเปลี่ยนเสียง การรักษาจึงสำคัญเมื่อคุณต้องการการปรับปรุงที่ละเอียด: ปรับแต่งเสียงของคุณให้อบอุ่นหรือสว่างขึ้นเล็กน้อยโดยไม่เปลี่ยนตัวตนสีเสียงของคุณ หรือชดเชยสำหรับไมโครโฟนที่เพิ่มความหยาบในช่วงความถี่เฉพาะ นอกจากนี้ยังมีประโยชน์ในการจับคู่จังหวะของตัวละครเฉพาะโดยไม่ทำให้ตัวคุณเองไม่สามารถรู้จักได้ในระหว่างการสตรีมสด
ตัวเลื่อนฟอร์แมนต์ VoxBooster ทำงานรอบศูนย์ - เลื่อนมันเป็นบวกเลื่อนฟอร์แมนต์ขึ้น (สว่างมากขึ้น คุณภาพท่อที่เล็กลง) เลื่อนมันเป็นลบเลื่อนมันลง (เข้มมากขึ้น คุณภาพท่อที่ใหญ่ขึ้น) ปล่อยให้มันอยู่ที่ศูนย์พร้อมการปรับระดับเสียงเท่านั้นให้คุณเอฟเฟกต์กระรอกถ้าคุณดันมัน ล็อกทั้งคู่เข้าด้วยอัตราส่วนที่ไม่สามารถแก้ไขได้ให้คุณการแปลง การปรับเปลี่ยนฟอร์แมนต์เพียงอย่างเดียวให้คุณการแกะสลักสีเสียงที่ละเอียด
วิธีการเครื่องมือ DSP แบบดั้งเดิมจัดการฟอร์แมนต์
เครื่องเปลี่ยนเสียงแบบคลาสสิกใช้เทคนิคที่เรียกว่า LPC (Linear Predictive Coding) หรือการประมาณการซองจดหมาย cepstral เพื่อดึงซองจดหมายเครือข่ายจากเฟรมเสียงสั้น บิดซองจดหมายนั้นด้วยตัวคูณที่กำหนดไว้ จากนั้นสร้างเสียงใหม่ เครื่องมือเช่น MorphVOX และเวอร์ชันก่อนหน้าของ Voicemod ใช้ตัวแปรของวิธีการนี้
มันทำงานได้ค่อนข้างดีที่ปริมาณการเลื่อนปานกลางบนสระที่คงอยู่ ปัญหาปรากฏตัวที่ขอบ:
พยัญชนะและการเปลี่ยนผ่าน ซองจดหมายเครือข่ายในช่วง fricative (เสียง “s” หรือ “f”) หรือการระเบิดของการหยุด ไม่มีโครงสร้างเดียวกับสระ การใช้การบิดตัวของซองจดหมายที่เหมาะสมด้วยสระกับพยัญชนะ หรือทำให้พยัญชนะปั่นหรือสร้างสิ่งประดิษฐ์
พูดอย่างรวดเร็ว การวิเคราะห์เฟรม LPC ถือว่าสัญญาณนั้นเกือบเสถียรภายในแต่ละหน้าต่างสั้น ๆ พูดอย่างรวดเร็วด้วยการเลื่อนฟอร์แมนต์อย่างรวดเร็ว ท้าทายข้อสันนิษฐาน นั้นสร้าง “bubbling” สิ่งประดิษฐ์ที่ได้ยิน
ตัวคูณคงที่ ตัวคูณการเลื่อนฟอร์แมนต์เดี่ยวนำไปใช้สม่ำเสมอทั่ว spearfm ไม่ตรงกับวิธีการท่อเสียงจริงทำงาน ฟอร์แมนต์ที่แท้จริงไม่ได้เลื่อนทั้งหมดโดยอัตราส่วนเดียวกันเมื่อการกำหนดค่าท่อเปลี่ยน
ข้อจำกัดเหล่านี้ไม่ใช่เรื่องถูกสกัด - หลาย streamer ใช้เครื่องผสมต่อเนื่อง DSP ที่ประสบความสำเร็จ - แต่พวกเขาทำให้ได้รับผลลัพธ์ตามธรรมชาติต้องปรับแต่งอย่างระมัดระวังและการแปลงบางอย่างไม่สามารถบรรลุได้อย่างสะอาด
วิธีการเปลี่ยนเสียง AI จัดการฟอร์แมนต์ต่างกัน
เครื่องเปลี่ยนเสียง AI สมัยใหม่ - และนี่คือที่ที่เทคโนโลยีได้ยืนยันความก้าวหน้า - ไม่ประมาณการและบิดตัวของซองจดหมายเครือข่ายในความรู้สึกแบบดั้งเดิม แทนที่ พวกเขาใช้เครือข่ายประสาทที่ได้รับการฝึกอบรมในชุดข้อมูลขนาดใหญ่ของเสียงมนุษย์เพื่อเรียนรู้โครงสร้างทางสถิติของลักษณะเสียง รวมถึงวิธีการเลื่อนฟอร์แมนต์ในระหว่างการพูดตามธรรมชาติ
ในเวลาในการทำงาน รุ่นประมวลผลเสียงเข้าและสร้างผลลัพธ์ที่สะท้อนถึงลักษณะฟอร์แมนต์ของเสียงเป้าหมาย แทนที่จะใช้การแปลงทางคณิตศาสตร์คงที่กับฟอร์แมนต์เข้า ความแตกต่างจริงได้แก่:
การจัดการพยัญชนะ เนื่องจากรุ่นได้เรียนรู้วิธีการพูดจริงผลิตพยัญชนะ มันจัดการพวกเขาตามธรรมชาติมากกว่าการบิดตัวของเครือข่ายทั่วไป
การปรับตัวอย่างต่อเนื่อง แทนที่จะวิเคราะห์เฟรมที่แน่นอนแยกกัน รุ่นแบบเวียนเคราะห์หรือตามความสนใจ สามารถใช้บริบทจากเฟรมโดยรอบทำให้การเปลี่ยนผ่านระหว่างฟอนเนมส่มูท
ฟอร์แมนต์ที่จับคู่เป้าหมาย เมื่อสำเร็จโคลนเสียงเฉพาะ รุ่นประสาทสร้างฟอร์แมนต์ที่ตรงกับสิ่งที่เสียงของคนนั้นทำจริง ๆ แทนที่จะเป็นสูตรการเลื่อนทั่วไป
สารแลกเปลี่ยนคือต้นทุนการคำนวณและเวลา การแปลงเสียงประสาทจำเป็นมากกว่า LPC การขอเพียง 10ms รอบ - ทริป บนฮาร์ดแวร์ผู้บริโภคเป็นปัญหาการวิศวกรรมจริง ท่อส่ง WASAPI ต่อเนื่อง VoxBooster บรรลุ latency เสียงย่อยเป็นทำหน้าที่บนชายการประมวลผลเสียงกับ buffer ปรับเต่วจำเพาะ ช่วยให้การประมวลผลประสาทไปเป็นเธรดพื้นหลังเฉพาะและ pre-buffering ผลลัพธ์ - ทางเลือกการออกแบบที่มีความสำคัญสูงมากสำหรับการใช้งานสดบน Discord หรือ comms ในเกม
การเลื่อนฟอร์แมนต์สำหรับเป้าหมายการเปลี่ยนแปลงเสียงที่เฉพาะเจาะจง
การแปลงข้ามเพศ
นี่คือการแปลงที่คนส่วนใหญ่ต้องการจากเครื่องเปลี่ยนเสียง และก็เป็นสิ่งที่ยากที่สุดในการทำให้มีความเชื่อถือ การแปลงจากชายไปหญิงที่เชื่อถือได้ต้องการการเลื่อนฟอร์แมนต์ขึ้นประมาณ 15-25% ในขณะที่ยังเพิ่มระดับเสียงด้วย - แต่จำนวนที่แน่นอนขึ้นอยู่กับเสียงของคุณ เป้าหมายของคุณ และเนื้อหา phonetic ของสิ่งที่คุณพูด
ข้อผิดพลาดทั่วไปคือการเพิ่มขึ้นโดยไม่เกี่ยวข้องฟอร์แมนต์ จากนั้นสงสัยว่าทำไมมันฟังเหมือนการประมวลผลที่เห็นได้ชัด ข้อผิดพลาดทั่วไปครั้งที่สองคือการใช้ค่า preset ที่ปรับเทียบสำหรับประเภทเสียงที่แตกต่างกัน ถ้าคุณมีเสียงชายที่ลึกกว่าค่าเฉลี่ย การตั้งค่าที่ออกแบบมาสำหรับเสียงชายกึ่งกลาง จะยังคงปิด
เริ่มต้นด้วยการเลื่อนฟอร์แมนต์เล็ก ๆ (5-10%) และฟัง ด้วย โทรศัพท์ของผู้ชายมักจะมี F1 ประมาณ 500 Hz และ F2 ประมาณ 1500 Hz สำหรับสระที่เป็นกลาง เสียงหญิงมี F1 ใกล้ 700 Hz และ F2 ประมาณ 2000 Hz เลื่อนฟอร์แมนต์ขึ้น 20-25% นำคุณเข้าไปในบริเวณที่ถูก จากนั้นปรับระดับเสียง - คุณมักจะต้องการการเลื่อนระดับเสียงน้อยกว่าที่คุณคิด เพราะการเลื่อนฟอร์แมนต์ได้ทำหลวงแล้วงาน
ส่วนสรุป
การเลื่อนฟอร์แมนต์คือความแตกต่างระหว่างการเปลี่ยนแปลงเสียงที่ทำให้คนถาม “คุณใช้เครื่องเปลี่ยนเสียงหรือไม่” และสิ่งที่ทำให้คนถาม “นั่นเป็นเสียงจริงของคุณหรือไม่” การเลื่อนระดับเสียงโดยไม่มีความตระหนักถึงฟอร์แมนต์ฟังเหมือนเคล็ดลับสตูดิโอ ระดับเสียงและฟอร์แมนต์ร่วมกัน ปรับปรุงให้เป็นอัตราส่วนที่เหมาะสมสำหรับเป้าหมายการแปลงของคุณ ฟังเหมือนคนอื่น
ถ้าคุณจริงจังเกี่ยวกับงานเสียง - streaming เนื้อหาการสร้างความเป็นส่วนตัวหรือเพียงแค่ทดลอง - มันคุ้มค่ากับการใช้เวลาเย็นเพื่อเข้าใจจริง ๆ ว่าฟอร์แมนต์ทำอะไร จากนั้นนำความเข้าใจนั้นไปใช้กับการตั้งค่าของคุณแทนที่จะหมุนผ่าน preset การควบคุมนั้นไม่ซับซ้อนเมื่อคุณมีแบบจำลองทางจิต
VoxBooster ให้คุณตัวเลื่อนอิสระสำหรับทั้งคู่ บวกกับการโคลนเสียง AI ที่จัดการการแมปฟอร์แมนต์โดยอัตโนมัติสำหรับการแปลงเสียงเป้าหมาย การทดลองใช้ 3 วันฟรีนั้นเพียงพอแล้วที่จะทำงานผ่านกระบวนการทำงานทั้งหมดที่อธิบายไว้ในบทความนี้
ดาวน์โหลด VoxBooster - การทดลองใช้ 3 วันฟรี ไม่ต้องใช้บัตรเครดิต