เครื่องเปลี่ยนเสียงหญิงเป็นชาย: บทช่วยสอนการปรับแต่ง Formant
เครื่องเปลี่ยนเสียงหญิงเป็นชาย ทำมากกว่าการลดลง pitch ช่องว่างระหว่างเสียงชายที่น่าเชื่อถือและผลลัพธ์ “เพียงลดลง pitch” อยู่เกือบทั้งหมดใน formant — เนินที่สะท้อนซึ่งหล่อรูปโดยความยาวของช่องทางเสียง บทช่วยสอนนี้ผ่านห่วงโซ่สัญญาณที่สมบูรณ์: การลดลง formant การปรับแต่ง pitch การเพิ่มความสะท้อน และการจำลอง vocal fry ด้วยค่าที่เฉพาะเจาะจงซึ่งคุณสามารถปรับแต่งได้วันนี้ กรณีการใช้งาน ได้แก่ การแสดงเสียง VTubing การปรับปรุงแบบ anonim และการใช้ซอฟต์แวร์เป็นข้อมูลอ้างอิงการได้ยินเพื่อการฝึกสอนเสียง transman
TL;DR
- Pitch เพียงอย่างเดียวไม่พอ ลด formant -15 ถึง -20% เพื่อจำลองช่องทางเสียงที่ยาวกว่า
- เริ่มต้นที่ -4 semitone pitch จากนั้นปรับแต่ง formant จนกว่าเสียงจะฟังเป็นชายในระยะการสนทนา
- การเพิ่มความสะท้อน (ฮาร์โมนิคช่วงอกเสียง) เพิ่มตัวแทนที่การเปลี่ยน pitch หรือ formant ไม่ได้ให้
- การจำลอง vocal fry เพิ่มเนื้อผ้าที่ปิดช่องว่างความน่าเชื่อถือสุดท้ายบนเสียงลึก
- โหมด WASAPI แบบเอกสิทธิ์ทำให้ความล่าช้าต่ำกว่า 20 ms — สำคัญสำหรับการใช้งานแบบสดในเกมและ Discord
- สำหรับการฝึกสอนเสียง transman การตอบรับการได้ยินในเวลาจริงจากเครื่องเปลี่ยนเสียงที่ปรับแต่งจะเร่งการดูดซึม
ทำไมการเปลี่ยน Pitch ตัวเดียวล้มเหลว
สัญชาตญาณตามธรรมชาติคือการจับลิ่มพิทช์และลากลงมาจนกว่าเสียงจะฟังลึกกว่า มันใช้งานได้ — ในลักษณะการพูด pitch นั้นต่ำกว่า แต่บางสิ่งยังคงฟังดูผิด ผู้ฟังมักจะอธิบายผลลัพธ์เป็น “หญิงสาวที่มีหวัด” หรือ “เสียงในถัง” เหตุผลคือ formants
ความถี่มูลฐาน (F0) คือสิ่งที่ pitch shift ควบคุม การพูดคุยของหญิงโตโดยปกติจะอยู่ในช่วง 165 ถึง 255 Hz บทสนทนาของชาย โตจาก 85 ถึง 155 Hz การเปลี่ยน -4 semitone ครอบคลุมระหว่างกลางของช่องว่างนั้นโดยประมาณ
ความถี่ formant เป็นเนินที่สะท้อนซึ่งพิจารณาจากความยาวและรูปร่างของช่องทางเสียง ช่องทางเสียงชายมีขนาดยาวกว่ามากขึ้นในเชิงกายภาพซึ่งจะเปลี่ยนเนิน formant ทั้งหมดลงมา — ไม่ขึ้นอยู่กับ pitch ที่สำคัญที่สุดในการรับรู้คือ F1 (เกี่ยวข้องกับความเปิดของสระ) และ F2 (เกี่ยวข้องกับหน้าสระและ timbre โดยรวม) เสียงที่มี formants ช่วงหญิง แต่เสียง pitch ชายฟังจะไม่เป็นธรรมชาติเพราะสองมิตินี้ไม่สอดคล้องกับประเภทเสียงใด ๆ ที่หูของมนุษย์ได้มีประสบการณ์
การแก้ไข: เสมอจับคู่ pitch shift กับ formant shift พวกเขาปฏิบัติการในมิติต่างๆของสัญญาณเดียวกัน
ขั้นตอนที่ 1: การลดลง Formant (-15 ถึง -20%)
Formant shift แสดงเป็นเปอร์เซ็นต์ของตำแหน่งเนินที่สะท้อนปัจจุบัน การเปลี่ยน -15% ย้ายเนินความถี่ formant ทั้งหมด 15% ต่ำลงเพื่อประมาณผลเสียงอะคูสติกของช่องทางเสียงที่ยาวนานประมาณ 1.5–2 ซม — ซึ่งเป็นความแตกต่างหญิงชายทั่วไป
ค่าเริ่มต้น:
- Formant shift: -15% (อนุรักษ์นิยม ฟังธรรมชาติบนเสียงส่วนใหญ่)
- ช่วงที่ยอมรับได้: -12% ถึง -22% ขึ้นอยู่กับเสียงเริ่มต้น
ที่ -20% หรือสูงกว่าให้ฟังเนื้อหาปลอดโปร่งหรือ “ถ้ำ” ที่ไม่เป็นธรรมชาติ — นั่นหมายความว่าคุณได้ผลักดันช่วงที่สมเหตุสมผลสำหรับช่องทางเสียงชายมนุษย์ได้ ดึงกลับมาจนกว่าเสียงจะฟังเหมือนคนจริงแทนที่จะเป็นเอฟเฟกต์
หมายเหตุภาคปฏิบัติ: formant shift เป็นส่วนที่ใช้พลังงาน CPU มากที่สุดของห่วงโซ่เพราะต้องใช้การวิเคราะห์สเปกตรัมเสียงที่ซิงโครไนซ์ระดับเสียงสูง บนฮาร์ดแวร์ที่เก่าแก่กว่าหากคุณสังเกตเห็นขนิม ให้ลองลดการตั้งค่าคุณภาพการประมวลผลเล็กน้อยก่อนที่จะตัด formant shift
ขั้นตอนที่ 2: Pitch Shift (-4 Semitone)
ด้วย formants ที่ลดลงแล้ว pitch shift -4 semitone มักจะเพียงพอที่จะหยุดในช่วงชายตามธรรมชาติ Formants ได้ทำงานหนักส่วนใหญ่ — pitch adjustment ทำให้งานสำเร็จ
ค่าเริ่มต้น: -4 semitone
คำแนะนำการปรับแต่งดี:
- หากเสียงฟังต่ำเกินไปหรือไม่เป็นธรรมชาติสำหรับตัวละคร: ลดลงเป็น -3 หรือแม้แต่ -2
- หากเสียงยังคงฟังเป็นหญิงในระดับเสียงพูดคุยปกติ: เพิ่มเป็น -5
- สำหรับเป้าหมายตัวละครบาริโทนหรือเบส: -5 ถึง -6 รวมกับ -18 ถึง -20% formant
การทดสอบหนึ่งที่มีประโยชน์: พูดประโยคด้วยเสียงตามธรรมชาติของคุณจากนั้นฟังเอาต์พุตที่ได้รับการประมวลผล มันฟังเหมือนคนที่แตกต่างกันหรือมันฟังเหมือนคุณกับเอฟเฟกต์ หากเสียงดูเหมือนคนที่แตกต่างกัน formant และ pitch จะได้รับการสอบเทียมอย่างดี หากเสียงดูเหมือน “คุณกับเอฟเฟกต์” formant shift จะต้องลึกกว่า
ขั้นตอนที่ 3: การเพิ่มความสะท้อน
Formant shift ตำแหน่งใหม่เนินสเปกตรัม การเพิ่มความสะท้อนนั้นแตกต่างกัน — เพิ่มพลังงานในช่วงฮาร์โมนิคต่ำกว่า (ประมาณ 80–200 Hz) ที่ความสะท้อนเสียงอกอยู่ ให้เสียงน้ำหนักและลำตัวแทนที่จะเพียงแค่ระบุตำแหน่งใหม่ลักษณะเสียง
คิดเกี่ยวกับมันในลักษณะนี้: เสียงชายสองเสียงที่มีตำแหน่ง formant เหมือนกันสามารถฟังต่างกันมากหากเสียงหนึ่งส่วนใหญ่คือความสะท้อนของหัวและอีกเสียงคือความสะท้อนของอก การเพิ่มความสะท้อนจำลองส่วนอก
ที่ไหนจะพบมัน: ใน VoxBooster การควบคุมความสะท้อนอยู่ในส่วนเอฟเฟกต์ภายใต้แผงการดัดแปลงเสียง ซอฟต์แวร์บางตัวเรียกมันว่า “ความสะท้อนอก” หรือ “ตัวแทน”
ค่าเริ่มต้น: +3 ถึง +5 dB ในช่วง 100–180 Hz
ข้อเตือน: การเพิ่มปริมาณเกินกว่าในช่วงนี้เพิ่ม boomy บูบบ่วมบำ ลักษณะ เป้าหมายคือความอบอุ่นและน้ำหนักไม่ใช่ grrr bass ถ้าเสียงฟังไม่ชัดเจนบนลำโพง laptop ดึงกลับ 1–2 dB
ขั้นตอนที่ 4: การจำลอง Vocal Fry
Vocal fry เป็นการสั่นความถี่ต่ำที่กรุงเทพฯ และไม่สม่ำเสมอเล็กน้อยซึ่งคนจำนวนมากใช้ที่ด้านล่างสุดของช่วง pitch ของพวกเขา มันพบได้ทั่วไปในการพูดคุยของชายต่ำ — ไม่ต่อเนื่อง แต่มีอยู่ในตอนท้ายของประโยค บนสระบางสระ และในระหว่างการพูดคุยที่ผ่อนคลาย นอกจากนี้ยังเป็นหนึ่งในรายละเอียดที่ทำให้เสียงลึกฟังเหมือนมนุษย์แทนที่จะเป็นสังเคราะห์
ท่อ pitch shift ส่วนใหญ่สร้างรูปคลื่นที่เรียบและสะอาดซึ่งเสียงจริงไม่เคยทำในความเป็นธรรมชาติ Vocal fry simulation แนะนำอปกรณ์ที่ไม่เป็นระเบียบ — ปรับเปลี่ยนความถี่ต่ำที่ละเอียดซึ่งเลียนแบบการเริ่มต้นของการสั่น subharmonic
การตั้งค่าภาคปฏิบัติ: หากซอฟต์แวร์ของคุณมีพารามิเตอร์ vocal fry หรือ “creaky voice” ให้เริ่มต้นด้วยความเข้ม 10–20% มันควรจะแทบจะไม่สังเกตได้ว่าเป็นเอฟเฟกต์ที่แตกต่างกัน แต่ได้ยินชัดเจนว่าเป็นเนื้อผ้าที่เพิ่มเข้ามาเปรียบเทียบกับเสียงเดียวกันโดยไม่มี
วิธีการทางเลือก: หากซอฟต์แวร์ของคุณไม่มีการควบคุม vocal fry โดยเฉพาะ คุณสามารถประมาณได้โดยการเพิ่ม vibrato อัตราต่ำ (0.3–0.8 Hz) ที่ละเอียดบนช่องสัญญาณ pitch เท่านั้นไม่ใช่ formant — สิ่งนี้แนะนำการก้าวไปข้างหน้า pitch ที่ลักษณะเฉพาะของ fry โดยไม่มีสิ่งประดิษฐ์ฮาร์โมนิคที่เอฟเฟกต์ chorus เต็มที่จะเพิ่ม
ขั้นตอนที่ 5: ห่วงโซ่สัญญาณที่สมบูรณ์
ลำดับการประมวลผลสำคัญ การเรียกใช้สิ่งเหล่านี้ในลำดับที่ผิดอาจขยายสิ่งประดิษฐ์หรือยกเลิกผลของเวที
ลำดับที่แนะนำ:
- ระงับเสียงรบกวน (อันดับแรก) — ล้างข้อมูลก่อนการแปลงใด ๆ
- Formant shift (-15 ถึง -20%)
- Pitch shift (-4 semitone)
- การเพิ่มความสะท้อน (+3 ถึง +5 dB, 100–180 Hz)
- การจำลอง vocal fry (ความเข้ม 10–20%)
- การบีบอัดเบา (อัตราส่วน 3:1 เกณฑ์ -18 dBFS) — เปิดใจออกระดับการแปรปรวนที่นำมาโดยห่วงโซ่
VoxBooster ประมวลผลห่วงโซ่นี้ในเครื่องโดยใช้ WASAPI สำหรับเส้นทาง I/O เสียง โดยรักษาความล่าช้า end-to-end ต่ำกว่า 20 ms สิ่งนี้สำคัญสำหรับการใช้งานแบบสด — ความล่าช้าที่เกิน 30 ms โดยประมาณเริ่มรู้สึกเหมือนการล่าช้าที่สังเกตเห็นได้ระหว่างการสนทนา
การสอบเทียมตามกรณีการใช้งาน
การแสดงเสียง
สำหรับการแสดงเสียง คุณมีความยืดหยุ่นมากกว่าเพราะคุณควบคุมสภาพแวดล้อมการบันทึกและสามารถทำการถ่ายภาพหลายครั้งได้ ความสำคัญคือความเป็นธรรมชาติในการเล่นกลับไม่ใช่ความเชื่อถือในการโทรแบบสด
คำแนะนำ:
- ดันการเปลี่ยน formant ไปยัง -18 ถึง -20% สำหรับความแตกต่างที่มีการโปรแกรมมากขึ้น
- ลดหรือกำจัดการจำลอง vocal fry — คุณสามารถทำ fry ได้ตามธรรมชาติหากบท script เรียก
- ใช้แสงโปร่งแสง reverb หลังจากห่วงโซ่เพื่อวาง voice ในพื้นที่เสียง
- บันทึกการตั้งค่าล่วงหน้าต่อตัวละครไม่ใช่ต่อการพักหลัง
VTuber Live Streaming
สำหรับ VTubing ข้อ จำกัด นั้นแตกต่างกัน: คุณต้องการการแปลงเสียงเพื่อให้เหมือนกันสำหรับเซสชั่นหลายชั่วโมง และจะต้องรวมเข้ากับ OBS หรือแพลตฟอร์มสตรีมมิ่งของคุณ
คำแนะนำ:
- ตั้ง VoxBooster เป็นอุปกรณ์ป้อนข้อมูลใน OBS (แหล่งเก็บเสียง)
- เก็บความล่าช้าไว้ในใจ: ใช้โหมด WASAPI แบบเอกสิทธิ์สำหรับความล่าช้าต่ำสุด
- การตั้งค่ากลางทำงานได้ดีขึ้นในระยะยาว: -15% formant -4 semitone ความสะท้อนเบา การตั้งค่าที่รุนแรงเหน็ดเหนื่อยเสียงเร็วกว่า
- หลีกเลี่ยงการใช้การแปลงเสียง AI พร้อมกันเว้นแต่ว่าคุณได้ทดสอบว่า CPU ของคุณจัดการทั้งสองอย่างโดยไม่มีการหล่นละ
การปรับปรุงแบบ Anonym
สำหรับ mod เซิร์ฟเวอร์หรือผู้จัดการชุมชนที่ต้องการเสียงที่ไม่ระบุตัวตนในการโทร:
คำแนะนำ:
- ความสอดคล้องมากกว่าละคร — เป้าหมายคือ “ไม่สามารถรู้ว่าเป็นคุณ” ไม่ “ฟังเหมือนเสียงชายเพราะว่า”
- -15% formant และ -3 ถึง -4 semitone บรรลุการหลีกเลี่ยงโดยไม่ฟังเหมือนได้รับการประมวลผล
- ระงับเสียงรบกวนมีความสำคัญเป็นพิเศษที่นี่เพื่อป้องกันเสียงพื้นหลังจากที่ถูกรู้จัก
การอ้างอิงการฝึกสอนเสียง Transman
บุคคลจำนวนมากที่เป็น transman ใช้ซอฟต์แวร์เปลี่ยนเสียงเป็นข้อมูลอ้างอิงการได้ยิน — การได้ยินเสียงเป้าหมายในระหว่างการพูดช่วยให้สมองและเสื่อไปยังประเทศรับเป้าหมาย นี่คือเทคนิคการฝึกสอนที่ถูกต้องและมีประสิทธิภาพ
วิธีการใช้อย่างมีประสิทธิภาพ:
- ตั้ง voice changer เป็นเสียงเป้าหมายของคุณ (ไม่ใช่สุดขั้ว — ช่วงชายที่สมจริงสำหรับประเภทเสียงของคุณ)
- ใช้มันในการสนทนาแบบหนึ่งต่อหนึ่งหรือเซสชั่นการฝึกฝนที่คุณทำงานอย่างแข็งขันบนเสียง
- ฝึกเป็นระยะโดยไม่มีซอฟต์แวร์เพื่อตรวจสอบความคืบหน้า
- ซอฟต์แวร์ไม่แทนที่การฝึกฝนหรือการรักษาเสียง แต่สามารถเร่งกระบวนการนำเข้าได้อย่างมาก
การตั้งค่าจะเหมือนกับบทช่วยสอนทั่วไป: -15% formant -4 semitone pitch เพิ่มความสะท้อนปานกลาง ความแตกต่างคือจุดมุ่งหมาย — คุณใช้เอาต์พุตที่ได้รับการประมวลผลเป็นข้อมูลอ้างอิงสำหรับการจับคู่ไม่ใช่เพียงหน้ากากเวลาจริง
เปรียบเทียบ: โปรไฟล์การปรับแต่ง
| เสียงเป้าหมาย | Formant shift | Pitch shift | การเพิ่มความสะท้อน | Vocal fry |
|---|---|---|---|---|
| ชายเบา (ชายอ่อนโยน) | -12% | -2 ถึง -3 st | +2 dB | ไม่มี |
| ชายเฉลี่ย | -15% | -4 st | +3 ถึง +4 dB | เบา (10%) |
| Baritone | -18% | -5 st | +4 ถึง +5 dB | ปานกลาง (15%) |
| เสียงตัวละคร (ลึก) | -20% | -6 st | +5 dB | ปานกลาง (20%) |
| Vocal fry-forward | -17% | -4 st | +3 dB | หนัก (25–30%) |
ใช้สิ่งเหล่านี้เป็นจุดเริ่มต้นไม่ใช่เป้าหมายที่แข็ง เสียงแต่ละแบบนั้นแตกต่างกัน — การตั้งค่าเดียวกันบนสองเสียงสร้างผลลัพธ์ที่แตกต่างกันเพราะสเปกตรัมอินพุตแตกต่างกัน
ปัญหาทั่วไปและการแก้ไข
เสียงฟังเหมือน “หญิงหลุดจากพิตช์” ไม่ใช่ชาย: formant shift นั้นต่ำเกินไป ยกขึ้นไปอย่างน้อย -15% ถึง -20%
เสียงฟังกลวงหรือเหมือนถ้ำ: formant shift สูงเกินไป ดึงกลับลงมา -15% หรือต่ำกว่า
คุณภาพโลหะหรือหุ่นยนต์: สิ่งนี้แทบจะทำให้เสียง shift ทำงานมากเกินไป ลดการเปลี่ยน pitch และเพิ่มการเปลี่ยน formant เพื่อชดเชย อัลกอริธึม formant มีความสะอาดกว่าภายใต้การโหลดหนักกว่าอัลกอริธึม pitch
เสียงฟังห่างไกลหรือบาง: การเพิ่มความสะท้อนไม่ทำงานหรือต่ำเกินไป เพิ่ม +3 ถึง +4 dB ในแถบ 100–180 Hz
ความล่าช้าที่เห็นเป็นการล่าช้า: สลับไปยังโหมด WASAPI แบบเอกสิทธิ์ในการตั้งค่าเสียง VoxBooster ปิดแอปพลิเคชันเสียงอื่น ๆ ที่อาจแข่งขันกับอุปกรณ์
เสียงไม่สอดคล้องกันระหว่างเซสชั่น: บันทึกการตั้งค่าของคุณเป็นการตั้งค่าล่วงหน้าที่มีชื่อทันทีที่คุณพบการกำหนดค่าที่คุณชอบ จดค่าที่แน่นอนในกรณีที่การตั้งค่าล่วงหน้าหาย
คำถามที่ถามบ่อย
ฉันควรลดความสูงของเสียง (pitch) เท่าไรในการเปลี่ยนเสียงจากหญิงเป็นชาย? จุดเริ่มต้น -4 semitone ครอบคลุมช่องว่างทั่วไประหว่างความถี่มูลฐานของผู้หญิงและผู้ชาย ปรับแต่งจากที่นั่น — บางเสียงต้องการเพียง -2 ถึง -3 เสียงอื่น ๆ ต้องการ -5 ถึง -6 เสมอจับคู่การเปลี่ยน pitch กับการลดลง formant การพึ่งพา pitch เพียงอย่างเดียวฟังแบบเครื่องจักร
เปอร์เซ็นต์ของการเปลี่ยน formant ใด ที่สร้างเสียงชายที่น่าเชื่อถือ? การลดความถี่ formant ลง 15–20% เลียนแบบช่องทางเสียงของผู้ชายโตที่ยาวกว่า ต่ำกว่า 12% การเปลี่ยนแปลงแทบจะไม่ได้ยิน เหนือ 25% เสียงมีคุณภาพกลวงที่ไม่เป็นธรรมชาติ เริ่มต้นที่ -15% และปรับแต่งโดยหู
Vocal fry คืออะไร และฉันจะจำลองมันด้วยเครื่องเปลี่ยนเสียงได้อย่างไร? Vocal fry (creaky voice) เป็นการสั่นความถี่ต่ำที่ไม่สม่ำเสมอที่ด้านล่างของช่วง pitch ซึ่งพบได้ทั่วไปในการพูดคุยของผู้ชายต่ำ เครื่องเปลี่ยนเสียงบางเครื่องเพิ่มการปรับเปลี่ยนความถี่ต่ำที่ละเอียดและไม่สม่ำเสมอเพื่อจำลอง แม้แต่ปริมาณที่เล็กน้อยมาก — แทบจะไม่สังเกตได้ — เพิ่มเนื้อผ้าที่น่าเชื่อถือสำหรับเสียงที่ลดลง
ฉันสามารถใช้เครื่องเปลี่ยนเสียงจากหญิงเป็นชายเพื่อฝึกเสียง transman ได้ไหม? ใช่ คนจำนวนมากที่เป็น transman ใช้ซอฟต์แวร์เปลี่ยนเสียงเป็นข้อมูลอ้างอิงการได้ยิน — การได้ยินการรวมกัน formant และ pitch ที่ต่ำกว่าในเวลาจริงช่วยให้สมองและเสียงนำเข้าเป้าหมาย ซอฟต์แวร์เป็นเครื่องมือช่วยในการฝึกสอน ไม่ใช่การแทนที่สำหรับการฝึกฝน แต่สามารถเร่งกระบวนการได้อย่างมาก
การเพิ่มความสะท้อนทำงานต่างจากการเปลี่ยน formant หรือไม่? ใช่ การเปลี่ยน formant ขยายเนิน resonant ของสเปกตรัมช่องทางเสียงทางคณิตศาสตร์ การเพิ่มความสะท้อนเพิ่มความลึกและน้ำหนักของเสียงที่รับรู้ได้โดยเน้นฮาร์โมนิค ความถี่ต่ำกว่า — เพิ่มตัวแทน แทนที่จะกำหนดตำแหน่ง formant ใหม่ ทั้งสองร่วมกันสร้างเสียงชายที่น่าเชื่อถือมากกว่าอย่างใดอย่างหนึ่ง
เครื่องเปลี่ยนเสียงจากหญิงเป็นชายใช้งานได้ดีสำหรับการใช้ VTuber หรือไม่? ใช่ VTuber โดยทั่วไปส่งเอาต์พุตไมโครโฟนเสมือนผ่านซอฟต์แวร์สตรีมมิ่งของพวกเขา และเครื่องเปลี่ยนเสียงจากหญิงเป็นชายที่ปรับแต่งได้ดีรวมเข้ากับไปป์ไลน์ได้อย่างราบรื่น กุญแจสำหรับ VTubing คือการรักษาความล่าช้าต่ำกว่า 30 ms เพื่อให้ลิปซิงก์รู้สึกเป็นธรรมชาติ — ซอฟต์แวร์โหมด WASAPI แบบเอกสิทธิ์ไม่ว่าใครสัญญารับประกัน
ฉันจะหลีกเลี่ยง artifact ‘robot’ ได้อย่างไรเมื่อเปลี่ยนเสียงจากหญิงเป็นชาย? สิ่งประดิษฐ์หุ่นยนต์มาจากการดันการเปลี่ยน pitch หนักเกินไปโดยไม่ชดเชยการปรับแต่ง formant การแก้ไขคือการเปลี่ยน formant -15 ถึง -20% และรักษาการเปลี่ยน pitch ปานกลาง (-3 ถึง -4 semitone) แทนที่จะพยายามปิดช่องว่างทั้งหมด pitch เพียงอย่างเดียว การเพิ่มการเพิ่มความสะท้อนเล็กน้อยและการเปิดใช้งานการระงับเสียงรบกวนก่อนห่วงโซ่การแปลงก็ลดสิ่งประดิษฐ์โลหะด้วย
บทสรุป
เครื่องเปลี่ยนเสียงหญิงเป็นชาย ที่ปรับแต่งได้ดีลงไปสู่หลักการหลักหนึ่ง: pitch shift และ formant shift ไม่สามารถแลกเปลี่ยนได้ พวกเขาจัดการกับมิติเสียงที่แตกต่างกัน Formant shift (-15 ถึง -20%) ทำงานหนักโดยจำลองช่องทางเสียงที่ยาวกว่า pitch shift (-4 semitone) ทำให้การจัดแนวเสร็จสิ้น การเพิ่มความสะท้อนและการจำลอง vocal fry เพิ่มความลึกและเนื้อผ้าที่ทำให้ผลลัพธ์ฟังเหมือนมนุษย์มากกว่าที่ได้รับการประมวลผล
VoxBooster จัดการท่อทั้งหมดในเครื่องบน Windows ด้วยการประมวลผล end-to-end ต่ำกว่า 300 ms และไม่มี kernel driver ที่จำเป็น — เสียงของคุณอยู่ในเครื่องของคุณ ไม่ว่าคุณจะสร้างตัวละครแสดงเสียง ออกแบบบุคลิกภาพ VTuber ปรับปรุงแบบ anonim หรือใช้เป็นข้อมูลอ้างอิงการฝึกสอนการได้ยิน การตั้งค่าในบทช่วยสอนนี้จะให้จุดเริ่มต้นที่เป็นรูปธรรม ดาวน์โหลด VoxBooster จาก /download และใช้ค่าล่วงหน้าจากขั้นตอน 5 — เสียงส่วนใหญ่ลงจอดในช่วงที่น่าเชื่อถือภายในสองสามนาทีของการปรับแต่ง