เครื่องเปลี่ยนเสียงหญิงเป็นชาย: บทช่วยสอนการปรับแต่ง Formant

บทช่วยสอนเชิงลึกเกี่ยวกับการแปลงเสียงจากหญิงเป็นชาย — การลดลง formant การเปลี่ยน pitch การเพิ่มความสะท้อน และการจำลอง vocal fry สำหรับนักแสดงเสียง VTuber และการอ้างอิงการฝึกสอนเสียง transman

เครื่องเปลี่ยนเสียงหญิงเป็นชาย: บทช่วยสอนการปรับแต่ง Formant

เครื่องเปลี่ยนเสียงหญิงเป็นชาย ทำมากกว่าการลดลง pitch ช่องว่างระหว่างเสียงชายที่น่าเชื่อถือและผลลัพธ์ “เพียงลดลง pitch” อยู่เกือบทั้งหมดใน formant — เนินที่สะท้อนซึ่งหล่อรูปโดยความยาวของช่องทางเสียง บทช่วยสอนนี้ผ่านห่วงโซ่สัญญาณที่สมบูรณ์: การลดลง formant การปรับแต่ง pitch การเพิ่มความสะท้อน และการจำลอง vocal fry ด้วยค่าที่เฉพาะเจาะจงซึ่งคุณสามารถปรับแต่งได้วันนี้ กรณีการใช้งาน ได้แก่ การแสดงเสียง VTubing การปรับปรุงแบบ anonim และการใช้ซอฟต์แวร์เป็นข้อมูลอ้างอิงการได้ยินเพื่อการฝึกสอนเสียง transman


TL;DR

  • Pitch เพียงอย่างเดียวไม่พอ ลด formant -15 ถึง -20% เพื่อจำลองช่องทางเสียงที่ยาวกว่า
  • เริ่มต้นที่ -4 semitone pitch จากนั้นปรับแต่ง formant จนกว่าเสียงจะฟังเป็นชายในระยะการสนทนา
  • การเพิ่มความสะท้อน (ฮาร์โมนิคช่วงอกเสียง) เพิ่มตัวแทนที่การเปลี่ยน pitch หรือ formant ไม่ได้ให้
  • การจำลอง vocal fry เพิ่มเนื้อผ้าที่ปิดช่องว่างความน่าเชื่อถือสุดท้ายบนเสียงลึก
  • โหมด WASAPI แบบเอกสิทธิ์ทำให้ความล่าช้าต่ำกว่า 20 ms — สำคัญสำหรับการใช้งานแบบสดในเกมและ Discord
  • สำหรับการฝึกสอนเสียง transman การตอบรับการได้ยินในเวลาจริงจากเครื่องเปลี่ยนเสียงที่ปรับแต่งจะเร่งการดูดซึม

ทำไมการเปลี่ยน Pitch ตัวเดียวล้มเหลว

สัญชาตญาณตามธรรมชาติคือการจับลิ่มพิทช์และลากลงมาจนกว่าเสียงจะฟังลึกกว่า มันใช้งานได้ — ในลักษณะการพูด pitch นั้นต่ำกว่า แต่บางสิ่งยังคงฟังดูผิด ผู้ฟังมักจะอธิบายผลลัพธ์เป็น “หญิงสาวที่มีหวัด” หรือ “เสียงในถัง” เหตุผลคือ formants

ความถี่มูลฐาน (F0) คือสิ่งที่ pitch shift ควบคุม การพูดคุยของหญิงโตโดยปกติจะอยู่ในช่วง 165 ถึง 255 Hz บทสนทนาของชาย โตจาก 85 ถึง 155 Hz การเปลี่ยน -4 semitone ครอบคลุมระหว่างกลางของช่องว่างนั้นโดยประมาณ

ความถี่ formant เป็นเนินที่สะท้อนซึ่งพิจารณาจากความยาวและรูปร่างของช่องทางเสียง ช่องทางเสียงชายมีขนาดยาวกว่ามากขึ้นในเชิงกายภาพซึ่งจะเปลี่ยนเนิน formant ทั้งหมดลงมา — ไม่ขึ้นอยู่กับ pitch ที่สำคัญที่สุดในการรับรู้คือ F1 (เกี่ยวข้องกับความเปิดของสระ) และ F2 (เกี่ยวข้องกับหน้าสระและ timbre โดยรวม) เสียงที่มี formants ช่วงหญิง แต่เสียง pitch ชายฟังจะไม่เป็นธรรมชาติเพราะสองมิตินี้ไม่สอดคล้องกับประเภทเสียงใด ๆ ที่หูของมนุษย์ได้มีประสบการณ์

การแก้ไข: เสมอจับคู่ pitch shift กับ formant shift พวกเขาปฏิบัติการในมิติต่างๆของสัญญาณเดียวกัน

ขั้นตอนที่ 1: การลดลง Formant (-15 ถึง -20%)

Formant shift แสดงเป็นเปอร์เซ็นต์ของตำแหน่งเนินที่สะท้อนปัจจุบัน การเปลี่ยน -15% ย้ายเนินความถี่ formant ทั้งหมด 15% ต่ำลงเพื่อประมาณผลเสียงอะคูสติกของช่องทางเสียงที่ยาวนานประมาณ 1.5–2 ซม — ซึ่งเป็นความแตกต่างหญิงชายทั่วไป

ค่าเริ่มต้น:

  • Formant shift: -15% (อนุรักษ์นิยม ฟังธรรมชาติบนเสียงส่วนใหญ่)
  • ช่วงที่ยอมรับได้: -12% ถึง -22% ขึ้นอยู่กับเสียงเริ่มต้น

ที่ -20% หรือสูงกว่าให้ฟังเนื้อหาปลอดโปร่งหรือ “ถ้ำ” ที่ไม่เป็นธรรมชาติ — นั่นหมายความว่าคุณได้ผลักดันช่วงที่สมเหตุสมผลสำหรับช่องทางเสียงชายมนุษย์ได้ ดึงกลับมาจนกว่าเสียงจะฟังเหมือนคนจริงแทนที่จะเป็นเอฟเฟกต์

หมายเหตุภาคปฏิบัติ: formant shift เป็นส่วนที่ใช้พลังงาน CPU มากที่สุดของห่วงโซ่เพราะต้องใช้การวิเคราะห์สเปกตรัมเสียงที่ซิงโครไนซ์ระดับเสียงสูง บนฮาร์ดแวร์ที่เก่าแก่กว่าหากคุณสังเกตเห็นขนิม ให้ลองลดการตั้งค่าคุณภาพการประมวลผลเล็กน้อยก่อนที่จะตัด formant shift

ขั้นตอนที่ 2: Pitch Shift (-4 Semitone)

ด้วย formants ที่ลดลงแล้ว pitch shift -4 semitone มักจะเพียงพอที่จะหยุดในช่วงชายตามธรรมชาติ Formants ได้ทำงานหนักส่วนใหญ่ — pitch adjustment ทำให้งานสำเร็จ

ค่าเริ่มต้น: -4 semitone

คำแนะนำการปรับแต่งดี:

  • หากเสียงฟังต่ำเกินไปหรือไม่เป็นธรรมชาติสำหรับตัวละคร: ลดลงเป็น -3 หรือแม้แต่ -2
  • หากเสียงยังคงฟังเป็นหญิงในระดับเสียงพูดคุยปกติ: เพิ่มเป็น -5
  • สำหรับเป้าหมายตัวละครบาริโทนหรือเบส: -5 ถึง -6 รวมกับ -18 ถึง -20% formant

การทดสอบหนึ่งที่มีประโยชน์: พูดประโยคด้วยเสียงตามธรรมชาติของคุณจากนั้นฟังเอาต์พุตที่ได้รับการประมวลผล มันฟังเหมือนคนที่แตกต่างกันหรือมันฟังเหมือนคุณกับเอฟเฟกต์ หากเสียงดูเหมือนคนที่แตกต่างกัน formant และ pitch จะได้รับการสอบเทียมอย่างดี หากเสียงดูเหมือน “คุณกับเอฟเฟกต์” formant shift จะต้องลึกกว่า

ขั้นตอนที่ 3: การเพิ่มความสะท้อน

Formant shift ตำแหน่งใหม่เนินสเปกตรัม การเพิ่มความสะท้อนนั้นแตกต่างกัน — เพิ่มพลังงานในช่วงฮาร์โมนิคต่ำกว่า (ประมาณ 80–200 Hz) ที่ความสะท้อนเสียงอกอยู่ ให้เสียงน้ำหนักและลำตัวแทนที่จะเพียงแค่ระบุตำแหน่งใหม่ลักษณะเสียง

คิดเกี่ยวกับมันในลักษณะนี้: เสียงชายสองเสียงที่มีตำแหน่ง formant เหมือนกันสามารถฟังต่างกันมากหากเสียงหนึ่งส่วนใหญ่คือความสะท้อนของหัวและอีกเสียงคือความสะท้อนของอก การเพิ่มความสะท้อนจำลองส่วนอก

ที่ไหนจะพบมัน: ใน VoxBooster การควบคุมความสะท้อนอยู่ในส่วนเอฟเฟกต์ภายใต้แผงการดัดแปลงเสียง ซอฟต์แวร์บางตัวเรียกมันว่า “ความสะท้อนอก” หรือ “ตัวแทน”

ค่าเริ่มต้น: +3 ถึง +5 dB ในช่วง 100–180 Hz

ข้อเตือน: การเพิ่มปริมาณเกินกว่าในช่วงนี้เพิ่ม boomy บูบบ่วมบำ ลักษณะ เป้าหมายคือความอบอุ่นและน้ำหนักไม่ใช่ grrr bass ถ้าเสียงฟังไม่ชัดเจนบนลำโพง laptop ดึงกลับ 1–2 dB

ขั้นตอนที่ 4: การจำลอง Vocal Fry

Vocal fry เป็นการสั่นความถี่ต่ำที่กรุงเทพฯ และไม่สม่ำเสมอเล็กน้อยซึ่งคนจำนวนมากใช้ที่ด้านล่างสุดของช่วง pitch ของพวกเขา มันพบได้ทั่วไปในการพูดคุยของชายต่ำ — ไม่ต่อเนื่อง แต่มีอยู่ในตอนท้ายของประโยค บนสระบางสระ และในระหว่างการพูดคุยที่ผ่อนคลาย นอกจากนี้ยังเป็นหนึ่งในรายละเอียดที่ทำให้เสียงลึกฟังเหมือนมนุษย์แทนที่จะเป็นสังเคราะห์

ท่อ pitch shift ส่วนใหญ่สร้างรูปคลื่นที่เรียบและสะอาดซึ่งเสียงจริงไม่เคยทำในความเป็นธรรมชาติ Vocal fry simulation แนะนำอปกรณ์ที่ไม่เป็นระเบียบ — ปรับเปลี่ยนความถี่ต่ำที่ละเอียดซึ่งเลียนแบบการเริ่มต้นของการสั่น subharmonic

การตั้งค่าภาคปฏิบัติ: หากซอฟต์แวร์ของคุณมีพารามิเตอร์ vocal fry หรือ “creaky voice” ให้เริ่มต้นด้วยความเข้ม 10–20% มันควรจะแทบจะไม่สังเกตได้ว่าเป็นเอฟเฟกต์ที่แตกต่างกัน แต่ได้ยินชัดเจนว่าเป็นเนื้อผ้าที่เพิ่มเข้ามาเปรียบเทียบกับเสียงเดียวกันโดยไม่มี

วิธีการทางเลือก: หากซอฟต์แวร์ของคุณไม่มีการควบคุม vocal fry โดยเฉพาะ คุณสามารถประมาณได้โดยการเพิ่ม vibrato อัตราต่ำ (0.3–0.8 Hz) ที่ละเอียดบนช่องสัญญาณ pitch เท่านั้นไม่ใช่ formant — สิ่งนี้แนะนำการก้าวไปข้างหน้า pitch ที่ลักษณะเฉพาะของ fry โดยไม่มีสิ่งประดิษฐ์ฮาร์โมนิคที่เอฟเฟกต์ chorus เต็มที่จะเพิ่ม

ขั้นตอนที่ 5: ห่วงโซ่สัญญาณที่สมบูรณ์

ลำดับการประมวลผลสำคัญ การเรียกใช้สิ่งเหล่านี้ในลำดับที่ผิดอาจขยายสิ่งประดิษฐ์หรือยกเลิกผลของเวที

ลำดับที่แนะนำ:

  1. ระงับเสียงรบกวน (อันดับแรก) — ล้างข้อมูลก่อนการแปลงใด ๆ
  2. Formant shift (-15 ถึง -20%)
  3. Pitch shift (-4 semitone)
  4. การเพิ่มความสะท้อน (+3 ถึง +5 dB, 100–180 Hz)
  5. การจำลอง vocal fry (ความเข้ม 10–20%)
  6. การบีบอัดเบา (อัตราส่วน 3:1 เกณฑ์ -18 dBFS) — เปิดใจออกระดับการแปรปรวนที่นำมาโดยห่วงโซ่

VoxBooster ประมวลผลห่วงโซ่นี้ในเครื่องโดยใช้ WASAPI สำหรับเส้นทาง I/O เสียง โดยรักษาความล่าช้า end-to-end ต่ำกว่า 20 ms สิ่งนี้สำคัญสำหรับการใช้งานแบบสด — ความล่าช้าที่เกิน 30 ms โดยประมาณเริ่มรู้สึกเหมือนการล่าช้าที่สังเกตเห็นได้ระหว่างการสนทนา

การสอบเทียมตามกรณีการใช้งาน

การแสดงเสียง

สำหรับการแสดงเสียง คุณมีความยืดหยุ่นมากกว่าเพราะคุณควบคุมสภาพแวดล้อมการบันทึกและสามารถทำการถ่ายภาพหลายครั้งได้ ความสำคัญคือความเป็นธรรมชาติในการเล่นกลับไม่ใช่ความเชื่อถือในการโทรแบบสด

คำแนะนำ:

  • ดันการเปลี่ยน formant ไปยัง -18 ถึง -20% สำหรับความแตกต่างที่มีการโปรแกรมมากขึ้น
  • ลดหรือกำจัดการจำลอง vocal fry — คุณสามารถทำ fry ได้ตามธรรมชาติหากบท script เรียก
  • ใช้แสงโปร่งแสง reverb หลังจากห่วงโซ่เพื่อวาง voice ในพื้นที่เสียง
  • บันทึกการตั้งค่าล่วงหน้าต่อตัวละครไม่ใช่ต่อการพักหลัง

VTuber Live Streaming

สำหรับ VTubing ข้อ จำกัด นั้นแตกต่างกัน: คุณต้องการการแปลงเสียงเพื่อให้เหมือนกันสำหรับเซสชั่นหลายชั่วโมง และจะต้องรวมเข้ากับ OBS หรือแพลตฟอร์มสตรีมมิ่งของคุณ

คำแนะนำ:

  • ตั้ง VoxBooster เป็นอุปกรณ์ป้อนข้อมูลใน OBS (แหล่งเก็บเสียง)
  • เก็บความล่าช้าไว้ในใจ: ใช้โหมด WASAPI แบบเอกสิทธิ์สำหรับความล่าช้าต่ำสุด
  • การตั้งค่ากลางทำงานได้ดีขึ้นในระยะยาว: -15% formant -4 semitone ความสะท้อนเบา การตั้งค่าที่รุนแรงเหน็ดเหนื่อยเสียงเร็วกว่า
  • หลีกเลี่ยงการใช้การแปลงเสียง AI พร้อมกันเว้นแต่ว่าคุณได้ทดสอบว่า CPU ของคุณจัดการทั้งสองอย่างโดยไม่มีการหล่นละ

การปรับปรุงแบบ Anonym

สำหรับ mod เซิร์ฟเวอร์หรือผู้จัดการชุมชนที่ต้องการเสียงที่ไม่ระบุตัวตนในการโทร:

คำแนะนำ:

  • ความสอดคล้องมากกว่าละคร — เป้าหมายคือ “ไม่สามารถรู้ว่าเป็นคุณ” ไม่ “ฟังเหมือนเสียงชายเพราะว่า”
  • -15% formant และ -3 ถึง -4 semitone บรรลุการหลีกเลี่ยงโดยไม่ฟังเหมือนได้รับการประมวลผล
  • ระงับเสียงรบกวนมีความสำคัญเป็นพิเศษที่นี่เพื่อป้องกันเสียงพื้นหลังจากที่ถูกรู้จัก

การอ้างอิงการฝึกสอนเสียง Transman

บุคคลจำนวนมากที่เป็น transman ใช้ซอฟต์แวร์เปลี่ยนเสียงเป็นข้อมูลอ้างอิงการได้ยิน — การได้ยินเสียงเป้าหมายในระหว่างการพูดช่วยให้สมองและเสื่อไปยังประเทศรับเป้าหมาย นี่คือเทคนิคการฝึกสอนที่ถูกต้องและมีประสิทธิภาพ

วิธีการใช้อย่างมีประสิทธิภาพ:

  • ตั้ง voice changer เป็นเสียงเป้าหมายของคุณ (ไม่ใช่สุดขั้ว — ช่วงชายที่สมจริงสำหรับประเภทเสียงของคุณ)
  • ใช้มันในการสนทนาแบบหนึ่งต่อหนึ่งหรือเซสชั่นการฝึกฝนที่คุณทำงานอย่างแข็งขันบนเสียง
  • ฝึกเป็นระยะโดยไม่มีซอฟต์แวร์เพื่อตรวจสอบความคืบหน้า
  • ซอฟต์แวร์ไม่แทนที่การฝึกฝนหรือการรักษาเสียง แต่สามารถเร่งกระบวนการนำเข้าได้อย่างมาก

การตั้งค่าจะเหมือนกับบทช่วยสอนทั่วไป: -15% formant -4 semitone pitch เพิ่มความสะท้อนปานกลาง ความแตกต่างคือจุดมุ่งหมาย — คุณใช้เอาต์พุตที่ได้รับการประมวลผลเป็นข้อมูลอ้างอิงสำหรับการจับคู่ไม่ใช่เพียงหน้ากากเวลาจริง

เปรียบเทียบ: โปรไฟล์การปรับแต่ง

เสียงเป้าหมายFormant shiftPitch shiftการเพิ่มความสะท้อนVocal fry
ชายเบา (ชายอ่อนโยน)-12%-2 ถึง -3 st+2 dBไม่มี
ชายเฉลี่ย-15%-4 st+3 ถึง +4 dBเบา (10%)
Baritone-18%-5 st+4 ถึง +5 dBปานกลาง (15%)
เสียงตัวละคร (ลึก)-20%-6 st+5 dBปานกลาง (20%)
Vocal fry-forward-17%-4 st+3 dBหนัก (25–30%)

ใช้สิ่งเหล่านี้เป็นจุดเริ่มต้นไม่ใช่เป้าหมายที่แข็ง เสียงแต่ละแบบนั้นแตกต่างกัน — การตั้งค่าเดียวกันบนสองเสียงสร้างผลลัพธ์ที่แตกต่างกันเพราะสเปกตรัมอินพุตแตกต่างกัน

ปัญหาทั่วไปและการแก้ไข

เสียงฟังเหมือน “หญิงหลุดจากพิตช์” ไม่ใช่ชาย: formant shift นั้นต่ำเกินไป ยกขึ้นไปอย่างน้อย -15% ถึง -20%

เสียงฟังกลวงหรือเหมือนถ้ำ: formant shift สูงเกินไป ดึงกลับลงมา -15% หรือต่ำกว่า

คุณภาพโลหะหรือหุ่นยนต์: สิ่งนี้แทบจะทำให้เสียง shift ทำงานมากเกินไป ลดการเปลี่ยน pitch และเพิ่มการเปลี่ยน formant เพื่อชดเชย อัลกอริธึม formant มีความสะอาดกว่าภายใต้การโหลดหนักกว่าอัลกอริธึม pitch

เสียงฟังห่างไกลหรือบาง: การเพิ่มความสะท้อนไม่ทำงานหรือต่ำเกินไป เพิ่ม +3 ถึง +4 dB ในแถบ 100–180 Hz

ความล่าช้าที่เห็นเป็นการล่าช้า: สลับไปยังโหมด WASAPI แบบเอกสิทธิ์ในการตั้งค่าเสียง VoxBooster ปิดแอปพลิเคชันเสียงอื่น ๆ ที่อาจแข่งขันกับอุปกรณ์

เสียงไม่สอดคล้องกันระหว่างเซสชั่น: บันทึกการตั้งค่าของคุณเป็นการตั้งค่าล่วงหน้าที่มีชื่อทันทีที่คุณพบการกำหนดค่าที่คุณชอบ จดค่าที่แน่นอนในกรณีที่การตั้งค่าล่วงหน้าหาย

คำถามที่ถามบ่อย

ฉันควรลดความสูงของเสียง (pitch) เท่าไรในการเปลี่ยนเสียงจากหญิงเป็นชาย? จุดเริ่มต้น -4 semitone ครอบคลุมช่องว่างทั่วไประหว่างความถี่มูลฐานของผู้หญิงและผู้ชาย ปรับแต่งจากที่นั่น — บางเสียงต้องการเพียง -2 ถึง -3 เสียงอื่น ๆ ต้องการ -5 ถึง -6 เสมอจับคู่การเปลี่ยน pitch กับการลดลง formant การพึ่งพา pitch เพียงอย่างเดียวฟังแบบเครื่องจักร

เปอร์เซ็นต์ของการเปลี่ยน formant ใด ที่สร้างเสียงชายที่น่าเชื่อถือ? การลดความถี่ formant ลง 15–20% เลียนแบบช่องทางเสียงของผู้ชายโตที่ยาวกว่า ต่ำกว่า 12% การเปลี่ยนแปลงแทบจะไม่ได้ยิน เหนือ 25% เสียงมีคุณภาพกลวงที่ไม่เป็นธรรมชาติ เริ่มต้นที่ -15% และปรับแต่งโดยหู

Vocal fry คืออะไร และฉันจะจำลองมันด้วยเครื่องเปลี่ยนเสียงได้อย่างไร? Vocal fry (creaky voice) เป็นการสั่นความถี่ต่ำที่ไม่สม่ำเสมอที่ด้านล่างของช่วง pitch ซึ่งพบได้ทั่วไปในการพูดคุยของผู้ชายต่ำ เครื่องเปลี่ยนเสียงบางเครื่องเพิ่มการปรับเปลี่ยนความถี่ต่ำที่ละเอียดและไม่สม่ำเสมอเพื่อจำลอง แม้แต่ปริมาณที่เล็กน้อยมาก — แทบจะไม่สังเกตได้ — เพิ่มเนื้อผ้าที่น่าเชื่อถือสำหรับเสียงที่ลดลง

ฉันสามารถใช้เครื่องเปลี่ยนเสียงจากหญิงเป็นชายเพื่อฝึกเสียง transman ได้ไหม? ใช่ คนจำนวนมากที่เป็น transman ใช้ซอฟต์แวร์เปลี่ยนเสียงเป็นข้อมูลอ้างอิงการได้ยิน — การได้ยินการรวมกัน formant และ pitch ที่ต่ำกว่าในเวลาจริงช่วยให้สมองและเสียงนำเข้าเป้าหมาย ซอฟต์แวร์เป็นเครื่องมือช่วยในการฝึกสอน ไม่ใช่การแทนที่สำหรับการฝึกฝน แต่สามารถเร่งกระบวนการได้อย่างมาก

การเพิ่มความสะท้อนทำงานต่างจากการเปลี่ยน formant หรือไม่? ใช่ การเปลี่ยน formant ขยายเนิน resonant ของสเปกตรัมช่องทางเสียงทางคณิตศาสตร์ การเพิ่มความสะท้อนเพิ่มความลึกและน้ำหนักของเสียงที่รับรู้ได้โดยเน้นฮาร์โมนิค ความถี่ต่ำกว่า — เพิ่มตัวแทน แทนที่จะกำหนดตำแหน่ง formant ใหม่ ทั้งสองร่วมกันสร้างเสียงชายที่น่าเชื่อถือมากกว่าอย่างใดอย่างหนึ่ง

เครื่องเปลี่ยนเสียงจากหญิงเป็นชายใช้งานได้ดีสำหรับการใช้ VTuber หรือไม่? ใช่ VTuber โดยทั่วไปส่งเอาต์พุตไมโครโฟนเสมือนผ่านซอฟต์แวร์สตรีมมิ่งของพวกเขา และเครื่องเปลี่ยนเสียงจากหญิงเป็นชายที่ปรับแต่งได้ดีรวมเข้ากับไปป์ไลน์ได้อย่างราบรื่น กุญแจสำหรับ VTubing คือการรักษาความล่าช้าต่ำกว่า 30 ms เพื่อให้ลิปซิงก์รู้สึกเป็นธรรมชาติ — ซอฟต์แวร์โหมด WASAPI แบบเอกสิทธิ์ไม่ว่าใครสัญญารับประกัน

ฉันจะหลีกเลี่ยง artifact ‘robot’ ได้อย่างไรเมื่อเปลี่ยนเสียงจากหญิงเป็นชาย? สิ่งประดิษฐ์หุ่นยนต์มาจากการดันการเปลี่ยน pitch หนักเกินไปโดยไม่ชดเชยการปรับแต่ง formant การแก้ไขคือการเปลี่ยน formant -15 ถึง -20% และรักษาการเปลี่ยน pitch ปานกลาง (-3 ถึง -4 semitone) แทนที่จะพยายามปิดช่องว่างทั้งหมด pitch เพียงอย่างเดียว การเพิ่มการเพิ่มความสะท้อนเล็กน้อยและการเปิดใช้งานการระงับเสียงรบกวนก่อนห่วงโซ่การแปลงก็ลดสิ่งประดิษฐ์โลหะด้วย

บทสรุป

เครื่องเปลี่ยนเสียงหญิงเป็นชาย ที่ปรับแต่งได้ดีลงไปสู่หลักการหลักหนึ่ง: pitch shift และ formant shift ไม่สามารถแลกเปลี่ยนได้ พวกเขาจัดการกับมิติเสียงที่แตกต่างกัน Formant shift (-15 ถึง -20%) ทำงานหนักโดยจำลองช่องทางเสียงที่ยาวกว่า pitch shift (-4 semitone) ทำให้การจัดแนวเสร็จสิ้น การเพิ่มความสะท้อนและการจำลอง vocal fry เพิ่มความลึกและเนื้อผ้าที่ทำให้ผลลัพธ์ฟังเหมือนมนุษย์มากกว่าที่ได้รับการประมวลผล

VoxBooster จัดการท่อทั้งหมดในเครื่องบน Windows ด้วยการประมวลผล end-to-end ต่ำกว่า 300 ms และไม่มี kernel driver ที่จำเป็น — เสียงของคุณอยู่ในเครื่องของคุณ ไม่ว่าคุณจะสร้างตัวละครแสดงเสียง ออกแบบบุคลิกภาพ VTuber ปรับปรุงแบบ anonim หรือใช้เป็นข้อมูลอ้างอิงการฝึกสอนการได้ยิน การตั้งค่าในบทช่วยสอนนี้จะให้จุดเริ่มต้นที่เป็นรูปธรรม ดาวน์โหลด VoxBooster จาก /download และใช้ค่าล่วงหน้าจากขั้นตอน 5 — เสียงส่วนใหญ่ลงจอดในช่วงที่น่าเชื่อถือภายในสองสามนาทีของการปรับแต่ง

ลอง VoxBooster — ทดลองใช้ฟรี 3 วัน

โคลนเสียงเรียลไทม์ ซาวด์บอร์ด และเอฟเฟกต์ — ทุกที่ที่คุณคุย

  • ไม่ต้องใช้บัตรเครดิต
  • ความหน่วง ~30ms
  • Discord · Teams · OBS
ลองฟรี 3 วัน