เปลี่ยนเสียง goku ทำงาน real-time โดยไม่ต้องใช้ GPU ได้หรือไม่

ใช่ การเปลี่ยนระดับเสียง DSP และ EQ ทำงานบน CPU สมัยใหม่ใด ๆ ที่มีความหน่วงเวลาต่ำกว่า 40 ms การแปลงเสียง AI ต้องใช้ GPU สำหรับการใช้งาน real-time ที่สะดวก บนฮาร์ดแวร์ CPU เท่านั้น คาดหวัง 500-800 ms ซึ่งทำงานบน push-to-talk แต่รู้สึกช้าในการสนทนาต่อเนื่อง

ฉันควรกำหนดเป้าหมายว่าเสียง Goku ใด - พากษ์เสียงญี่ปุ่นหรือภาษาอังกฤษ

ญี่ปุ่น (Masako Nozawa) มีระดับเสียงที่สูงขึ้นและคมชัดกว่า เหมาะสมสำหรับเอฟเฟกต์การตะโกน ki-charge แต่อยู่นอกช่วงชายอย่างธรรมชาติ พากษ์เสียงภาษาอังกฤษ (Sean Schemmel) หัวเหม่และต่ำกว่า สามารถบรรลุได้มากขึ้นด้วยการเปลี่ยนระดับเสียงมาตรฐาน เลือกตามช่วงเสียงธรรมชาติของคุณและกรณีการใช้งาน

ค่าเปลี่ยนระดับเสียงใดที่ทำให้ฉันใกล้ที่สุดกับเสียงพากษ์เสียงภาษาอังกฤษของ Goku

เสียงชายส่วนใหญ่อยู่ในช่วงที่ใช้ได้ที่ -1 ถึง -3 semitone โดยเปิดใช้การแก้ไข formant ผลเสียงหัวเหม่มาจากเอฟเฟกต์ overdrive เล็กน้อยหรือการอิ่มตัวที่ 5-10% wet ไม่ใช่จากการลดระดับเสียงเพิ่มเติม เสียงหญิงมักต้องการ -4 ถึง -6 semitone

ฉันสามารถฝึกอบรมเสียง Goku AI เป็นการแปลงเสียง AI ด้วยเสียงที่กำหนดเองได้หรือไม่

ใช่ คุณต้องมีเสียงสะอาดของเสียงเป้าหมาย - ตามอุดมคติคือ 30 นาทีหรือมากกว่านั้นโดยไม่มีเพลงเบื้องหลัง ฝึกแบบจำลองเสียง AI ในข้อมูลนั้น นำเข้าไฟล์ .pth ที่ได้ให้กับ voice changer ที่สนับสนุนการโหลด AI voice conversion เนทีฟ จากนั้นตั้งค่าการชดเชย pitch เพื่อให้ตรงกับช่วงของคุณ

การใช้เสียง Goku สำหรับการสตรีมหรือการเล่นเกมมีความสัตยาธรรมหรือไม่

การใช้เอฟเฟกต์เสียงสไตล์ Goku สำหรับการบันเทิงส่วนตัว การสตรีมที่ไม่ใช่เชิงพาณิชย์ หรือเนื้อหาของแฟนโดยทั่วไปไม่เป็นไร หลีกเลี่ยงการบ่งชี้การให้อนุมัติอย่างเป็นทางการจาก Toei Animation หรือ Funimation และไม่ใช้เสียงในผลิตภัณฑ์ทางพาณิชย์โดยไม่ได้รับอนุญาตสิทธิ การใช้งานของแฟนและการล้อเลียนได้รับการยอมรับอย่างกว้างขวาง

เหตุใดเอฟเฟกต์เสียง goku ของฉันจึงฟังเหมือนกระรอก

คุณอาจใช้ shifter pitch เท่านั้นด้วย formant lock เปิดใช้งาน การเพิ่มขึ้น pitch โดยไม่เพิ่ม formant อย่างอิสระจะสร้างเอฟเฟกต์กระรอก เปิดใช้การแก้ไข formant เพื่อให้สามารถคำนวณความยาวของสายเสียงใหม่ได้ หรือใช้เครื่องมือที่มี slider pitch และ formant แยกกัน

ความแตกต่างระหว่างตัวสร้างเสียง goku และตัวเปลี่ยนเสียง real-time คืออะไร

ตัวสร้างเสียงรับ input ข้อความและสังเคราะห์คำพูด - คุณพิมพ์ มันแสดงเสียง ตัวเปลี่ยนเสียง real-time จะประมวลผลสัญญาณไมโครโฟนสด ๆ ของคุณ สำหรับการใช้งานการเล่นเกมสดและ Discord คุณต้องมีตัวเปลี่ยน real-time สำหรับเนื้อหา YouTube หรือ TikTok ที่บันทึกไว้ตัวสร้างอาจใช้ได้

เปลี่ยนเสียง Goku: ฟังเหมือนฮีโร่ Saiyan

ตัวเปลี่ยนเสียง goku สามารถเพิ่มตัวอักษรที่จริงจังให้กับเซสชันเกม สตรีม Twitch หรือเซิร์ฟเวอร์ Discord - แต่เอฟเฟกต์นั้นมีความซับซ้อนมากขึ้นทางเทคนิคกว่าที่มัยจารบนสนับสนุน Goku มีเสียงคาโนนิคัลที่แตกต่างกันมากมายขึ้นอยู่กับว่าคุณเติบโตขึ้นมาดูพากษ์เสียงญี่ปุ่นหรือภาษาอังกฤษ และ chain DSP ที่คุณต้องการนั้นแตกต่างกันมากระหว่างทั้งสองอย่าง โพสต์นี้ครอบคลุมทั้งสองอย่าง อธิบายวิทยาศาสตร์เสียงเบื้องหลังแต่ละวิธี และเดินทางผ่านการตั้งค่า real-time ที่สมบูรณ์ - จาก preset DSP รวดเร็วไปยังเสียงที่ถูกโคลน AI ที่ลึกกว่าการเปลี่ยนระดับเสียงเพียงอย่างเดียว

TL;DR

Goku มีสองโปรไฟล์โวคัลที่แตกต่างกันมากมาย: เสียงญี่ปุ่นที่สูงและคมชัด (Masako Nozawa) เทียบกับเสียงพากษ์เสียงภาษาอังกฤษที่หัวเหม่กว่า (Sean Schemmel) - การตั้งค่าของคุณขึ้นอยู่กับสิ่งที่คุณต้องการ
การเปลี่ยนระดับเสียงเพียงอย่างเดียวจะไม่พาคุณไปที่นั่น การแก้ไข formant จำเป็นต้องหลีกเลี่ยงเอฟเฟกต์กระรอก
การโคลนเสียง AI ผ่านการแปลงเสียง AI จะนำคุณไปใกล้ timbre จริงมากกว่า DSP chain ใด ๆ โดยเฉพาะอย่างยิ่งสำหรับเวอร์ชันพากษ์เสียงภาษาอังกฤษ
VoxBooster สนับสนุนการโหลดเสียง AI โมเดลดั้งเดิม ควบคุม pitch และ formant อิสระ และการประมวลผล real-time โดยไม่มี driver kernel
การตั้งค่าเต็ม - soundboard สำหรับ ki blasts ทำให้เวลาเสียง ประมาณ 15 นาทีใน VoxBooster หลังจากที่คุณมีไฟล์ model
วิธีการทั้งหมดทำงานบน Windows 10/11 ไม่จำเป็นต้องมีอินเตอร์เฟซเสียงพิเศษ

สิ่งที่ทำให้เสียง Goku โดดเด่นมากขนาดนี้

Goku ได้รับการพากษ์เสียงโดย Masako Nozawa ในเวอร์ชันญี่ปุ่นเดิมตั้งแต่แฟรนไชส์เริ่มต้นในปี 1986 - ซ้ำเกิดซ้ำตายครอบคลุมทุกชุด Dragon Ball ในช่วงสี่ทศวรรษเกือบ Nozawa เล่น Goku ในทุกอายุโดยใช้เทคนิคโวคัลเดียว: โทนสูง คมชัดพร้อมกับการสั่นพ้องจมูกที่แข็งแกร่งและการออกเสียงพยัญชนะที่คมชัด แม้ว่าจะเป็นความจริงที่ว่า Nozawa เป็นผู้หญิงที่พากษ์เสียงให้กับฮีโร่ชายผู้ใหญ่ (การปฏิบัติตามมาตรฐานในการ์ตูน shounen ของญี่ปุ่น) เสียงจะถูกอ่านเป็นวัยรุ่น สดใส และเต็มไปด้วยความจริงใจ

ฉบับพากษ์เสียงภาษาอังกฤษนำเสนอตัวละครที่แตกต่างกันโดยสิ้นเชิง Goku ผู้ใหญ่ของ Sean Schemmel มีเสียงบาริโทนช่วงกลางพร้อมกับคุณภาพเหม่ที่ลึกลับเข้มข้นซึ่งเห็นได้ชัดเจนโดยเฉพาะในการตะโกนการต่อสู้และการตะโกน Super Saiyan ที่เป็นสัญลักษณ์ พากษ์เสียงภาษาอังกฤษ Dragon Ball Z แนะนำผู้ชมตะวันตกส่วนใหญ่ให้รู้จักกับตัวละครนี้ และสำหรับผู้ฟังเหล่านั้น คุณภาพเหม่นั้นคือความหมาย “Goku” ทางเสียง

การเข้าใจการแยกนี้มีความสำคัญอย่างยิ่งก่อนที่คุณจะสัมผัสตัวเลื่อนเดียว เอฟเฟกต์เสียง goku ที่คุณควรตามล่าแตกต่างกันไปขึ้นอยู่กับผู้ชมของคุณและช่วงเสียงธรรมชาติของคุณเอง

ตัวเปลี่ยนเสียง Goku คืออะไร

ตัวเปลี่ยนเสียง goku เป็นเครื่องมือการประมวลผลเสียง real-time ที่เปลี่ยนการป้อนข้อมูลไมโครโฟนของคุณเพื่อประมาณลักษณะเสียงของ Goku เมื่อคุณพูดหรือตะโกน ไม่เหมือนกับคลิปเสียงที่บันทึกไว้หรือระบบ text-to-speech ตัวเปลี่ยนเสียง real-time นั้นอยู่อย่างใจเย็นระหว่างไมโครโฟนของคุณและทุกแอปพลิเคชันบนคอมพิวเตอร์ของคุณ - Discord OBS obrolan suara game Zoom - และประมวลผลเสียงของคุณจากที่เก็บไว้

ศัพท์ ตัวสร้างเสียง goku โดยปกติหมายถึงเครื่องมือ text-to-speech ที่คุณพิมพ์วลีและซอฟต์แวร์สังเคราะห์ลอกเลียนด้วยเสียง Goku วิธีการนั้นมีประโยชน์สำหรับเนื้อหาที่บันทึกไว้แต่ไม่มีประโยชน์สำหรับการโต้ตอบแบบสดใจ โพสต์นี้โดยหลักแล้วเน้นที่การใช้งาน real-time พร้อมกับส่วนหนึ่งในการสร้าง AI สำหรับผู้สร้างเนื้อหาที่ต้องการเนื้อหา clip ที่บันทึกไว้ได้รับการเกลาบรรจง

เสียง Goku สองตัว: การวิเคราะห์เสียง

พากษ์เสียงญี่ปุ่น (Masako Nozawa)

Goku ของ Nozawa นอนอยู่ในช่วงที่ไม่ธรรมดาสูง ๆ สำหรับฮีโร่แอคชั่นชาย ความถี่พื้นฐานของ Goku ผู้ใหญ่ในการพูดจำนวนเดิมฉันลงจอด มากขึ้นกว่า 20-40 Hz เหนือเสียงชายผู้ใหญ่เฉลี่ย - ใกล้ชิดกับช่วงการพูดของผู้หญิง ลักษณะสำคัญ:

คำพูดสว่างที่วางไว้ข้างหน้า โวเคลฟังเหมือนว่ากำลังเกิดขึ้นสูงในโพรงจมูกมากกว่าในหน้าอก
การโจมตีที่ชัดเจนบนพยัญชนะ ช่วงเริ่มต้นที่รวดเร็วและมีจังหวะมอบให้คำพูดเสียงของมันให้ความแหลมคม
ช่วงไดนามิกที่สุดขั้วที่ยกเว้น The ki-charge ยัง - “Kamehamehaaaa” - ข้าม ศพ หรือมากที่สุด semitone เหนือเสียงการพูด ซึ่งเป็นเทคนิค shounen โวคัลที่มีจุดมุ่งหมาย

ใช่ประมาณเสียงนี้ด้วย DSP: เพิ่มขึ้นระดับเสียง +3 ที่สำคัญ +5 semitone ด้วยการแก้ไข formant เปิดใช้งาน เพิ่มการยกขึ้น high-mid presence เบา ๆ รอบ 2.5-3 kHz และเก็บเสียงเน้นข้างหน้าและสว่าง นี่อยู่นอก register ชายธรรมชาติ แต่มีค่า

พากษ์เสียงภาษาอังกฤษ (Sean Schemmel)

วิธีการของ Schemmel อยู่ตรงข้ามของสรีรวิทยา เสียง Goku ผู้ใหญ่คือ baritone ช่วงกลางที่มีเหม่ที่สอดคล้องกัน Schemmel มีชื่อเสียงรบกวนเสียงของเขาในระหว่างการบันทึก Super Saiyan 4 Transformation ใน Dragon Ball GT - ความพยายามโวคัลที่รุนแรงนั้นสามารถได้ยินได้และได้กลายเป็นส่วนหนึ่งของตัวตนของตัวละครในพากษ์เสียง English

ลักษณะสำคัญ:

พื้นสัมผัส mid-range ที่เหม่ ไม่ใช่เสียง bass ลึก - โดยประมาณ range พูด C3 ถึง E4 - แต่มีเนื้อสัมผัส uniform และค่อนข้างหินชนวน
คำพูดการสั่นพ้องศูนย์ ตรงข้ามกับ Nozawa; ความอบอุ่นเกิดจากด้านล่างมากกว่าการวาง นอกหน้า
คุณภาพที่ยาวนานบนเส้นความเข้มสูง เสียงทำงานหนักที่สุดที่ระดับเสียงที่ดังกว่า ซึ่งเป็นสาเหตุที่ทำไมการตะโกนฟังเหมือนเหนื่อย

DSP โครงการการประมาณการ: pitch -1 ถึง -3 semitone จากกลาง saturasi/overdrive เบา ๆ ที่ 10-15% เปียก เพื่อเพิ่มเนื้อสัมผัส การยกขึ้น low-mid ที่ 200-300 Hz สำหรับ bobot dada นี่มีค่ามากกว่าสำหรับเสียงชายส่วนใหญ่

วิธีฟัง เหมือน Goku: คำแนะนำการตั้งค่า DSP

สำหรับผู้ใช้ส่วนใหญ่ preset DSP คือจุดเข้าที่เร็วที่สุด ไม่มีข้อมูลการฝึกอบรม ไม่ต้องใช้ GPU นี่คือพารามิเตอร์ที่เฉพาะเจาะจงสำหรับแต่ละโปรไฟล์เสียง

Preset พากษ์เสียงภาษาอังกฤษ (Schemmel)

ปรามิเตอร์	มูลค่า	บันทึก
การเปลี่ยนระดับเสียง	-1 ถึง -3 semitone	ปรับตามช่วงธรรมชาติของคุณ
การแก้ไข formant	บน	หลีกเลี่ยงเอฟเฟกต์กระรอก
ความอิ่มตัว / overdrive	10-15% wet	เพิ่มเนื้อสัมผัสเหม่
การยกขึ้น low-mid EQ	+2-3 dB ที่ 250 Hz	bobot dada
การยกขึ้น high-mid EQ	+1.5 dB ที่ 1.8 kHz	การปรากฎตัวไม่มีความสว่าง
ไฟ high-shelf	-2 dB ข้างบน 8 kHz	ลบอากาศไมโครโฟนเดสก์ทอป

Preset พากษ์เสียงญี่ปุ่น (Nozawa)

ปรามิเตอร์	มูลค่า	บันทึก
การเปลี่ยนระดับเสียง	+3 ถึง +5 semitone	เหนือขึ้นสูงธรรมชาติ
การเปลี่ยนแปลง formant	+1.5 ถึง +2 semitone (อิสระ)	การวางจมูกข้างหน้า
ความอิ่มตัว	ปิด	ให้เสียงสะอาดและสว่าง
การยกขึ้น high-mid EQ	+2.5 dB ที่ 2.8 kHz	คุณภาพการปรากฎตัวจมูก
ไฟ low shelf	-2 dB ข้างล่าง 120 Hz	ลบ bobot dada

ความเป็นอิสระ formant คือประเด็นสำคัญ เครื่องมือที่เสนอเฉพาะตัวเลื่อน pitch เดียว - ที่ซึ่ง formant ตามอย่างอัตโนมัติหลังจากการเปลี่ยนระดับเสียง - ไม่สามารถผลิตผลลัพธ์ใด ๆ เหล่านี้ได้อย่างถูกต้อง คุณลงเอยด้วยสิ่งที่ฟังเหมือนสูงขึ้นหรือต่ำลงบ้าง ไม่ใช่การเปลี่ยนแปลงตัวละครเสียง มองหาควบคุม pitch และ formant แยกต่างหาก หรือใช้โมเดลการแปลงเสียง AI ที่จัดการทั้งสอง ที่ระดับของศพ

Goku Voice AI: โคลนเสียง AI สำหรับการจับคู่ที่ใกล้ชิดกว่า

ถ้าประมาณ DSP รู้สึกไม่เพียงพอ - โดยเฉพาะอย่างยิ่งสำหรับคุณภาพเหม่ของ Schemmel dubbing English ซึ่งยากที่จะสังเคราะห์ได้อย่างชื่นชอบ - เส้นทาง AI voice cloning ทำให้เกิดผลลัพธ์ที่ดีขึ้นอย่างเห็นได้ชัด การแปลงเสียง AI เป็นสถาปัตยกรรมการแปลงเสียง neural แหล่งเปิดที่ลงแผนที่เสียงของคุณเป้าหมายที่ฝึกอบรมที่ระดับการสอบถาม แต่ไม่ใช่การใช้การแปลง frekuensi คณิตศาสตร์

goku voice ai ที่ได้รับการฝึกอบรมเป็นอย่างดีแบบจำลองเสียงบนเสียง dubbing สะอาด จะ:

สร้าง gritt เนื้อสัมผัสเหม่โดยอัตโนมัติโดยไม่ต้องมี saturation chain
จับโครงสร้าง formant มากกว่าการประมาณการ
ใช้งานคุณภาพความพยายามขนานใหญ่บนธรรมชาติเส้น