คำแนะนำการสร้างสรรค์เสียง Erwin Smith
ผู้บัญชาการ Erwin Smith บรรยายเสียงที่มีพลังพลวัตที่สุดในการโจมตีบน Titan โดยมีเสียงที่รู้สึกเหมือนพลังธรรมชาติ — ควบคุมได้ดีดังสนั่นและสามารถรวบรวมหลายพันคนเข้าสู่ความตายที่แน่นอน ไม่ว่าคุณต้องการสร้างสรรค์ความเข้มข้น “เราให้หัวใจของเรา!” สำหรับ Roleplay Discord กิจกรรม cosplay การสตรีมหรือเนื้อหาเสียง AI คำแนะนำนี้แยกรายละเอียดการวิเคราะห์ทางอักษรศาสตร์เสียงที่สมบูรณ์ของเสียง Erwin แผนที่การตั้งค่า DSP เฉพาะครอบคลุมบทเรียนการฝึกอบรมทางกายภาพและเดินผ่านเวิร์กโฟลว์การจำลองเสียง AI บน Windows”
TL;DR
- เสียง Erwin เป็น baritone ต่ำที่ควบคุมได้ด้วยส่วนสะท้อนอกที่ยอดเยี่ยมความเร็วที่มีเจตนาและช่วงแรงดลนระเบิดในวลีสำคัญ — ไม่ใช่กลอุบายเสียงตัวละครแต่เป็นทักษะการแสดงที่มีวินัย
- การดับเสียงภาษาญี่ปุ่น (Daisuke Ono) นั่งอยู่ที่ประมาณ 100–120 Hz ฐานที่มีการออกเสียงพยัญชนะแบบคม; การดับเสียงภาษาอังกฤษ (J. Michael Tatum) อบอุ่นกว่าและเต็มไปด้วยเล็กน้อยที่ 105–125 Hz
- การตั้งค่า DSP: −2 ถึง −4 semitone เปลี่ยนระดับเสียงการเน้นที่ formant อกเบา ๆ การบีบอัดอพยพขนาดกลางพร้อมการโจมตีที่รวดเร็วและการปล่อยตัวช้า
- บทเรียนทางกายภาพ — หายใจลงกรงหัวใจการยืดนอตการบิน การบิน ฝึกฝนอย่างเต็มเหนี่ยว — สะพาน ช่องว่างที่ DSP ไม่สามารถครอบคลุมได้
- การจำลองเสียง AI สามารถจัดการกับอักษรเสียงแบบละเอียดอ่อนที่การเปลี่ยนระดับเสียงเพียงอย่างเดียวไม่สามารถจำลองซ้ำได้โดยมีเวลาแฝงต่ำกว่า 300ms บน GPU คลาสกลาง
- VoxBooster บน Windows รองรับการนำเข้าโมเดล AI กำหนดเส้นทาง WASAPI และการรวมศูนย์ Discord/OBS ที่ไม่ต้องใช้ตัวควบคุมเคอร์เนล
ผู้บัญชาการ Erwin Smith คือใคร?
ผู้บัญชาการ Erwin Smith เป็นผู้บัญชาการคนที่ 13 ของ Survey Corps ใน Attack on Titan ซีรี่ย์การ์ตูนโดย Hajime Isayama และการดัดแปลงอนิเมะ Wit Studio / MAPPA เขาถูกกำหนดโดยความขัดแย้ง: ความโหดร้ายเชิงกลยุทธ์ที่ไม่สั่นคลอนรวมกับเมตตาแท้จริงสำหรับทหารที่ติดตามเขา ปราศรัยของเขา — โดยเฉพาะการชาร์จบน Titan ของสัตว์ร้ายในฤดู 3 — เป็นช่วงเวลาที่ค่อนข้างมากทางอารมณ์ในซีรี่ย์นี้เพราะเสียงของเขาทำให้คุณเชื่อถือในภารกิจแม้เมื่อคณิตศาสตร์มีความชัดเจนว่าเป็นมรณศีล
ความเชื่อถือนั้นไม่ได้เป็นเรื่องบังเอิญ ทั้งนักแสดงเสียงญี่ปุ่น Daisuke Ono และนักแสดงดับเสียงภาษาอังกฤษ J. Michael Tatum สร้างเสียง Erwin รอบตัวเลือกการแสดงเฉพาะที่แปลเป็นคุณสมบัติทางอักษรศาสตร์เสียงที่สามารถระบุได้ที่คุณสามารถวิเคราะห์ฝึกและจำลองได้
การวิเคราะห์ทางอักษรศาสตร์เสียงของเสียง Erwin
ก่อนที่จะสัมผัสการตั้งค่าซอฟต์แวร์ใด ๆ การทำความเข้าใจสิ่งที่คุณพยายามสร้างสรรค์ซ้ำจะป้องกันไม่ให้คุณไล่ตามพารามิเตอร์ที่ผิด
ช่วงพื้นฐานและตำแหน่งอก
เสียงพูดพื้นฐาน Erwin นั่งอยู่ในช่วง baritone ต่ำ — ประมาณ 100–120 Hz ในการแสดง Daisuke Ono ภาษาญี่ปุ่น และ 105–125 Hz ในเวอร์ชัน J. Michael Tatum ภาษาอังกฤษ นี่ไม่ใช่เสียง bass สุดขั้ว พลังไม่ได้มาจากความถี่ใต้ดิน; มันมาจากคำพูดเสียงและตำแหน่ง
ความแตกต่างที่สำคัญ: Erwin ส่งออกจากตำแหน่งอกต่ำที่ผ่อนคลายมากกว่าลำคออัดแน่น นี่จะผลิตพื้นฐานกลมและเต็มไปด้วยโอเวอร์โทนที่สะอาดแทนที่จะเป็นเสียงแหวกแนวและคับแคบที่พยายาม “เสียงลึก” ที่บังคับจะสร้างขึ้น หากพยายามของคุณฟังเหมือนตึงเครียดหรือถูกบังคับคุณกำลังทำงานจากลำคอมากกว่าอก
การออกเสียงที่มีเจตนาและความเร็ว
Erwin พูดด้วยการควบคุมที่มีสติสำหรับทุกคำในฉากบทสนทนา การออกเสียงของเขาชัดเจน — พยัญชนะสะอาดและออกเสียงอย่างเต็มที่ไม่ถูกกลืน ความเร็วของเขามีเจตนา: ช้ากว่าพูดโดยธรรมชาติในช่วงเวลาที่มีกลยุทธ์โดยมีการเน้นน้ำหนักบทเพลงที่ชัดเจนในคำนามสำคัญและคำสั่ง
รูปแบบการออกเสียงนี้เป็นหนึ่งในด้านที่ยากที่สุดในการจับภาพเพราะมันต้องการวินัยการแสดงที่มีสติไม่ใช่แค่การประมวลผลเสียง ซอฟต์แวร์สามารถเปลี่ยนระดับเสียงของคุณได้; ไม่สามารถใส่การหยุดชั่วยนิวัก millisecond ก่อน “มนุษยชาติ” หรือการลดลงของปริมาณเสียงที่ Ono ใช้อย่างมีผลต่อจุดสูงสุดของการเรียกหา-cry ของ Erwin
ช่วงแรงดล Rally Cry
ลำดับที่กำหนดเสียง — billed ชาร์จในฤดู 3 ตอน 17 — สาธิตช่วงแรงดลที่พิเศษ Erwin เริ่มต้นที่ forte ที่ควบคุมได้สร้างการวิวฒนาอย่างระมัดระวังผ่าน crescendo ที่บีบอัดจังหวะของประโยคแล้วปล่อยออกเป็น forte เต็มเสียงบน “เราให้หัวใจของเรา!” โดยที่เสียงเปิดขึ้นและขยายออกมากกว่าการโก่งตัว
นี่คือตรงกันข้ามกับการกรีดร้อง ปริมาณเสียงเพิ่มขึ้นในขณะที่ความตึงเครียดลดลง — อกเปิดการส่งออกขยายตัวเสียงเต็มไปด้วยมากกว่าบางกว่า การบีบอัดหรือการจำกัดใด ๆ ในห่วงโซ่การประมวลผลของคุณต้องการการโจมตีที่รวดเร็ว / ปล่อยตัวช้าเพื่อรักษาการขยายแรงดลนี้มากกว่าการทำให้ราบเรียบ
การตั้งค่า DSP สำหรับเอฟเฟกต์เสียง Erwin
การประมวลผล DSP เพียงอย่างเดียวจะพาคุณเข้าสู่อาณาเขต Erwin อย่างรวดเร็วโดยไม่ต้องการการฝึกอบรมโมเดล การตั้งค่าเหล่านี้ทำงานในตัวแปลงเสียง real-time Windows ที่รองรับการเปลี่ยนระดับเสียง EQ และการบีบอัด
เปลี่ยนระดับเสียง
| ประเภทเสียงพูดเริ่มต้น | Semitone เป้าหมาย |
|---|---|
| Tenor (ชายทั่วไป) | −3 ถึง −4 semitone |
| Baritone (ชายทั่วไป) | −1 ถึง −2 semitone |
| Bass (ธรรมชาติ) | 0 ถึง −1 semitone |
| Soprano หญิง | −9 ถึง −11 semitone |
| Mezzo หญิง | −7 ถึง −9 semitone |
ใช้อัลกอริธึมการเปลี่ยนระดับเสียงที่มีคุณภาพสูง — โหมดการรักษาไว้ของ formant ให้ผลลัพธ์ที่เป็นธรรมชาติมากขึ้นกว่าการสลับพื้นฐานของเสียงซึ่งสร้างสิ่งประดิษฐ์ chipmunk-reversal ในการเปลี่ยนขนาดใหญ่
การกำหนดเป้าหมาย Formant
เปิดใช้งานการเน้นของ formant อกหรือค่าตั้งค่า “male voice” ก่อนหากซอฟต์แวร์ของคุณเสนอ เป้าหมายคือการลดลงเล็กน้อยของ formant แรก (F1) และการลดลงต่ำกว่าของ formant ที่สอง (F2) ซึ่งจะทำให้ส่วนสะท้อนเสียง thickens และเพิ่ม “อกหนัก” ลักษณะเฉพาะให้เสียง
หากคุณมี EQ ผลบัญญัติพารามิเตอร์ที่มีให้ใช้ให้ใช้กำลังผลักดัน +2 ถึง +3 dB ที่ประมาณ 150–250 Hz (ส่วนอก) การตัด −1 dB เบา ๆ ที่ประมาณ 3–4 kHz (ลดความหยาบคาย) และการม้วนความถี่สูงเบา ๆ ข้างบน 10 kHz ซึ่งรักษาเสียงให้อบอุ่นและมีอำนาจมากกว่าหยาบหรือสว่าง
การบีบอัด
เสียง Erwin มีช่วงแรงดลแคบในพูดสงบ — อำนาจหมายถึงการควบคุม ใช้เครื่องบีบอัดที่มี:
- อัตราส่วน: 3:1 ถึง 4:1
- โจมตี: 5–10 ms (เร็วพอที่จะจับแต่งหน้าโดยไม่ฆ่า transients)
- ปล่อย: 100–200 ms (ช้าพอที่จะรักษาการขยายแรงดลบนวลี)
- เกณฑ์: ตั้งค่าเพื่อให้การลดลงของการรับปะสิทธิ์ทำให้เพดาน ทำให้พูดปกติส่วนใหญ่ไม่ได้รับการประมวลผล
- ค่าติดหนึ่ง: +1 ถึง +2 dB หลังการบีบอัดเพื่อบูรณะการแสดงตน
หลีกเลี่ยงการบีบอัดมากเกินไป เสียง Erwin ใช้ช่วงแรงดลของมันเพื่อกำหนดผล เสียงที่บีบอัดมากจะสูญเสียความหลากหลายเชิงกลยุทธ์ที่ทำให้ตัวละครรู้สึกว่าคำนวณมากกว่าหุ่นยนต์
ตัวเลือก: Presence Boost
กำลังดันเบา ๆ ที่ 1–2 kHz เพิ่ม “การส่งออก” — คุณภาพของเสียงที่แบกเสียงใหญ่ชนคนมากมายทั้งบริเวณ ผู้บัญชาการทหาร และผู้พูดที่ได้รับการฝึกอบรมทั้งหมดพัฒนาสิ่งนี้ผ่านการวางตำแหน่งคำพูด; ชั้นเบา ๆ +1.5 dB ที่ 1 kHz ประมาณเป็นอิเล็กทรอนิกส์
บทเรียนการฝึกอบรมทางกายภาพ
DSP ปิดช่องว่าง แต่ไม่สามารถแทนที่คุณภาพของเสียงที่มาจากเทคนิคที่เหมาะสม บทเรียนเหล่านี้โดยตรงพัฒนาคำพูดสะท้อนเสียงกรงหัวใจการควบคุมการหายใจและการออกเสียงที่กำหนดสไตล์การแสดง Erwin
หายใจลงกรงหัวใจ
ปริมาณ Erwin มาจากการสนับสนุนการหายใจไม่ใช่ความตึงเครียดลำคอ นอนลงบนหลังของคุณวางมือหนึ่งบนอกและมือหนึ่งบนท้อง หายใจเข้าช้า ๆ ผลักมือทั้งสองขึ้น สิ่งนี้เปิดใช้งานรูปแบบการหายใจที่ได้รับการสนับสนุนจากกว่างหนาม ฝึกพูดคำพูดที่ยืดหลวก (“AH,” “OH”) ในขณะที่รักษาความรู้สึกของร่างกายต่ำนี้ เป้าหมายคือการรู้สึกการสั่นไหวในกระดูกอกของคุณมากกว่าลำคอของคุณ
ระยะเวลาการบิน: 10 นาทีต่อวันนานสองสัปดาห์เพื่อสร้างรูปแบบหน่วยความจำการผ่อนคลาย
บทเรียนการยืด Vowel
นำสายการแสดงสัญลักษณ์ Erwin — “ถ้าคุณไว้ใจฉันตามตัวฉัน!” — และฝึกฝนกับความเร็วครึ่งหนึ่งปล่อยเวลาแต่ละคำที่ยืดเสียงสำหรับเวลาธรรมชาติสองเท่า สิ่งนี้บังคับให้ระบบรถไฟของคุณเข้าไปในตำแหน่งเปิดและเต็มไปด้วยแทนที่จะเป็นการลดลงของคำพูดการพูดสำหรับพูดพูด หลังจากรุ่นช้ากลับรู้สึกสะดวกให้กลับไปที่ความเร็วปกติ เปิดมักจะนำไปสู่
การส่งออก Sustain
ยืนหันหน้าไปยังผนังที่ระยะห้ามิเตอร์ พูดบรรยาย Erwin ที่ระดับปริมาณเสียงสนทนา — ไม่ดัง — ด้วยความตั้งใจในการทำให้เสียงไปถึงผนังอย่างชัดเจน สิ่งนี้พัฒนาตำแหน่งคำพูดสะท้อนเสียงที่ทำให้เสียงแบกไม่จำเป็นต้องร้องไห้ค่อย ๆ เพิ่มขึ้นเป็นสิบมิเตอร์ การบิน สร้างคำพูดเด้นกลับหน้าคุณภาพมากกว่าความตึงเครียดของการกรีดร้อง
บทเรียน Phrase Architecture
Erwin สร้างแรงดันผ่านการทำซ้ำและการซ้อนกันของจังหวะ ระบุรูปแบบเชิงโครงสร้างในสุนทรพจน์ของการจับเขา: คำให้การ → เข้มข้น → ปล่อย ฝึกฝนการแสดงวลีสามประโยคใด ๆ โดยใช้สถาปัตยกรรมนี้โดยมีความเร็วที่ชัดเจนในจังหวะสุดท้ายก่อนปล่อย สิ่งนี้สร้างสัญชาตญาณการแสดงที่ซอฟต์แวร์ไม่สามารถแทรก
เวิร์กโฟลว์การจำลองเสียง AI
สำหรับความพึงพอใจสูงสุด Erwin ประทับเสียง การจำลองเสียง AI จะจับ timbre เฉพาะรูปแบบคำพูดสะท้อนเสียงและการวัด microarticulations ที่เพียงการเปลี่ยนระดับเสียงไม่สามารถจำลองได้
การเตรียมการเสียงที่มาที่มา
รวบรวม 15–30 นาทีของบทสนทนา Erwin ที่สะอาด ข้อกำหนดวิกฤตคือความแยกทราคเพลงอพยพ OST ไหลเข้าไปในบันทึกฉากจำนวนมากและการฝึกอบรมบนเสียงที่ปนเปื้อนทำให้คุณภาพโมเดลเสื่อมสภาพอย่างเห็นได้ชัด
สำหรับเสียง Daisuke Ono ภาษาญี่ปุ่นบันทึกบทละครแบบแยกหรือรอบเทคเสียงสะอาดจากรุ่น Blu-ray ให้แหล่งที่มาสะอาดที่สุด สำหรับเสียง J. Michael Tatum ภาษาอังกฤษบันทึกการดับเสียงแบบแยกโดยไม่มีเสียงเสียง Japaneseให้ความแยกที่ดีที่สุด พื้นที่เก็บเสียงชุมชนมักมีเวอร์ชันก่อนแยก
แบ่งเสียงออกเป็นคลิปที่ครอบคลุมช่วงอารมณ์ Erwin: บทสนทนาเชิงกลยุทธ์เงียบอำนาจคำสั่ง modulate และเข้มข้นการเรียกหา-cry ยอด โมเดลที่ฝึกฝนเพียงเสียงแต่งตัวจะมีปัญหาในการจำลองแรงดลเรียกซ้ำโดยไม่บิดเบือน
Preprocessing
ก่อนการฝึกอบรม:
- Trim ความเงียบที่ขอบเขตคลิป (ปล่อยเวลาการหายใจตามธรรมชาติ 0.2–0.5 s)
- ทำให้ปกติ−18 LUFS integrated loudness
- ตัวกรองผ่านสูงที่ 80 Hz เพื่อลบเสียงกึ่งหึ่งในห้อง
- ตรวจสอบการรั่วไหลของเพลงที่เหลือโดยใช้การวิเคราะห์สเปกตรัมและทิ้งคลิปที่ปนเปื้อน
การฝึกอบรมโมเดลและการนำเข้า
ฝึกอบรมโมเดลผ่านเครื่องมือการแปลงเสียง AI ที่รองรับการนำเข้าโมเดลแบบกำหนดเอง การทำงานของการฝึกอบรมปกติที่ 50.000–200.000 ขั้นตอนขึ้นอยู่กับปริมาณข้อมูล; 15–20 นาทีของเสียงสะอาดโดยทั่วไปจะบรรลุคุณภาพที่ใช้งานได้ที่ 50.000–80.000 ขั้นตอนและคุณภาพยอดเยี่ยมใกล้ 150.000 ขั้นตอน
หลังจากการฝึกแล้วให้ส่งออกโมเดลในรูปแบบดั้งเดิมของเครื่องมือ VoxBooster บน Windows รองรับการนำเข้าโมเดลเสียง AI โดยตรง — วางไฟล์โมเดลลงใน Models ภายในรายการข้อมูล VoxBooster เริ่มต้นแอปพลิเคชันใหม่และจะปรากฏในรายการแบบดรอปดาวน์ของเสียง ไม่มีสภาพแวดล้อม Python ไม่มีการตั้งค่าด้วยตัวเอง ไม่มีตัวควบคุมเคอร์เนล ขนาดเวลาแฝงต่ำกว่า 300ms บน GPU KLASS GTX 1060 ค่อนข้างเร็วพอสำหรับการสนทนา Discord สดเสียบ
การรวม DSP และการแปลง AI
สำหรับผลลัพธ์ที่ดีที่สุดให้ใช้การตั้งค่าระดับเสียงและ EQ DSP ที่อธิบายไว้ข้างต้นเป็นการประมวลผลก่อนลำดับการแปลง AI ของเสียง สิ่งนี้จะทำให้เสียงเข้าสู่การป้อนข้อมูลของคุณเข้าใกล้ช่วง Erwin ลดระยะการแปลงที่โมเดลจะต้องสะพานข้ามและปรับปรุง naturalness ของการส่งออก ประตูเสียง 8–10 dB ก่อนขั้นตอนการแปลงจะลดการรั่วไหลของเสียง Ambient ที่อาจเปลี่ยนโมเดล AI เป็น timbre bizzare
ตั้งค่าสำหรับ Discord และ OBS
การตั้งค่า Discord
- ติดตั้ง VoxBooster และตั้งค่าการตั้งค่า Erwin ของคุณ (chuỗi DSP หรือโมเดล AI โหลดและเลือก)
- เปิด Discord → การตั้งค่า → เสียงและวิดีโอ
- ภายใต้อุปกรณ์อินพุตให้เลือก “VoxBooster Virtual Microphone”
- ปิดการใช้งานการปรับปรุงเสียงแบบสร้างในแบบและการยกเลิกการสะท้อนแสง — ขั้นตอนวิธีเหล่านี้ขัดแย้งกับการแปลงเสียง real-time และนำเสนอสิ่งประดิษฐ์ระยะที่ลด output
- ตั้งค่าความไว อินพุตเป็นอุปกรณ์ควบคุมด้วยตนเองมากกว่าอัตโนมัติโดยมีเกณฑ์ตั้งค่าภายใต้ระดับเสียงพูดที่ Erwin คาดการณ์ไว้
- ทดสอบในเซิร์ฟเวอร์ส่วนตัวหรือเบิ้ล Test Bot ของ Discord ก่อนใช้ในการโทร
การตั้งค่า OBS
- ใน OBS ให้เพิ่มแหล่งที่มาของ Capture ของอินพุตเสียง
- เลือก “VoxBooster Virtual Microphone” เป็นอุปกรณ์
- ในแถบผสมเสียงให้ใช้ตัวกรองประตูเสียง (เกณฑ์ปิด: −50 dB เกณฑ์เปิด: −40 dB) เพื่อป้องกันการรั่วไหลในช่วงความเงียบ
- ใช้ตัวกรองคำพูดเล็ก ๆ หรือจำลองห้องหากคุณต้องการคุณภาพ “คำสั่งที่สะท้อนแสง” จากฉากขึ้นเล็ก Erwin — pre-delay สั้น (15–20 ms) และขนาดห้องขนาดเล็กทำงานโดยไม่ทำให้เสียง muddied
- ตรวจสอบผ่านหูฟังในระหว่างการทดสอบลำดับเพื่อยืนยันการส่งออก matchs ความตั้งใจของคุณก่อน go live
การเปรียบเทียบ: สไตล์การแสดง Dub ญี่ปุ่นและ vs English
| ลักษณะเฉพาะ | Daisuke Ono (JP) | J. Michael Tatum (EN) |
|---|---|---|
| ช่วงพื้นฐาน | ~100–120 Hz | ~105–125 Hz |
| คุณภาพ Vowel | ปิดมากขึ้นถูกต้อง | เต็มไปด้วยมากขึ้นกลม |
| ความคมชัดของ consonant | Crisper เพิ่มเติมทางการทหาร | นุ่มสดใจเล็ก ๆ น้อย ๆ |
| สีสาย Emotional | รถถัง Authority | Gravitas Warmer |
| ประวัติ Cry Rallye | หนักออกไป | ขยายและพล่อยขึ้น |
| ความเร็ว | เล็กน้อยเร็วขึ้น | Deliberate เล็กน้อยขึ้น |
| DSP Pitch Offset | −3 ถึง −4 semitone (hầu hết nam) | −2 ถึง −3 semitone (hầu hết nam) |
ไม่มีใครดีกว่า — พวกเขาคือการตีความการแสดงที่แตกต่างกันของตัวละครเดียวกัน เวอร์ชัน Dub ภาษาอังกฤษมักเข้าถึงได้มากขึ้นสำหรับชุมชน Discord และการส่งออกเว็บ Phương; รุ่นญี่ปุ่นมีขอบทางการทหารที่แข็งกว่าที่ชุมชน cosplay และ competitive อาจจะชอบ
การใช้เสียง Erwin สำหรับการส่งออกและ Roleplay
นอกเหนือจากการสร้างสรรค์ทางเทคนิคเสียง Erwin ทำงานในบริบท comity หลายประการ:
ประตูการ Roleplay Survey Corps: อำนาจคำสั่งโครงสร้างของการแสดงของ Erwin เข้ากันได้อย่างสมบูรณ์กับเซิร์ฟเวอร์ Discord ที่ใช้ชุด AOT แนว เสียงจะสร้างความเห็นของตัวละครทันทีโดยไม่จำเป็นต้องมีบริบทภาพ
เนื้อหาปฏิกิริยา Streaming: วลี “เราให้หัวใจของเรา!” เป็นหนึ่งในช่วงเวลาที่ยินดีเป็นปฏิกิริยาในประวัติศาสตร์ anime ธัญชาติของปฏิกิริยาที่ประมวลผลของการขึ้นเหนือฉากดั้งเดิมสร้างค่ามันเฉพาะเพื่อผู้ชมที่คุ้นเคยกับ AOT
เซสชั่น Tabletop RPG: สไตล์ Erwin pads องค์ประกอบเรียบร้อยถึงอาจารย์ทหาร ลูกแม่ที่หลากหลายหรือ NPC ใด ๆ ที่ต้องการ gravitas ที่มีอำนาจ ความเร็วที่วัดได้และการออกเสียงตั้งใจอ่านเป็น “ตัวละครที่สำคัญ” ทั่วการตั้งค่าใด ๆ
เหตุการณ์ Cosplay และฟิบตา: ประทับเสียงสด จะเป็นหนึ่งในชิ้นส่วนที่ยากจำของ cosplay ตัวละครใด ๆ ด้วยการตั้งค่า DSP คา Dial ผ่าน VoxBooster คุณสามารถเรียกใช้ประทับในแล็ปท็อป Windows โดยไม่มีการแบกฮาร์ดแวร์เสียงแต่งเฉพาะ
จริยธรรมและทำให้อนุมัติเนื้อหา
Voicepressions ของตัวละคร anime ไม่ได้โครง ผู้ใช้ไม่ใช่ตำแหน่งการใช้ประแบบประเพณีที่ถือวางในชุมชนกันกระเหม่ง สำหรับการใช้งานแบบโต้ตอบสด — Discord การสนทนาเซสชั่นเล่นเกมเหตุการณ์ conv — มีการศึกษาจริยธรรมตัวตนชัดเจนเมื่อบริบทเรียกร้อง (จะไม่มีเบิ้ลแฝงตัวตนผ้อง)
สำหรับเนื้อหาเข้ากันได้ หลีกเลี่ยงการสร้างเนื้อหาที่อาจเข้าใจผิดสำหรับวัสดุทั่วไปหรือที่แสดงรูปตัวละครให้หลากหลายข้อความกับแหล่ง workจ้ างใด ๆ ในบริบทที่อาจหลอกล่วง nonguise ผู้ชม
สำหรับการใช้งานเชิงพาณิชย์ใด ๆ ของเนื้อหาเสียงที่ mirror ตรงประสิทธิสรุปการแสดงที่แท้จริงของ Daisuke Ono หรือ J. Michael Tatum โปรดปรึกษากรอบไมล์ป้าย ตัวละครและสิทธิ์ aktor เสียงที่เกี่ยวข้องก่อนเผยแพร่ พื้นที่กันหญิงสร้างสรรค์คณะใหญ่; ขอบเขตประเพณีเรียกร้องความเอื้อเฟื้อยิ่งขึ้น
คำถามที่พบบ่อย
อะไรที่ทำให้เสียง Erwin Smith แตกต่างโดยอักษรศาสตร์เสียงจากตัวละครอื่น ๆ ของ AOT?
เสียง Erwin นั่งอยู่ในช่วง baritone ต่ำที่ควบคุมได้ดีกับการออกแบบเสียงที่ยอดเยี่ยมและการเสียงที่น้อยที่สุด ต่างจากความตึงเครียด hoarse ของ Levi หรือความเข้มข้นดิบของ Eren Erwin ส่งออกอำนาจที่มีเจตนา — แต่ละคำจะลงจอด ด้วยน้ำหนักเชิงกลยุทธ์ และส่วนสะท้อนมาจากตำแหน่งอกไม่ใช่ความตึงเครียดลำคอ
ฉันต้องเปลี่ยน semitone กี่อันเพื่อให้ฟังเหมือน Erwin?
เสียงชายส่วนใหญ่ต้องการการเปลี่ยน −2 ถึง −4 semitone เพื่อเข้าถึงช่วงพื้นฐานของ Erwin การแสดง Daisuke Ono ภาษาญี่ปุ่นนั่งอยู่ที่ประมาณ 100–120 Hz พื้นฐาน; การดับเสียง J. Michael Tatum ภาษาอังกฤษจะอบอุ่นกว่าเล็กน้อยที่ 105–125 Hz ผู้หญิงเปลี่ยนสำหรับ Erwin มักต้องการ −8 ถึง −10 semitone รวมกับการกำหนดเป้าหมาย formant อก
ฉันสามารถใช้ mod เสียง Erwin Smith บน Discord ได้หรือไม่โดยไม่มีตัวควบคุมเคอร์เนล?
ใช่. VoxBooster กำหนดเส้นทางเสียงผ่าน API Windows WASAPI ทั้งหมดโดยไม่มีตัวควบคุมเคอร์เนลดังนั้นจึงปลอดภัยเคียงข้างระบบป้องกันการโกง บน Discord เพียงแค่เลือก VoxBooster Virtual Microphone เป็นอุปกรณ์อินพุตในการตั้งค่าเสียงและวิดีโอ
ฉันต้องมีเสียงที่บริสุทธิ์มากแค่ไหนเพื่อฝึกอบรมโมเดลเสียง AI ของ Erwin?
โมเดลที่ใช้งานได้ต้องใช้เวลา 15–30 นาทีของการพูดที่แยกออกมาแบบสะอาด — ไม่มีดนตรีพื้นหลังหรือเสียงประสิทธิ์ AOT OST tracks ไหลเข้าไปในการบันทึกฉากจำนวนมากดังนั้นการหาแหล่งที่มาบันทึกการดับเสียงแยกหรือการขูดเสียงสะอาดจึงเป็นสิ่งสำคัญ ข้อมูลเพิ่มเติมที่ครอบคลุมทั้งความเงียบที่วัดได้ของ Erwin และความเข้มข้นของการเรียกหารวบ-cry ที่เต็มไปด้วยจะสร้างโมเดลที่หลากหลายมากขึ้น
เป็นการจำลองเสียง Erwin ตามกฎหมายสำหรับการสตรีมส่วนบุคคลและการใช้งาน Discord?
สำหรับการใช้งานแฟนที่ไม่ใช่เชิงพาณิชย์ — การสตรีม การเล่นเกม Roleplay Discord — การบังคับใช้กับเสียงลักษณะเต็มตัวของตัวละครเกมประมาณน้อย สำหรับโครงการเชิงพาณิชย์เนื้อหาที่ทำให้เกิดรายได้หรือผลิตภัณฑ์ใด ๆ โปรดตรวจสอบแนวทางใบอนุญาตตัวละครของ Wit Studio MAPPA และ Funimation/Crunchyroll ก่อนเผยแพร่
ความแตกต่างระหว่างบทเรียนการฝึกอบรมและการตั้งค่า DSP สำหรับการสร้างสรรค์เสียงคืออะไร?
การตั้งค่า DSP (ปรับการเปลี่ยนระดับเสียง การบีบอัด EQ) ใช้การแปลงอิเล็กทรอนิกส์กับเสียงของคุณในซอฟต์แวร์ บทเรียนการฝึกอบรมคือการออกกำลังกายเสียงที่เปลี่ยนรูปคืนมูลของคุณ — การหายใจในกรงหัวใจ การยืดนอตการบิน การบิน ฝึกฝนอย่างเต็มเหนี่ยว ผลลัพธ์ที่ดีที่สุดรวมทั้งสองอย่าง: การบิน นำเสียงธรรมชาติของคุณเข้าใกล้เป้าหมายมากขึ้น DSP ครอบคลุมช่องว่างที่เหลือ
การจำลองเสียง AI ต้องการการใช้ GPU สำหรับการใช้งาน real-time หรือไม่?
สำหรับการแปลงเสียง AI real-time GPU (GTX 1060 หรือดีกว่า) จะลดขนาดเวลาแฝงลงไปจำนวน 300ms ซึ่งเป็นเกณฑ์ปฏิบัติสำหรับการใช้งานสด การอนุมานเฉพาะ CPU เพิ่ม 500–800 ms ทำให้มันจึงใช้ได้เฉพาะกับวินัยการพูดแบบดัน-เพื่อคุย การสร้างข้อความเป็นเสียงสำหรับคลิปและ voiceovers ทำงานได้ดีบน CPU เพราะการเล่นสดไม่จำเป็น
การรักษา Erwin เสียง Smith เป็นจำนวนมากเป็นทักษะการแสดงเช่นการบิน เทคนิค การตั้งค่า DSP ช่วยให้คุณเป็นพื้นฐานความถี่; ตัดสินใจการบิน ให้คุณเทคนิคทางกายภาพที่ทำให้ประทับรู้สึกอยู่อาศัยแทนการประมวลผล สำหรับตัวละครเสียงเต็มโปร — microexpressions ในการแสดง Ono ส่วนสะท้อนเสียงเฉพาะในประสิทธิการแสดง Tatum — การจำลองเสียง AI ปิดที่มีขนาดสุดท้ายไม่มีพารามิเตอร์ใด ๆ สามารถ cách เลียนแบบ หากคุณต้องการไปนอกเหนือประทับตัวละครเดี่ยวโปรดตรวจสอบคำแนะนำ anime voice changer ครอบคลุมเวิร์กโฟลว์กว้างขึ้นและเสม epic narrator voice ใช้วิธีอาการเกี่ยวข้องสำหรับการสร้าง การแพร่กระจายหัวใจและชอบอำนาจ ตัวจากเศษศิษย์
เริ่มการทดลองใช้ฟรีของ VoxBooster — Windows 10/11 ไม่มีตัวควบคุมเคอร์เนล AI cloning ต่ำกว่า 300ms WASAPI ฉาย ฟรีสำหรับ 3 วันจากนั้นจาก $6.99/เดือน