แรงบันดาลใจของเสียงแคท แบลนเชตต์สำหรับนักเล่าเรื่อง
เสียงบางครั้งไม่ได้เล่าเรื่องอย่างเดียว — พวกเขากลายเป็นเรื่อง ในหมู่นักแสดงร่วมสมัย Cate Blanchett ได้สร้างความเป็นมาบนหลักการนั้น จากเปิดตัวที่มีการพูดราคาของ The Lord of the Rings ไปจนถึงความงามเย็นชาของ Hela ใน Thor: Ragnarok และอำนาจของสตรีควีน เอลิซาเบธ ที่ 1 การส่งมอบเสียงของเธออยู่ในคุณภาพที่ผู้ฝึกเสียงและนักออกแบบเสียงศึกษามาหลายปี: มันจับความสนใจไม่เคยยกระดับเสียงของมัน
โพสต์นี้เบิกระบายอากาศของโครงสร้าง phân tích เสียงของสไตล์นั้น — สิ่งที่ทำให้มันทำงานโดยใช้ศัพท์ทำไม DSP และเครื่องมือเสียง AI สามารถประมาณคุณลักษณะของมันและวิธีที่ audiobook พยาธิศาสตร์นักเล่าเรื่อง podcaster sci-fi และเสียงแสดงตัวละครสามารถสร้างเสียงนักเล่าเรื่องหญิงที่ทรงพลังโดยได้รับแรงบันดาลใจจากต้นแบบนั้น
สำคัญ: คำแนะนำนี้เกี่ยวกับแรงบันดาลใจของสไตล์และเทคนิคการออกเสียง มันไม่เคยเกี่ยวกับการปลอมแปลงหรือการโคลนเสียงของบุคคลใดหรือเสียงจริงโดยไม่ได้รับความยินยอม วัตถุประสงค์คือการเข้าใจ อะไรทำให้อำนาจได้ยิน — จากนั้นใช้ความเข้าใจนั้นกับเสียงของคุณเอง พร้อมกับตัวละครของคุณเอง
TL;DR
- Prototype ต้นแบบ Blanchett: Pronunciation ใกล้ RP Mezzo-soprano มีช่วงขององค์ประกอบการทำให้หยุดชั่วคราวอันยิ่งใหญ่ เจ้าหน้าที่ที่เต็มไปด้วยเลือดไปข้างหน้า
- วิธี DSP: การเปลี่ยนระดับเสียงขั้นต่ำการยกสูตร (+1 ถึง +2 st) ความอิ่มตัวของฮาร์มอนิกการบีบอัดควบคุมการสั่นพ้องห้องใหญ่เฉียบเฉียง
- วิธี AI cloning: บันทึก 15–20 นาทีของเสียงนักเล่าเรื่องเดิมสอนแบบจำลองที่กำหนดเองใน VoxBooster ใช้เวลาจริงด้วยความล่าช้าต่ำกว่า 300 ms
- ไม่จำเป็นต้องมีไดรเวอร์เคอร์เนล; microphone เสมือน WASAPI ทำงานในซอฟต์แวร์การบันทึก Windows ใด ๆ
- เหมาะสำหรับ audiobook พยาธิศาสตร์เรื่องราว sci-fi เสียงสารคดีผู้นำ dungeons RPG
โปรไฟล์เสียงของนักเล่าเรื่องหญิงอำนาจ
ก่อนที่จะแตะซอฟต์แวร์ใด ๆ มันช่วยในการเข้าใจศัพท์เทศศ Monologue การเปิดของ Galadriel ใน The Fellowship of the Ring เป็นหนึ่งในเนื้อเรื่องภาพยนตร์ที่วิเคราะห์มากที่สุดเพียงเพราะทุกทางเลือกของการออกเสียง คือ การรับน้ำหนักแรงงาน
1. Pronunciation ที่อยู่ติดกับ RP ที่มีความแม่นยำ Austrálian
Blanchett พูดคุยกับตำแหน่งสระที่อยู่ติดกับภาษาอังกฤษ Received Pronunciation — สระด้านหลังที่ชัดเจนและปัดทำให้เสียงการปล่อยตัวพยัญชนะที่แม่นยำไม่มีการสิ้นสุดที่ทำให้ตกไป สำเนียงอัสเตรเลียดั้งเดิมของเธอให้ตำแหน่งลิ้นไปข้างหน้าเล็กน้อยกับสระด้านหน้าซึ่งให้ความสดใสโดยไม่มีเสริม ในงานเสียงสิ่งนี้แสดงออกมาเป็นระยะเวลาสระที่สะอาดและพยัญชนะหยุดที่ดุร้าย
2. ฟิลระดับ Mezzo-soprano
เสียงพูดของเธออยู่ในช่วง mezzo-soprano โดยทั่วไปคือ 170–280 Hz ในการส่งมอบอย่างเป็นทางการบ่อยครั้งที่ลดลงถึง 140–160 Hz สำหรับน้ำหนักการทำให้น่าจดจำ นี่ไม่ใช่ contralto ต่ำของผู้ประกาศข่าวที่ได้รับการฝึกอบรมหรือความสดใสของ soprano ของเสียง Sweet Spot สร้างเนื้อหา: สามารถปล่อยสำหรับตัวอักษรและเพิ่มขึ้นสำหรับเรื่องเร่งด่วนโดยไม่ทำลายรีจิสเตอร์
3. Cadence ประกาศอย่างสาธารณชน
พูดประกาศเป็นรูปแบบมากกว่าการสนทนา ประโยคมีแอร์ช: การเปิดพยางค์ที่สร้างกลางที่ยั่งยืนและปิดที่มีจุดประสงค์ ไม่มี inflections ขึ้นที่ปลายประโยค (ไม่มี uptalk) และการเดินของเรื่องจะวัด — ประมาณ 120–145 คำต่อนาทีในการเล่าเรื่องอย่างเป็นทางการเทียบกับ 160–180 ในการพูดอย่างไม่เป็นทางการ
4. หยุดชั่วคราวอันยิ่งใหญ่
บางทีคุณลักษณะที่ลอกเลียนแบบมากที่สุดเพียงอันเดียว การหยุดชั่วคราวในการพูดสาธารณชนบ่งชี้เลี่ยง; ในบทบาทอย่างเป็นทางการของ Blanchett หยุดชั่วคราวบ่งบอกอำนาจ ผู้ฟังรอคำถัดไป ในการสร้างเนื้อหาเสียงคำศัพท์นี้คือความเงียบโดยจงใจของ 0,4–1,2 วินาทีที่ขอบคุณสมควร ซึ่งสามารถเพิ่มความแข็งแกร่งในบ่อสอบด้วยหางพลาสตร็อบที่ละเอียด
5. เจ้าหน้าที่ห้องน้ำไปข้างหน้า
เสียงสัมผัสว่ามันมาจากด้านหน้าของอกและโครงการไปข้างหน้ามากกว่าลงมา เพื่อให้ได้เสียงนี้จะตรงกับการเพิ่มที่เบากลางผม 150–250 Hz (resonance ของอก) ควบคู่ไปกับความเป็นจริงของมัน-บนที่ 2,5–4 kHz (การฉายข้างหน้า) ผลลัพธ์คือเสียงที่รู้สึกว่าอยู่ในห้องมากกว่าบันทึกจากระยะไกล
วิธี DSP: การออกแบบเสียงของคุณไปยังต้นแบบ
ถ้าเสียงตามธรรมชาติของคุณอยู่ในเรนจ์ mezzo หรือ contralto แล้ว DSP เพียงอย่างเดียวสามารถนำคุณไปได้โดยส่วนใหญ่ นี่คือเนื้อหาการผลิตที่กำหนดเป้าหมายคุณลักษณะของนักเล่าเรื่องที่ได้รับแรงบันดาลใจจาก Blanchett
EQ: การปรากฏตัวไปข้างหน้าโดยไม่มีความขุ่นมัว
| แถบ | ความถี่ | การปรับตัว | เหตุผล |
|---|---|---|---|
| ตัวกรอง High-pass | 90 Hz | ม้วนลงใต้ | โน้ตอกที่สะอาดโดยไม่ราคาพื้น |
| การปรากฏตัวของลำตัวท้อง | 180–220 Hz | +2 ถึง +3 dB | ความสมดุลของการชี้ว่างไปข้างหน้า |
| Cleanทำให้สุขใจ mid | 350–500 Hz | −1 ถึง −2 dB | ลดลง boxy-ness |
| สายการปรากฏ | 2,5–4 kHz | +2 ถึง +3 dB | ความสปष่ชัดตัวพยัญชนะการฉาย |
| อากาศ | 10–12 kHz | +1 dB | ออกเสียงความเคลื่อนที่โปรด |
หลีกเลี่ยงการเพิ่ม low-end ที่ยินง่าย ต้นแบบนักเล่าเรื่อง Blanchett ไม่ใช่เสียง bass มืด — มันเป็นเสียง midrange ที่มีการฉายไปข้างหน้า
การเปลี่ยนแปลงระดับเสียงและสูตร
ถ้าระดับเสียงตามธรรมชาติของคุณนั่งเหนือผ้า mezzo การเปลี่ยนแปลงลงด้วย 1–2 semitone ผสมกับการยกสูตร +1 semitone สามารถประมาณรีจิสเตอร์ เก็บการปรับตัวเหล่านี้เล็ก: ปัจจัยเฉพาะของสไตล์เสียงนี้มาจากการส่งมอบที่ควบคุมไม่ใช่การแปลง pitch อย่างหาญกล้า
การเปลี่ยนแปลงสูตรทำให้สำคัญมากขึ้นกว่าการเปลี่ยนแปลงระดับเสียงที่นี่ ยกสูตรเล็กน้อยในขณะที่ยืดหรือล้มละลายระดับเสียงอย่างค่อนข้างอ่อนสร้างความประทับใจของเสียงที่ผูกพันและได้ยินเพลง — คุณภาพที่ทำให้เนื้อเรื่องภาพยนตร์เต็มไปด้วยอำนาจ
บีบอัด: ลักษณะที่ยืนยัน
| พารามิเตอร์ | การตั้งค่า |
|---|---|
| อัตราส่วน | 3:1 ถึง 4:1 |
| โจมตี | 15–25 ms (ช้าพอที่จะให้สัญญาณผ่าน) |
| ปล่อย | 100–150 ms |
| เกณฑ์ | −18 ถึง −22 dBFS |
| ช่วยเหลือได้รับ | +3 ถึง +5 dB |
การโจมตีที่ช้ารักษาการเคลื่อนตัวตามธรรมชาติของตัวพยัญชนะ — คลิก ของ K หรือ T — ซึ่งเก็บการออกเสียงแข็งแรง อัตราส่วนปานกลางหลีกเลี่ยงสิ่งประดิษฐ์การโจมตีของบีบอัดหนักในขณะยังคงควบคุมวงไดนามิก
Reverb: ตัวอักษรโดยไม่มีแซก
reverb ห้องขนาดใหญ่ที่มีการสลายตัว 1,8–2,4 วินาทีและ pre-delay 18–25 ms ที่จะจัดวางเสียงในอวกาศโลงเมืองที่จินตนาการถึงโดยไม่ทำให้คำแต่ละศัพท์เป็นเทพบุคคล เก็บผสม wet ที่ 10–15% สำหรับ livestream ที่แท้จริง 18–22% สำหรับการผลิต audiobook ที่มีผู้ฟังอยู่ที่ระยะการตรวจสอบการควบคุม
นอกจากนี้ยังจำเป็นอย่างยิ่ง ตำแหน่ง reverb หลังจาก ตัวบีบในช่องสัญญาณ reverb ก่อนการบีบอัดทำให้หางพลาสตร์บึมด้วยตัวบีบซึ่งทำลายสัมผัสของพื้นที่ธรรมชาติ
เทคนิคเสียง: องค์ประกอบที่ DSP ไม่สามารถเปลี่ยน
ซอฟต์แวร์เสริมสร้างสิ่งที่มีอยู่แล้ว ฐานของเสียงนักเล่าเรื่องอำนาจคือเทคนิคการส่งมอบไม่ใช่การประมวลผลสัญญาณ
ค่อยๆช้ากว่าการโพลของเป็นธรรมชาติ
คนส่วนใหญ่ที่พยายามนำเสียงนักเล่าเรื่องอย่างเป็นทางการไปใช้ประเมินค่าที่ต่ำเกินไปเท่าไหร่สิ่งที่เป็นต้องให้พวกเขาเป็น บันทึกตัวเองที่ไม่ว่าจะเป็นเหมือน 50% ของความเร็วพูดปกติ เล่นกลับ คุณจะได้ยินเสียงที่ใกล้เคียงกับ 70% ของปกติ — ยังคงเร็วเกินไปสำหรับการส่งมอบประกาศที่แท้จริง
Target 120–130 คำต่อนาทีสำหรับการเล่าเรื่องพยาธิศาสตร์ แอพ metronome อย่างง่ายที่ตั้งเป็น 60 BPM โดยมี syllable ที่เน้นหนึ่งต่อจังหวะคือเครื่องมือปรับเทียบที่มีผลใช้บังคับ
ความยาวและตำแหน่งสระ
Pronunciation ที่อยู่ติดกับ RP มีสระบริสุทธ์ที่ยาวนาน คำ “ancient” ไม่ต้องเร่ง — ทั้งสองประพันเดือนมีพื้นที่ ปฏิบัติการรักษาความเสียงสระหนึ่งครึ่งจังหวะนานกว่า instin suggest นี้สร้างการโพล sent ที่มีจุดประสงค์และพิจารณาให้ผู้ฟังเชื่อมโยงกับอำนาจ
หยุดชั่วคราวเป็นเครื่องหมายวรรคตอน
ก่อนประกาศที่มีนัยสำคัญเป็นพิเศษหนึ่งที่นำหลักการหยุดชั่วคราวครึ่งวินาทีเป็นครั้งชั่วคราวที่เหมือนกัน มั่นคงสิ่งนี้ระบุ bounding เส้นที่สำคัญกับการออกแบบว่างเปล่าสีขาวในนาทีวิธี: มันให้หูที่ยืนหยัดก่อนและหลังข้อมูลที่สำคัญ
ความแม่นยำตัวพยัญชนะ
ไม่ประเมินไม่มีตัวพยัญชนะ เสียง T สุดท้ายเสียง D สุดท้ายความแม่นยำ glottal ของ K ที่เหมาะสม — เหล่านี้เป็นลายนิ้วมือของ Pronunciation ที่อยู่ติดกับ RP ตัวพยัญชนะของแต่ละบุคคลเป็นวิธีที่เร็วที่สุดในการแยกต้นแบบและจำนวน post-processing ที่ฉันแก้ไขพวกเขาอย่างน่าเชื่อถือ
Cloning AI Giọng Giọng Âm Thanh Quy Trình cho Nhân Vật Diễn Thuyết
ถ้าคุณต้องการสร้าง persona นักเล่าเรื่องที่เป็นชื่อสกุล Reus มากกว่าการปรับตัวการส่งมอบเซสชั่นต่อเซสชั่น cloning AI VoxBooster Piper ข้อเสนออันเหมาะสม
ขั้นตอนที่ 1: บันทึกเนื้อหาเอกสารอ้างอิง
บันทึก 15–25 นาทีการอ่านเสียงสูงเสียงค่อยๆช้าสไตล์ที่อยู่ในเป้าหมาย ใช้ข้อความเล่าเรื่อง — ไม่ใช่การพูดในการสนทนา Fanza อวสรรค์ วรรณกรรมคลาสสิก หรือสคริปต์สารคดีทำงานได้ดีเพราะพวกเขา scammer จังหวะที่มีจุดประสงค์ ข้อกำหนดตรรกะ:
- Ruang yên tĩnh ไม่มีสัญญาณรบกวน HVAC ไม่มีพื้นผิว reverberant
- ระยะ microphone ที่สม่ำเสมอ (15–20 cm เล็กน้อยอพยพ-axis เพื่อลดการระบายแสง)
- ไม่มี backgroundmusic หรือเอฟเฟกต์ — แบบจำลองการฝึกอบรมต้องอสัญญาณแห้ง
- รวมความยาวประโยคที่แตกต่างกันคำถามและท้าเพื่อประมาณตำแหน่งคำวำรหนึ่ง dải
ขั้นตอนที่ 2: ฝึกแบบจำลอง
นำเข้าไฟล์เสียงไปยังส่วน Voice Clone ของ VoxBooster การผลิตทั่วไปทำให้ 8–15 นาที CPU midrange ผลผลิตคือแบบจำลองแปลงเสียงที่จำลองการป้อนข้อมูล microphone real-time ของคุณเป็นตัวละครเสียงที่ฝึกอบรม
ขั้นตอนที่ 3: Layering DSP บน
Conversion AI ตัวหนึ่ง Timbre และการจับคู่ pendaftaran ตั้งค่าตัวเหรือจับยูปถูกส่งข้างต้น บนสัญญาณที่แปลงให้เพิ่มพื้นที่และคุณสมบัติลักษณะไดนามิกที่เสร็จสิ้นตัวละคร diễn xuất VoxBooster repoints การผลิตผ่าน WASAPI vì chuỗi đầy đủ hoạt động ด้วย latency ที่ต่ำกว่า 300 ms — nhanh đủ cho livestream trực tiếp và các phiên tương tác
ขั้นตอนที่ 4: บันทึกและเส้นทาง
บันทึกตัวอักษรเป็นการตั้งชื่อ preset เส้นทาง VoxBooster microphone เสมือนในแอปพลิเคชันการบันทึกหรือ livestream Windows ใด ๆ: OBS Studio Audacity Adobe Audition Reaper Zoom หรือ Discord ไม่จำเป็นต้องมีการกำหนดค่าเพิ่มเติมด้านข้างของแอปพลิเคชันผู้รับ
ใช้กรณี: ที่ไหนสไตล์เสียงนี้ส่ง
Narration Audiobook เทพนิยาย
ชาตรป้องกัน Galadriel ต้นแบบเพราะเหตุผล: มันจะตั้งค่าโลกโทนพัดและหลักสูตรในเวลาต่ำกว่าสองนาที audiobook เทพนิยายต้องการผู้บรรยายที่สามารถดำเนิน
การพัฒนาแบบ multidimensional ของสิ่งที่เด็ก
เพื่อ multidimensional พยาธิศาสตร์
คำถามที่ถูกถาม
คุณลักษณะเสียงใดที่กำหนดสไตล์นักเล่าเรื่องของแคท แบลนเชตต์ และเครื่องเปลี่ยนเสียงสามารถทำซ้ำได้อย่างไร?
การส่งมอบของเธอรวมการออกเสียงที่อยู่ติดกับภาษาอังกฤษ phạm vi mezzo-soprano ที่ควบคุมได้ การเชิญให้ประกาศด้วยการหยุดชั่วคราวที่ยิ่งใหญ่ และการสั่นพ้องไปข้างหน้าที่ฉายสำนัก เครื่องเปลี่ยนเสียงสามารถประมาณได้โดยการเพิ่มสูตรเล็กน้อย เพิ่มความอิ่มตัวของเพาะปลูกแสงและการใช้รอบเบิกระบายอากาศเล็กน้อยเพื่อลอกเลียนแบบการฉายไปข้างหน้า
เครื่องเปลี่ยนเสียงสำหรับสตรีสามารถเปลี่ยนระดับเสียงของฉันไปยังช่วง Cate Blanchett โดยไม่ฟังเหมือนเทียมเหรอ?
ใช่ถ้าคุณเก็บเสียงและสูตรเปลี่ยนเล็ก — ไม่เคยเกิน ±2 semitone รีจิสเตอร์ Blanchett นั่งในวงเนื้อหา mezzo-soprano ตามธรรมชาติ (ประมาณ 170–340 Hz พื้นฐาน) การเพิ่มสูตรปานกลางรวมกับความอิ่มตัวของฮาร์มอนิกให้ความลึกโดยไม่เรียกใช้หุบเขาแปลกประหลาดจากการเปลี่ยนระดับเสียงหนัก
อะไรทำให้เสียงฟังดู “มหาราชา” และ DSP สามารถทำซ้ำคุณภาพนั้นได้หรือไม่?
การส่งมอบอันยิ่งใหญ่อาศัยช่วงไดนามิกที่ควบคุมได้ transitients การโจมตีช้า การออกเสียงตัวพยัญชนะที่แม่นยำ และการหยุดชั่วคราวโดยจงใจ DSP สามารถเสริมสร้างนี้ด้วยการบีบอัดแสง (อัตราส่วนสูงที่เกณฑ์ต่ำ) การเพิ่มการมีอยู่ที่อ่อนที่ 3–4 kHz สำหรับความชัดเจนของตัวพยัญชนะ และ reverb phòng ใหญ่ที่ละเอียดอ่อนเพื่อสร้างตัวอักษรโดยไม่ทำให้สัญญาณขุ่นมัว
สไตล์เสียงนี้มีประโยชน์นอกเหนือจาก audiobook พยาธิศาสตร์หรือไม่?
แน่นอน นักเล่าเรื่อง podcast sci-fi ศิลปินเล่าเรื่องสารคดี ผู้ผลิตการเรียนรู้อีเลิร์นนิงขององค์กร และผู้นำ dungeons RPG โต้ต่างสิ่งที่ได้รับประโยชน์จากสไตล์นักเล่าเรื่องหญิงอำนาจ รูปแบบของเสียง — ตำแหน่งสระไปข้างหน้าการเดินทางโดยจงใจ การสั่นพ้องที่ควบคุมได้ — ถ่ายทำทั่ว genres
VoxBooster ใช้งานได้สำหรับการบันทึกเสียงพูดหรือเพียง livestream เท่านั้นหรือ?
VoxBooster จัดเส้นทางเสียงผ่าน WASAPI ไปยังอุปกรณ์ microphone ที่เสมือนซึ่งถูกเลือกโดยแอปพลิเคชัน Windows ใด ๆ — รวมถึง DAW เช่น Audacity, Adobe Audition, และ Reaper คุณสามารถบันทึกเสียงที่ประมวลผลโดยตรงลงในซอฟต์แวร์ที่ต้องการของคุณสำหรับการผลิต audiobook การบันทึก podcast หรืองานเสียงพูด
ใช้เวลาเท่าใดในการฝึกแบบจำลองเสียง AI ที่กำหนดเองสำหรับตัวละครนักเล่าเรื่อง?
ด้วยโมดูล AI cloning ของ VoxBooster 10–20 นาทีของเสียงอ้างอิงที่สะอาดและแห้ง อพยพสำหรับการสร้างเสียงนักเล่าเรื่องที่มีประโยชน์ การบันทึกเซสชั่น 30 นาทีที่มีตำแหน่ง microphone ที่สม่ำเสมอไม่มีเสียงรบกวนพื้นหลังและโครงสร้างประโยคที่หลากหลายทำให้แบบจำลองคุณภาพสูงพร้อมสำหรับการใช้เวลาจริง
วิธีนี้จำเป็นต้องมีไดรเวอร์เคอร์เนลหรือการติดตั้งระดับระบบหรือไม่?
ไม่ VoxBooster ทำงานทั้งหมดผ่าน Windows Audio Session API (WASAPI) โดยไม่มีไดรเวอร์เคอร์เนล การติดตั้งคือระดับแอปพลิเคชันมาตรฐานและไม่มีการโต้ตอบกับซอฟต์แวร์ anti-cheat หรือต้องการการอนุมัติใหม่ของผู้ดูแลระบบหลังจากการตั้งค่าเริ่มต้น