แรงบันดาลใจของเสียงแคท แบลนเชตต์สำหรับนักเล่าเรื่อง

เสียงบางครั้งไม่ได้เล่าเรื่องอย่างเดียว — พวกเขากลายเป็นเรื่อง ในหมู่นักแสดงร่วมสมัย Cate Blanchett ได้สร้างความเป็นมาบนหลักการนั้น จากเปิดตัวที่มีการพูดราคาของ The Lord of the Rings ไปจนถึงความงามเย็นชาของ Hela ใน Thor: Ragnarok และอำนาจของสตรีควีน เอลิซาเบธ ที่ 1 การส่งมอบเสียงของเธออยู่ในคุณภาพที่ผู้ฝึกเสียงและนักออกแบบเสียงศึกษามาหลายปี: มันจับความสนใจไม่เคยยกระดับเสียงของมัน

โพสต์นี้เบิกระบายอากาศของโครงสร้าง phân tích เสียงของสไตล์นั้น — สิ่งที่ทำให้มันทำงานโดยใช้ศัพท์ทำไม DSP และเครื่องมือเสียง AI สามารถประมาณคุณลักษณะของมันและวิธีที่ audiobook พยาธิศาสตร์นักเล่าเรื่อง podcaster sci-fi และเสียงแสดงตัวละครสามารถสร้างเสียงนักเล่าเรื่องหญิงที่ทรงพลังโดยได้รับแรงบันดาลใจจากต้นแบบนั้น

สำคัญ: คำแนะนำนี้เกี่ยวกับแรงบันดาลใจของสไตล์และเทคนิคการออกเสียง มันไม่เคยเกี่ยวกับการปลอมแปลงหรือการโคลนเสียงของบุคคลใดหรือเสียงจริงโดยไม่ได้รับความยินยอม วัตถุประสงค์คือการเข้าใจ อะไรทำให้อำนาจได้ยิน — จากนั้นใช้ความเข้าใจนั้นกับเสียงของคุณเอง พร้อมกับตัวละครของคุณเอง

TL;DR

Prototype ต้นแบบ Blanchett: Pronunciation ใกล้ RP Mezzo-soprano มีช่วงขององค์ประกอบการทำให้หยุดชั่วคราวอันยิ่งใหญ่ เจ้าหน้าที่ที่เต็มไปด้วยเลือดไปข้างหน้า
วิธี DSP: การเปลี่ยนระดับเสียงขั้นต่ำการยกสูตร (+1 ถึง +2 st) ความอิ่มตัวของฮาร์มอนิกการบีบอัดควบคุมการสั่นพ้องห้องใหญ่เฉียบเฉียง
วิธี AI cloning: บันทึก 15–20 นาทีของเสียงนักเล่าเรื่องเดิมสอนแบบจำลองที่กำหนดเองใน VoxBooster ใช้เวลาจริงด้วยความล่าช้าต่ำกว่า 300 ms
ไม่จำเป็นต้องมีไดรเวอร์เคอร์เนล; microphone เสมือน WASAPI ทำงานในซอฟต์แวร์การบันทึก Windows ใด ๆ
เหมาะสำหรับ audiobook พยาธิศาสตร์เรื่องราว sci-fi เสียงสารคดีผู้นำ dungeons RPG

โปรไฟล์เสียงของนักเล่าเรื่องหญิงอำนาจ

ก่อนที่จะแตะซอฟต์แวร์ใด ๆ มันช่วยในการเข้าใจศัพท์เทศศ Monologue การเปิดของ Galadriel ใน The Fellowship of the Ring เป็นหนึ่งในเนื้อเรื่องภาพยนตร์ที่วิเคราะห์มากที่สุดเพียงเพราะทุกทางเลือกของการออกเสียง คือ การรับน้ำหนักแรงงาน

1. Pronunciation ที่อยู่ติดกับ RP ที่มีความแม่นยำ Austrálian

Blanchett พูดคุยกับตำแหน่งสระที่อยู่ติดกับภาษาอังกฤษ Received Pronunciation — สระด้านหลังที่ชัดเจนและปัดทำให้เสียงการปล่อยตัวพยัญชนะที่แม่นยำไม่มีการสิ้นสุดที่ทำให้ตกไป สำเนียงอัสเตรเลียดั้งเดิมของเธอให้ตำแหน่งลิ้นไปข้างหน้าเล็กน้อยกับสระด้านหน้าซึ่งให้ความสดใสโดยไม่มีเสริม ในงานเสียงสิ่งนี้แสดงออกมาเป็นระยะเวลาสระที่สะอาดและพยัญชนะหยุดที่ดุร้าย

2. ฟิลระดับ Mezzo-soprano

เสียงพูดของเธออยู่ในช่วง mezzo-soprano โดยทั่วไปคือ 170–280 Hz ในการส่งมอบอย่างเป็นทางการบ่อยครั้งที่ลดลงถึง 140–160 Hz สำหรับน้ำหนักการทำให้น่าจดจำ นี่ไม่ใช่ contralto ต่ำของผู้ประกาศข่าวที่ได้รับการฝึกอบรมหรือความสดใสของ soprano ของเสียง Sweet Spot สร้างเนื้อหา: สามารถปล่อยสำหรับตัวอักษรและเพิ่มขึ้นสำหรับเรื่องเร่งด่วนโดยไม่ทำลายรีจิสเตอร์

3. Cadence ประกาศอย่างสาธารณชน

พูดประกาศเป็นรูปแบบมากกว่าการสนทนา ประโยคมีแอร์ช: การเปิดพยางค์ที่สร้างกลางที่ยั่งยืนและปิดที่มีจุดประสงค์ ไม่มี inflections ขึ้นที่ปลายประโยค (ไม่มี uptalk) และการเดินของเรื่องจะวัด — ประมาณ 120–145 คำต่อนาทีในการเล่าเรื่องอย่างเป็นทางการเทียบกับ 160–180 ในการพูดอย่างไม่เป็นทางการ

4. หยุดชั่วคราวอันยิ่งใหญ่

บางทีคุณลักษณะที่ลอกเลียนแบบมากที่สุดเพียงอันเดียว การหยุดชั่วคราวในการพูดสาธารณชนบ่งชี้เลี่ยง; ในบทบาทอย่างเป็นทางการของ Blanchett หยุดชั่วคราวบ่งบอกอำนาจ ผู้ฟังรอคำถัดไป ในการสร้างเนื้อหาเสียงคำศัพท์นี้คือความเงียบโดยจงใจของ 0,4–1,2 วินาทีที่ขอบคุณสมควร ซึ่งสามารถเพิ่มความแข็งแกร่งในบ่อสอบด้วยหางพลาสตร็อบที่ละเอียด

5. เจ้าหน้าที่ห้องน้ำไปข้างหน้า

เสียงสัมผัสว่ามันมาจากด้านหน้าของอกและโครงการไปข้างหน้ามากกว่าลงมา เพื่อให้ได้เสียงนี้จะตรงกับการเพิ่มที่เบากลางผม 150–250 Hz (resonance ของอก) ควบคู่ไปกับความเป็นจริงของมัน-บนที่ 2,5–4 kHz (การฉายข้างหน้า) ผลลัพธ์คือเสียงที่รู้สึกว่าอยู่ในห้องมากกว่าบันทึกจากระยะไกล

วิธี DSP: การออกแบบเสียงของคุณไปยังต้นแบบ

ถ้าเสียงตามธรรมชาติของคุณอยู่ในเรนจ์ mezzo หรือ contralto แล้ว DSP เพียงอย่างเดียวสามารถนำคุณไปได้โดยส่วนใหญ่ นี่คือเนื้อหาการผลิตที่กำหนดเป้าหมายคุณลักษณะของนักเล่าเรื่องที่ได้รับแรงบันดาลใจจาก Blanchett

EQ: การปรากฏตัวไปข้างหน้าโดยไม่มีความขุ่นมัว

แถบ	ความถี่	การปรับตัว	เหตุผล
ตัวกรอง High-pass	90 Hz	ม้วนลงใต้	โน้ตอกที่สะอาดโดยไม่ราคาพื้น
การปรากฏตัวของลำตัวท้อง	180–220 Hz	+2 ถึง +3 dB	ความสมดุลของการชี้ว่างไปข้างหน้า
Cleanทำให้สุขใจ mid	350–500 Hz	−1 ถึง −2 dB	ลดลง boxy-ness
สายการปรากฏ	2,5–4 kHz	+2 ถึง +3 dB	ความสปष่ชัดตัวพยัญชนะการฉาย
อากาศ	10–12 kHz	+1 dB	ออกเสียงความเคลื่อนที่โปรด

หลีกเลี่ยงการเพิ่ม low-end ที่ยินง่าย ต้นแบบนักเล่าเรื่อง Blanchett ไม่ใช่เสียง bass มืด — มันเป็นเสียง midrange ที่มีการฉายไปข้างหน้า

การเปลี่ยนแปลงระดับเสียงและสูตร

ถ้าระดับเสียงตามธรรมชาติของคุณนั่งเหนือผ้า mezzo การเปลี่ยนแปลงลงด้วย 1–2 semitone ผสมกับการยกสูตร +1 semitone สามารถประมาณรีจิสเตอร์ เก็บการปรับตัวเหล่านี้เล็ก: ปัจจัยเฉพาะของสไตล์เสียงนี้มาจากการส่งมอบที่ควบคุมไม่ใช่การแปลง pitch อย่างหาญกล้า

การเปลี่ยนแปลงสูตรทำให้สำคัญมากขึ้นกว่าการเปลี่ยนแปลงระดับเสียงที่นี่ ยกสูตรเล็กน้อยในขณะที่ยืดหรือล้มละลายระดับเสียงอย่างค่อนข้างอ่อนสร้างความประทับใจของเสียงที่ผูกพันและได้ยินเพลง — คุณภาพที่ทำให้เนื้อเรื่องภาพยนตร์เต็มไปด้วยอำนาจ

บีบอัด: ลักษณะที่ยืนยัน

พารามิเตอร์	การตั้งค่า
อัตราส่วน	3:1 ถึง 4:1
โจมตี	15–25 ms (ช้าพอที่จะให้สัญญาณผ่าน)
ปล่อย	100–150 ms
เกณฑ์	−18 ถึง −22 dBFS
ช่วยเหลือได้รับ	+3 ถึง +5 dB

การโจมตีที่ช้ารักษาการเคลื่อนตัวตามธรรมชาติของตัวพยัญชนะ — คลิก ของ K หรือ T — ซึ่งเก็บการออกเสียงแข็งแรง อัตราส่วนปานกลางหลีกเลี่ยงสิ่งประดิษฐ์การโจมตีของบีบอัดหนักในขณะยังคงควบคุมวงไดนามิก

Reverb: ตัวอักษรโดยไม่มีแซก

reverb ห้องขนาดใหญ่ที่มีการสลายตัว 1,8–2,4 วินาทีและ pre-delay 18–25 ms ที่จะจัดวางเสียงในอวกาศโลงเมืองที่จินตนาการถึงโดยไม่ทำให้คำแต่ละศัพท์เป็นเทพบุคคล เก็บผสม wet ที่ 10–15% สำหรับ livestream ที่แท้จริง 18–22% สำหรับการผลิต audiobook ที่มีผู้ฟังอยู่ที่ระยะการตรวจสอบการควบคุม

นอกจากนี้ยังจำเป็นอย่างยิ่ง ตำแหน่ง reverb หลังจาก ตัวบีบในช่องสัญญาณ reverb ก่อนการบีบอัดทำให้หางพลาสตร์บึมด้วยตัวบีบซึ่งทำลายสัมผัสของพื้นที่ธรรมชาติ

เทคนิคเสียง: องค์ประกอบที่ DSP ไม่สามารถเปลี่ยน

ซอฟต์แวร์เสริมสร้างสิ่งที่มีอยู่แล้ว ฐานของเสียงนักเล่าเรื่องอำนาจคือเทคนิคการส่งมอบไม่ใช่การประมวลผลสัญญาณ

ค่อยๆช้ากว่าการโพลของเป็นธรรมชาติ

คนส่วนใหญ่ที่พยายามนำเสียงนักเล่าเรื่องอย่างเป็นทางการไปใช้ประเมินค่าที่ต่ำเกินไปเท่าไหร่สิ่งที่เป็นต้องให้พวกเขาเป็น บันทึกตัวเองที่ไม่ว่าจะเป็นเหมือน 50% ของความเร็วพูดปกติ เล่นกลับ คุณจะได้ยินเสียงที่ใกล้เคียงกับ 70% ของปกติ — ยังคงเร็วเกินไปสำหรับการส่งมอบประกาศที่แท้จริง

Target 120–130 คำต่อนาทีสำหรับการเล่าเรื่องพยาธิศาสตร์ แอพ metronome อย่างง่ายที่ตั้งเป็น 60 BPM โดยมี syllable ที่เน้นหนึ่งต่อจังหวะคือเครื่องมือปรับเทียบที่มีผลใช้บังคับ

ความยาวและตำแหน่งสระ

Pronunciation ที่อยู่ติดกับ RP มีสระบริสุทธ์ที่ยาวนาน คำ “ancient” ไม่ต้องเร่ง — ทั้งสองประพันเดือนมีพื้นที่ ปฏิบัติการรักษาความเสียงสระหนึ่งครึ่งจังหวะนานกว่า instin suggest นี้สร้างการโพล sent ที่มีจุดประสงค์และพิจารณาให้ผู้ฟังเชื่อมโยงกับอำนาจ

หยุดชั่วคราวเป็นเครื่องหมายวรรคตอน

ก่อนประกาศที่มีนัยสำคัญเป็นพิเศษหนึ่งที่นำหลักการหยุดชั่วคราวครึ่งวินาทีเป็นครั้งชั่วคราวที่เหมือนกัน มั่นคงสิ่งนี้ระบุ bounding เส้นที่สำคัญกับการออกแบบว่างเปล่าสีขาวในนาทีวิธี: มันให้หูที่ยืนหยัดก่อนและหลังข้อมูลที่สำคัญ

ความแม่นยำตัวพยัญชนะ

ไม่ประเมินไม่มีตัวพยัญชนะ เสียง T สุดท้ายเสียง D สุดท้ายความแม่นยำ glottal ของ K ที่เหมาะสม — เหล่านี้เป็นลายนิ้วมือของ Pronunciation ที่อยู่ติดกับ RP ตัวพยัญชนะของแต่ละบุคคลเป็นวิธีที่เร็วที่สุดในการแยกต้นแบบและจำนวน post-processing ที่ฉันแก้ไขพวกเขาอย่างน่าเชื่อถือ

Cloning AI Giọng Giọng Âm Thanh Quy Trình cho Nhân Vật Diễn Thuyết

ถ้าคุณต้องการสร้าง persona นักเล่าเรื่องที่เป็นชื่อสกุล Reus มากกว่าการปรับตัวการส่งมอบเซสชั่นต่อเซสชั่น cloning AI VoxBooster Piper ข้อเสนออันเหมาะสม

ขั้นตอนที่ 1: บันทึกเนื้อหาเอกสารอ้างอิง

บันทึก 15–25 นาทีการอ่านเสียงสูงเสียงค่อยๆช้าสไตล์ที่อยู่ในเป้าหมาย ใช้ข้อความเล่าเรื่อง — ไม่ใช่การพูดในการสนทนา Fanza อวสรรค์ วรรณกรรมคลาสสิก หรือสคริปต์สารคดีทำงานได้ดีเพราะพวกเขา scammer จังหวะที่มีจุดประสงค์ ข้อกำหนดตรรกะ:

Ruang yên tĩnh ไม่มีสัญญาณรบกวน HVAC ไม่มีพื้นผิว reverberant
ระยะ microphone ที่สม่ำเสมอ (15–20 cm เล็กน้อยอพยพ-axis เพื่อลดการระบายแสง)
ไม่มี backgroundmusic หรือเอฟเฟกต์ — แบบจำลองการฝึกอบรมต้องอสัญญาณแห้ง
รวมความยาวประโยคที่แตกต่างกันคำถามและท้าเพื่อประมาณตำแหน่งคำวำรหนึ่ง dải

ขั้นตอนที่ 2: ฝึกแบบจำลอง

นำเข้าไฟล์เสียงไปยังส่วน Voice Clone ของ VoxBooster การผลิตทั่วไปทำให้ 8–15 นาที CPU midrange ผลผลิตคือแบบจำลองแปลงเสียงที่จำลองการป้อนข้อมูล microphone real-time ของคุณเป็นตัวละครเสียงที่ฝึกอบรม

ขั้นตอนที่ 3: Layering DSP บน

Conversion AI ตัวหนึ่ง Timbre และการจับคู่ pendaftaran ตั้งค่าตัวเหรือจับยูปถูกส่งข้างต้น บนสัญญาณที่แปลงให้เพิ่มพื้นที่และคุณสมบัติลักษณะไดนามิกที่เสร็จสิ้นตัวละคร diễn xuất VoxBooster repoints การผลิตผ่าน WASAPI vì chuỗi đầy đủ hoạt động ด้วย latency ที่ต่ำกว่า 300 ms — nhanh đủ cho livestream trực tiếp và các phiên tương tác

ขั้นตอนที่ 4: บันทึกและเส้นทาง

บันทึกตัวอักษรเป็นการตั้งชื่อ preset เส้นทาง VoxBooster microphone เสมือนในแอปพลิเคชันการบันทึกหรือ livestream Windows ใด ๆ: OBS Studio Audacity Adobe Audition Reaper Zoom หรือ Discord ไม่จำเป็นต้องมีการกำหนดค่าเพิ่มเติมด้านข้างของแอปพลิเคชันผู้รับ

ใช้กรณี: ที่ไหนสไตล์เสียงนี้ส่ง

Narration Audiobook เทพนิยาย

ชาตรป้องกัน Galadriel ต้นแบบเพราะเหตุผล: มันจะตั้งค่าโลกโทนพัดและหลักสูตรในเวลาต่ำกว่าสองนาที audiobook เทพนิยายต้องการผู้บรรยายที่สามารถดำเนิน

การพัฒนาแบบ multidimensional ของสิ่งที่เด็ก

เพื่อ multidimensional พยาธิศาสตร์

คำถามที่ถูกถาม

คุณลักษณะเสียงใดที่กำหนดสไตล์นักเล่าเรื่องของแคท แบลนเชตต์ และเครื่องเปลี่ยนเสียงสามารถทำซ้ำได้อย่างไร?

การส่งมอบของเธอรวมการออกเสียงที่อยู่ติดกับภาษาอังกฤษ phạm vi mezzo-soprano ที่ควบคุมได้ การเชิญให้ประกาศด้วยการหยุดชั่วคราวที่ยิ่งใหญ่ และการสั่นพ้องไปข้างหน้าที่ฉายสำนัก เครื่องเปลี่ยนเสียงสามารถประมาณได้โดยการเพิ่มสูตรเล็กน้อย เพิ่มความอิ่มตัวของเพาะปลูกแสงและการใช้รอบเบิกระบายอากาศเล็กน้อยเพื่อลอกเลียนแบบการฉายไปข้างหน้า

เครื่องเปลี่ยนเสียงสำหรับสตรีสามารถเปลี่ยนระดับเสียงของฉันไปยังช่วง Cate Blanchett โดยไม่ฟังเหมือนเทียมเหรอ?

ใช่ถ้าคุณเก็บเสียงและสูตรเปลี่ยนเล็ก — ไม่เคยเกิน ±2 semitone รีจิสเตอร์ Blanchett นั่งในวงเนื้อหา mezzo-soprano ตามธรรมชาติ (ประมาณ 170–340 Hz พื้นฐาน) การเพิ่มสูตรปานกลางรวมกับความอิ่มตัวของฮาร์มอนิกให้ความลึกโดยไม่เรียกใช้หุบเขาแปลกประหลาดจากการเปลี่ยนระดับเสียงหนัก

อะไรทำให้เสียงฟังดู “มหาราชา” และ DSP สามารถทำซ้ำคุณภาพนั้นได้หรือไม่?

การส่งมอบอันยิ่งใหญ่อาศัยช่วงไดนามิกที่ควบคุมได้ transitients การโจมตีช้า การออกเสียงตัวพยัญชนะที่แม่นยำ และการหยุดชั่วคราวโดยจงใจ DSP สามารถเสริมสร้างนี้ด้วยการบีบอัดแสง (อัตราส่วนสูงที่เกณฑ์ต่ำ) การเพิ่มการมีอยู่ที่อ่อนที่ 3–4 kHz สำหรับความชัดเจนของตัวพยัญชนะ และ reverb phòng ใหญ่ที่ละเอียดอ่อนเพื่อสร้างตัวอักษรโดยไม่ทำให้สัญญาณขุ่นมัว

สไตล์เสียงนี้มีประโยชน์นอกเหนือจาก audiobook พยาธิศาสตร์หรือไม่?

แน่นอน นักเล่าเรื่อง podcast sci-fi ศิลปินเล่าเรื่องสารคดี ผู้ผลิตการเรียนรู้อีเลิร์นนิงขององค์กร และผู้นำ dungeons RPG โต้ต่างสิ่งที่ได้รับประโยชน์จากสไตล์นักเล่าเรื่องหญิงอำนาจ รูปแบบของเสียง — ตำแหน่งสระไปข้างหน้าการเดินทางโดยจงใจ การสั่นพ้องที่ควบคุมได้ — ถ่ายทำทั่ว genres

VoxBooster ใช้งานได้สำหรับการบันทึกเสียงพูดหรือเพียง livestream เท่านั้นหรือ?

VoxBooster จัดเส้นทางเสียงผ่าน WASAPI ไปยังอุปกรณ์ microphone ที่เสมือนซึ่งถูกเลือกโดยแอปพลิเคชัน Windows ใด ๆ — รวมถึง DAW เช่น Audacity, Adobe Audition, และ Reaper คุณสามารถบันทึกเสียงที่ประมวลผลโดยตรงลงในซอฟต์แวร์ที่ต้องการของคุณสำหรับการผลิต audiobook การบันทึก podcast หรืองานเสียงพูด

ใช้เวลาเท่าใดในการฝึกแบบจำลองเสียง AI ที่กำหนดเองสำหรับตัวละครนักเล่าเรื่อง?

ด้วยโมดูล AI cloning ของ VoxBooster 10–20 นาทีของเสียงอ้างอิงที่สะอาดและแห้ง อพยพสำหรับการสร้างเสียงนักเล่าเรื่องที่มีประโยชน์ การบันทึกเซสชั่น 30 นาทีที่มีตำแหน่ง microphone ที่สม่ำเสมอไม่มีเสียงรบกวนพื้นหลังและโครงสร้างประโยคที่หลากหลายทำให้แบบจำลองคุณภาพสูงพร้อมสำหรับการใช้เวลาจริง

วิธีนี้จำเป็นต้องมีไดรเวอร์เคอร์เนลหรือการติดตั้งระดับระบบหรือไม่?

ไม่ VoxBooster ทำงานทั้งหมดผ่าน Windows Audio Session API (WASAPI) โดยไม่มีไดรเวอร์เคอร์เนล การติดตั้งคือระดับแอปพลิเคชันมาตรฐานและไม่มีการโต้ตอบกับซอฟต์แวร์ anti-cheat หรือต้องการการอนุมัติใหม่ของผู้ดูแลระบบหลังจากการตั้งค่าเริ่มต้น