Hướng dẫn Bộ lọc giọng nói hoạt hình: Nghe như nhân vật hoạt hình

Cách tạo giọng nói nhân vật phim hoạt hình thời gian thực bằng pitch, formant và preset. Bao gồm từng nguyên mẫu chính, công thức cài đặt và cài đặt phát trực tiếp.

Hướng dẫn Bộ lọc giọng nói hoạt hình: Nghe như nhân vật hoạt hình

Bộ lọc giọng nói hoạt hình cung cấp thứ mà slider pitch đơn không thể làm được ảo tưởng âm thanh toàn bộ của một nhân vật hoàn toàn khác nói qua micrô của bạn thời gian thực. Nếu bạn đã dành thời gian trong máy chủ Discord hoặc trên Twitch, bạn đã nghe ai đó nails tuấn nhân vật phụ nhỏ hoặc kẻ phản diện hoạt hình vang vọng, và bạn có thể tự hỏi làm thế nào họ nhận được từ giọng nói thực tế của họ đến điều đó. Hướng dẫn này hướng dẫn bạn qua bốn nguyên mẫu giọng nói hoạt hình chính, công thức pitch và formant chính xác cho mỗi cái, cách lớp các hiệu ứng nhẹ ở trên mà không phá hủy sự rõ ràng, cách lưu preset và chuyển đổi chúng bằng hotkey, và cách nối mọi thứ lại với nhau để phát trực tiếp hoặc Discord. Cuối cùng bạn sẽ có một hệ thống làm việc cho giọng nói nhân vật hoạt hình thời gian thực, không chỉ là cài đặt lý thuyết.


TL;DR

  • Giọng nói hoạt hình cần cả pitch dịch chuyển formant formant là những gì làm cho chúng nghe như sinh vật khác, không chỉ bản ghi được phát ở tốc độ sai.
  • Bốn nguyên mẫu chính: tuấn tuấn nhân vật phụ nhỏ, kẻ phản diện vang vọng lớn, goofy nhân vật giảm nhẹ mũi, và nhân vật mềm ngọt mỗi cái có công thức cài đặt của riêng nó.
  • Lớp hiệu ứng nhẹ (vibrato, overdrive tinh tế, hợp xướng nhẹ) sau giai đoạn pitch/formant để có tính thực; không xếp chồng chúng.
  • Lưu từng nguyên mẫu dưới dạng preset được đặt tên và liên kết với hotkey để bạn có thể chuyển đổi ký tự trực tiếp trên luồng.
  • VoxBooster xử lý tất cả này dưới độ trễ 10ms mà không cần driver kernel.

Cái gì thực sự làm cho giọng nói nghe “Hoạt hình”?

Trước khi chạm vào một slider duy nhất, sẽ giúp ích nếu hiểu tại sao giọng nói hoạt hình nghe như vậy. Các ký tự hoạt hình thường được thực hiện bởi các diễn viên thoại người phóng đại hai tính chất âm thanh: pitch và kích thước đường dẫn giọng nói. Nhân vật kiểu sóc chipeunk nhỏ có đường dẫn giọng nói nhỏ và nói ở pitch cơ bản cao. Kẻ phản diện khổng lồ có đường dẫn giọng nói lớn, vang vọng và nói thấp. Nhân vật hài kịch mũi có mô hình cộng hưởng bất thường mà nhấn mạnh các đường dẫn mũi. Nhân vật mềm, mềm có xu hướng có chất lượng hít thở thân mật với formant hơi cao hơn giọng nói người lớn trung lập.

Khái niệm chính là sự khác biệt giữa pitch và formant. Pitch là tần số cơ bản tốc độ rung của dây thanh âm. Formant là cấu trúc cộng hưởng của đường dẫn giọng nói mồm, cổ họng và khoang mũi hoạt động như một bộ các bộ lọc hình thành timbre của giọng nói. Khi bạn dịch chuyển pitch mà không dịch chuyển formant, kết quả nghe giống như ai đó phát lại bản ghi quá nhanh. Khi bạn dịch chuyển formant với pitch, giọng nói bắt đầu nghe như một diễn giả khác biệt về mặt vật lý đó chính xác là ảo tưởng hoạt hình.

Phần mềm bộ lọc giọng nói xử lý dịch chuyển formant thông qua một quá trình được gọi pitch-synchronous overlap-add (PSOLA) hoặc xử lý dựa trên vocoder, tùy thuộc vào động cơ. Thuật toán chính xác ít quan trọng hơn liệu công cụ có cung cấp cho bạn sự kiểm soát độc lập trên pitch và formant riêng biệt hay không. Nếu công cụ hiện tại của bạn chỉ có một dial “character voice”, bạn sẽ luôn đoán.


Bốn nguyên mẫu giọng nói hoạt hình cốt lõi

Hoạt hình đã sản xuất hàng trăm giọng nói mang tính biểu tượng, nhưng hầu hết đều rơi vào một trong bốn nguyên mẫu âm thanh. Học bốn điều này và bạn có thể xấp xỉ hầu hết bất kỳ nhân vật hoạt hình nào thời gian thực.

Tuấn tuấn nhân vật phụ nhỏ

Suy nghĩ: sinh vật cao độ nhỏ, bạn đồng hành hài kịch, các ký tự acshow trẻ em sôi nổi. Giọng nói sáng, cộng hưởng nhanh và khẩn cấp. Trên phổ pitch, những ký tự này ngồi 6-12 semitone trên giọng nói người lớn tự nhiên. Quan trọng hơn là formant được dịch chuyển lên đáng kể đường dẫn giọng nói biểu kiến nhỏ, giống như một loài gặm nhấm hoặc một con chim nhỏ.

Công thức cài đặt: Pitch +8 đến +10 semitone, formant +40 đến +50%. Thêm vibrato rất nhẹ (tỷ lệ 5 Hz, độ sâu 10-15%) để bắt chước rung động tự nhiên của giọng nói sinh vật nhỏ. Giữ lợi nhuận vừa phải giọng nói tuấn đã cắt qua hỗn hợp. Tùy chọn: reverb phòng rất ngắn (pre-delay 5ms, decay 0.3s) thêm chất lượng “rỗng trống” hơi phim hoạt hình.

Kẻ phản diện vang vọng lớn

Suy nghĩ: những kẻ phản diện hoạt hình với giọng nói động, những ký tự sinh vật lớn, những con người quyền lực. Giọng nói rộng, cộng hưởng chậm và cố ý. Pitch ngồi 3-6 semitone dưới trung lập, và formant được hạ xuống đáng kể để mô phỏng đường dẫn giọng nói lớn hơn rất nhiều. Kết quả nghe giống như miệng nhân vật có kích thước một phòng nhỏ.

Công thức cài đặt: Pitch -4 đến -6 semitone, formant -20 đến -30%. Thêm overdrive nhẹ hoặc bão hòa (giữ tinh tế 15-25% drive) để đưa vào cạnh gritty mà bán sự đe dọa kẻ phản diện. Vibrato chậm (3-4 Hz, độ sâu 10%) thêm trầm tính. Chiều rộng stereo có thể được mở rộng hơi để có sự hiện diện áp đảo hơn trong tai nghe. Giữ reverb tối thiểu cài đặt tấm vắng ngắn thêm cơ thể mà không mất tấn công chỉ huy.

Goofy nhân vật giảm nhẹ mũi

Suy nghĩ: những nhân vật phụ vụng về, chủ cửa hàng quá nhiệt tình, những ký tự nói quá nhanh. Nguyên mẫu này khó khắc một mình bằng các slider bởi vì chất lượng mũi đến từ cộng hưởng bất thường hơn là chỉ dịch chuyển pitch và formant thống nhất. Giọng nói thường có trung tâm pitch giữa nhưng với cộng hưởng mũi mạnh và giao hàng nhanh, lỏng lẻo.

Công thức cài đặt: Pitch trung lập đến +2 semitone, formant +10 đến +20% với nhấn mạnh nhẹ trên tần số mid (boost EQ hẹp xung quanh 2-3 kHz tăng cường nasality). Thêm hiệu ứng hợp xướng ngắn (tỷ lệ 0.8 Hz, độ sâu 20%, ướt 30%) cung cấp chất lượng hơi không thực tế, được xử lý mà ký tự hoạt hình mũi mang. Một số bộ lọc giọng nói có preset EQ “mũi” hoặc “điện thoại” dành riêng sử dụng đó làm cơ sở bắt đầu, sau đó điều chỉnh pitch trên top.

Nhân vật mềm ngọt

Suy nghĩ: những nhân vật chính lạnh lùng, những ký tự hỗ trợ tốt bụng, peri, những con vật nói lạnh lùng. Nguyên mẫu này ưu tiên ấm áp hơn độ sáng. Pitch được nâng cao sơ bộ (2-4 semitone), formant được dịch chuyển một cách vừa phải (naik +15 đến +25%), nhưng khác biệt chính so với nhân vật phụ tuấn là hít thở và độ mềm. Giọng nói sẽ cảm thấy thân mật và ấm áp, không sắc nét.

Công thức cài đặt: Pitch +2 đến +4 semitone, formant +15 đến +25%. Thêm cắt tần số cao tinh tế trên 8 kHz để làm mềm cạnh. Reverb hoạt động tốt ở đây cài đặt sảnh nhỏ (decay 0.8-1.0s, ướt 20%) thêm chất lượng hơi mơ mộng mà những ký tự này mang. Giữ lợi nhuận thấp và độ rộng động lớn tính thân mật của nhân vật đến từ sự tương phản giữa những khoảnh khắc mềm mịn và hơi ầm ỹ hơn.


Bảng so sánh: Cartoon Voice Archetype Một cái nhìn

Nguyên mẫuPitch ShiftFormant ShiftLớp Hiệu ứngTốt cho
Tuấn tuấn nhân vật phụ nhỏ+8 đến +10 semitone+40 đến +50%Vibrato nhẹ, reverb phòng ngắnSinh vật nhỏ, nhân vật phụ hài kịch, ký tự acshow trẻ em
Kẻ phản diện vang vọng lớn-4 đến -6 semitone-20 đến -30%Overdrive nhẹ, vibrato chậmNhững kẻ phản diện, sinh vật lớn, những con người quyền lực
Goofy nhân vật giảm nhẹ mũi0 đến +2 semitone+10 đến +20%EQ mid-boost, hợp xướng ngắnNhững nhân vật phụ vụng về, ký tự nói nhanh
Nhân vật mềm ngọt+2 đến +4 semitone+15 đến +25%High-cut EQ, reverb sảnh nhỏNhững nhân vật chính lạnh lùng, peri, những vai hỗ trợ tốt bụng

Cách AI Voice Cloning Phù hợp

Bốn nguyên mẫu ở trên làm việc thông qua DSP: xử lý tín hiệu thuần túy mà không có học máy liên quan. Cho hầu hết các trường hợp sử dụng hoạt hình streaming, Discord, roleplay cấp độ xử lý ấy hoàn toàn đủ và chạy trên máy Windows hiện tại với overhead CPU về cơ bản bằng không.

Chuyển đổi giọng nói thần kinh AI sử dụng một cách tiếp cận khác. Thay vì áp dụng các bộ lọc cho giọng nói của bạn, nó truyền lời nói của bạn thông qua một mô hình xây dựng lại nó trong timbre của một giọng nói đích được đào tạo. Mô hình nắm bắt cấu trúc formant, cộng hưởng, breathiness và các mô hình phát âm tinh tế mà các bộ lọc DSP không thể tái tạo. Cho các kiểu ký tự hoạt hình cụ thể nơi bạn muốn nghe giống như loại ký tự cụ thể hơn là “hoạt hình”, nhân bản AI tạo ra các kết quả rõ ràng hơn.

VoxBooster bao gồm cả hai con đường: engine DSP cho hiệu ứng latensi thấp tức thì và lớp chuyển đổi giọng nói AI cho khi bạn cần một giọng nói ký tự cụ thể hơn. Sự khác biệt về độ trễ quan trọng để sử dụng trực tiếp các hiệu ứng DSP chạy dưới 10ms, trong khi chuyển đổi AI thêm một cửa sổ xử lý nhỏ. Cho phát trực tiếp nơi bạn không dựa vào phản hồi tức thì, cả hai con đường hoạt động tốt. Để chơi game nơi bạn cần obrolan thoại cảm thấy tự nhiên và trò chuyện, các cài đặt DSP là lựa chọn đúng.

Chi tiết hơn về công nghệ cơ bản nằm trong bài đăng AI so với so sánh bộ lọc giọng nói pitch-shift, bao gồm khi mỗi cách tiếp cận có ý nghĩa hơn.


Thiết lập Suara Hoạt hình của bạn trong VoxBooster

Dưới đây là từng bước thực tế để có được một giọng nói hoạt hình hoạt động end-to-end trên Windows.

Bước 1: Cài đặt và Mở VoxBooster

Tải xuống VoxBooster từ voxbooster.com/download và chạy trình cài đặt. Dùng thử 3 ngày cung cấp cho bạn quyền truy cập đầy đủ vào tất cả các tính năng, bao gồm chuyển đổi giọng nói AI và tất cả các hiệu ứng DSP. Không có cài đặt driver cần thiết VoxBooster sử dụng WASAPI và đăng ký micrô ảo Windows tiêu chuẩn tự động trong quá trình cài đặt.

Bước 2: Chọn Micrô Vật lý của bạn

Trong phần đầu vào của VoxBooster, chọn micrô thực tế của bạn micrô USB, micrô tai nghe hoặc bất kỳ cái nào bạn nói. Đây là tín hiệu nguồn của bạn. Đầu ra được xử lý sẽ đến từ thiết bị VoxBooster Virtual Microphone, đó là những gì bạn sẽ đặt trong Discord, OBS hoặc trò chơi của bạn.

Bước 3: Điều chỉnh Nguyên mẫu Đầu tiên của bạn

Chọn một trong bốn nguyên mẫu từ bảng ở trên và nhập các cài đặt đó. Bắt đầu với pitch trước tiên, xác minh pitch khoảng đúng, sau đó thêm formant. Sau đó thêm một lớp hiệu ứng (vibrato, overdrive, reverb hoặc hợp xướng không phải tất cả cùng lúc). Kiểm tra bằng cách nói ở tốc độ bình thường vào micrô và nghe đầu ra giám sát. Điều chỉnh cho đến khi bạn hài lòng với nhân vật.

Bước 4: Lưu dưới dạng Preset Được đặt tên

Sau khi bạn có một giọng nói bạn thích, hãy lưu nó dưới dạng preset được đặt tên. Đặt cho nó một tên mô tả “squeaky sidekick,” “booming villain,” v.v. để bạn có thể tìm thấy nó nhanh chóng trong một phiên trực tiếp. Xây dựng thư viện preset của bạn một nguyên mẫu một lúc. Bạn không cần cả bốn cái trước khi bắt đầu; hai preset đủ cho hầu hết các luồng.

Bước 5: Gán Hotkey

Trong cài đặt hotkey của VoxBooster, gán mỗi preset cho phím tắt. Chọn các tổ hợp phím không xung đột với các điều khiển trò chơi hoặc hotkey OBS của bạn. F9/F10/F11/F12 hoạt động tốt cho hầu hết các setup. Luyện tập chuyển đổi giọng nói với hotkey vài lần trước khi bắt đầu những chuyển tiếp tức thì, nhưng bộ nhớ cơ bắp cho các ràng buộc mất vài phút.

Bước 6: Định tuyến tới Discord, OBS hoặc Game của bạn

Trong Discord: Cài đặt → Voice & Video → Input Device → chọn “VoxBooster Virtual Microphone.” Trong OBS: Cài đặt → Audio → Micrô/Auxiliary Input → chọn “VoxBooster Virtual Microphone.” Trong trò chơi của bạn: tìm obrolan thoại hoặc cài đặt đầu vào âm thanh push-to-talk và chọn micrô ảo tương tự. Bạn có thể định tuyến đến cả ba cùng lúc cùng một tín hiệu được xử lý cấp mỗi ứng dụng cùng lúc.


Lớp Hiệu ứng Không mất Sự rõ ràng

Một trong những sai lầm phổ biến nhất với các thiết lập giọng nói hoạt hình là xếp chồng quá nhiều hiệu ứng cùng lúc. Mỗi hiệu ứng bạn thêm giảm sự rõ ràng bằng một số lượng có thể đo lường. Mục tiêu là nghe rõ ràng giống như một nhân vật, không giống như một mớ bòng bong méo mó. Dưới đây là các quy tắc của thumb:

Một lớp hiệu ứng cùng một lúc. Bắt đầu với pitch và formant, có được những cái đó phải, sau đó thêm một hiệu ứng bổ sung. Kiểm tra độ rõ ràng với phần bổ sung duy nhất. Nếu bạn vẫn có thể hiểu rõ bản thân, bạn có thể tùy ý thêm một cái khác nhưng đó thường là tối đa trước khi chất lượng giảm.

Reverb là một nhấn mạnh, không phải một nền tảng. Reverb phòng hoặc tấm ngắn (decay dưới 1.0 giây, mix ướt 15-25%) thêm kích thước cho giọng nói nhân vật. Các cài đặt reverb dài (decay 2+ giây) rửa sạch phụ âm và làm cho giọng nói khó hiểu, đặc biệt là trên âm thanh gaming ồn ào.

Tỷ lệ vibrato nên phù hợp với năng lượng của nhân vật. Các ký tự năng lượng cao (tuấn nhân vật phụ, ra ngoài giảm nhẹ bersemangat) phù hợp vibrato nhanh (5-6 Hz). Các ký tự năng lượng thấp (kẻ phản diện, nhân vật mềm mịn) phù hợp vibrato chậm (3-4 Hz) hoặc không có gì cả. Độ sâu vibrato trên 20% bắt đầu nghe như say tàu.

Overdrive nên thêm kết cấu, không phải âm lượng. Hiệu ứng méo mó tăng loudness nhận thức. Nếu bạn thêm overdrive cho giọng nói kẻ phản diện, kéo lợi nhuận của bạn xuống một chút sau đó vì vậy mức đầu ra vẫn nhất quán với các preset khác của bạn. Loudness không đều trong các preset sẽ yêu cầu khán giả của bạn điều chỉnh âm lượng mỗi khi bạn chuyển đổi ký tự, điều này phá vỡ sự đắm chìm.


Formant Shifting là gì và Tại sao nó quan trọng?

Formant shifting là quá trình di chuyển các đỉnh tần số cộng hưởng của đường dẫn giọng nói độc lập với pitch cơ bản. Các nguyên âm của con người được định nghĩa bằng cấu trúc formant của họ formant đầu tiên (F1) và formant thứ hai (F2) là các yếu tố quyết định chính của nhận dạng nguyên âm và kích thước đường dẫn giọng nói nhận thức. Khi bạn dịch chuyển formant lên, giọng nói nghe giống như nó đến từ đường dẫn giọng nói nhỏ hơn, chặt chẽ hơn. Khi bạn dịch chuyển formant xuống, nó nghe lớn hơn và cộng hưởng hơn.

Lý do tại sao formant shifting quan trọng cho giọng nói hoạt hình cụ thể là các ký tự hoạt hình thường được thiết kế nghe giống như những phiên bản được phóng đại của sinh vật hoặc con người thực. Chuột hoạt hình nhỏ không chỉ nói ở pitch cao nó nghe giống như một sinh vật mà toàn bộ giải phẫu cộng hưởng của nó nhỏ. Không có dịch chuyển formant, bạn có thể nâng pitch bao nhiêu như bạn muốn và bạn vẫn về cơ bản sẽ nghe giống như con người, chỉ là nói nhanh hơn. Với dịch chuyển formant phù hợp với hướng pitch, ảo tưởng ký tự trở nên thuyết phục bởi vì các manh mối âm thanh tất cả đều chỉ theo cùng một hướng.

Đây là sự khác biệt kỹ thuật quan trọng nhất giữa một công cụ bộ lọc giọng nói hoạt hình thực sự và một slider pitch đơn giản trong phần mềm chỉnh sửa âm thanh. Nếu bạn muốn đi sâu vào cơ học âm thanh, bài viết Wikipedia về formant giải thích mô hình cộng hưởng rõ ràng.


Bộ lọc giọng nói hoạt hình để phát trực tiếp và tạo nội dung

Đối với những nhà phát trực tiếp, thư viện cài đặt giọng nói hoạt hình là một trong những tài sản có thể sử dụng lại nhất mà bạn có thể xây dựng. Một bộ suara nhân vật được xác định rõ ràng thậm chí chỉ là hai hoặc ba cho phép bạn chạy các phân đoạn định kỳ, đưa lại những ký tự có thể nhận ra được trên nhiều luồng, và tạo một lớp giải trí cụ thể cho kênh của bạn.

Chạy Bit Ký tự Live

Thiết lập thực tế: liên kết cài đặt kẻ phản diện của bạn với F9 và ký tự tuấn của bạn tới F10. Khi bạn muốn làm bit ký tự, tắt tiếng OBS vì vậy người xem chỉ nghe âm thanh (không phải switch wajah của bạn), kích hoạt hotkey, sau đó tắt tiếng và nói theo nhân vật. Cấu trúc đơn giản này hoạt động một cách đáng tin cậy ngay cả với một thiết lập phát trực tiếp cơ bản.

Cho nội dung elabo hơn, bạn có thể chỉ định các cài đặt khác nhau cho các vai diễn in-game khác nhau suara người tường thuật cho giải thích, suara ký tự cho các phân đoạn roleplay và chuyển đổi sạch sẽ trong quá trình chuyển tiếp. Chuyển đổi hotkey trong VoxBooster tức thì và không giới thiệu bất kỳ khoảng cách âm thanh nào hoặc pop.

Ghi âm vs. Real-Time

Cho nội dung pre-recorded (video YouTube, clip hình thức ngắn), bạn có lựa chọn ghi với giọng nói được xử lý trực tiếp vào OBS hoặc DAW của bạn, hoặc ghi dry và áp dụng xử lý trong bài đăng. Ghi âm trực tiếp đơn giản hơn và độ trễ không phải là một yếu tố, vì vậy hầu hết các nhà sáng tạo nội dung sử dụng cách tiếp cận trực tiếp. Đầu ra đã là giọng nói cuối cùng, không có bước trộn bổ sung cần thiết.

Cho podcast hoặc cuộc trò chuyện được ghi âm nơi nhiều người tham gia có thể có giọng nói nhân vật khác nhau, mỗi người tham gia chạy phiên bản riêng của bộ lọc giọng nói của họ trên máy tương ứng của họ và tham gia cuộc gọi với đầu ra được xử lý đã hoạt động.

Clip và Nổi bật

Clip suara hoạt hình hoạt động tốt trên các nền tảng hình thức ngắn vì âm thanh ngay lập tức phân biệt. Suara kẻ phản diện nhận xét về một khoảnh khắc chơi game, hoặc phản ứng nhân vật tuấn tới một ván chơi xấu, có xu hướng có một chất lượng đáng nhớ mà một phản ứng suara rõ ràng không. Nếu bạn đang xây dựng một danh mục clip, hãy xem xét để dành riêng 5-10 phút mỗi phiên để ghi các bit ký tự ngắn thậm chí nội dung không tạo ra chỉnh sửa stream chính có thể sống trên hình thức ngắn.


Các vấn đề chung và Cách khắc phục chúng

Giọng nói nghe giống như robot thay vì như phim hoạt hình. Điều này thường có nghĩa là formant quá cao so với pitch. Cố gắng giảm formant của 10-15% trong khi giữ pitch giống nhau. Mối quan hệ giữa pitch và formant trong giọng nói tự nhiên khoảng tuyến tính pitch rất cao với formant rất cao là thực tế cho những sinh vật nhỏ, nhưng nếu bạn ở trong một phạm vi vừa phải, các cài đặt formant cực sẽ giới thiệu các hiện tượng.

Giọng nói nghe giống như một bản ghi được tăng tốc thay vì một nhân vật. Pitch đã được dịch chuyển mà không có formant. Tăng formant theo hướng tích cực nếu bạn dịch chuyển pitch lên, hoặc hạ nó nếu bạn dịch chuyển pitch xuống. Ngay cả một thay đổi formant khiêm tốn +15% với một giọng nói được nâng lên pitch sẽ ngay lập tức cung cấp nhiều nhân vật hơn.

Giọng nói phá vỡ hoặc glitch khi nói nhanh. Đây thường là một vấn đề độ trễ hoặc kích thước bộ đệm. Trong cài đặt âm thanh VoxBooster, hãy thử tăng kích thước bộ đệm hơi (từ 128 đến 256 mẫu). Đối với chuyển đổi AI đặc biệt, dung nạp bộ đệm cao hơn một chút cải thiện tính ổn định trong khi nói nhanh. Đối với các hiệu ứng DSP ở độ trễ sub-10ms, glitching hiếm gặp và thường cho biết một quá trình nền đang can thiệp với luồng âm thanh.

Hiệu ứng nghe tuyệt vời trong theo dõi nhưng khủng khiếp trong Discord hoặc OBS. Kiểm tra xem bạn đã chọn VoxBooster Virtual Microphone làm đầu vào trong Discord/OBS chưa, không phải micrô vật lý của bạn. Một sai lầm phổ biến là chọn mic vật lý trong ứng dụng (bỏ qua tất cả xử lý) trong khi nghe đầu ra được xử lý trong theo dõi VoxBooster của riêng bạn.

Âm lượng nhảy khi chuyển đổi preset. Chuẩn hóa mức đầu ra trong mỗi preset. VoxBooster có lợi nhuận đầu ra per-preset; đặt tất cả preset thành mức loudness nhận thức khoảng giống nhau trước khi bắt đầu. Sử dụng một clip tham chiếu đếm “một hai ba” trong mỗi giọng nói ký tự và điều chỉnh cho đến khi loudness phù hợp.


Kỹ thuật liên quan đáng khám phá

Giọng nói hoạt hình là một ứng dụng của một bộ công cụ biến đổi giọng nói rộng hơn. Nếu bạn muốn đi xa hơn, những cách tiếp cận liên quan này đáng khám phá:

Chipmunk voice effect là một phiên bản chuyên biệt của nguyên mẫu tuấn nhân vật phụ được đẩy đến cực hạn điểm của nó Alvin-style hiệu ứng cổ điển với pitch và formant rất cao. Bài đó bao gồm các cài đặt chính xác để tái tạo âm thanh cụ thể đó.

High-pitch voice changer kỹ thuật bao gồm toàn bộ phạm vi giọng nói ký tự bersuara tinggi, bao gồm các lý do âm thanh một số giọng nói cao nghe tự nhiên và những kỹ thuật khác nghe nhân tạo.

Formant shifting explained đi sâu hơn vào cơ học kỹ thuật của thao tác formant hữu ích nếu bạn muốn hiểu tại sao một cài đặt hoạt động thay vì chỉ sao chép một công thức.

Low-latency voice changer bao gồm phía kỹ thuật của xử lý giọng nói real-time kích thước bộ đệm, WASAPI vs. ASIO, và cách nhận kính năng âm thanh nhất quán nhất trên Windows.


Câu hỏi thường gặp

Bộ lọc giọng nói hoạt hình là gì?

Bộ lọc giọng nói hoạt hình là phần mềm xử lý micrô trực tiếp của bạn và áp dụng dịch chuyển pitch, điều chỉnh formant và hiệu ứng điều chế để bạn nghe như nhân vật hoạt hình thời gian thực. Các công cụ tốt nhất điều chỉnh pitch và formant độc lập để kết quả nghe như nhân vật, không chỉ là phiên bản tăng tốc hoặc chậm lại giọng nói của bạn.

Làm thế nào để giọng tôi nghe như nhân vật phim hoạt hình?

Cài đặt bộ lọc giọng nói có điều khiển pitch và formant độc lập. Để loại tuấn và nhân vật phụ, tăng pitch 8-10 semitone và thay đổi formant lên 40-50%. Cho kẻ phản diện sâu, hạ pitch 4-6 semitone và hạ formant 20-30%. Thêm vibrato nhẹ hoặc overdrive tinh tế để hoàn thành ảo tưởng. Định tuyến micrô ảo đến Discord hoặc OBS.

Sự khác biệt giữa dịch chuyển pitch và dịch chuyển formant cho giọng nói hoạt hình là gì?

Dịch chuyển pitch di chuyển tần số cơ bản của giọng nói của bạn cao hoặc thấp nghe như thế nào. Dịch chuyển formant di chuyển các đỉnh cộng hưởng của đường dẫn giọng nói của bạn chất lượng rỗng trống cung cấp cho các giọng nói nhân vật và kích thước. Giọng nói hoạt hình yêu cầu cả hai: pitch đặt ghi chú, formant xác định xem nó nghe giống như sinh vật nhỏ hay khổng lồ. Pitch một mình chỉ nghe giống như bản ghi được phát ở tốc độ sai.

Tôi có thể sử dụng bộ lọc giọng nói hoạt hình trên Discord mà không cần phần mềm bổ sung không?

Có, nếu bộ lọc giọng nói của bạn tạo thiết bị âm thanh ảo. Các công cụ như VoxBooster đăng ký micrô ảo Windows tiêu chuẩn. Bạn chọn thiết bị đó trong Cài đặt Discord dưới Voice and Video, và bạn bè của bạn nghe hiệu ứng hoạt hình trực tiếp mà không cần phần mềm định tuyến âm thanh hoặc dây cáp ảo bổ sung.

Cài đặt nào tạo ra giọng nói kẻ phản diện hoạt hình tốt?

Bắt đầu với pitch hạ 4-6 semitone và formant hạ 20-30% để mở rộng đường dẫn giọng nói biểu kiến. Thêm hiệu ứng overdrive nhẹ hoặc méo để đưa vào cạnh gritty phổ biến trong những kẻ phản diện hoạt hình. Giữ reverb tinh tế một cài đặt phòng ngắn thêm sự hiện diện mà không rửa giọng nói ra. Sử dụng vibrato chậm 3-4 Hz ở độ sâu 10-15% để trầm tính.

Bộ lọc giọng nói hoạt hình có hoạt động trong game và OBS cùng một lúc không?

Có. Micrô ảo định tuyến âm thanh trên toàn hệ thống trên Windows. Đặt nó làm đầu vào trong OBS và trong obrolan thoại trò chơi của bạn cùng lúc. Cả hai đều nắm bắt cùng một tín hiệu được xử lý. Chuyển đổi hotkey trong VoxBooster cho phép bạn lật giữa preset nhân vật giữa phiên mà không chạm vào ứng dụng khác.

Bộ lọc giọng nói hoạt hình có an toàn trong game chống gian lận không?

Phần mềm sử dụng micrô ảo thông qua hệ thống con âm thanh Windows tiêu chuẩn mà không cần driver kernel an toàn với các hệ thống anti-cheat như EAC và BattlEye. VoxBooster sử dụng WASAPI và đăng ký thiết bị âu thanh tiêu chuẩn, vì vậy nó xuất hiện cho hệ điều hành và game chính xác như bất kỳ micrô hợp pháp nào khác.


Kết luận

Xây dựng giọng nói hoạt hình thực sự yêu cầu suy nghĩ theo hai kích thước: pitch cho cách tính cao hoặc thấp, và formant cho cách tính lớn hoặc nhỏ đường dẫn giọng nói biểu kiến. Nhận được hai tham số đó sắp xếp cho mỗi nguyên mẫu tuấn nhân vật phụ, kẻ phản diện vang vọng, nhân vật goofy mũi, vai lạnh mềm mịn và thêm một lớp hiệu ứng được lựa chọn cẩn thận, và bạn sẽ có những giọng nói giữ ở hàng trăm giờ phát trực tiếp hoặc chơi game mà không làm mệt khán giả của bạn.

Sự khác biệt giữa một giọng nói nhân vật thuyết phục và “ai đó có một bộ lọc” thường là formant. Hầu hết mọi người bỏ qua dịch chuyển formant vì công cụ của họ không để lộ nó, hoặc bởi vì họ không biết nó tồn tại. Bây giờ bạn làm, thiết lập là thẳng về phía trước.

VoxBooster xử lý chuỗi đầy đủ pitch DSP và formant, chuyển đổi giọng nói AI thần kinh cho các kiểu ký tự cụ thể, chuẩn hóa đầu ra per-preset, và chuyển đổi hotkey trên phần cứng Windows tiêu chuẩn mà không cần cài đặt driver kernel. Dùng thử 3 ngày là cách nhanh nhất để kiểm tra xem thiết lập của bạn nghe như bạn muốn trước khi cam kết với bất cứ điều gì.

Tải xuống VoxBooster và bắt đầu với cài đặt sẵn nhân vật phụ tuấn đây là cái nhanh nhất để có được quyền và một tiêu chuẩn tốt để hiệu chỉnh phần còn lại của thư viện của bạn.

Dùng thử VoxBooster — 3 ngày dùng thử miễn phí.

Nhân bản giọng thời gian thực, soundboard và hiệu ứng — ở mọi nơi bạn đã nói chuyện.

  • Không cần thẻ tín dụng
  • ~30ms độ trễ
  • Discord · Teams · OBS
Dùng thử miễn phí 3 ngày