Giải Thích Dịch Chuyển Formant: Thay Đổi Giọng Nói Tương Đối
Một bộ thay đổi giọng AI chỉ di chuyển cao sẽ nghe giả tạo trong ba giây. Bí mật thực sự đằng sau các phép biến đổi giọng thuyết phục là dịch chuyển formant - điều chỉnh các tần số cộng hưởng xác định ký tự âm thanh của đường vocal của bạn, độc lập với cao. Khi bạn hiểu cách hoạt động của formant, bạn sẽ ngay lập tức nghe thấy những gì mà hầu hết các bộ thay đổi giọng rẻ tiền đang làm, và bạn sẽ biết chính xác nút nào cần tấn công khi các phép biến đổi của riêng bạn nghe có vẻ được xử lý.
Bài viết này bao gồm vật lý đằng sau formant bằng ngôn ngữ đơn giản, lý do tại sao dịch chuyển cao mà không có kiểm soát formant nghe giống như sóc chuột hoặc một cuộn băng được làm chậm, cách các bộ thay đổi giọng AI hiện đại xử lý formant so với các công cụ DSP cũ hơn, và cách sử dụng các điều khiển formant VoxBooster để có được kết quả tự nhiên nhất.
TL;DR
- Formant là các đỉnh tần số cộng hưởng do hình dạng đường vocal của bạn tạo ra - chúng xác định âm thanh nguyên âm và ký tự giọng nói.
- Dịch chuyển cao độc lập di chuyển tần số cơ bản nhưng để lại formant tại chỗ, tạo ra hiệu ứng “hoạt hình” không tự nhiên.
- Dịch chuyển formant điều chỉnh phong bì quang phổ riêng biệt với cao, đó là lý do tại sao phép biến đổi giọng nghe giống như một người thực sự khác.
- Tỷ lệ lý tưởng của dịch chuyển cao với dịch chuyển formant phụ thuộc vào mục tiêu biến đổi: che phủ tinh tế, giọng nhân vật hoặc vượt qua giới tính đầy đủ.
- Bộ thay đổi giọng AI tạo ra các quỹ đạo formant liên tục, tạo ra kết quả mượt hơn so với DSP uốn quang phổ cố định.
- VoxBooster có các thanh trượt cao và formant độc lập, cộng với nhân bản giọng AI xử lý formant tự động.
Formant là gì?
Dây thắng giọng của bạn tạo ra một âm thanh rung rỡ với tần số cơ bản - đó là cao của bạn. Nhưng âm thanh rung rỡ thô này hầu như không thể nhận biết được như một giọng nói. Điều định hình nó thành các nguyên âm có thể nhận dạng, kết cấu cảm xúc và âm sắc cá nhân là sự cộng hưởng của các buồng phía trên thanh quản của bạn: cổ họng, miệng, môi và khoang mũi của bạn cùng nhau tạo thành đường vocal.
Đường vocal là một ống có hình dạng phức tạp, không ngừng thay đổi. Giống như bất kỳ buồng cộng hưởng nào, nó có các tần số cộng hưởng tự nhiên - các dải tần số nơi các sóng âm tăng cường lẫn nhau thay vì hủy bỏ. Những đỉnh này trong phổ đầu ra được gọi là formant, và chúng được đánh số từ thấp nhất đến cao nhất: F1, F2, F3, v.v.
F1 và F2 thực hiện hầu hết công việc nhận thức. Nguyên âm trong “heed” có F1 thấp và F2 rất cao. Nguyên âm trong “hod” có F1 và F2 ở giữa nhưng gần nhau hơn. Não bạn sử dụng những hai đỉnh đó để xác định các nguyên âm gần như ngay lập tức, đó là lý do tại sao formant đôi khi được mô tả là “dấu vân tay” của một nguyên âm. Để đọc thêm về lý thuyết âm thanh, bài viết Wikipedia về formant là một điểm khởi đầu vững chắc, và bài viết về đường vocal cung cấp bối cảnh giải phẫu.
F3 và trên đó đóng góp vào âm sắc cá nhân - chất lượng cho phép bạn nhận ra giọng nói của một người bạn trên điện thoại trước khi họ nói tên họ. F3 có tương quan mạnh với chiều dài đường vocal và cấu trúc giải phẫu cá nhân.
Tại sao chiều dài đường vocal quan trọng
Những người có đường vocal dài hơn có formant cách xa hơn trong phổ. Đây là lý do tại sao, trung bình, nam giới có formant thấp hơn phụ nữ, và người lớn có formant thấp hơn trẻ em - không phải vì cao một mình, mà vì chiều dài đường thực tế. Một người đàn ông cao sáu feet và một người phụ nữ cao năm feet có thể thỉnh thoảng chạm vào cùng một cao nhạc, nhưng formant của họ sẽ vẫn ở những vị trí quang phổ hoàn toàn khác nhau.
Mối quan hệ giữa kích thước cơ thể, chiều dài đường, và vị trí formant không chỉ là tầm thường học thuật. Đó là toàn bộ lý do tại sao chỉ thay đổi cao nghe có vẻ sai. Khi bạn làm chậm một bản ghi để giảm cao, bạn cũng làm chậm mỗi chuyển tiếp formant - làm cho các nguyên âm nghe dài và lười, giống như một bản ghi được phát ở tốc độ sai. Khi bạn tăng tốc độ, formant vẫn tỉ lệ thuận ở chỗ nhưng giờ cảm thấy quá cao và quá chặt chẽ, tạo ra hiệu ứng sóc quen thuộc.
Một giọng nói thực sự hoạt động ở một cao khác thực sự có formant được tạo ra bởi một cấu hình đường vocal khác. Vị trí formant thay đổi, nhưng không phải là một tỷ lệ tuyến tính đơn giản với cao. Một phép biến đổi giọng tốt phải mô hình hóa mối quan hệ đó.
Dịch chuyển cao vs. Dịch chuyển formant
Đây là nơi hầu hết các bộ thay đổi giọng rẻ tiền sụp đổ. Dịch chuyển cao dễ dàng: nhân hoặc chia nội dung tần số của tín hiệu âm thanh, bù thời gian để tránh nghe giống như một thay đổi pô tô, xong. Kết quả là giọng của bạn với cơ bản được nâng cao hoặc hạ thấp, nhưng phong bì quang phổ - hình dạng tổng thể của phản ứng tần số - giống hệt như giọng gốc của bạn.
Dịch chuyển formant, mặt khác, di chuyển phong bì quang phổ trong khi để lại cấu trúc cao cơ bản một mình (hoặc điều chỉnh nó riêng biệt). Nó hoạt động bằng cách phân tích phổ khoảng thời gian ngắn của âm thanh, ước tính phong bì (đường cong trơn kết nối các đỉnh hài), uốn phong bì đó lên hoặc xuống tần số, sau đó tái tạo tín hiệu.
Sự phân biệt trong thực hành:
| Kỹ thuật | Gì di chuyển | Gì ở lại | Hiệu ứng điển hình |
|---|---|---|---|
| Chỉ dịch chuyển cao | Tần số cơ bản | Phong bì quang phổ / formant | Sóc (lên) hoặc chuyển động chậm (xuống) |
| Chỉ dịch chuyển formant | Phong bì quang phổ | Cao cơ bản | Nghe giống như một người khác đang nói với cao gốc của bạn |
| Cả hai, tỷ lệ đúng | Cả hai, khớp | — | Biến đổi thuyết phục thành một loại giọng khác |
| Cả hai, tỷ lệ sai | Cả hai, không khớp | — | Âm thanh được xử lý, máy tính hoặc rỗng |
“Tỷ lệ đúng” phụ thuộc rất nhiều vào phép biến đổi bạn đang cố gắng đạt được. Dịch chuyển cao lên 4 nửa âm và formant lên 15-20% là một xấp xỉ gần đúng của những gì xảy ra khi một người cao hơn nói ở cùng cao với người ngắn hơn. Nhưng mối quan hệ thực tế là phi tuyến tính và phụ thuộc vào giọng nói, đó là nơi các mô hình AI có lợi thế đáng kể so với các chuỗi DSP cố định.
Bảo toàn Formant: Trường hợp sử dụng khác
Không phải mỗi thao tác formant đều về phép biến đổi. Bảo toàn formant - khả năng giữ formant không đổi trong khi cao thay đổi - cũng quan trọng trong các tình huống nhất định.
Khi một ca sĩ điều chỉnh cao giọng của họ hoặc chuyển vị một buổi biểu diễn, dịch chuyển cao ngây thơ biến các nguyên âm của họ thành những thứ không thể nhận biết được ở những cực điểm. Bảo toàn formant giữ cho chất lượng nguyên âm ổn định ngay cả khi nốt nhạc thay đổi. Đây là tiêu chuẩn trong phần mềm điều chỉnh cao chuyên nghiệp.
Đối với bộ thay đổi giọng, bảo toàn quan trọng khi bạn muốn điều chỉnh tinh tế: làm ấm hoặc sáng hơn giọng của bạn một chút mà không thay đổi danh tính âm sắc của bạn, hoặc bù đắp cho micrô thêm độ cô đặc trong một dải tần số cụ thể. Nó cũng hữu ích khi khớp với nhịp điệu của một nhân vật cụ thể mà không làm cho bản thân bạn không thể nhận dạng được trong một buổi phát trực tiếp.
Thanh trượt formant VoxBooster hoạt động xung quanh không - di chuyển nó tích cực dịch chuyển formant lên (sáng hơn, chất lượng đường nhỏ hơn), di chuyển nó phủ định dịch chuyển nó xuống (tối hơn, chất lượng đường lớn hơn). Để nó ở không chỉ với cao được điều chỉnh cho bạn hiệu ứng sóc. Khóa cả hai lại với tỷ lệ được hiệu chỉnh cung cấp cho bạn phép biến đổi. Điều chỉnh chỉ formant cho bạn điều chế âm sắc tinh tế.
Cách các công cụ DSP truyền thống xử lý Formant
Các bộ thay đổi giọng cổ điển sử dụng một kỹ thuật gọi là LPC (Linear Predictive Coding) hoặc ước tính phong bì cepstral để trích xuất phong bì quang phổ từ một khung âm thanh ngắn, uốn phong bì đó bởi một tính toán cố định, sau đó tái cấu trúc âm thanh. Các công cụ như MorphVOX và các phiên bản trước của Voicemod sử dụng các biến thể của phương pháp này.
Nó hoạt động khá tốt ở các lượng dịch chuyển vừa phải trên các nguyên âm được duy trì. Các vấn đề xuất hiện ở các cạnh:
Phụ âm và chuyển tiếp. Phong bì quang phổ trong khi một ma sát (một “s” hoặc “f”) hoặc một vụ nổ dừng không có cấu trúc giống như một nguyên âm. Áp dụng uốn phong bè được tối ưu hóa nguyên âm cho một phụ âm hoặc làm mờ phụ âm hoặc tạo ra các hiệu ứng phụ.
Lời nói nhanh. Phân tích khung LPC giả định tín hiệu gần như cứng trong mỗi cửa sổ ngắn. Nói nhanh với chuyển tiếp formant nhanh thách thức giả định đó, tạo ra các hiệu ứng “nổi bong” nghe thấy.
Tính toán cố định. Một tính toán dịch chuyển formant cô lập được áp dụng thống nhất trên toàn phổ không khớp với cách các đường vocal thực sự hoạt động. Formant thực không phải tất cả thay đổi theo cùng một tỷ lệ khi cấu hình đường thay đổi.
Những hạn chế này không phải là chết chóc - nhiều streamer sử dụng bộ changer dựa trên DSP truyền thống thành công - nhưng chúng có nghĩa là có được kết quả tự nhiên đòi hỏi điều chỉnh cẩn thận, và một số phép biến đổi không thể đạt được một cách sạch sẽ.
Cách các bộ thay đổi giọng AI xử lý Formant khác
Các bộ thay đổi giọng AI hiện đại - và đây là nơi công nghệ thực sự tiến bộ - không ước tính và uốn phong bè quang phổ theo nghĩa truyền thống. Thay vào đó, họ sử dụng các mạng lưới thần kinh được đào tạo trên các tập dữ liệu lớn của lời nói con người để tìm hiểu cấu trúc thống kê của các đặc điểm giọng nói, bao gồm cách formant di chuyển trong khi nói tự nhiên.
Khi chạy, mô hình xử lý âm thanh đến và tạo ra đầu ra phản ánh các đặc điểm formant của giọng đích, thay vì áp dụng một phép biến đổi toán học cố định cho formant đến. Các khác biệt thực tế là:
Xử lý phụ âm. Vì mô hình đã tìm hiểu cách các giọng nói thực sự tạo ra phụ âm, nó xử lý chúng tự nhiên hơn so với uốn quang phổ chung chung.
Thích ứng liên tục. Thay vì phân tích các khung cố định độc lập, các mô hình tái phát hoặc dựa trên sự chú ý có thể sử dụng bối cảnh từ các khung xung quanh, làm cho các chuyển tiếp giữa các âm vị mượt mà hơn.
Formant phù hợp với mục tiêu. Khi sao chép một giọng cụ thể, mô hình thần kinh tạo ra formant khớp với những gì mà giọng của người đó thực sự làm, thay vì những gì một công thức dịch chuyển chung dự đoán.
Sự thỏa hiệp là chi phí tính toán và độ trễ. Chuyển đổi giọng thần kinh đòi hỏi nhiều hơn LPC. Nhận được dưới 10ms round-trip trên phần cứng tiêu dùng là một vấn đề kỹ thuật thực tế. Đường ống dựa trên WASAPI VoxBooster đạt được độ trễ âm thanh dưới 10ms bằng cách xử lý trên chuỗi âm thanh với kích thước bộ đệm cẩn thận, giữ xử lý thần kinh trên chuỗi latar belakang chuyên dụng và pré-buffering kết quả - lựa chọn thiết kế quan trọng rất nhiều cho việc sử dụng trực tiếp trên Discord hoặc comms trong trò chơi.
Dịch chuyển formant cho các mục tiêu thay đổi giọng cụ thể
Biến đổi vượt qua giới tính
Đây là phép biến đổi mà mọi người thường muốn từ một bộ thay đổi giọng nhất, và nó cũng là phép biến đổi khó thực hiện thuyết phục nhất. Một phép biến đổi từ nam sang nữ thuyết phục yêu cầu dịch chuyển formant lên khoảng 15-25% trong khi cũng nâng cao - nhưng số tiền chính xác tùy thuộc vào giọng của bạn, mục tiêu của bạn, và nội dung ngữ âm của những gì bạn đang nói.
Một sai lầm phổ biến là nâng cao mà không chạm vào formant, sau đó tự hỏi tại sao nó nghe thấy được xử lý rõ ràng. Sai lầm phổ biến thứ hai là sử dụng các giá trị sẵn được hiệu chỉnh cho loại giọng khác. Nếu bạn có một giọng nam sâu hơn mức trung bình, một cài đặt được thiết kế cho một giọng nam giữa vẫn sẽ nghe tắt.
Bắt đầu với các dịch chuyển formant nhỏ (5-10%) và lắng nghe. Giọng nam có xu hướng có F1 xung quanh 500 Hz và F2 xung quanh 1500 Hz cho các nguyên âm trung lập. Giọng nữ có F1 gần 700 Hz và F2 xung quanh 2000 Hz. Di chuyển formant lên 20-25% đưa bạn vào bản lề phải. Sau đó điều chỉnh cao - bạn thường sẽ cần ít dịch chuyển cao hơn bạn nghĩ, vì dịch chuyển formant đã làm phần lớn công việc nhận thức.
Giọng nói nhân vật
Giọng robot, nhân vật ngoài hành tinh, quỷ, và các hiệu ứng tương tự thường sử dụng dịch chuyển formant theo những cách cố ý phá vỡ mô hình đường vocal tự nhiên - đó là điểm. Dịch chuyển formant kịch tính xuống tạo ra hiệu ứng “quỷ lớn” khuôn mẫu. Các dịch chuyển hướng lên cực đoan với một giảm cao nhẹ tạo ra một kết cấu cực kỳ không phải con người cảm thấy như máy tính hoặc ngoài thế giới.
Để tham khảo, hãy xem bài viết liên quan về efek suara robot và efek suara radio để các kỹ thuật xử lý bổ sung kết hợp tốt với công việc formant.
Che phủ tinh tế hoặc che phủ quyền riêng tư
Không phải tất cả các trường hợp sử dụng đều là phép biến đổi kịch tính. Một số streamer muốn nói theo cách có thể nhận dạng được rõ ràng với khán giả của họ nhưng không thể ghi do giọng nói thực sự của họ. Các dịch chuyển formant nhỏ (5-10%) kết hợp với điều chỉnh cao vừa phải (2-4 nửa âm) đã đủ để tạo cho phần mềm xác định giọng không thành công mà không làm cho bạn nghe được xử lý rõ ràng cho người nghe con người.
Điều chỉnh cao mà không thay đổi âm sắc
Nếu bạn sử dụng tính năng điều chỉnh cao VoxBooster để ở trên ghi chú trong khi lồng tiếng hoặc cho podcast ở một cao cộng hưởng hơn, cho phép bảo toàn formant giữ cho các nguyên âm của bạn tự nhiên trong khi cao điều chỉnh. Đây là kỹ thuật tương tự được sử dụng bởi những nhà phát thanh chuyên nghiệp để di chuyển cao bicara thông thường của họ mà không đào tạo thanh quản của họ.
Sử dụng kiểm soát Formant trong VoxBooster
Thanh trượt formant trong bảng điều khiển hiệu ứng giọng VoxBooster được biểu thị bằng nửa âm, khớp với đơn vị thanh trượt cao cho ghép tự nhiên. Dưới đây là quy trình làm việc thực tế:
- Mở VoxBooster và chọn chế độ Voice Effects từ thanh bên.
- Đặt dịch chuyển cao cơ bản cho phép biến đổi bạn muốn - chẳng hạn, +4 nửa âm cho một giọng nhẹ hơn.
- Với cao được đặt, di chuyển thanh trượt formant từ từ lên. Nghe qua tai nghe nếu có thể. Bạn sẽ nghe thấy giọng chuyển từ “phiên bản pitch-shifted của tôi” sang “người khác.”
- Điểm ngọt cho một thay đổi cao +4 nửa âm nghe tự nhiên thường xung quanh +2 đến +3 nửa âm dịch chuyển formant. Tỷ lệ không phải 1:1 vì formant tỷ lệ theo tỷ lệ với chiều dài đường, không tuyến tính với nửa âm nhạc.
- Nếu bạn sử dụng chế độ sao chép giọng AI, mô hình thần kinh chọn formant tự động. Thanh trượt offset formant sau đó hành động như một điều chỉnh fine-tuning tinh tế trên output mô hình - hữu ích nếu giọng đích nghe hơi tắt trong một dải nguyên âm cụ thể.
Đối với người dùng OBS, VoxBooster đăng ký làm một thiết bị âm thanh ảo tiêu chuẩn. Bạn chọn nó như một nguồn micrô trong cài đặt OBS, và âm thanh dịch chuyển formant được định tuyến chính xác giống như bất kỳ masukan micrô nào khác. Không cần plugin ở phía OBS. Xem bài viết how-to-use-voice-changer-on-discord để setup Discord tương đương - nguyên tắc định tuyến giống hệt nhau.
Bạn cũng có thể kiểm tra trang tính năng VoxBooster cho danh sách đầy đủ các hiệu ứng real-time hoạt động cùng với dịch chuyển formant, và trang tính năng bộ thay đổi giọng cho thông số kỹ thuật đầy đủ.
Lỗi phổ biến và cách khắc phục chúng
Dịch chuyển formant mà không nghe qua tai nghe. Bleed loa và âm học phòng che giấu các hiệu ứng phụ mà xử lý formant giới thiệu. Những gì nghe tốt qua loa thường nghe được xử lý rõ ràng qua tai nghe, đó là cách khán giả truyền phát của bạn nghe bạn.
Sử dụng cài đặt sẵn mà không hiệu chỉnh cho giọng của bạn. Cài đặt sẵn được xây dựng trên một giọng “điển hình” trong tập dữ liệu của nhà phát triển. Nếu giọng của bạn không điển hình - cộng hưởng bất thường, phát âm, dải cao - bạn sẽ nhận được kết quả tốt hơn bằng cách dành năm phút hiệu chỉnh thủ công so với các cài đặt sẵn chu kỳ.
Quá nhiều thay đổi theo một hướng. Dịch chuyển formant là một hiệu ứng mạnh. Một dịch chuyển 20% đã là một phép biến đổi đáng kể. Chuyển sang 40% bắt đầu tạo ra các hiệu ứng rỗng, giống ống vì bạn đã đẩy formant vào các vùng tần số nơi chúng tương tác tồi tệ với chuỗi hài.
Bỏ qua tương tác với độc bản bao gồm. Bộ lọc bao gồm độc bản, bao gồm tùy chọn bao gồm độc bản bắt buộc VoxBooster, hoạt động trên tín hiệu trước hoặc sau chuỗi hiệu ứng tùy thuộc vào định tuyến của bạn. Nếu bao gồm độc bản thượng nguồn dịch chuyển formant, chảy quang phổ từ pháp luật bao gồm có thể suy nhược ước tính formant. Nếu hạ lưu, pháp luật bao gồm độc bản có thể ăn một số nội dung tần số cao của tín hiệu dịch chuyển formant. Thử nghiệm với bộ nếu bạn sử dụng cả hai.
Kỳ vọng sao chép AI là một thay thế cho công việc trong chuỗi hiệu ứng. Sao chép giọng AI xử lý formant cho bạn, nhưng output mô hình vẫn bị ảnh hưởng bởi chất lượng giọng đầu vào của bạn, phản ứng tần số micrô của bạn, và bao gồm độc bản latar belakang. Một tín hiệu sạch vào mô hình tạo ra một phép biến đổi sạch sẽ hơn so với một bản ghi bao gồm độc bản hoặc latar belakang cộng hưởng.
Điều gì làm cho một giọng nghe giống một người cụ thể?
Đây là một câu hỏi sâu hơn nó xuất hiện lần đầu tiên, và nó liên quan đến hiểu những gì tông changer AI thực sự làm. Xác định một người nói từ giọng nói của họ liên quan đến:
- Dải tần số cơ bản và biến thể (điều “giai điệu” nói của họ)
- Tần số formant và quỹ đạo động của họ (dạng nguyên âm của họ)
- Các tham số chất lượng giọng nói: hơi thở, creakiness, nasality, mức độ đóng cửa nếp gấp giọng nói
- Nhịp điệu, tỷ lệ, và prosody (cách họ tạm dừng và nhấn mạnh)
- Đặc điểm cộng hưởng từ các khoang và xoang mũi
Một dịch chuyển cao và formant đơn giản có thể xấp xỉ hai dòng đầu tiên. Cái thứ ba và cái thứ tư yêu cầu xử lý tinh vi hơn - mô hình hóa phân phối thống kê của các tính năng này cho một giọng đích, đó là những gì chuyển đổi giọng thần kinh làm. Prosody (cái thứ tư) thường không được thay đổi bởi bộ thay đổi giọng ở tất cả, đó là lý do tại sao mẫu nói của bạn vẫn có thể nhận biết được bằng chính nó ngay cả khi mọi thứ khác được biến đổi.
Hiểu điều này giúp đặt những kỳ vọng thực tế. Một bộ thay đổi giọng có thể thay đổi cách bạn âm thanh. Nó không thể thay đổi cách bạn nói. Sự kết hợp của phép biến đổi giọng với mimicry prosodic cố ý là những gì tạo ra các bản sao thuyết phục nhất - nhưng phần thứ hai yêu cầu thực hành, không phải phần mềm.
Đối với những người đọc quan tâm đến khoa học âm thanh sâu hơn, bài báo cổ điển này bởi Gunnar Fant về âm thanh đường vocal là tài liệu tham khảo nền tảng, và tài liệu thiết bị âm thanh ảo OBS bao gồm cách định tuyến âm thanh ảo hoạt động ở cấp độ OS.
Những câu hỏi thường gặp
Dich chuyen formant trong trich thay doi giong la gi?
Dịch chuyển formant di chuyển các tần số cộng hưởng của đường vocal của bạn - các đỉnh trong phổ giọng nói của bạn xác định âm thanh nguyên âm và ký tự âm sắc - mà không cần thay đổi cao. Đây là những gì làm cho phép biến đổi giọng nghe giống như một người khác chứ không chỉ là một phiên bản của bạn được tăng tốc hoặc giảm tốc.
Dich chuyen formant co giong nhu dich chuyen cao khong?
Không. Dịch chuyển cao nâng cao hoặc hạ thấp tần số cơ bản của giọng nói của bạn, giống như một ghi âm âm nhạc đi lên hoặc xuống. Dịch chuyển formant thay đổi đặc điểm rongga cộng hưởng - độc lập với cao. Làm cả hai cùng nhau, với tỷ lệ phù hợp, là những gì tạo ra phép biến đổi giọng nói thuyết phục.
Tai sao dich chuyen cao mot minh nghe khong tuong duoi?
Khi bạn dịch chuyển cao giọng nói mà không điều chỉnh formant, các đỉnh cộng hưởng vẫn ở cùng một vị trí quang phổ trong khi cơ bản di chuyển. Kết quả nghe giống như một sóc hoạt hình hoặc một bản ghi chuyển động chậm, vì không có giọng nói con người thực sự hoạt động như vậy. Các giọng nói tự nhiên có formant tỷ lệ với chiều dài đường vocal.
Dieu gi la bao toan formant va khi nao ban muon no?
Bảo toàn formant giữ cho các tần số cộng hưởng gốc của bạn ngay cả khi cao của bạn thay đổi. Bạn muốn nó khi bạn hát hoặc nói và cần ở trên cao mà không nghe được xử lý. Các ứng dụng hợp xướng sử dụng nó rất nhiều. Trong bối cảnh bộ thay đổi giọng nói, bảo toàn hữu ích khi bạn muốn điều chỉnh tinh tế mà không thay đổi ký tự âm sắc.
Cach trich thay doi giong AI xu ly formant khac voi cac cong cu cu nhu the nao?
Các công cụ DSP truyền thống dịch chuyển formant như một bọc phong bèonuô quang phổ cố định. Các bộ thay đổi giọng AI hiện đại phân tích giọng nói liên tục và áp dụng các mô hình thần kinh dự đoán các quỹ đạo formant tự nhiên cho giọng đích, tạo ra các chuyển tiếp mượt hơn và giống thực tế hơn ngay cả trong khi nói nhanh và phat nổ phụ âm.
Apakah VoxBooster memiliki kiem soat formant?
Có. VoxBooster để xây dựng một thanh trượt dịch chuyển formant trong bảng điều khiển hiệu ứng giọng nói, độc lập với thanh trượt cao. Bạn có thể di chuyển chúng cùng nhau hoặc riêng biệt. Đối với chế độ sao chép giọng AI, mô hình thần kinh xử lý formant tự động nhưng bạn vẫn có thể điều chỉnh offset formant để tinh chỉnh đầu ra.
Co phai su dung dich chuyen formant se gay ra van de voi chong tac hanh dong hoac phat hien giong trong tro choi khong?
Không. Dịch chuyển formant là một hoạt động DSP âm thanh tiêu chuẩn được áp dụng cho dòng âm thanh trước khi tới micrô ảo. VoxBooster sử dụng WASAPI và đăng ký một thiết bị âm thanh ảo tiêu chuẩn - các trò chơi và hệ thống chống gian lận nhìn thấy một đầu vào micrô bình thường, không phải một kait cấp trình điều khiển.
Kết luận
Dịch chuyển formant là sự khác biệt giữa một thay đổi giọng nói khiến mọi người hỏi “bạn có đang sử dụng bộ thay đổi giọng nói không?” và một bộ khiến mọi người hỏi “đó có phải là giọng nói thực sự của bạn không?” Dịch chuyển cao mà không có nhận thức formant nghe giống như một mẹo studio. Cao và formant cùng nhau, được điều chỉnh theo tỷ lệ phù hợp cho mục tiêu biến đổi của bạn, nghe giống như một người khác.
Nếu bạn nghiêm túc về công việc giọng nói - truyền phát, tạo nội dung, quyền riêng tư, hoặc chỉ thử nghiệm - điều đáng giá để dành một buổi tối để thực sự hiểu những gì formant làm, sau đó áp dụng sự hiểu biết đó cho thiết lập của bạn chứ không phải các cài đặt sẵn chu kỳ. Các điều khiển không phức tạp khi bạn có mô hình tinh thần.
VoxBooster cung cấp cho bạn các thanh trượt độc lập cho cả hai, cộng với sao chép giọng AI xử lý pháp ánh ánh xạ formant tự động cho phép biến đổi giọng đích. Dùng thử miễn phí 3 ngày là đủ thời gian để thực hiện từng quy trình làm việc được mô tả trong bài viết này.
Tải xuống VoxBooster - dùng thử miễn phí 3 ngày, không cần thẻ tín dụng.