Perpustakaan suara pra-bangun VoxBooster menangani sebagian besar kasus penggunaan. Tetapi ada satu skenario spesifik di mana tidak ada suara pra-bangun yang datang dekat: ketika Anda menginginkan suara Anda sendiri - timbre Anda, aksen Anda, identitas Anda - berjalan secara real-time atau digunakan untuk narasi, dubbing, dan konten.

Itulah yang ada untuk pelatihan model khusus. Dan tidak seperti kedengarannya, prosesnya lebih sederhana daripada mengonfigurasi OBS untuk pertama kalinya.

Ketika Melatih Model Suara Anda Sendiri Layak Melakukan

Sebelum Anda mulai merekam, perlu dipahami kasus penggunaan nyata:

Pembuat konten yang merekam video: Anda menulis naskah, menghasilkan narasi dengan kloning Anda kapan saja tanpa suara Anda diaktifkan, tanpa setup mikrofon yang rumit untuk narasi.

Dubber atau aktor suara: Anda menyimpan timbre Anda sendiri tetapi dapat menerapkan efek kepribadian di atas - lebih dalam, lebih memproyeksikan, lebih dramatis - tanpa kehilangan identitas Anda.

Multibahasa: Anda berbicara Bahasa Inggris. Klon Anda berbicara Prancis dengan timbre Anda. Intonasi akan menjadi milik Anda (model membawa prosodia Anda), tetapi hasilnya jauh lebih alami daripada TTS generik.

Anonimitas selektif: Anda ingin muncul di panggilan tanpa mengungkapkan suara asli Anda, tetapi menginginkan konsistensi - selalu suara alternatif yang sama, setiap saat. Klon khusus menangani ini lebih baik daripada preset acak.

Langkah 1: Rekaman Referensi

Ini adalah langkah yang paling sering diremehkan oleh orang-orang. Kualitas model tergantung langsung pada kualitas audio referensi.

Durasi: 3 hingga 5 menit pidato berkelanjutan. Lebih dari itu tidak banyak meningkatkan hasil; kurang dari 3 menit memburuk.

Apa yang harus dikatakan: Berbicara secara alami. Baca teks dengan keras - artikel berita, cerita pendek, deskripsi sesuatu. Model membutuhkan variasi intonasi, jeda alami, suara berbeda dari bahasa. Jangan hanya ulangi kalimat yang sama.

Lingkungan: Setenang mungkin. AC mati. Jendela tertutup. Mikrofon sekitar 4-6 inci dari mulut Anda. Jika Anda memiliki mikrofon dinamis, gunakan. Jika Anda hanya memiliki kondenser, rekam di malam hari ketika jalan lebih tenang.

Hindari: batuk, tawa tiba-tiba, kebisingan latar belakang konstan, berbicara terlalu pelan atau berteriak. Model dilatih pada pidato percakapan normal - ekstrem memburuk kualitas.

Langkah 2: Wizard Pelatihan

Di dalam VoxBooster, buka Voice Clone → My Voice → Create new model tab.

Impor audio yang Anda rekam. Wizard menerima WAV dan MP3. WAV 44,1 kHz 16-bit ideal; MP3 320kbps juga berfungsi. Hindari kompresi berat.
Konfirmasi pratinjau. VoxBooster melakukan pembersihan kebisingan otomatis sebelum pelatihan - Anda mendengarkan audio yang diproses dan mengonfirmasi bahwa itu dapat diterima.
Beri nama model. Nama ini akan muncul dalam daftar suara Anda nanti.
Klik Latih. Prosesnya dimulai secara lokal di mesin Anda.

Langkah 3: Pelatihan Lokal

Pelatihan berjalan di GPU Anda (NVIDIA dengan CUDA, AMD dengan ROCm) atau CPU jika Anda tidak memiliki kartu grafis khusus.

Dengan GPU NVIDIA (RTX 3060 atau lebih baik): 10 hingga 15 menit untuk 5 menit audio.

Dengan GPU lebih lama atau CPU: 20 hingga 40 menit. Anda dapat membiarkannya berjalan di latar belakang - VoxBooster tidak perlu fokus, hanya di memori.

Selama pelatihan, hindari rendering video berat atau menjalankan game yang menuntut pada PC yang sama. Itu tidak akan memecahkan apa pun - tetapi itu akan memperpanjang waktu dan mungkin menghasilkan artefak dalam model jika GPU kekurangan memori.

Ketika selesai, VoxBooster mengirimkan notifikasi dan model muncul secara otomatis dalam daftar klon Anda.

Langkah 4: Menggunakan Model

Pilih model khusus dari daftar, aktifkan Real-time, berbicara. Sesederhana itu.

Klon akan membawa prosodia Anda - jeda Anda, penekanan Anda, ritme Anda. Jika Anda berbicara dengan energi, klon keluar dengan energi. Jika Anda berbicara perlahan dan serius, itu keluar perlahan dan serius. Konten fonetik adalah milik Anda; timbre adalah model.

Tip: uji model pada panggilan pendek sebelum menggunakannya langsung. Pertama kali Anda mendengar suara kloning Anda sendiri adalah yang aneh - kedengarannya hampir benar tetapi dengan beberapa perbedaan. Itu normal. Orang di ujung lain biasanya berpikir itu suara biasa Anda.

Menyempurnakan Model

Jika hasil pelatihan pertama tidak memuaskan Anda:

Re-record dengan audio yang lebih bersih (lebih banyak kesunyian, posisi mikrofon yang lebih baik)
Tingkatkan menjadi 5 menit jika Anda menggunakan 3
Variasikan jenis pidato dalam rekaman lebih banyak - sertakan pertanyaan, seru, pidato lebih cepat dan lebih lambat

Anda dapat melatih beberapa model dan membandingkan. VoxBooster menyimpannya semua secara lokal - mereka tidak mengunggah ke server apa pun. Ini adalah file model di drive Anda, umumnya antara 80 dan 150 MB masing-masing.

Hasil Akhir

Dengan setup yang layak dan rekaman bersih, model khusus adalah yang meyakinkan paling dalam penggunaan real-time. Ini suara Anda - model benar-benar tahu timbre Anda, itu bukan mencoba perkiraan preset generik. Untuk pembuat konten dan siapa pun yang muncul secara teratur di video atau di stream, upaya awal 2 jam untuk mendapatkan ini bekerja layak dilakukan.

Cara Melatih Model Suara Anda Sendiri di VoxBooster (Langkah demi Langkah)