曲用ボイスチェンジャー:AIカバー曲の作り方

AIカバー曲ジェネレータの仕組み、完全なステム分離とAI音声変換ワークフロー、リアルタイム対オフライン処理、品質のコツ、および知っておくべき著作権ルールを学びます。

曲用ボイスチェンジャー技術により、Windows PCと数分の時間がある人なら誰でもAIカバー曲にアクセスできるようになりました。以前はプロのスタジオと雇われたボーカリストが必要だったことが、ステム分離器、AI音声モデル、そしていくらかの忍耐で可能になります。このガイドは正確な仕組み、ツール、ワークフロー、品質要因、および何かを公開する前に無視してはいけない著作権の質問を説明します。


TL;DR

  • AIカバー曲は、ステム分離とAI音声変換を使用して既存のトラック内の歌唱音声を交換します
  • 最初のステップは常にDemucsなどのツールを使用してボーカルをインストルメンタルから分離することです
  • AI音声変換は、隔離されたボーカルをターゲット音声に変換し、メロディーとリズムを保持します
  • リアルタイムボイスチェンジャーはライブシンギングで機能します。オフライン処理は事前に録音された曲用です
  • 品質は音声モデル、ステム分離のクリーン度、オーディオ設定によって決定されます
  • 他の誰かの音声の尤度または著作権で保護された曲の使用は実質的な法的リスクを伴います。著作権セクションを読んでください

曲用ボイスチェンジャーとは何ですか?

曲用ボイスチェンジャーは、オーディオトラック内の歌唱音声を置き換えまたは変換するソフトウェアです。単に高さを上げたり下げたりするピッチシフト効果とは異なり、最新の音楽ボイスチェンジャーはAI音声変換を使用します。具体的には、AI音声変換と呼ばれるモデルの一種を使用して、1人の音声特性を別の人が実行するメロディーにマッピングします。結果は、元のパフォーマンスのタイミング、フレージング、感情的な輪郭を保持しながら、異なる音声で歌われた曲のバージョンです。

AIカバー曲が実際にどのように機能するか

パイプラインを理解すると、各ステップでより良い決定を下すのに役立ちます。

ステム分離:ボーカルを分離する

完成した曲は、積み重ねられた多くのオーディオソースの混合です。歌唱音声だけを変更するには、最初に分離する必要があります。それはステム分離の仕事です。Wikipediaのソース分離とも呼ばれます。

Demucs(オープンソース、ローカルで実行)などのツールは、オーディオファイルを個別のステムに分割します:ボーカル、ドラム、ベース、その他の楽器。完全な混合トラックを入力し、各コンポーネントの個別のファイルを受け取ります。ボーカルステムは音声変換モデルに渡すものです。インストルメンタルステムは最後に混ぜ直すものです。

分離器は完璧ではありません。リバーブが豊富なプロダクション、密度の高いアレンジ、および圧縮されたマスターはすべて流出を作成します。楽器がボーカルステムに流出し、その逆も起こります。この流出は音声変換で除去されません。出力ノイズになります。クリーンな分離はクリーンなAIカバーと同じです。

AI音声変換:AIカバー曲の背後にあるエンジン

AI音声変換は、実際の音声交換を行う技術です。ターゲット音声の参照オーディオでニューラルネットワークを小さくトレーニングすることで機能します。他の誰かの歌、あなた自身の声、または架空のキャラクター。その後、学んだ音声テクスチャを新しいパフォーマンスに適用します。

分離されたボーカルステムをAI音声モデルを通して実行すると、モデルは元の歌手のピッチ、タイミング、フレーズを保持しながら、ターゲットに合わせて音色、トーン、音声キャラクターを再成形します。GitHubのオープンソースAI音声変換プロジェクトは、ほとんどのツールが構築する基礎です。

このステップの品質は以下に依存します:

  • 入力ボーカルステムがどのくらい清潔であるか(流出は出力を低下させます)
  • 音声モデルの品質(使用されたクリーントレーニングデータの量)
  • ピッチ補正設定(モデルが元のメロディーに何度もかかるか)

リミックス:ステムを再結合する

変換後、新しいボーカルファイルと未変更のインストルメンタルステムがあります。両方をDAWまたはオーディオエディターに読み込み、正確に配置し、レベルを調整してエクスポートします。結果は、ターゲット音声が元のトラックを実行したように聞こえるAIカバー曲です。

ステップバイステップワークフロー:曲の音声を変更する方法

開始から終了までの完全なプロセスは次のとおりです。

  1. ソーストラックを選択します。 商業的にリリースされた曲またはあなたが権利を持つ曲から始めます。ロスレスファイル(FLAC、WAV)は圧縮ストリームより優れた分離を生成します。
  2. ステム分離を実行します。 Demucs(コマンドラインまたはGUIラッパー)または商用サービスを開き、ボーカルおよびインストルメンタルステムをエクスポートします。両方を44.1 kHzで32ビット浮動小数点WAVとして保存します。
  3. ボーカルステムを検査します。 慎重に聞いてください。楽器の流出やアーティファクトに注意してください。著しい流出は、出力が可聴ノイズを持つことを意味します。別のセパレータモデルを試すか、オーディオエディタでステムを手動でクリーニングする必要があるかもしれません。
  4. 音声モデルを選択またはトレーニングします。 ターゲット音声のAI音声変換互換モデルを見つけるか、クリーン参照オーディオを使用してあなた自身をトレーニングしてください。トレーニングの場合は、カスタム音声モデルをトレーニングする方法を参照してください。推奨される録音設定とデータ要件をご覧ください。
  5. AI音声変換を実行します。 ボーカルステムと選択されたモデルを変換ツールに読み込みます。ピッチシフトを設定します(ソーシンガーとターゲット音声が異なるレジスターにある場合、±2~6セミトーンシフトする必要があるかもしれません)。変換を実行します。
  6. 聞いてと反復します。 変換されたボーカルをエクスポートします。アーティファクト、ピッチのグラグラ、または過度なスムーズ化をリッスンします。ピッチ補正強度を調整し、必要に応じて再度試してください。
  7. ミックスと出力。 変換されたボーカルとインストルメンタルステムをDAWまたはオーディオエディターにインポートします。配置、レベルマッチ、オプションで軽いリバーブを追加してボーカルをミックスに混ぜて、最終ファイルをエクスポートします。

曲用ボイスチェンジャーAI:リアルタイム対オフライン処理

これは、人々がしばしば混同する2つの異なるユースケースです。

モードソースオーディオレイテンシ最適な用途
リアルタイムあなたのライブ音声(マイク)30~100ミリ秒ストリーミング、ライブパフォーマンス、異なるティンバーでの録音
オフライン事前に録音されたファイル(ボーカルステム)なし(バッチ)既存トラックからのAIカバー曲

リアルタイム曲ボイスチェンジャーAIはマイク入力を処理し、その場で変換します。マイクに歌い、聴衆または記録がターゲット音声を聞きます。誰かの音声スタイルでライブで曲を実行したい場合、または変換された音声で自分自身を歌うことを記録したい場合に便利です。VoxBoosterはAIベースのリアルタイム変換とカーネルドライバ要件なしでこれを処理します。これは、システム干渉を低くし、長いセッション中のパフォーマンスをより安定させることを意味します。

オフラインモードは、あなた自身が歌わない曲のAIカバーを作成するために使用するものです。ステムを分離し、ボーカルファイルに対してバッチ変換を実行し、結果をリミックスします。VoxBoosterのオフライン処理モードはWAVおよびMP3入力を受け入れ、変換パイプラインをローカルで処理します。オーディオはマシンを離れません。これは、未発表の資料を扱うときに重要です。

リアルタイムとオフラインの間の選択は品質についてではありません。オフラインは通常、レイテンシ圧力がないためにクリーンな結果を生成します。ただし、開始するソースオーディオの種類についてです。

AIカバーの品質を決定するもの

3つの要因は他のすべてより重要です。

1。音声モデル

10分のクリーンな隔離されたボーカルでトレーニングされた音声モデルは、常に背景ノイズとリバーブを含む3分間のオーディオでトレーニングされたモデルを上回ります。モデルはトレーニングデータからターゲット音声の特性を学習します。それに悪いデータを与え、それは低品質の表現を学びます。

カスタム音声モデルをトレーニングしている場合は、静かな環境で、マイクの近くで、重い処理なしで記録してください。AI音声変換トレーニングパイプラインはいくつかの前処理を行いますが、ガベージは入手することを意味し、ガベージは出ます。

コミュニティ共有モデルは大きく異なります。プロフェッショナルに隔離されたスタジオボーカル(アカペラ録音、リークされたボーカルステム、公式リミックスからの隔離トラック)でトレーニングされたモデルは、一般的にあなたが見つけた最高です。

2。ステム分離クリーンス

これは、ほとんどの初心者が過小評価するステップです。10%の楽器流出を含むボーカルステムは、可聴アーティファクトを含む変換された出力を生成し、どのポストプロセッシング量も完全には除去されません。ここに時間を費やしてください。異なるセパレータモデルを比較してください。Demucsのhtdemucs_ftモデルは、一般的に音楽の最強のオープンソースオプションと見なされます。

3。ピッチ設定

AI音声モデルは、ソース音声とターゲット音声が同じレジスターにある場合に最良に機能します。バリトンボーカルをソプラノ音声モデルに変換する場合、変換の前または最中に入力を複数の半音シフトする必要があります。ほとんどのAI音声変換ツールは、ピッチ補正パラメーター(「f0ピッチ」またはセミトーンでのピッチシフト)を公開します。実験。小さな調整は大きな違いを作ります。

著作権と権利:あなたが知る必要があること

このセクションは法的なアドバイスではありません。それは、権利の風景が実践でどのように機能するかの正確な要約です。なぜなら、AIカバー曲を作成せずに理解することは、人々がアカウントを取得する方法であり、法的な通知を受け取るためです。

構成と記録

このWikipediaのカバーバージョン概要で説明されているすべての曲には2つの異なる著作権があります:

  • 音楽構成 — メロディとリリック、作曲家またはパブリッシャーが所有
  • サウンド記録 (マスター) — 特定の記録されたパフォーマンス、レコードレーベルまたはアーティストが所有

カバーを作成するときは、他の誰かの構成の新しいサウンド記録を作成します。構成の機械的なライセンスが必要です。米国では、Songfileなどのサービスまたは配布プラットフォームに組み込まれたカバー曲ライセンス機能を通じて入手できます。元のマスターを保有するレーベルからの許可は必要ありません。あなたは彼らの記録を使用していません。

ただし、元のボーカルステムに対してAI音声変換を使用する場合、元のマスター記録から開始します。それは分析を変えます。ステム分離とボイス変換はマスター著作権から保護しません。著作権で保護された記録からそのボーカルを抽出しました。

アーティスト音声モデルの使用

実在のアーティストの音声でAI音声モデルをトレーニングし、それを使用してカバーを作成することは、異なる問題を提起します:公開の権利、そしますます、AI音声固有の法律。複数の米国の州がAIで生成されたコンテンツで音声の類似性の無許可使用から個人を保護する法律を成立させました。EUのAI法にはこの分野の規定が含まれています。Wikipediaの音楽著作権の基本を確認して、基本的なコンテキストを参照してください。

実際的には:許可なくYouTube、Spotify、またはTikTokで認識可能なアーティスト音声モデルを使用するAIカバーを投稿することは、コンテンツクレーム、削除、またはアカウントストライクをもたらす可能性があります。レーベルと権利保有者は自動化検出ツールを使用します。

プラクティスでのプラットフォームルール

  • YouTube: 元のマスター(変換済みでも)を使用するコンテンツはContent IDの下で請求される場合があります。権利保有者は広告収益を取得します。あなたはポリシーに応じて露出または削除を取得します。
  • Spotify / 配布: ほとんどのディストリビューターは、すべてのオーディオの権利を持っていることを認定する必要があります。承認なしでメジャーレーベルステムから作成されたAIカバーを提出することは、ディストリビューターの利用規約に違反します。
  • TikTokとInstagram: 同様のContent IDスタイルシステム。元のマスター記録のカバーは自動的にフラグが付けられます。

公開リリースの最も安全なルート:機械的なライセンスの下で元の構成を使用し、独自のインストルメンタル記録を記録するか(またはライセンスされたバッキングトラックを使用)、あなた自身の声またはあなたの使用を明示的に認可した誰かでトレーニングされたAI音声モデルを使用します。

AIカバー曲ジェネレータを選択:何を探すか

「AIカバー曲ジェネレータ」という用語は、クラウドウェブアプリからローカルツールまでのすべてをカバーしています。評価するべきことは次のとおりです。

処理場所: クラウドツールは便利ですが、レイテンシ、プライバシーの懸念、および1変換あたりの料金を導入します。VoxBoosterやAI音声クローン開始ソフトウェアなどのローカルツールはマシン全体で実行されます。オーディオはアップロードされません。これは、未発表の資料または機密コンテンツに重要です。

モデル互換性: ほとんどの深刻なツールはAI音声変換互換モデル形式(.pthファイル)を使用します。コミュニティモデルは広く共有され、エコシステムは大きいです。独自のモデル形式にロックされたツールはオプションを制限します。

オフライン機能: 移動、制限付き環境での作業、またはクラウドの依存を望まない場合、オフライン処理は不可欠です。VoxBoosterはインストール後、インターネットアクセスなしで実行されます。

ステム分離統合: 一部のツールはステムを自分で分離し、ボーカルのみを持ってくることを要求します。他の人は完全なパイプラインを処理します。エンドツーエンドツールは摩擦を減らしますが、各ステップで制御が少なくなります。

リアルタイムサポート: ライブパフォーマンスまたはストリーミングがワークフローの一部である場合、低レイテンシのリアルタイムモード(バッチ処理だけではなく)を備えたツールが必要です。

より良い結果のためのヒント

  • ボーカルステムを約-3 dBFSに正規化してください、変換の前にクリッピングアーティファクトを避けるために
  • 入力で重いリバーブを避けてください。モデルはリバーブを音声の一部として扱い、変換を曇ります
  • 全セミトーンではなく半セミトーン段階でピッチシフトを試してください、より高い精度のため
  • 複数のフォルマント設定で出力を比較してください、ツールが独立したフォルマントシフトを公開する場合、時々小さな上向きフォルマントシフトは出力を「ロボット的」に聞こえない
  • 最初に短いテストクリップ(30秒)を処理してください、完全なトラックを実行する前に設定を調整するために
  • VoxBoosterのAIボイスチェンジャー機能を使用して、ベース変換の上にキャラクターエフェクトを追加したい場合、リアルタイムで変換されたボーカルに追加処理をレイアウトしてください

よくある質問

AIカバー曲作成に最適な曲用ボイスチェンジャーは何ですか? 単一の答えはありません。ワークフローに依存します。クラウド料金なしでオフライン処理を希望するWindowsユーザー向けに、VoxBoosterはAIベースの音声変換と統合されたステム分離を組み合わせています。純粋な実験には、AI音声クローン開始ソフトウェアが最も柔軟なオプションです。品質はラッパーアプリより音声モデルとステム分離のクリーン度に依存します。

AIカバー曲を作成するにはGPUが必要ですか? GPUは処理を大幅に高速化します。最新のNVIDIAカードは3分間のボーカルを1分以内に処理できます。CPU専用処理は機能しますが遅い(トラックあたり5~15分)です。VoxBoosterなどのツールやAI音声クローン開始ソフトウェアを使用したオフライン変換の場合、NVIDIA CUDAが最良の結果を提供します。AMD ROCmは互換の構成でも機能します。

YouTubeまたはSpotifyにAIカバー曲をアップロードすることは法的ですか? それはあなたの権利の状況に依存します。基礎となる構成の機械的なライセンスが必要です。元の記録のボーカルステムをソースとして使用した場合、マスター著作権も再生されます。実在のアーティストに基づくAI音声モデルを使用する場合、そのレーベルまたは権利所有者がビデオを請求またはブロックする場合があります。通常、収益化または配布する前に権利を明確にしてください。これは法的なアドバイスではありません。

曲からボーカルを分離するにはどうすればよいですか? Demucs(オープンソース)または商用サービスなどのステム分離ツールは、ボーカル、ドラム、ベース、その他の楽器に混合オーディオファイルを分割します。完全な曲を入力し、隔離されたステムを受け取ります。品質は大幅に改善されましたが、いくつかの流出は通常、特に密度の高いまたは高度に圧縮されたアレンジで正常です。htdemucs_ft Demucsモデルは強い始まりです。

曲の音声をリアルタイムで変更できますか? リアルタイム音声変換はライブシンギングとストリーミングで機能します。マイクに歌い、AI音声モデルはあなたの声をその場で変換します。事前に録音された曲の場合、ステム分離後のオフライン処理が正しいワークフローです。2つのモードは異なる目的を果たし、交換可能ではありません。

カスタム音声モデルをトレーニングするのに必要なオーディオはいくつですか? ほとんどのAI音声クローンツールでは、使用可能なモデルに3~10分のクリーンで隔離されたボーカルが必要です。より多くのクリーンデータは、通常、より多くの総データを打ち負かします。背景ノイズ、リバーブ、楽器の流出はすべてモデルの精度を低下させるため、トレーニング前の高品質のボーカル分離が重要です。

最高のAIカバー品質のために使用するオーディオ形式は何ですか? ステムを44.1 kHzまたは48 kHzで32ビット浮動小数点WAVとしてエクスポートします。重い圧縮を避けてください。256 kbps未満のMP3はアーティファクトを導入し、音声変換モデルは増幅します。最もクリーンな出力のためにロスレスまたはほぼロスレスオーディオをAI音声変換パイプラインに供給します。

結論

AIカバー曲を作成することは、マルチステップの工芸です:ステム分離、音声モデル選択、AI音声変換、ミキシング。各ステップには独自の品質レバーがあり、どこに焦点を当てるかを理解すると、結果は急速に改善されます。著作権の風景は実際であり、何かを公開する前に真摯に受け止める価値があります。

ローカルで実験して、クラウドサービスにオーディオをアップロードしたい場合は、VoxBoosterをダウンロードして、オフラインボーカル変換パイプラインを試してください。Windows PCで完全に実行され、リアルタイムとオフライン処理を処理し、コミュニティAI音声モデルの完全な範囲をサポートしています。プランの詳細については価格ページを確認するか、音声クローンの詳細を読んで、カスタムモデルから最大限を引き出す方法を理解してください。

VoxBoosterを試す — 3日間無料。

リアルタイム音声クローン、サウンドボード、エフェクト — 会話するすべての場所で。

  • カード不要
  • ~30msのレイテンシ
  • Discord · Teams · OBS
3日間無料で試す