(なんか強そうなタイトルになってしまう…
茂野です。
ENUNUモデル制作が約3週間~1か月で3.4万ラベルに到達し、ひと段落しました。
成果をTwitterで断続的に?投稿していて、自分でも見づらいのでここでまとめようと思います。
少ないラベル数での比較はあまりないのでは?と思ったため、まとめてみました。
思ったより見づらくなりましたが…
また、SKIMAにてラベリングや歌唱DB裏方作業全般、歌唱合成モデル作成などの有償依頼の受付を開始しました。
ラベリングについては、後日解説動画など作成したいな~とは思っておりますが、取り急ぎできるところから、と思い開始に至った次第です。
時間の取れない方、作業がよくわからない方などぜひご利用ください。
本記事でまとめている少数ラベルによるモデルの結果が参考になるかと思います。
個人的には思ったよりも歌ってくれます。
3万ラベルくらいまでいけると、かなり明瞭に、ピッチも外さずに歌ってくれます。
比較についてです。
基本的にCrazY様のENUNU training kitにて学習しています。
通常学習モデル→同梱run.batにて作成できるモデル
RMDN学習モデル→同梱run_rmdn.batにて作成できるモデル
拡散モデル→NNSVS本体?にて作成するモデル カノン様にご指導いただきました。
曲は、ナカノは4番様のGPS
曲数目安は、J-POP800ラベル、童謡300ラベル程度としています。
3900ラベル 通常学習モデル J-POP5曲~、童謡15曲~程度
https://x.com/tsumiki49/status/1780921810961531380
8000ラベル 通常学習モデル J-POP10曲~、童謡30曲~程度
https://x.com/tsumiki49/status/1781359887869677964
10000ラベル 通常学習モデル J-POP13曲~、童謡35曲~程度
https://x.com/tsumiki49/status/1781944588506472887
10000ラベル RMDN学習モデル
https://x.com/tsumiki49/status/1782008265368543576
17000ラベル 通常学習モデル J-POP20曲~、童謡55曲~程度
https://x.com/tsumiki49/status/1783747778516251053
17000ラベル RMDN学習モデル
https://x.com/tsumiki49/status/1783795510543077812
同17000ラベルの本家UTAUでのENUNU出力結果
https://x.com/tsumiki49/status/1783893720200540337
30000ラベル 通常学習モデル J-POP40曲~、童謡100曲~程度
https://x.com/tsumiki49/status/1786061259303174550
34000ラベル 拡散モデル J-POP43曲~、童謡115曲~程度
https://x.com/tsumiki49/status/1786782643746721971
30000ラベル通常学習モデルと、34000ラベルRMDN学習モデル比較
曲は(仮)P様の透明交差点
https://x.com/tsumiki49/status/1788358734806401441