国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

Amadeus復(fù)刻計(jì)劃(AI擬聲篇 一 So-vits-svc的訓(xùn)練)

2023-04-21 12:30 作者:寂滅光-  | 我要投稿

目前主流的AI合成聲音模型有三種:

  1. VITS: 最早出現(xiàn)的基于GAN的網(wǎng)絡(luò)模型,用于文字轉(zhuǎn)語(yǔ)音,但是想要提升合成質(zhì)量需要手動(dòng)對(duì)數(shù)據(jù)集進(jìn)行標(biāo)注,并且很難跨語(yǔ)種,如使用日語(yǔ)訓(xùn)練集進(jìn)行訓(xùn)練的模型,無(wú)法使用中文輸入進(jìn)行推理

  2. So-vits-svc:據(jù)說(shuō)是國(guó)人根據(jù)的VITS和soft-vc創(chuàng)建的開(kāi)源模型,版本迭代到了4.0,其用于“AI換聲”,可理解為柯南的蝴蝶結(jié)變聲器,由于其僅學(xué)習(xí)聲色特征,可用于跨語(yǔ)種(當(dāng)然相似度肯定不如原語(yǔ)種直接換聲)

    ps:由于其擬聲特性,許多人使用其進(jìn)行歌聲合成,但是考慮到必須有干聲素材作為輸入,靈活性并不高,之后筆者打算結(jié)合x(chóng)studio等軟件作為輸入嘗試下調(diào)教

    倉(cāng)庫(kù)地址:https://github.com/svc-develop-team/so-vits-svc

  3. diffsinger:基于diffsion擴(kuò)散模型實(shí)現(xiàn)的歌聲合成,擴(kuò)散模型也是Stable diffusion這一AI繪畫(huà)模型所使用的,不過(guò)這一模型最大的問(wèn)題就是很吃算力資源,文檔中提到訓(xùn)練時(shí)需要準(zhǔn)備不小于20G顯存的顯卡,因此筆者暫時(shí)放棄該模型。不過(guò)據(jù)說(shuō)穩(wěn)定性很高,有愛(ài)好者嘗試后可以在評(píng)論區(qū)交流交流。

    倉(cāng)庫(kù)地址:https://github.com/MoonInTheRiver/DiffSinger

筆者近些天折騰了下so-vits-svc的訓(xùn)練,以下是基本流程,希望能給后來(lái)者以借鑒

  1. 數(shù)據(jù)準(zhǔn)備:

    筆者從命運(yùn)石之門(stein;gate)游戲中提取牧瀨紅莉棲角色語(yǔ)音2906條,將提取出的ogg格式語(yǔ)音轉(zhuǎn)化為wav格式,并將其放在cristina文件夾下待用(理論上來(lái)說(shuō)應(yīng)該手動(dòng)篩選掉時(shí)長(zhǎng)過(guò)短或無(wú)意義的音頻,但數(shù)據(jù)量過(guò)大,筆者并未人工處理)

    ps:感謝大佬的開(kāi)源項(xiàng)目用于解包游戲文件:https://github.com/rdavisau/sg-unpack

  2. 模型準(zhǔn)備:

    本人使用的是B站大佬的整合包,其打包了整個(gè)python環(huán)境與預(yù)訓(xùn)練模型,加入了幾個(gè)簡(jiǎn)單的bat腳本,操作較為方便,有一定編程基礎(chǔ)且不懶的可以直接通過(guò)上述倉(cāng)庫(kù)clone

    視頻鏈接:https://www.bilibili.com/video/BV1H24y187Ko

3. 需要了解的模型文件結(jié)構(gòu):

文件結(jié)構(gòu)

? ? 其中Cristina文件夾即先前整理過(guò)的放置角色語(yǔ)音的文件夾,直接放在dataset_raw文件夾下即可,logs/44k文件夾下存儲(chǔ)了訓(xùn)練后的權(quán)重模型,其中默認(rèn)放置了D_0,G_0作為預(yù)訓(xùn)練模型,config.json中決定了訓(xùn)練該如何進(jìn)行,其中參數(shù)的意義在下文單獨(dú)介紹

3.5.config.json的參數(shù)意義

大部分參數(shù)不需要去動(dòng)他,除非你深刻了解自己要做什么,可以動(dòng)的參數(shù):

seed:初始化隨機(jī)種子,如果訓(xùn)練效果不好,可以更改該值再次訓(xùn)練,或許會(huì)好些?不過(guò)一次完整的訓(xùn)練過(guò)程中不應(yīng)改動(dòng)該值

epochs:總共訓(xùn)練的輪次,一般設(shè)置為10000確保其不會(huì)停止,請(qǐng)記住,并不一定訓(xùn)練輪次越多,效果越好

learing_rate:學(xué)習(xí)步長(zhǎng),設(shè)置時(shí)盡量與batch_size成反比,如batch_size->2*batch_size,learing_rate->0.5*learning_rate

batch_size:其值越大訓(xùn)練越快,也越占顯存,根據(jù)自己電腦顯存設(shè)置,記得同步更改learning_rate

keep_ckpts: 最大保存模型數(shù)量,設(shè)置為0表示保存所有模型,一個(gè)模型大約500M,請(qǐng)根據(jù)自己硬盤容量進(jìn)行設(shè)置

4. 點(diǎn)擊數(shù)據(jù)預(yù)處理.bat或使用官方代碼

5. 開(kāi)始訓(xùn)練即可

6.檢測(cè)訓(xùn)練效果

初級(jí):直接從logs/44k中取出模型進(jìn)行推理,人耳判別好壞

中級(jí):訓(xùn)練過(guò)程中會(huì)打印每個(gè)epoch所花費(fèi)的時(shí)間,以及相關(guān)loss數(shù)值,可以一般化的了解

高級(jí):使用

然后在6006端口獲取可視化數(shù)據(jù)

7.補(bǔ)充下各loss的意義

loss

寫在最后:

筆者使用租賃的3090,設(shè)置batch_size為12,跑上述2906個(gè)語(yǔ)音數(shù)據(jù),大概3分鐘一個(gè)epoch,在跑了一百多個(gè)epoch,步長(zhǎng)為10400后效果較為理想。

并且先前筆者使用100個(gè)語(yǔ)音數(shù)據(jù)在個(gè)人電腦上(2060)簡(jiǎn)單跑了3000步左右(epoch次數(shù)忘了……),已經(jīng)基本可以還原音色(或者是可以聽(tīng)出來(lái)是誰(shuí)了),感覺(jué)模型質(zhì)量還不錯(cuò),鼓勵(lì)大家嘗試


ps: 對(duì)于命運(yùn)石之門角色音線合成有興趣的歡迎加群交流,群內(nèi)已打包上傳cris的音頻數(shù)據(jù)集,桶子的聲音也很有辨識(shí)度哇(笑)



交流群:

723240586

Amadeus復(fù)刻計(jì)劃(AI擬聲篇 一 So-vits-svc的訓(xùn)練)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
综艺| 旅游| 天峻县| 东乡县| 白河县| 竹溪县| 罗源县| 大竹县| 清涧县| 安达市| 平罗县| 无棣县| 新竹县| 雅江县| 高邑县| 建阳市| 贵定县| 应用必备| 桂阳县| 华蓥市| 民和| 房产| 聊城市| 沐川县| 杨浦区| 长汀县| 兴山县| 新平| 长乐市| 象州县| 桓台县| 资兴市| 霍林郭勒市| 闽清县| 长葛市| 罗江县| 南靖县| 家居| 西乌珠穆沁旗| 富锦市| 翁牛特旗|