国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

個人記錄VITS使用問題(先發(fā)一些,持續(xù)摸索)

2023-02-27 02:30 作者:末夜の十字  | 我要投稿
  1. 不要感覺配置高就堆batch

    之前看教程,別人演示的batch=2,說顯存高可以配置高點,我想我的24G顯存不能浪費,直接填了12。

    so-vits-svc環(huán)境安裝和AI訓練提供的文檔中,up主提到,global-step每1000步存一次,global-step=訓練集數(shù) * epoch / batch-size。

    訓練集數(shù)是固定的,batch_size越高,達成同樣global-step就需要越多的epoch,在8 batch-size下,我推理1000個global_step用了15分鐘,而我換成2 batch-size后,洗個澡出來就7000global-step了,增加了迭代速度可以更容易的分辨出訓練結(jié)果的好壞。

    同時提供一個不確定的觀點:數(shù)據(jù)集少的情況下,batch-size不要調(diào)太大。我在看diffusion ai生成圖片教程5分20秒時,up主提到過,batch還要根據(jù)訓練集數(shù)量來決策,我是從游戲和官方互動視頻提取的音源,數(shù)據(jù)集不多,加起來不到30分鐘,分成10秒片段,也就不到200個,因此我在batch-size=8時,訓練到G10000,感覺效果不如batch-size=2時,訓練到G7000。

  2. 音高的調(diào)整

    女翻唱男時,音高不變的情況下很難聽出是女聲,一般會提高3-7個音高。但提高音高后會出現(xiàn)高音嘶啞、破桑唱不出來等情況。

    不太懂AU的操作,我能想到的是多推理幾種音高,然后用AU合成。

    或者可以試試AU的頻譜頻率顯示器(Shift+D),明顯的瑕疵一般能在頻域內(nèi)發(fā)現(xiàn),比如有些混音能在低頻區(qū)發(fā)現(xiàn)多一些亮的片段,擦除就能恢復正常;有的是聲音頻率不對,高頻區(qū)跑低頻區(qū)去了,這個我不知道怎么修復。


個人記錄VITS使用問題(先發(fā)一些,持續(xù)摸索)的評論 (共 條)

分享到微博請遵守國家法律
桃园市| 云浮市| 洞口县| 岑溪市| 遵义县| 农安县| 独山县| 尉犁县| 吴忠市| 香格里拉县| 兴宁市| 赣州市| 荥阳市| 姜堰市| 思茅市| 鹤壁市| 盘山县| 锦屏县| 五华县| 西华县| 沙湾县| 烟台市| 平顺县| 大田县| 娄底市| 高邮市| 青神县| 象山县| 八宿县| 玛沁县| 新邵县| 蒲城县| 五指山市| 剑河县| 唐海县| 上杭县| 曲周县| 屏南县| 西藏| 阿城市| 金平|