真黎葡也能心滿意足的【音頻分離教程】
音頻分離教程:分離人聲與伴奏,用于制作切片去除背景音樂、偽合唱、歌切替換伴奏、完整歌曲拼湊等。
1.Adobe Audition中置聲道提取
2.伴奏反相提取人聲
3.采用AI算法的軟件RX10
4.最強(qiáng)軟件UVR5詳解

1.用Adobe Audition的中置聲道提取功能
該效果原理就是把音頻左右聲道完全一樣的聲音提取出來,人聲正處于這個(gè)原理,所以后期制作時(shí)追求達(dá)到更好的人聲質(zhì)量,去除直播時(shí)附帶的bgm,就可以用這方法


低音人聲通常代表男聲,高音人聲通常代表女聲
一般歌曲或者直播內(nèi)容中右邊中心聲道電平為人聲,側(cè)邊聲道電平為伴奏,當(dāng)然也有部分特殊的
通過左下角綠色的開關(guān)按鈕來預(yù)覽效果,中心聲道電平調(diào)到0~10dB之間,側(cè)邊聲道電平調(diào)到-30~-45dB即可,新手其余參數(shù)可不調(diào),覺得差不多了就可以應(yīng)用效果了。
一時(shí)間搗鼓不懂可以在該窗口上方預(yù)設(shè)那里選擇選擇無伴奏合唱

在鑒別選項(xiàng)卡中還有更多參數(shù)可調(diào),這方面內(nèi)容確實(shí)較多就自己搗鼓學(xué)習(xí)吧!
在adobe官方文檔中有對這些參數(shù)的說明:https://helpx.adobe.com/cn/audition/using/stereo-imagery-effects.html


當(dāng)然Audition的中置聲道提取效果其實(shí)并不好,在遇到音頻某一頻段缺失細(xì)節(jié)的情況,可以簡單用FFT濾波器增加
首先點(diǎn)擊多軌(或者右鍵新建),設(shè)置合適的采樣率和位深度(通常選擇和源文件相同的屬性,B站hires規(guī)格則要求48000hz ?24bit以上)

按住alt鍵,左鍵拖動要復(fù)制的音頻到空白軌道,點(diǎn)選軌道,在效果組-音軌效果-點(diǎn)擊三角形按鈕-濾波與均衡-FFT濾波器

例:切掉200hz以上的頻率,即復(fù)制了一條低頻軌道,為歌曲增加了低頻細(xì)節(jié)

導(dǎo)出多軌混音(B站hires支持FLAC、WAV、PCM等無損格式)



2.伴奏反相提取人聲
如果有原版歌曲伴奏和混音成曲的話,這個(gè)提取出來的人聲是最干凈的,但是基本不適用于直播歌切的音頻
au建立一個(gè)多軌道會話,把原曲和伴奏都拖進(jìn)去放在兩個(gè)軌道上,按住alt滾輪把峰值圖拉大,如下:

放大到

將伴奏軌和原唱軌對齊,連峰值也要對齊

然后雙擊伴奏軌,在上方效果欄選擇反相效果,然后回到多軌會話

一邊播放調(diào)節(jié)伴奏軌道音量大小,當(dāng)伴奏音量和原唱伴奏的音量大小一致的時(shí)候,剩下的就是清楚的人聲了,然后原封不動導(dǎo)出多軌會話就行了,如果沒用說明兩軌還沒完全對齊


3.RX10
iZotope RX10官網(wǎng):https://www.izotope.com/en/products/rx.html
(網(wǎng)盤分享有中文版WIN修改版)https://pan.quark.cn/s/ab8ac0694c1e
RX10所有功能都是以插件的形式使用,同時(shí)也可以添加到其他軟件中作為插件。
RX10也有中置聲道提取的插件,和AU類似,基本通用。

另外還有基于算法的音樂再平衡插件,音頻被分為人聲、貝斯、打擊樂和其他四類元素,通過降低其他三個(gè)混合元素的電平達(dá)到分離人聲的效果。

其他插件也建議學(xué)習(xí)一下,修復(fù)雜音、口水音、降噪等等插件都非常好用,具體B站搜索RX10教程都有嗷!?。?a target="_blank" >https://www.bilibili.com/video/BV1By4y1s77H/

4.最強(qiáng)軟件UVR5詳解(目前最好用)
開源地址:https://github.com/Anjok07/ultimatevocalremovergui
網(wǎng)盤也有分享可以下載
主界面其他選項(xiàng):(選擇不同算法有不同模型和選項(xiàng))
GPU Conversion:勾選即可使用cuda加速(現(xiàn)在mac也可以勾選,如果不勾選的話,只用CPU處理會很慢)
Instrumental Only:只保存伴奏(instrumental)文件,即不保存人聲文件
Vocals Only:只保存人聲(Vocals)文件,即不保存伴奏文件
Sample Mode:試用模型,測試效果
Select saved settings:保存預(yù)設(shè)

具體操作如下:
對新手來說按照下圖這樣操作就行,如果提取人聲就在第四步后點(diǎn)擊Save Vocals Only,想提取伴奏就點(diǎn)擊Save Instrumental Only就好啦,二選一嗷?。?!
在下平常提取人聲算法選擇的是VR Architecture的4_HP-Vocal-UVR.pth模型,提取伴奏常用MDx-Net的 UVR-MDX-NET-Main模型
在下電腦不好不敢飛,怕哪天整炸了數(shù)據(jù)全沒了,有興趣的可以自己多試試其他模型

進(jìn)階教程嗷,搗鼓熟悉了可以看下,沒搗鼓懂的可以不看
初始模型+額外模型:
這款軟件是將三個(gè)主流算法的模型集中使用的GUI版本,而三個(gè)算法在進(jìn)行比賽又會經(jīng)常更新模型,導(dǎo)致現(xiàn)在模型非常多。多就算了,還沒有一個(gè)說明文檔能查,所以下面的模型部分只能靠經(jīng)驗(yàn)簡單介紹一下了。
算法:可以選擇不同的Al算法模型來處理音頻。
? VR Architecture
這些模型使用幅度譜圖進(jìn)行信源分離(VR是索尼的AI算法)
? MDx-Net
這些模型使用混合頻譜/波形進(jìn)行源分離(處理高音質(zhì)音頻的AI算法,對人聲的識別提取能力強(qiáng)大,就是慢一些)
? Demucs
這些模型使用混合頻譜/波形進(jìn)行源分離(Demucs是Facebook開源的聲音分離模型,可以分離人聲和樂器)
? Ensemble Mode (合奏模式)
用這個(gè)可以從多個(gè)算法模型中荻得最佳結(jié)果。
? Audio Tools:包含伸縮對齊等工具
在VR Architecture算法下:
Aggression Setting:
數(shù)值越大,清除人聲的力度就越大,默認(rèn)的10就可以,已經(jīng)可以完全消除人聲
較高的值執(zhí)行更深的提取
樂器和聲樂模型的默認(rèn)值為 10
超過 10 的值可能會導(dǎo)致抽取伴奏的模型的結(jié)果中的樂器部分聽起來渾濁

V5是新模型,V4模型可以忽略不使用了
1_HP-UVR.pth:非常強(qiáng)的伴奏提取模型(默認(rèn)加載的模型,主要推薦)
2_HP-UVR.pth:基于1_HP-UVR.pth的微調(diào)模型
3_HP-Vocal-UVR.pth:用于人聲提取,人聲部分會很清晰,但伴奏部分可能會變得渾濁
4_HP-Vocal-UVR.pth:用于人聲提取,但是比3_HP-Vocal-UVR.pth更加強(qiáng)勢(Aggressive)
5_HP-Karokee-UVR.pth:保留和聲的模型
6_HP-Karaoke-UVR.pth:作用同5_HP-Karokee-UVR.pth一樣
7_HP2-UVR.pth:使用了更多的數(shù)據(jù)和新參數(shù)訓(xùn)練的超強(qiáng)伴奏提取模型
8_HP2-UVR.pth:超強(qiáng)伴奏提取模型(提取伴奏推薦)
9_HP-UVR.pth:基于8_HP2-UVR.pth微調(diào)的模型
10-16沒有官方說明,應(yīng)該是微調(diào)版本吧,V4是老模型
在MDx-Net算法下:
? Chunks(塊)
這個(gè)選項(xiàng)允許用戶減少(或增加)RAM 或 V-RAM 的使用
較小的塊大小使用更少的 RAM 或 V-RAM,但也可能增加處理時(shí)間
較大的塊大小使用更多的 RAM 或 V-RAM,但也可以減少處理時(shí)間
選擇“Auto” 會根據(jù)你的系統(tǒng)有多少 RAM 或V-RAM 來計(jì)算一個(gè)合適的塊大小
選擇“Ful” 將把音頻作為-
一個(gè)完整的塊來處理
"Full” 選項(xiàng)只推薦給那些電腦性能比較強(qiáng)的人
默認(rèn)選擇是 “Auto”

同名不同編號的模型,是按照比賽中得分排序的。因此使用后綴1就好了
? UVR-MDX-NET Main ?這是最強(qiáng)的模型之一,但占用的電腦資源也最多,通常情況下使用這個(gè)算法和這個(gè)模型就足夠了
? UVR-MDX-NET 1 ? UVR-MDX-NET inst 1 ?可以試試看
? 下面的模型中帶vocals字樣的都是人聲處理,可以用于提取人聲(kuielab模型優(yōu)勢在于精準(zhǔn)識別單一樂器或人聲軌道)
在Demucs算法下:
? Choose Stem(s)(選擇音軌)
你可以選擇使用選定的模型提取哪個(gè)音軌
音軌的選擇:
所有音軌一保存模型能夠提取的所有音軌
人聲一只提取人聲音軌
其他- 只提取其它音軌
貝斯一只提取貝斯音軌
鼓-只提取鼓的音軌
? Segments (分塊)
這個(gè)選項(xiàng)允許用戶減少(或增加)RAM 或 V-RAM 的使用
較小的塊大小使用更少的 RAM 或 V-RAM, 但也可能增加處理時(shí)間
較大的塊大小使用更多的 RAM 或 V-RAM,但也可以減少處理時(shí)間
一般默認(rèn)即可

htdemucs:第一個(gè)版本,默認(rèn)模型。
htdemucs_ft:微調(diào)版本,分離將花費(fèi)4倍的時(shí)間 但可能會好一點(diǎn)。與第一個(gè)版本相同的訓(xùn)練集。
htdemucs_6s:6 個(gè)軌道版本 。
hdemucs_mmi:混合 Demucs v3模型重新訓(xùn)練。
mdx:之前比賽里的第1名,最高質(zhì)量的模型。
mdx_extra:使用額外的訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,比賽第2名。
mdx_extra_q :以前模型的量化版本。更小的下載和存儲但質(zhì)量可能會稍差一些。(速度快一些,電腦負(fù)載?。?/span>
V3其他模型都是微調(diào)
V1 V2是輸出2軌的老模型,可以忽略

還有個(gè)合奏模式在下就不詳細(xì)說了,對于平常的話這幾個(gè)模型夠用了(其實(shí)在下也還沒整明白,怕誤人子弟諸位見諒)具體的可以看這位“痕繼痕跡”up主(BV1ga411S7gP)UVR5的介紹視頻哈,簡單且用心,推薦!
手動合奏移到設(shè)置的選項(xiàng)卡里面了





5.注意事項(xiàng)
這些也只是在下覺得比較實(shí)用的一些方法,在下也只是會點(diǎn)三腳貓功夫,希望能夠幫到諸位學(xué)習(xí),有錯(cuò)之處望諸位指出!??!
另外每一次處理都是對音頻的損害,正常情況下是沒辦法做到完美分離出伴奏或者人聲的,能做到的只能是更多的保留目標(biāo)音頻的細(xì)節(jié),例如想為卡姐直播唱的歌換個(gè)伴奏,能做到也只能是在人聲提取時(shí)盡可能的保存細(xì)節(jié),目前是不可能達(dá)到完美分離的,完美主義者們可能失望了?。。?/p>
如果有辦法請務(wù)必教導(dǎo)在下,閣下若能親自指點(diǎn),那必是感激不盡!?。?/p>

星律動周報(bào)素材(阿里云盤):大家有想要分享的文件可以發(fā)給我上傳https://www.aliyundrive.com/s/az2yyNgyrmR 提取碼:1234
PSD/軟件分享(夸克網(wǎng)盤):https://pan.quark.cn/s/ab8ac0694c1e
