手機(jī)站首頁散文詩歌雜文隨筆日記小小說

散文網(wǎng) » 生活 »日常 » 真黎葡也能心滿意足的【音頻分離教程】

真黎葡也能心滿意足的【音頻分離教程】

2023-02-19 20:48 作者:星律動周報(bào) 0人讀過 | 我要投稿

音頻分離教程：分離人聲與伴奏，用于制作切片去除背景音樂、偽合唱、歌切替換伴奏、完整歌曲拼湊等。

1.Adobe Audition中置聲道提取

2.伴奏反相提取人聲

3.采用AI算法的軟件RX10

4.最強(qiáng)軟件UVR5詳解

1.用Adobe Audition的中置聲道提取功能

該效果原理就是把音頻左右聲道完全一樣的聲音提取出來，人聲正處于這個(gè)原理，所以后期制作時(shí)追求達(dá)到更好的人聲質(zhì)量，去除直播時(shí)附帶的bgm，就可以用這方法

低音人聲通常代表男聲，高音人聲通常代表女聲

一般歌曲或者直播內(nèi)容中右邊中心聲道電平為人聲，側(cè)邊聲道電平為伴奏，當(dāng)然也有部分特殊的

通過左下角綠色的開關(guān)按鈕來預(yù)覽效果，中心聲道電平調(diào)到0~10dB之間，側(cè)邊聲道電平調(diào)到-30~-45dB即可，新手其余參數(shù)可不調(diào)，覺得差不多了就可以應(yīng)用效果了。

一時(shí)間搗鼓不懂可以在該窗口上方預(yù)設(shè)那里選擇選擇無伴奏合唱

在鑒別選項(xiàng)卡中還有更多參數(shù)可調(diào)，這方面內(nèi)容確實(shí)較多就自己搗鼓學(xué)習(xí)吧！

在adobe官方文檔中有對這些參數(shù)的說明：https://helpx.adobe.com/cn/audition/using/stereo-imagery-effects.html

當(dāng)然Audition的中置聲道提取效果其實(shí)并不好，在遇到音頻某一頻段缺失細(xì)節(jié)的情況，可以簡單用FFT濾波器增加

首先點(diǎn)擊多軌（或者右鍵新建），設(shè)置合適的采樣率和位深度（通常選擇和源文件相同的屬性，B站hires規(guī)格則要求48000hz ?24bit以上）

按住alt鍵，左鍵拖動要復(fù)制的音頻到空白軌道，點(diǎn)選軌道，在效果組-音軌效果-點(diǎn)擊三角形按鈕-濾波與均衡-FFT濾波器

例：切掉200hz以上的頻率，即復(fù)制了一條低頻軌道，為歌曲增加了低頻細(xì)節(jié)

導(dǎo)出多軌混音（B站hires支持FLAC、WAV、PCM等無損格式）

2.伴奏反相提取人聲

如果有原版歌曲伴奏和混音成曲的話，這個(gè)提取出來的人聲是最干凈的，但是基本不適用于直播歌切的音頻

au建立一個(gè)多軌道會話，把原曲和伴奏都拖進(jìn)去放在兩個(gè)軌道上，按住alt滾輪把峰值圖拉大，如下：

放大到

將伴奏軌和原唱軌對齊，連峰值也要對齊

然后雙擊伴奏軌，在上方效果欄選擇反相效果，然后回到多軌會話

一邊播放調(diào)節(jié)伴奏軌道音量大小，當(dāng)伴奏音量和原唱伴奏的音量大小一致的時(shí)候，剩下的就是清楚的人聲了，然后原封不動導(dǎo)出多軌會話就行了，如果沒用說明兩軌還沒完全對齊

3.RX10

iZotope RX10官網(wǎng)：https://www.izotope.com/en/products/rx.html

（網(wǎng)盤分享有中文版WIN修改版）https://pan.quark.cn/s/ab8ac0694c1e

RX10所有功能都是以插件的形式使用，同時(shí)也可以添加到其他軟件中作為插件。

RX10也有中置聲道提取的插件，和AU類似，基本通用。

另外還有基于算法的音樂再平衡插件，音頻被分為人聲、貝斯、打擊樂和其他四類元素，通過降低其他三個(gè)混合元素的電平達(dá)到分離人聲的效果。

其他插件也建議學(xué)習(xí)一下，修復(fù)雜音、口水音、降噪等等插件都非常好用，具體B站搜索RX10教程都有嗷！?。?a target="_blank" >https://www.bilibili.com/video/BV1By4y1s77H/

4.最強(qiáng)軟件UVR5詳解（目前最好用）

開源地址：https://github.com/Anjok07/ultimatevocalremovergui

網(wǎng)盤也有分享可以下載

主界面其他選項(xiàng)：（選擇不同算法有不同模型和選項(xiàng)）

GPU Conversion：勾選即可使用cuda加速（現(xiàn)在mac也可以勾選，如果不勾選的話，只用CPU處理會很慢）

Instrumental Only：只保存伴奏（instrumental）文件，即不保存人聲文件

Vocals Only：只保存人聲（Vocals）文件，即不保存伴奏文件

Sample Mode：試用模型，測試效果

Select saved settings：保存預(yù)設(shè)

具體操作如下：

對新手來說按照下圖這樣操作就行，如果提取人聲就在第四步后點(diǎn)擊Save Vocals Only，想提取伴奏就點(diǎn)擊Save Instrumental Only就好啦，二選一嗷?。?！

在下平常提取人聲算法選擇的是VR Architecture的4_HP-Vocal-UVR.pth模型，提取伴奏常用MDx-Net的 UVR-MDX-NET-Main模型

在下電腦不好不敢飛，怕哪天整炸了數(shù)據(jù)全沒了，有興趣的可以自己多試試其他模型

進(jìn)階教程嗷，搗鼓熟悉了可以看下，沒搗鼓懂的可以不看

初始模型+額外模型：

這款軟件是將三個(gè)主流算法的模型集中使用的GUI版本，而三個(gè)算法在進(jìn)行比賽又會經(jīng)常更新模型，導(dǎo)致現(xiàn)在模型非常多。多就算了，還沒有一個(gè)說明文檔能查，所以下面的模型部分只能靠經(jīng)驗(yàn)簡單介紹一下了。

算法：可以選擇不同的Al算法模型來處理音頻。

? VR Architecture

這些模型使用幅度譜圖進(jìn)行信源分離（VR是索尼的AI算法）

? MDx-Net

這些模型使用混合頻譜/波形進(jìn)行源分離（處理高音質(zhì)音頻的AI算法，對人聲的識別提取能力強(qiáng)大，就是慢一些）

? Demucs

這些模型使用混合頻譜/波形進(jìn)行源分離（Demucs是Facebook開源的聲音分離模型，可以分離人聲和樂器）

? Ensemble Mode （合奏模式）

用這個(gè)可以從多個(gè)算法模型中荻得最佳結(jié)果。

? Audio Tools：包含伸縮對齊等工具

在VR Architecture算法下：

Aggression Setting：

數(shù)值越大，清除人聲的力度就越大，默認(rèn)的10就可以，已經(jīng)可以完全消除人聲

較高的值執(zhí)行更深的提取

樂器和聲樂模型的默認(rèn)值為 10

超過 10 的值可能會導(dǎo)致抽取伴奏的模型的結(jié)果中的樂器部分聽起來渾濁

V5是新模型，V4模型可以忽略不使用了

1_HP-UVR.pth：非常強(qiáng)的伴奏提取模型（默認(rèn)加載的模型，主要推薦）

2_HP-UVR.pth：基于1_HP-UVR.pth的微調(diào)模型

3_HP-Vocal-UVR.pth：用于人聲提取，人聲部分會很清晰，但伴奏部分可能會變得渾濁

4_HP-Vocal-UVR.pth：用于人聲提取，但是比3_HP-Vocal-UVR.pth更加強(qiáng)勢（Aggressive）

5_HP-Karokee-UVR.pth：保留和聲的模型

6_HP-Karaoke-UVR.pth：作用同5_HP-Karokee-UVR.pth一樣

7_HP2-UVR.pth：使用了更多的數(shù)據(jù)和新參數(shù)訓(xùn)練的超強(qiáng)伴奏提取模型

8_HP2-UVR.pth：超強(qiáng)伴奏提取模型（提取伴奏推薦）

9_HP-UVR.pth：基于8_HP2-UVR.pth微調(diào)的模型

10-16沒有官方說明，應(yīng)該是微調(diào)版本吧，V4是老模型

在MDx-Net算法下：

? Chunks（塊）

這個(gè)選項(xiàng)允許用戶減少（或增加）RAM 或 V-RAM 的使用

較小的塊大小使用更少的 RAM 或 V-RAM，但也可能增加處理時(shí)間

較大的塊大小使用更多的 RAM 或 V-RAM，但也可以減少處理時(shí)間

選擇“Auto” 會根據(jù)你的系統(tǒng)有多少 RAM 或V-RAM 來計(jì)算一個(gè)合適的塊大小

選擇“Ful” 將把音頻作為-

一個(gè)完整的塊來處理

"Full” 選項(xiàng)只推薦給那些電腦性能比較強(qiáng)的人

默認(rèn)選擇是 “Auto”

同名不同編號的模型，是按照比賽中得分排序的。因此使用后綴1就好了

? UVR-MDX-NET Main ?這是最強(qiáng)的模型之一，但占用的電腦資源也最多，通常情況下使用這個(gè)算法和這個(gè)模型就足夠了

? UVR-MDX-NET 1 ? UVR-MDX-NET inst 1 ?可以試試看

? 下面的模型中帶vocals字樣的都是人聲處理，可以用于提取人聲（kuielab模型優(yōu)勢在于精準(zhǔn)識別單一樂器或人聲軌道）

在Demucs算法下：

? Choose Stem(s)（選擇音軌）

你可以選擇使用選定的模型提取哪個(gè)音軌

音軌的選擇：

所有音軌一保存模型能夠提取的所有音軌

人聲一只提取人聲音軌

其他- 只提取其它音軌

貝斯一只提取貝斯音軌

鼓-只提取鼓的音軌

? Segments （分塊）

這個(gè)選項(xiàng)允許用戶減少（或增加）RAM 或 V-RAM 的使用

較小的塊大小使用更少的 RAM 或 V-RAM，但也可能增加處理時(shí)間

較大的塊大小使用更多的 RAM 或 V-RAM，但也可以減少處理時(shí)間

一般默認(rèn)即可

htdemucs：第一個(gè)版本，默認(rèn)模型。
htdemucs_ft：微調(diào)版本，分離將花費(fèi)4倍的時(shí)間但可能會好一點(diǎn)。與第一個(gè)版本相同的訓(xùn)練集。
htdemucs_6s：6 個(gè)軌道版本。
hdemucs_mmi：混合 Demucs v3模型重新訓(xùn)練。
mdx：之前比賽里的第1名，最高質(zhì)量的模型。
mdx_extra：使用額外的訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練，比賽第2名。
mdx_extra_q ：以前模型的量化版本。更小的下載和存儲但質(zhì)量可能會稍差一些。（速度快一些，電腦負(fù)載?。?/span>
V3其他模型都是微調(diào)
V1 V2是輸出2軌的老模型，可以忽略

還有個(gè)合奏模式在下就不詳細(xì)說了，對于平常的話這幾個(gè)模型夠用了（其實(shí)在下也還沒整明白，怕誤人子弟諸位見諒）具體的可以看這位“痕繼痕跡”up主（BV1ga411S7gP）UVR5的介紹視頻哈，簡單且用心，推薦！

手動合奏移到設(shè)置的選項(xiàng)卡里面了

5.注意事項(xiàng)

這些也只是在下覺得比較實(shí)用的一些方法，在下也只是會點(diǎn)三腳貓功夫，希望能夠幫到諸位學(xué)習(xí)，有錯(cuò)之處望諸位指出！??！

另外每一次處理都是對音頻的損害，正常情況下是沒辦法做到完美分離出伴奏或者人聲的，能做到的只能是更多的保留目標(biāo)音頻的細(xì)節(jié)，例如想為卡姐直播唱的歌換個(gè)伴奏，能做到也只能是在人聲提取時(shí)盡可能的保存細(xì)節(jié)，目前是不可能達(dá)到完美分離的，完美主義者們可能失望了?。。?/p>

如果有辦法請務(wù)必教導(dǎo)在下，閣下若能親自指點(diǎn)，那必是感激不盡！?。?/p>