Meta開源生成式AI 音頻工具AudioCraft
查看引用/信息源請(qǐng)點(diǎn)擊:映維網(wǎng)Nweon
從基于文本的用戶輸入生成高質(zhì)量,逼真的音頻和音樂
(映維網(wǎng)Nweon?2023年08月04日)想象一下,一個(gè)專業(yè)的音樂家不必在樂器彈奏一個(gè)音符就能探索新作品;獨(dú)立游戲開發(fā)者在預(yù)算有限的情況下通過逼真的音效和環(huán)境聲來填充虛擬世界;一個(gè)小企業(yè)主可以輕松地為最新的Instagram貼文添加配樂。
這就是Meta AudioCraft的承諾,而團(tuán)隊(duì)已經(jīng)將其開源。這個(gè)簡(jiǎn)單框架在對(duì)原始音頻信號(hào)進(jìn)行訓(xùn)練后,可以從基于文本的用戶輸入生成高質(zhì)量,逼真的音頻和音樂。

AudioCraft包括三個(gè)模型:MusicGen、AudioGen和EnCodec。MusicGen接受了Meta所有和特別授權(quán)的音樂的訓(xùn)練,可從基于文本的用戶輸入中生成音樂;而AudioGen則接受了公共聲音效果的訓(xùn)練,可從基于文本的用戶輸入中生成音頻。
現(xiàn)在,團(tuán)隊(duì)正在為社區(qū)帶來EnCodec解碼器的改進(jìn)版本;可以產(chǎn)生環(huán)境聲音和音效的預(yù)訓(xùn)練AudioGen模型;以及所有AudioCraft模型代碼。
團(tuán)隊(duì)指出:“我們非常高興能夠?yàn)檠芯咳藛T和從業(yè)者提供訪問權(quán)限,這樣他們就可以第一次用自己的數(shù)據(jù)集訓(xùn)練自己的模型,并幫助推進(jìn)最先進(jìn)的技術(shù)。”
輕松地從文本到音頻
近年來,包括語言模型在內(nèi)的生成式人工智能模型已經(jīng)取得了巨大的進(jìn)步,并顯示出了非凡的能力。然而,這主要集中在圖像、視頻和文本的生成式人工智能方面,音頻似乎總是有點(diǎn)落后。盡管相關(guān)領(lǐng)域已經(jīng)存在一定的研究,但它們非常復(fù)雜,而且不是十分開放。
生成任何類型的高保真音頻都需要以不同的尺度對(duì)復(fù)雜的信號(hào)和模式進(jìn)行建模,而音樂則可以說是最具挑戰(zhàn)性的音頻類型。用人工智能生成連貫的音樂通常是通過使用MIDI等方式來解決。然而,所述方法并不能完全把握音樂中表現(xiàn)的細(xì)微差別和風(fēng)格元素。
AudioCraft系列模型能夠產(chǎn)生具有長期一致性的高質(zhì)量音頻,并且可以通過自然界面輕松交互。與之前在同一領(lǐng)域的研究相比,AudioCraft簡(jiǎn)化了音頻生成模型的整體設(shè)計(jì),允許人們可以完整地使用Meta在過去幾年里開發(fā)的現(xiàn)有模型,同時(shí)能夠突破極限,開發(fā)自己的模型。
AudioCraft適用于音樂和聲音生成和壓縮,一切都在同一個(gè)地方發(fā)生。因?yàn)樗秩菀讟?gòu)建和重用,所以想要構(gòu)建更好的聲音生成器、壓縮算法或音樂生成器的人員可以在相同的代碼庫中完成所有工作,并在其他人的基礎(chǔ)上進(jìn)行拓展。
一個(gè)簡(jiǎn)單的音頻生成方法
從原始音頻信號(hào)生成音頻十分具有挑戰(zhàn)性,因?yàn)樗枰7浅iL的序列。以44.1 kHz(音樂錄音的標(biāo)準(zhǔn)質(zhì)量)采樣的數(shù)分鐘典型音軌是由數(shù)百萬個(gè)時(shí)間步組成。相比之下,基于文本的生成模型使用作為子詞處理的文本,每個(gè)樣本只代表幾千個(gè)時(shí)間步。
為了解決這個(gè)問題,團(tuán)隊(duì)使用EnCodec神經(jīng)音頻編解碼器從原始信號(hào)中學(xué)習(xí)離散音頻token,這為音樂樣本提供了一個(gè)新的固定“詞匯表”。然后,在離散的音頻token訓(xùn)練自回歸語言模型,以在使用EnCodec的解碼器將token轉(zhuǎn)換回音頻空間時(shí)生成新的token和新的聲音和音樂。

EnCodec是一種有損神經(jīng)編解碼器,專門用于壓縮任何類型的音頻并以高保真度重建原始信號(hào)。它由一個(gè)帶有殘余矢量量化瓶頸的自編碼器組成,可產(chǎn)生具有固定詞匯表的多個(gè)并行音頻token流。不同的流捕獲不同級(jí)別的音頻波形信息,從而允許你從所有流中重建高保真度的音頻。
訓(xùn)練音頻語言模型
然后,研究人員使用單個(gè)自回歸語言模型對(duì)來自EnCodec的音頻token進(jìn)行遞歸建模,并介紹了一種簡(jiǎn)單的方法來利用并行token流的內(nèi)部結(jié)構(gòu),從而生成高質(zhì)量的聲音。
通過AudioGen,它們證明可以訓(xùn)練人工智能模型來執(zhí)行文本到音頻生成的任務(wù)。給定聲音場(chǎng)景的文本描述,模型可以生成具有真實(shí)記錄條件和復(fù)雜場(chǎng)景情景描述所對(duì)應(yīng)的環(huán)境聲音。
另外,MusicGen是專門為音樂生成量身定制的音頻生成模型。音軌比環(huán)境聲音更復(fù)雜,在創(chuàng)作新音樂作品時(shí),產(chǎn)生連貫的樣本尤為重要。MusicGen已經(jīng)接受了大約40萬份錄音以及文本描述和元數(shù)據(jù)的訓(xùn)練,總計(jì)為Meta擁有或?qū)iT為此目的授權(quán)的2萬小時(shí)音樂。
在這項(xiàng)研究的基礎(chǔ)上
Meta將繼續(xù)致力于高級(jí)生成AI音頻模型背后的研究。作為AudioCraft的一部分,團(tuán)隊(duì)進(jìn)一步提供了新的方法,通過基于擴(kuò)散的離散表示解碼方法來提高合成音頻的質(zhì)量。研究人員計(jì)劃繼續(xù)研究音頻生成模型的更好可控性,探索額外的調(diào)節(jié)方法,并推動(dòng)模型捕獲依賴關(guān)系的能力。最后,他們將繼續(xù)研究在音頻上訓(xùn)練的這種模型的局限性和偏差。
團(tuán)隊(duì)正在努力改進(jìn)當(dāng)前的模型,從建模的角度提高它們的速度和效率,并改進(jìn)控制模型的方式,從而開辟新的用例和可能性。
當(dāng)然,Meta認(rèn)識(shí)到用于訓(xùn)練模型的數(shù)據(jù)集缺乏多樣性。特別是,所使用的音樂數(shù)據(jù)集包含更大比例的西式音樂,并且僅包含以英語編寫的文本和元數(shù)據(jù)的音頻-文本對(duì)。通過分享AudioCraft的代碼,團(tuán)隊(duì)希望其他研究人員可以更容易地測(cè)試新方法,以限制或消除對(duì)生成模型的潛在偏見和濫用。
開源的重要性
Meta指出,負(fù)責(zé)任的創(chuàng)新不可能孤立地發(fā)生。開源研究和結(jié)果模型有助于確保每個(gè)人都有平等的機(jī)會(huì)。團(tuán)隊(duì)正在向研究界提供不同大小的模型,并詳細(xì)說明相關(guān)的人工智能實(shí)踐方法構(gòu)建模型。
更多示例請(qǐng)?jiān)L問這個(gè)頁面?https://audiocraft.metademolab.com/
AudioCraft代碼請(qǐng)?jiān)L問這個(gè)頁面?https://github.com/facebookresearch/audiocraft
MusicGen論文請(qǐng)?jiān)L問這個(gè)頁面?https://paper.nweon.com/14626
AudioGen論文請(qǐng)?jiān)L問這個(gè)頁面?https://paper.nweon.com/14628
Diffusion decoders論文請(qǐng)?jiān)L問這個(gè)頁面?https://paper.nweon.com/14630
這家公司總結(jié)道:“AudioCraft是生成式人工智能研究的重要一步。我們相信,我們開發(fā)的簡(jiǎn)單方法可以成功地生成魯棒、連貫和高質(zhì)量的音頻樣本,這將對(duì)考慮聽覺和多模態(tài)接口的先進(jìn)人機(jī)交互模型的發(fā)展產(chǎn)生有意義的影響。我們非常期待大家會(huì)用它來創(chuàng)造什么?!?/p>
---
原文鏈接:https://news.nweon.com/111105