国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

免費(fèi)AI寫歌軟件Stable Audio發(fā)布!

2023-09-15 16:32 作者:ReadPaper論文閱讀  | 我要投稿

著名的開源平臺Stability AI近日發(fā)布了其音頻生成式AI產(chǎn)品——Stable Audio。用戶只需通過文本提示,即可生成包括搖滾、爵士、電子、嘻哈等在內(nèi)的20多種類型的背景音樂。例如,輸入“迪斯科”、“鼓機(jī)”等關(guān)鍵詞,就能生成相應(yīng)的背景音樂。Stable Audio提供免費(fèi)和付費(fèi)兩個(gè)版本。

其中免費(fèi)版每月可生成20首音樂,最大時(shí)長為45秒,而付費(fèi)版每月11.99美元,可生成500首音樂,最大時(shí)長為90秒。Stable Audio使用了一種先進(jìn)的模型,允許用戶控制生成音頻的內(nèi)容和長度,能夠在不到一秒的時(shí)間內(nèi)渲染出95秒的立體聲音頻。

官網(wǎng):https://www.stableaudio.com/

詳細(xì)的來說模型結(jié)構(gòu)——Stable Audio的模型結(jié)構(gòu)如下:

1. 主要組件:

變分自動編碼器 (Variational Autoencoder, VAE): VAE允許模型通過接受輸入音頻數(shù)據(jù)并以壓縮形式輸出,其中包含足夠的信息進(jìn)行轉(zhuǎn)換,從而更高效地學(xué)習(xí)和操作。

文本編碼器 (Text Encoder): 該編碼器名為CLAP,從零開始在研究人員策劃的數(shù)據(jù)集上進(jìn)行訓(xùn)練。這確保文本特征包含足夠的信息來建立單詞和聲音之間的連接。CLAP編碼器的倒數(shù)第二層的文本特征通過U-Net的注意力層進(jìn)行傳遞。

擴(kuò)散模型結(jié)構(gòu) (Diffusion Model Architecture of U-Net): 該模型是基于Mo?sai模型的U-Net架構(gòu),擁有907百萬參數(shù)。它使用殘差層、自注意力層和交叉注意力層的組合,基于文本和時(shí)間嵌入對輸入數(shù)據(jù)進(jìn)行去噪。為了增強(qiáng)長序列的可擴(kuò)展性,已經(jīng)整合了高效的注意力機(jī)制。

2. 文本提示的集成:

文本提示使用名為CLAP的凍結(jié)文本編碼器進(jìn)行集成,該編碼器從零開始在研究人員策劃的數(shù)據(jù)集上進(jìn)行訓(xùn)練。這確保文本特征包含足夠的信息來建立單詞和聲音之間的聯(lián)系。CLAP編碼器的倒數(shù)第二層的文本特征通過U-Net的注意力層進(jìn)行傳遞。

3. 時(shí)間嵌入的創(chuàng)建:

為了創(chuàng)建時(shí)間嵌入的音頻片段,計(jì)算了片段的開始秒數(shù)(稱為“seconds_start”)和原始音頻文件中的總秒數(shù)(稱為“seconds_total”)。這些值被轉(zhuǎn)換為離散學(xué)習(xí)的嵌入,并與查詢令牌連接在一起,然后傳遞給U-Net的注意力層。在推斷過程中,提供相同的值作為條件,允許用戶指定輸出音頻的總長度。

最后聊聊我的看法:

Stable Audio為內(nèi)容創(chuàng)作者提供了一個(gè)高效、低成本的音樂生成工具,特別是對于那些沒有音樂背景但需要背景音樂的創(chuàng)作者。華語樂壇會不會有救了?


特邀作者:早稻田大學(xué)計(jì)算機(jī)系在讀博士 王軍杰?

免費(fèi)AI寫歌軟件Stable Audio發(fā)布!的評論 (共 條)

分享到微博請遵守國家法律
开原市| 保山市| 桂平市| 伊宁市| 武宁县| 冀州市| 庆城县| 蛟河市| 博乐市| 长子县| 安顺市| 庆元县| 四子王旗| 阿合奇县| 黄梅县| 宜兰县| 天等县| 永善县| 罗源县| 达拉特旗| 黄龙县| 元阳县| 鄄城县| 昌都县| 枣庄市| 晋州市| 临湘市| 二手房| 涿鹿县| 荥阳市| 汝阳县| 涡阳县| 阜新市| 肥西县| 安新县| 乃东县| 华池县| 丽水市| 潮安县| 苏尼特左旗| 镇安县|