国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

FastSpeech論文翻譯

2023-03-16 22:29 作者:xhy2023  | 我要投稿

論文地址:https://arxiv.org/pdf/1905.09263.pdf

  • Abstract

基于神經(jīng)網(wǎng)絡(luò)的端到端文本到語(yǔ)音(?TTS?)顯著提高了合成語(yǔ)音的質(zhì)量。主要的方法(例如?Tacotron 2?)通常首先從文本生成梅爾譜圖,然后使用聲碼器(如?WaveNet?)從梅爾譜圖合成語(yǔ)音。與傳統(tǒng)的連接和統(tǒng)計(jì)參數(shù)方法相比,基于神經(jīng)網(wǎng)絡(luò)的端到端模型推理速度慢,合成的語(yǔ)音通常缺乏魯棒性(如一些詞被跳過(guò)或重復(fù))和可控性(語(yǔ)音速度或韻律控制)。在本研究中,我們提出了一種基于?Transformer?的前饋網(wǎng)絡(luò),用于并行生成?TTS?梅爾譜圖。具體來(lái)說(shuō),我們從基于編碼器-解碼器的教師模型中提取注意對(duì)齊用于音素持續(xù)時(shí)間預(yù)測(cè),該模型由長(zhǎng)度調(diào)節(jié)器用于擴(kuò)展源音素序列,以匹配目標(biāo)梅爾譜圖序列的長(zhǎng)度,用于并行梅爾譜圖生成。在?LJSpeech?數(shù)據(jù)集上的實(shí)驗(yàn)表明,我們的并行模型在語(yǔ)音質(zhì)量方面與自回歸模型一致,幾乎消除了在特別困難的情況下跳過(guò)詞和重復(fù)的問(wèn)題,并且可以平滑地調(diào)整語(yǔ)音速度。最重要的是,與自回歸?Transformer TTS?相比,我們的模型使梅爾譜圖生成速度加快了?270?倍,端到端語(yǔ)音合成速度加快了?38?倍。因此,我們稱我們的模型為?FastSpeech。

  • Introduction

近年來(lái),由于深度學(xué)習(xí)的發(fā)展,文本到語(yǔ)音(?Text to speech, TTS?)引起了人們的廣泛關(guān)注。基于深度神經(jīng)網(wǎng)絡(luò)的系統(tǒng)越來(lái)越受 TTS 的歡迎,如 Tacotron, Tacotron 2, Deep Voice 3,以及完整的端到端 ClariNet。這些模型通常首先從文本輸入中自回歸生成梅爾頻譜圖,然后使用 Griffin-Lim、 WaveNet、 Parallel WaveNet或 WaveGlow等聲碼器從梅爾頻譜圖合成語(yǔ)音。基于神經(jīng)網(wǎng)絡(luò)的 TTS 方法在語(yǔ)音質(zhì)量方面優(yōu)于傳統(tǒng)的連接和統(tǒng)計(jì)參數(shù)方法。在現(xiàn)有的基于神經(jīng)網(wǎng)絡(luò)的?TTS?系統(tǒng)中,梅爾譜圖的生成是自回歸的。由于梅爾譜圖的長(zhǎng)序列和自回歸特性,這些系統(tǒng)面臨著幾個(gè)挑戰(zhàn):

  1. 生成梅爾譜圖的推理速度慢:雖然基于 CNN 和 Transformer 的 TTS可以加快訓(xùn)練基于 RNN 的模型,所有模型生成的梅爾譜圖都是在之前生成的梅爾譜圖的基礎(chǔ)上生成的,并且由于梅爾譜圖序列通常為數(shù)百或數(shù)千個(gè),因此推理速度較慢。

  2. 合成語(yǔ)音通常不具有魯棒性:在自回歸生成過(guò)程中,由于錯(cuò)誤的傳播和文本與語(yǔ)音之間錯(cuò)誤的注意對(duì)齊,生成的梅爾譜圖往往存在跳詞和重復(fù)的問(wèn)題。

  3. 合成語(yǔ)音缺乏可控性:以前的自回歸模型自動(dòng)生成一個(gè)接一個(gè)的梅爾譜圖,而沒(méi)有明確地利用文本和語(yǔ)音之間的對(duì)齊。因此,在自回歸生成中,通常很難直接控制語(yǔ)音的速度和韻律。

考慮到文本和語(yǔ)音之間的單調(diào)對(duì)齊,為了加快梅爾譜圖的生成,我們提出了一種新的模型?FastSpeech?,該模型以文本(音素)序列作為輸入,非自回歸地生成梅爾譜圖。它采用了基于 Transformer中自注意的前饋網(wǎng)絡(luò)和一維卷積。由于梅爾譜圖序列比對(duì)應(yīng)的音素序列長(zhǎng)很多,為了解決兩個(gè)序列長(zhǎng)度不匹配的問(wèn)題,?FastSpeech?采用了一個(gè)長(zhǎng)度調(diào)節(jié)器,根據(jù)音素持續(xù)時(shí)間(即每個(gè)音素對(duì)應(yīng)的梅爾頻譜圖的數(shù)目)來(lái)匹配梅爾聲譜圖序列的長(zhǎng)度。該調(diào)節(jié)器建立在音素持續(xù)時(shí)間預(yù)測(cè)器上,該預(yù)測(cè)器預(yù)測(cè)每個(gè)音素的持續(xù)時(shí)間。我們所提出的?FastSpeech?可以解決以下三個(gè)問(wèn)題:

  1. 通過(guò)并行生成梅爾譜圖,?FastSpeech?級(jí)大加快了合成過(guò)程。

  2. 音素持續(xù)時(shí)間預(yù)測(cè)器保證了音素及其梅爾頻譜圖之間的硬對(duì)齊,這與自回歸模型中的軟對(duì)齊和自動(dòng)注意對(duì)齊有很大不同。因此,?FastSpeech?避免了錯(cuò)誤傳播和錯(cuò)誤注意對(duì)齊的問(wèn)題,從而減少了跳詞和重復(fù)的比例。

  3. 長(zhǎng)度調(diào)節(jié)器可以通過(guò)延長(zhǎng)或縮短音素持續(xù)時(shí)間來(lái)輕松調(diào)節(jié)語(yǔ)速,以確定生成的梅爾頻譜圖的長(zhǎng)度,也可以通過(guò)在相鄰音素之間添加停頓來(lái)控制部分韻律。

我們?cè)?LJSpeech?數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)來(lái)測(cè)試?FastSpeech?。結(jié)果表明,在語(yǔ)音質(zhì)量方面,?FastSpeech?幾乎與自回歸?Transformer?模型一致。與自回歸?Transformer TTS?模型相比,?FastSpeech?在梅爾譜圖生成上提高了?270?倍的速度,在最終語(yǔ)音合成上提高了?38?倍的速度,幾乎消除了單詞跳過(guò)和重復(fù)的問(wèn)題,并且可以平滑地調(diào)整語(yǔ)音速度。

  • Background

在本節(jié)中,我們簡(jiǎn)要概述了這項(xiàng)工作的背景,包括文本到語(yǔ)音,序列到序列學(xué)習(xí),和非自回歸序列生成。

  1. 文本到語(yǔ)音:TTS是人工智能領(lǐng)域的一個(gè)熱點(diǎn)研究課題,其目的是從給定文本合成自然且可理解的語(yǔ)音。TTS 的研究已經(jīng)從早期的串聯(lián)合成、統(tǒng)計(jì)參數(shù)合成轉(zhuǎn)向基于神經(jīng)網(wǎng)絡(luò)的參數(shù)合成和端到端模型,并且端到端模型合成的語(yǔ)音質(zhì)量接近人類水平?;谏窠?jīng)網(wǎng)絡(luò)的端到端 TTS 模型通常先將文本轉(zhuǎn)換為聲學(xué)特征(如梅爾譜圖),然后再將梅爾譜圖轉(zhuǎn)換為音頻樣本。然而,大多數(shù)神經(jīng) TTS 系統(tǒng)生成的語(yǔ)音譜圖是自回歸的,推理速度慢,合成語(yǔ)音通常缺乏魯棒性(跳過(guò)詞和重復(fù))和控制性(語(yǔ)音速度或韻律控制)。在這項(xiàng)工作中,我們提出了快速語(yǔ)音非自回歸生成梅爾譜圖,充分解決了上述問(wèn)題。

  2. 序列到序列學(xué)習(xí):序列到序列學(xué)習(xí)通常建立在編碼器-解碼器框架上:編碼器將源序列作為輸入并生成一組表示。然后,解碼器在給定源表示及其前一個(gè)元素的情況下估計(jì)每個(gè)目標(biāo)元素的條件概率。在編碼器和解碼器之間進(jìn)一步引入注意機(jī)制,以便在預(yù)測(cè)當(dāng)前元素時(shí)找到需要關(guān)注的源表示,是序列到序列學(xué)習(xí)的重要組成部分。在這項(xiàng)工作中,我們提出了一個(gè)前饋網(wǎng)絡(luò)來(lái)并行生成序列,而不是使用傳統(tǒng)的編碼-注意-解碼器框架進(jìn)行序列對(duì)序列的學(xué)習(xí)。

  3. 非自回歸序列生成:與自回歸序列生成不同,非自回歸模型并行生成序列,而不顯式依賴于前面的元素,這可以大大加快推理過(guò)程。非自回歸生成已經(jīng)在一些序列生成任務(wù)中得到了研究,如神經(jīng)機(jī)器翻譯和音頻合成。我們的?FastSpeech?與上述工作有兩個(gè)不同之處:(1)以前的工作主要是在神經(jīng)機(jī)器翻譯或音頻合成中采用非自回歸生成,以提高推理加速,而?FastSpeech?在?TTS?中既注重推理加速,又注重提高合成語(yǔ)音的魯棒性和控制性。(2)對(duì)于 TTS 來(lái)說(shuō),雖然 Parallel WaveNet、ClariNet和WaveGlow 是并行產(chǎn)生音頻的,但它們的條件是梅爾譜圖,梅爾譜圖仍然是自回歸產(chǎn)生的。因此,他們沒(méi)有解決這項(xiàng)工作中考慮到的挑戰(zhàn)。還有一個(gè)并行工作(《Parallel neural text-to-speech》),它也可以并行生成梅爾譜圖。但是,它仍然采用了帶注意機(jī)制的編碼器-解碼器框架:(1)與教師模型相比,需要?2~3?倍模型參數(shù),從而實(shí)現(xiàn)了比?FastSpeech?更慢的推理速度;(2)不能完全解決跳過(guò)單詞和重復(fù)的問(wèn)題,而?FastSpeech?幾乎消除了這些問(wèn)題。

  • 3 FastSpeech

在本節(jié)中,我們將介紹?FastSpeech?的體系結(jié)構(gòu)設(shè)計(jì)。為了并行生成目標(biāo)梅爾譜圖序列,我們?cè)O(shè)計(jì)了一種新的前饋結(jié)構(gòu),而不是采用大多數(shù)序列對(duì)序列的自回歸生成所采用的基于編碼器-注意-解碼器的結(jié)構(gòu)。FastSpeech?的整體模型架構(gòu)如圖?1?所示。我們將在下面的小節(jié)中詳細(xì)描述這些組件。

  • 3.1 前饋?Transformer

FastSpeech?的體系結(jié)構(gòu)是基于?Transformer?(《Attention is all you need》)中的自注意和?1D?卷積的前饋結(jié)構(gòu)。我們稱之為前饋?Transformer,如圖?1a?所示。前饋?Transformer?堆疊多個(gè)?FFT?塊用于音素到梅爾頻譜圖的轉(zhuǎn)換,在音素一側(cè)有?N?塊,在梅爾頻譜圖一側(cè)有?N?塊,在音素和梅爾頻譜圖序列之間有一個(gè)長(zhǎng)度調(diào)節(jié)器(將在下一小節(jié)中描述),以彌合音素和梅爾頻譜圖序列之間的長(zhǎng)度差距。每個(gè)?FFT?塊由一個(gè)自注意和?1D?卷積網(wǎng)絡(luò)組成,如圖?1b?所示。自注意網(wǎng)絡(luò)由一個(gè)多頭注意組成,用于提取交叉位置信息。與?Transformer?中的?2?層密集網(wǎng)絡(luò)不同,我們使用的是?ReLU?激活的?2?層?1D?卷積網(wǎng)絡(luò)。其動(dòng)機(jī)是相鄰隱態(tài)在語(yǔ)音任務(wù)的字符/音素和梅爾頻譜圖序列上關(guān)系更密切。在實(shí)驗(yàn)部分,我們?cè)u(píng)估了一維卷積網(wǎng)絡(luò)的有效性。在?Transformer之后,自注意網(wǎng)絡(luò)和?1D?卷積網(wǎng)絡(luò)分別添加了殘差連接、層歸一化和?Dropout?。

  • 3.2 長(zhǎng)度調(diào)節(jié)器

長(zhǎng)度調(diào)節(jié)器(圖?1c?)用于解決前饋?zhàn)儔浩髦幸羲睾吐曌V序列長(zhǎng)度不匹配的問(wèn)題,并控制語(yǔ)音速度和部分韻律。音素序列的長(zhǎng)度通常小于其梅爾頻譜圖序列的長(zhǎng)度,每個(gè)音素對(duì)應(yīng)幾個(gè)梅爾頻譜圖聲譜。我們將對(duì)應(yīng)于音素的梅爾頻譜圖的長(zhǎng)度稱為音素持續(xù)時(shí)間(我們將在下一個(gè)小節(jié)中描述如何預(yù)測(cè)音素持續(xù)時(shí)間)。長(zhǎng)度調(diào)節(jié)器以音素持續(xù)時(shí)間d為基礎(chǔ),將音素序列的隱藏狀態(tài)擴(kuò)展d次,隱藏狀態(tài)的總長(zhǎng)度等于梅爾頻譜圖的長(zhǎng)度。

  • 3.3 持續(xù)時(shí)間預(yù)測(cè)

音素持續(xù)時(shí)間預(yù)測(cè)對(duì)于長(zhǎng)度調(diào)節(jié)器是重要的。如圖?1d?所示,持續(xù)時(shí)間預(yù)測(cè)器由一個(gè)?ReLU?激活的?2?層?1d?卷積網(wǎng)絡(luò)組成,每一層都進(jìn)行層歸一化和?Dropout?層,再增加一個(gè)線性層輸出一個(gè)標(biāo)量,這就是預(yù)測(cè)的音素持續(xù)時(shí)間。需要注意的是,該模塊被疊加在音素側(cè)的?FFT?塊的頂部,并與?FastSpeech?模型聯(lián)合訓(xùn)練,以預(yù)測(cè)每個(gè)音素的梅爾頻譜圖的長(zhǎng)度,并損失均方誤差(?MSE?)。我們?cè)趯?duì)數(shù)域中預(yù)測(cè)長(zhǎng)度,這使它們更高斯化,更容易訓(xùn)練。請(qǐng)注意,訓(xùn)練持續(xù)時(shí)間預(yù)測(cè)器只在?TTS?推理階段使用,因?yàn)槲覀兛梢栽谟?xùn)練中直接使用從自回歸教師模型中提取的音素持續(xù)時(shí)間(見(jiàn)下面的討論)。為了訓(xùn)練持續(xù)時(shí)間預(yù)測(cè)器,我們從一個(gè)自回歸的教師?TTS?模型中提取了真實(shí)情況音素持續(xù)時(shí)間,如圖?1d?所示。我們描述的詳細(xì)步驟如下:我們首先訓(xùn)練一個(gè)自回歸的基于編碼器-注意-解碼器的?Transformer TTS?模型跟隨,對(duì)于每個(gè)訓(xùn)練序列對(duì),我們從訓(xùn)練教師模型中提取解碼器到編碼器的注意對(duì)齊。由于多頭自我注意存在多重注意對(duì)齊,并不是所有的注意頭都表現(xiàn)出對(duì)角線性質(zhì)(音素和梅爾頻譜圖序列是單調(diào)對(duì)齊的)。

  • 4 實(shí)驗(yàn)設(shè)置

  • 4.1 數(shù)據(jù)集

我們?cè)?LJSpeech?數(shù)據(jù)集(《The lj speech dataset》)上進(jìn)行實(shí)驗(yàn),該數(shù)據(jù)集包含?13100?個(gè)英語(yǔ)音頻片段和相應(yīng)的文本文本,總音頻長(zhǎng)度約為?24?小時(shí)。我們將數(shù)據(jù)隨機(jī)分成?3?組:?12500?個(gè)樣本用于訓(xùn)練,?300?個(gè)樣本用于驗(yàn)證,?300?個(gè)樣本用于測(cè)試。為了減輕發(fā)音錯(cuò)誤的問(wèn)題,我們使用內(nèi)部的字素到音素轉(zhuǎn)換工具(《Tokenlevel ensemble distillation for grapheme-to-phoneme conversion》)將文本序列轉(zhuǎn)換為音素序列。對(duì)于語(yǔ)音數(shù)據(jù),我們將原始波形轉(zhuǎn)換為后的梅爾譜圖。我們的幀大小和跳數(shù)大小分別設(shè)置為?1024?和?256?。為了評(píng)估我們提出的?FastSpeech?的魯棒性,我們還根據(jù)的實(shí)踐,選擇了?50?個(gè)?TTS?系統(tǒng)特別難的句子。

  • 4.2 模型配置

我們的?FastSpeech?模型由?6?個(gè)?FFT?塊組成,分別在音素側(cè)和梅爾譜圖側(cè)。包括標(biāo)點(diǎn)符號(hào)在內(nèi)的音素詞匯量為?51?個(gè)。FFT?塊中的音素嵌入維數(shù)、自注意隱藏大小和一維卷積均設(shè)為?384?。注意頭的數(shù)量設(shè)置為?2?。2?層卷積網(wǎng)絡(luò)中?1D?卷積的核大小都設(shè)為?3?,第一層輸入輸出大小為?384/1536?,第二層為?1536/384?。輸出線性層將?384?維的隱藏圖轉(zhuǎn)換為?80?維的梅爾譜圖。

  • 4.3 訓(xùn)練和推理

我們首先在?4?個(gè)?NVIDIA V100?圖形處理器上訓(xùn)練自回歸?Transformer TTS?模型,每個(gè)圖形處理器上批量訓(xùn)練?16?個(gè)句子。我們將訓(xùn)練集中的文本和語(yǔ)音對(duì)再次輸入到模型中,得到編碼器-解碼器注意對(duì)齊,用于訓(xùn)練持續(xù)時(shí)間預(yù)測(cè)器。此外,我們還利用在非自回歸機(jī)器翻譯中表現(xiàn)良好的序列級(jí)知識(shí)精餾,將知識(shí)從教師模型轉(zhuǎn)移到學(xué)生模型。對(duì)于每個(gè)源文本序列,我們使用自回歸?Transformer TTS?模型生成梅爾譜圖,并將源文本和生成的梅爾譜圖作為配對(duì)數(shù)據(jù)進(jìn)行?FastSpeech?模型訓(xùn)練。我們將?FastSpeech?模型與持續(xù)時(shí)間預(yù)測(cè)器一起訓(xùn)練。?FastSpeech?的優(yōu)化器和其他超參數(shù)的與自回歸?Transformer TTS?模型是相同的。FastSpeech 模型訓(xùn)練在 4 個(gè) NVIDIA V100 GPU 上大約需要 80k 步。在推理過(guò)程中,使用預(yù)先訓(xùn)練的 WaveGlow將我們的 FastSpeech 模型輸出的梅爾譜圖轉(zhuǎn)換為音頻樣本。

  • 5 結(jié)果

略。



FastSpeech論文翻譯的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
景泰县| 亳州市| 青川县| 灵寿县| 蓝山县| 湘潭市| 南靖县| 平远县| 南阳市| 福鼎市| 宜都市| 龙岩市| 永善县| 资兴市| 彩票| 太和县| 昭平县| 来安县| 济源市| 吉林市| 滨海县| 宁海县| 六安市| 罗定市| 大丰市| 建昌县| 法库县| 孝义市| 任丘市| 城步| 灵台县| 西贡区| 隆子县| 连江县| 东辽县| 闵行区| 漾濞| 镇安县| 东海县| 屯门区| 中卫市|