国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

如何以更少實(shí)現(xiàn)更多:簡化Transformer Block

2023-11-30 17:00 作者:ReadPaper論文閱讀  | 我要投稿

1?總結(jié)

文本深入探討了如何簡化標(biāo)準(zhǔn)變壓器模塊(Transformer?Block)的復(fù)雜結(jié)構(gòu)。作者通過信號傳播理論和實(shí)證觀察,提出了一系列簡化措施,包括移除跳過連接、投影或值參數(shù)、順序子模塊和規(guī)范化層,而不損失訓(xùn)練速度。實(shí)驗(yàn)表明,這些簡化的變壓器在自回歸解碼器和BERT編碼器模型上,能夠模仿標(biāo)準(zhǔn)變壓器的每次更新訓(xùn)練速度和性能,同時(shí)訓(xùn)練吞吐量提高了15%,使用的參數(shù)減少了15%。

論文:https://arxiv.org/abs/2311.01906

Readpaper:https://readpaper.com/paper/4819229436637347841


2?詳細(xì)介紹

2.1?簡化變壓器模塊

●?移除注意力子模塊的殘差連接

●?移除值和投影參數(shù)

●?移除MLP子模塊的殘差連接

●?移除歸一化層

2.2?實(shí)驗(yàn)

深度縮放:研究表明,當(dāng)模型深度從18增加到72個(gè)模塊時(shí),性能得到提升。這說明簡化的變壓器模塊不僅訓(xùn)練速度更快,而且能夠有效利用更深層次的額外容量。

BERT模型:研究還展示了簡化模塊在不同數(shù)據(jù)集和架構(gòu)(包括BERT模型)上的性能,以及在下游任務(wù)(如GLUE基準(zhǔn)測試)上的應(yīng)用。特別是在“Crammed”?BERT設(shè)置中,簡化模塊在保持現(xiàn)有優(yōu)化超參數(shù)的同時(shí),通過調(diào)整學(xué)習(xí)率和權(quán)重衰減,達(dá)到了與原始模型相匹配的預(yù)訓(xùn)練速度。

GLUE基準(zhǔn)測試和效率提升:簡化的變壓器模塊在GLUE基準(zhǔn)測試上的性能與原始模型相當(dāng),但使用的參數(shù)少16%,訓(xùn)練吞吐量提高了16%。

2.3?局限性

盡管我們已經(jīng)證明了他們的簡化方法在不同架構(gòu)、數(shù)據(jù)集和任務(wù)中的有效性,但考慮的模型(具有100-300M參數(shù))相對于最大的變壓器模型來說還是較小。盡管已經(jīng)做了深度縮放實(shí)驗(yàn),但是對于十幾倍甚至上百倍的模型大小,不知道能不能依然滿足這樣的定律。


3?觀點(diǎn)

學(xué)術(shù)上,本文挑戰(zhàn)了變壓器模塊設(shè)計(jì)的傳統(tǒng)觀念,提供了一種新的簡化方法,這可能會激發(fā)更多關(guān)于模型效率和結(jié)構(gòu)優(yōu)化的研究。

商業(yè)上,簡化的變壓器模塊意味著更高的訓(xùn)練效率和成本節(jié)約,特別是對于需要大規(guī)模部署和運(yùn)行的公司來說,這將極大地提高他們的競爭力。就是不知道什么時(shí)候meta等公司什么時(shí)候開源了。


特邀作者:日本早稻田大學(xué)計(jì)算機(jī)系博士生? 王軍杰

如何以更少實(shí)現(xiàn)更多:簡化Transformer Block的評論 (共 條)

分享到微博請遵守國家法律
巴林左旗| 宁强县| 昌吉市| 社旗县| 仁寿县| 周至县| 庄浪县| 济源市| 利津县| 贺兰县| 图们市| 清苑县| 宜川县| 清新县| 松溪县| 太仆寺旗| 宜兰市| 府谷县| 盐亭县| 确山县| 宁海县| 郴州市| 方山县| 勐海县| 湘潭县| 喀喇沁旗| 平度市| 无为县| 莆田市| 上虞市| 长乐市| 阿鲁科尔沁旗| 阿拉善左旗| 弋阳县| 梨树县| 天峨县| 乌兰县| 泰兴市| 沿河| 余干县| 金华市|