国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

BERT 論文逐段精讀【論文精讀】

2023-01-20 22:45 作者:夢到死鎖的銀行家  | 我要投稿
  • 摘要

BETR:Bidirectional Encoder Representations from Transformers(transformer模型的雙向編碼器表示)

BERT和ELMo的對比:ELMo用的是基于RNN的架構(gòu),BERT用的是transformer,所以ELMo針對一些下游任務(wù),需要對架構(gòu)做一些調(diào)整,而BERT就不需要做很大的調(diào)整

BERT和GPT的對比,GPT是用左邊的信息預(yù)測未來的信息,是單向的;而BERT是雙向的,也就是利用上下文的信息

  • 引言

使用預(yù)訓(xùn)練模型做特征表示的兩種策略:feature-based和fine-tuning。

  1. 基于特征的方法的代表ELMo,對每一個下游任務(wù)構(gòu)造一個和該任務(wù)相關(guān)的神經(jīng)網(wǎng)絡(luò)(用的是RNN架構(gòu))
  2. 基于微調(diào)的方法的代表是GPT,把預(yù)訓(xùn)練好的模型放在下游的任務(wù)時不需要改變太多,只需要改一點(也就是模型預(yù)訓(xùn)練好的參數(shù)會在下游任務(wù)的數(shù)據(jù)上進行微調(diào)即可)
  3. 總結(jié):這兩種方法都是使用相同的目標函數(shù),都是使用一個單向的語言模型

引出作者的想法

以上的方法在做預(yù)訓(xùn)練的表征的時候會有局限性,因為標準的語言模型是單向的,所以存在一定的局限性。比如GPT是從左到右的架構(gòu),但是比如分析句子情感的任務(wù),從左到右和從右到左都是合法的;而兩個方向的信息應(yīng)該都有用,所以針對此類任務(wù),應(yīng)該使用兩個方向的信息,效果會更好。

作者的做法

使用“完形填空”方式(masked lanuage model, MLM)來預(yù)訓(xùn)練以減輕單向性造成的約束。提出的MLM方式就是隨機蓋住一些token,然后目標函數(shù)是預(yù)測哪些被蓋住的token。

(打算先看完BERT再去看ViLT)

BERT 論文逐段精讀【論文精讀】的評論 (共 條)

分享到微博請遵守國家法律
醴陵市| 当涂县| 色达县| 遂溪县| 阿巴嘎旗| 仙游县| 宾阳县| 陇南市| 建平县| 安福县| 汕尾市| 湘潭县| 台东县| 霍林郭勒市| 右玉县| 凌云县| 汽车| 衡水市| 巴彦淖尔市| 丰城市| 平塘县| 常山县| 文安县| 馆陶县| 蓝山县| 漳平市| 万州区| 鹤山市| 壶关县| 太白县| 昭通市| 肃宁县| 孟村| 丰宁| 保德县| 武胜县| 灯塔市| 景宁| 广州市| 水富县| 陵川县|