国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

GPT,GPT-2,GPT-3 論文精讀【論文精讀】

2022-03-09 14:58 作者:小清舍  | 我要投稿

GPT-3強(qiáng)大,多應(yīng)用

發(fā)展路徑

GPT-3模型更復(fù)雜,要求更高,很難復(fù)現(xiàn),因此引用較少,想往強(qiáng)人工智能走,解決更大問題

transformer解決機(jī)器翻譯,一個序列到另外一個序列

Bert想把計(jì)算機(jī)視覺成熟的先訓(xùn)練一個預(yù)訓(xùn)練的模型然后再做微調(diào)出子任務(wù)的結(jié)果,然后搬到NLP上做好,提升技術(shù)的效果

在同樣模型大小,比如是一個億級別模型大小時候

Bert的性能要好于GPT

所以未來文章更愿意用bert文章,因?yàn)楦菀渍业阶銐虻臋C(jī)器把模型跑起來

GPT文章(Improving Language Understanding by Generative Pre-Training)

摘要

NLP領(lǐng)域沒有像ImageNet那樣那么多標(biāo)好的數(shù)據(jù),因此沒有足夠多的數(shù)據(jù)去訓(xùn)練一個比較大的模型

也是先訓(xùn)練好預(yù)訓(xùn)練模型再做微調(diào)

但使用的是沒有標(biāo)號的文本,因此走了一大步,然后在GPT系列后面的文章做Zero Shot

導(dǎo)言


怎樣利用好無監(jiān)督文本

提出半監(jiān)督方法


基于transformer模型架構(gòu),發(fā)表在transformer出來一年之后,和RNN模型相比transformer在遷移學(xué)習(xí)的時候?qū)W習(xí)到的特征更加穩(wěn)健一些,可能是因?yàn)槠淅锩嬗懈咏Y(jié)構(gòu)化的記憶使得能夠處理更長的文本信息從而能夠抽取出更好的句子層面和段落層面的語義信息

GPT在做遷移的是后用的是一個任務(wù)相關(guān)的輸入的一個表示

相關(guān)工作

Framework


選用·transformer解碼器

微調(diào)標(biāo)號

給你一個序列預(yù)測這個序列的下一個詞

給你完整的序列預(yù)測序列對應(yīng)的標(biāo)號兩個一起訓(xùn)練效果是最佳的


NLP應(yīng)用分類

分類

實(shí)驗(yàn)

GPT2

做了一個新數(shù)據(jù)集,使用zero-shot,子任務(wù)上不提供相關(guān)樣本,直接使用預(yù)訓(xùn)練模型

GPT3

63頁

自回歸模型,有1750億個可學(xué)習(xí)的參數(shù),不做梯度更新或微調(diào)


小樣本、零樣本


GPT3模型偏扁

使用相對比較大的批量大小,計(jì)算性能更好,每臺機(jī)器的并行度更高,通訊量變低,降低批量里的噪音分布式比較好

小的模型批量大小更容易過擬合一些

模型越來越大的時候過擬合沒有那么的嚴(yán)重,搜索范圍更廣,可能存在一個比較簡單的模型架構(gòu),SDG可以幫助找到那個模型,使泛化精度更好一些

模型批量大小增大學(xué)習(xí)率下降






影響


能耗

暴力出奇跡

GPT,GPT-2,GPT-3 論文精讀【論文精讀】的評論 (共 條)

分享到微博請遵守國家法律
荔波县| 东光县| 正定县| 利川市| 文水县| 榆社县| 清徐县| 南投县| 隆尧县| 峨边| 呈贡县| 瓦房店市| 三河市| 深水埗区| 台中县| 中方县| 江达县| 达拉特旗| 贵德县| 梅州市| 宝鸡市| 康平县| 榆中县| 阿克苏市| 花垣县| 双桥区| 南木林县| 民乐县| 广丰县| 根河市| 永平县| 洛隆县| 本溪| 恩平市| 新乡县| 孝昌县| 封丘县| 开封县| 公安县| 泰安市| 乌拉特中旗|