国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

上下文長(zhǎng)度256k,無(wú)限上下文版本LongLLaMA

2023-08-06 23:57 作者:層林盡染  | 我要投稿

大概掃了一眼論文,個(gè)人初步理解是,增加外部的記憶庫(kù)(memory),來(lái)達(dá)到記憶上文的目的,這樣可以在注意力矩陣(q-k矩陣)不明顯增大的情況下聯(lián)系很久之前的上文。


具體來(lái)說(shuō),把長(zhǎng)文本分成很多小段落,模型一次只讀取一部分小段落,然后使用kNN在記憶庫(kù)中的上文里面查找來(lái)檢索相關(guān)的鍵值對(duì),然后將它們與局部上下文結(jié)合起來(lái)進(jìn)行注意力計(jì)算。


這樣既可以避免冗余,也可以隨時(shí)查找到和當(dāng)前局部小段落最相關(guān)的內(nèi)容,如此可以關(guān)注到和本小段落相關(guān)的部分,達(dá)到小模型寬度也能讀長(zhǎng)文本的目的。


形象打個(gè)比方就是:模型可以一目十行,但是一目也只能十行,于是只讓模型看九行,然后把上文一些和這九行相關(guān)的關(guān)鍵詞高亮表示,算作一行,讓模型看這樣的“高亮上文關(guān)鍵詞+本段落九行內(nèi)容”,從而達(dá)成在資源有限的情況下聯(lián)系長(zhǎng)上文的目的。


不過(guò),雖然論文里通過(guò)這個(gè)辦法把上下文增加至256k,但是這并不是極限,據(jù)論文5.2節(jié)理想化測(cè)試,可以一直到16M都可以記住上文信息。但是實(shí)際中有很多noise,最終選擇了256k作為結(jié)論。但并不是沒(méi)有代價(jià),模型的精確度降為正常模型的73%,而且看起來(lái)如果再繼續(xù)增加會(huì)降更多。


總的來(lái)說(shuō),這篇文章還是比較有意思的,因?yàn)榭梢杂脕?lái)改造任何已有的模型,只需要加一個(gè)上文記憶數(shù)據(jù)庫(kù),就可以拓展模型的能力了。

上下文長(zhǎng)度256k,無(wú)限上下文版本LongLLaMA的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
丹阳市| 临猗县| 广州市| 凉山| 肥城市| 揭东县| 蓬安县| 田东县| 思茅市| 大城县| 夏津县| 吉水县| 宜州市| 新郑市| 青田县| 郓城县| 东至县| 桓台县| 灵山县| 禹州市| 通许县| 铜川市| 太保市| 平谷区| 朔州市| 阿巴嘎旗| 邹平县| 铜梁县| 琼海市| 墨脱县| 余江县| 营山县| 大方县| 怀集县| 涞源县| 泾源县| 广东省| 恩施市| 伊宁市| 宁远县| 韩城市|