国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

強(qiáng)烈推薦!臺大李宏毅自注意力機(jī)制和Transformer詳解!

2023-01-16 17:32 作者:夢到死鎖的銀行家  | 我要投稿
  • word embedding: https//www.youtube.com/watch?v=X7PH3NuYW0Q

self-attention處理整個sequence,F(xiàn)C專注處理某一個位置的資訊,self-attention和FC可以交替使用

  • transformer架構(gòu)
  • self-attention的簡單理解

a1~a4可能是input也可以作為中間層的輸入,b1~b4每個向量都會考慮整個input sequence

  • 計(jì)算關(guān)聯(lián)性(例如向量a1和a2的關(guān)聯(lián)性,一般都是使用下圖左邊的方法Dot-product)
  • 計(jì)算a1和a1自身以及a2,a3,a4的關(guān)聯(lián)性,得到a11,a12,a13,a14
  • 得到關(guān)聯(lián)性向量之后,再經(jīng)過softmax處理(和分類是一個softmax)
  • 基于attention scores抽取信息

a1-a4每個向量都可以×Wv得到對應(yīng)的value: v1-v4。然后將關(guān)聯(lián)性向量a11‘-a14’乘上對應(yīng)的value,然后結(jié)果相加得到b1

然后依次計(jì)算b2,b3,b4,所以哪個關(guān)聯(lián)性更大,得到的結(jié)果也就越接近那個關(guān)聯(lián)性數(shù)據(jù)(比如a11'最大,得到的b1也就最接近a11‘,或者說b1的主要構(gòu)成是由a11’構(gòu)成)

  • 概括計(jì)算b2流程

a1~a4乘上martix Wq,得到q1~q4,a1~a4乘上martix Wk,得到k1~k4,q2和k1~k4做dot-product操作,得到self-attention score(可能還會經(jīng)過softmax處理): a21‘,a22‘,a23‘,a24‘,然后各自與v1~v4相乘,然后相加得到b2

  • 從矩陣角度理解計(jì)算過程

我的理解:這樣就很容易提高運(yùn)算速度,因?yàn)椴⑿卸雀?/p>


強(qiáng)烈推薦!臺大李宏毅自注意力機(jī)制和Transformer詳解!的評論 (共 條)

分享到微博請遵守國家法律
儋州市| 马尔康县| 张掖市| 乐安县| 虹口区| 迁安市| 荥经县| 颍上县| 财经| 双桥区| 铁岭县| 凉城县| 田阳县| 泰顺县| 定边县| 天长市| 涟源市| 灵石县| 凤山县| 多伦县| 来宾市| 当涂县| 佛坪县| 安庆市| 鹤壁市| 北川| 丹阳市| 威信县| 宁武县| 唐河县| 阜新| 天长市| 新化县| 新巴尔虎左旗| 济宁市| 资阳市| 佛坪县| 岳阳市| 宣汉县| 西昌市| 资阳市|