国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

29.2 ResNet為什么能訓練出1000層的模型【動手學深度學習v2】

2022-03-01 16:59 作者:如果我是泡橘子  | 我要投稿

ResNet為什么能訓練出1000層的模型?


如何避免梯度消失?


  • 將乘法運算變成加法運算(ResNet就是這么做的,特別是殘差連接(Residual Connection))



Residual如何處理梯度消失?


假設有一個預測模型:y = f(x)

  • x:輸入
  • f:表示神經(jīng)網(wǎng)絡模型
  • y:輸出



w:權重


藍色部分:

  • 表示原有模型某一層的 w 的更新計算(輸出 y 中省略了損失函數(shù))
  • η:學習率
  • y 對 w 的梯度不能太小,如果太小的話,η 無論多大都不會起作用,并且也會影響數(shù)值的穩(wěn)定性


紫色部分:

  • y‘ = f(x) + g( f(x) ) 表示使用堆疊的方式對原有的模型進行加深之后的模型

  • 后面的部分表示 y' 對w的梯度,,經(jīng)過鏈式法則展開之后:第二項 y‘ 關于 w 的梯度和之前藍色部分的結果是一樣的,沒有任何變化;第一項 g(y) 關于 y 的梯度是新加的層的輸出對輸入的導數(shù),它和預測值與真實值之間的差別有關系,假設預測的值和真實值之間的差別比較小的話,第一項的值就會變得特別小(假設所加的層的擬合能力比較強,第一項就會變得特別小,在這種情況下,和第二項相乘之后,乘積的值就會變得特別小,也就是梯度就會變得特別小,就只能增大學習率,但可能增大也不是很有用,因為這是靠近底部數(shù)據(jù)層的更新,如果增加得太大,很有可能新加的層中的w就已經(jīng)很大了,這樣的話可能會導致數(shù)值不穩(wěn)定)
  • 正是因為乘法的存在,所以如果中間有一項比較小的話,可能就會導致整個式子的乘積比較小,越到底層的話乘積就越小


綠色部分:

  • y‘' = f(x) + g( f(x) ) 表示使用殘差連接的方式對原有的模型進行加深之后的模型輸出
  • 使用加法的求導對模型表達式進行展開得到兩項,第一項和前面所說的一樣,就是藍色的部分
  • 對于這兩項來說,就算第二項的值比較小,但還是有第一項的值進行補充(大數(shù)加上一個小數(shù)還是一個大數(shù),但是大數(shù)乘以一個小數(shù)就可能變成小數(shù)),正是由于跨層數(shù)據(jù)通路的存在,模型底層的權重相比于模型加深之前不會有大幅度的縮小


靠近數(shù)據(jù)端的權重 w 難以訓練,但是由于加入了跨層數(shù)據(jù)通路,所以在計算梯度的時候,上層的loss可以通過跨層連接通路直接快速地傳遞給下層,所以在一開始,下面的層也能夠拿到比較大的梯度


梯度大小的角度來解釋,residual connection 使得靠近數(shù)據(jù)的層的權重 w 也能夠獲得比較大的梯度,因此,不管網(wǎng)絡有多深,下面的層都是可以拿到足夠大的梯度,使得網(wǎng)絡能夠比較高效地更新





Q&A


  • 1、學習率可不可以使靠近輸出的小一點,靠近輸入的大一點,這樣會不會就可以解決梯度消失的問題?
    ?
    QA P2 - 00:00
    ?


  • 2、為什么深層的網(wǎng)絡,底層比較難訓練?是因為它拿到的梯度一般比較小嗎?
    ?
    QA P2 - 01:15
    ?





----end----

29.2 ResNet為什么能訓練出1000層的模型【動手學深度學習v2】的評論 (共 條)

分享到微博請遵守國家法律
武城县| 武清区| 增城市| 甘肃省| 安宁市| 阜南县| 普兰店市| 壤塘县| 兴义市| 丰城市| 前郭尔| 建宁县| 霸州市| 浙江省| 遂溪县| 溆浦县| 成武县| 仙居县| 新兴县| 江津市| 荃湾区| 东丰县| 五大连池市| 陵水| 洛宁县| 修水县| 北碚区| 紫阳县| 北川| 梅河口市| 贵南县| 武安市| 从化市| 禄丰县| 彩票| 沙坪坝区| 达孜县| 弥勒县| 和静县| 五家渠市| 平乡县|