国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

14 數(shù)值穩(wěn)定性 + 模型初始化和激活函數(shù)【動手學深度學習v2】

2023-07-15 17:11 作者:月蕪SA  | 我要投稿

14數(shù)值穩(wěn)定性、模型初始化和激活函數(shù)

網(wǎng)絡層數(shù)較多時,向量每次進行求導計算都會產(chǎn)生新的矩陣,根據(jù)鏈式法則,網(wǎng)絡中將會產(chǎn)生大量的矩陣相乘計算,導致梯度爆炸和梯度消失

當梯度比1大時,會產(chǎn)生巨大的梯度,造成梯度爆炸,反之相則會造成梯度消失

注:diag是指取矩陣對角元素。MLP(Multi-Layer?Perceptron,MLP):多層感知機。

使用ReLU作為激活函數(shù)會導致梯度爆炸,sigmod激活函數(shù)會導致梯度消失


優(yōu)化訓練方法,防止產(chǎn)生梯度爆炸或消失。例如在疊加梯度時使用加法而不是乘法。


此外, 可以通過類似生成隨機變量使每一層的元素值都相似,主要用均值和方差這兩個特點控制相似度,同時,對反向傳播的梯度值也進行相似的歸一化。

注:圖中t是指層數(shù),i是指元素變量,Var是方差,E是期望。

詳述權(quán)重初始化方法:

注:h為該層輸出值,即下一層的輸入值。w為該層權(quán)重。二者為獨立分布

正向方差約束條件:

反向均值即方差約束條件:

知識補充:期望和方差計算

總結(jié)正反向傳播數(shù)據(jù)約束條件,發(fā)現(xiàn)兩條件難以同時滿足(不同層數(shù)的維度往往不一樣),所以提出較為折中的的Xavier初始:

由式可知,Xavier初始可以控制數(shù)據(jù)方差根據(jù)輸入及輸出數(shù)據(jù)的維度進行調(diào)整。

在以上條件的約束下,可以想見,若在層間插入線性激活函數(shù),而不改變數(shù)據(jù)方差和期望的話,線性激活函數(shù)必須是y=x。(或者說,從控制數(shù)據(jù)穩(wěn)定性方面看,最為理想的激活函數(shù)就是y=x)


?
模型初始化和激活函數(shù) P2 - 21:52
?

推廣到常用的激活函數(shù),使用泰勒展開來輔助分析各函數(shù)對數(shù)據(jù)分布性質(zhì)的影響。

可以看出,在x=0附近(在實際網(wǎng)絡中,各層權(quán)重數(shù)值也往往集中在x=0附近),tanh(x)與relu(x)比較接近y=x的理想激活函數(shù),表現(xiàn)較好。

sigmoid(x)函數(shù)則需要一定的調(diào)整,來達到較好的數(shù)值穩(wěn)定性。

以上分析也從數(shù)值穩(wěn)定性的角度出發(fā),解釋了為什么在實際應用中tanh(x)與relu(x)激活函數(shù)的表現(xiàn)更好。


總結(jié):

合理的權(quán)重初始值和激活函數(shù)的選取可以提升數(shù)值穩(wěn)定性。


補充知識:

nan,inf錯誤是由梯度爆炸導致的常見錯誤。

除了正態(tài)分布、均值分布外,參數(shù)符合其他什么分布對結(jié)果不會有太大的影響(前提是均值、方差等要有約束)














14 數(shù)值穩(wěn)定性 + 模型初始化和激活函數(shù)【動手學深度學習v2】的評論 (共 條)

分享到微博請遵守國家法律
平果县| 肃宁县| 宁武县| 兰溪市| 垫江县| 威信县| 盐源县| 德阳市| 长寿区| 石首市| 桑日县| 清河县| 北川| 尼勒克县| 景泰县| 定西市| 宝清县| 洛宁县| 方山县| 勐海县| 云南省| 东源县| 清新县| 天全县| 景宁| 吉首市| 阿尔山市| 尼木县| 木里| 合川市| 神木县| 罗甸县| 贵定县| 双柏县| 蕉岭县| 田阳县| 芦山县| 当涂县| 新沂市| 黔东| 泾源县|