學(xué)習(xí)分享一年,對神經(jīng)網(wǎng)絡(luò)的理解全都在這40分鐘里了

反向傳播中,根據(jù) X,來求解 Y^ 最大時,w的大小
?
34:35
?y^ 的最高點,即令損失函數(shù)最小的y^的值


曲面上任意一點,都可以求出一個向量,這個向量總是指向上升最快的方向。這個向量在參數(shù)平面上的投影叫梯度。 這個向量也是梯度在切平面上的投影。


實際計算時,有的策略時計算最大值,有的是計算最小值,為了統(tǒng)一起來,即是求最大值,也給他取反,變成計算最小值。
由于梯度始終指向上升最快的方向,實際計算時,先對梯度求反,那么其就會指向下降最快的方向。
如下圖, 梯度始終和“等高線” 保持垂直。 地圖本身是一個向量,代表著在所有參數(shù)維度上都有分量。 所以參數(shù)都按照梯度的分量來進行調(diào)整,那么代表了參數(shù) w 做出了當(dāng)前最好的選擇。

增加一個學(xué)習(xí)率


梯度的計算


標(biāo)簽: