12 權重衰退【動手學深度學習v2】

權重衰退
最常見的處理過擬合的方法
如何控制模型的容量
- 將模型變得比較小,減少里面的參數(shù)的數(shù)量
- 縮小參數(shù)值的取值范圍
硬性限制

- θ用來限制權重 w 的變化范圍
- 通常不會限制偏移 b ,從統(tǒng)計學上來講,偏移是整個數(shù)據(jù)對于 0 點的偏移,是不應該限制的,但是實際上,限不限制效果相同
- θ越小,限制就越強。最強的情況下就是θ等于0,所有的w都等于0,只能選一個偏移
- 一般來說θ會選擇1、0.1、0.01
柔性限制

- λ是一個超參數(shù),λ控制了整個正則項的重要程度
- λ趨向于無窮大的時候就等價于硬性限制中θ趨向于0,使得最優(yōu)解w*也會慢慢趨向于0
- 可以通過增加λ來控制模型的復雜度(讓模型不要太復雜)
演示對最優(yōu)解的影響

- 綠線代表損失函數(shù)l的等高線
- 綠點代表損失函數(shù)l的最優(yōu)點(只優(yōu)化損失的情況)
- w的2次項可以認為是一個以原點為中心的等高線,如橘黃色圓圈
- 原始的最優(yōu)解(綠點)就不是最優(yōu)了,因為它的值對于橘黃色的線來說比較大。這里可以理解為w~*就是橘黃色圓圈和綠色圓圈的等高線的值之和,在橘黃色圓圈中,原點值最小,向外增加;在綠色圓圈中,綠點值最小向外增加
- 如果w~*從綠點出發(fā),沿著藍色箭頭走,l的值會增大,但是w的二次項(閥的項)的值會減小,走到w*處達到平衡點總體上來講,閥的引入,使得最優(yōu)解向原點偏移,對應的最優(yōu)解的值會變得小一些,絕對值會變小,從而模型的復雜度會變低
參數(shù)更新法則

- 通常來講,λ和學習率的乘積是小于1的
- 為什么叫權重衰退?因為λ的引入使得當前的權重做了一次縮小操作,即所說的衰退
總結

- λ是控制模型的超參數(shù),通過控制λ的大小來控制模型的復雜度
----to be continued----
標簽: