国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

“交叉熵”如何做損失函數(shù)?打包理解“信息量”、“比特”、“熵”、“KL散度”、“

2023-08-30 19:07 作者:廢物學(xué)短  | 我要投稿

信息熵大~信息越不確定(難定)~信息越亂~信息越隨機(jī),大概可以這么理解

定義:

?
09:29
?

解釋一下為什么是相加,不是相乘。f是信息量,可以理解為它是一個物理量,物理量是有量綱的,等號左邊和右邊必須量綱一致。如果右邊是乘的話,就是信息量的平方了,量綱不同了。而概率,是沒有量綱的,可以相乘。


?
11:44
?
-log2(x) 二分法 單位:比特

信息量

系統(tǒng)熵


相對熵——KL散度

?
18:42
?


分為前向和后向kl散度

KL散度在通信系統(tǒng)中,表示用一個信源表示另一個信源的復(fù)雜度

對KL需要兩個分布support相同

  • 吉布斯不等式

把交叉熵應(yīng)用到神經(jīng)網(wǎng)絡(luò)中

?
23:00
?


  • 這里P是基準(zhǔn),相當(dāng)于人腦。而Q相當(dāng)于神經(jīng)網(wǎng)絡(luò),所以只能去改變Q來擬合P,而不能去改變P,P的取值是改不了的
  • KL散度就是求兩個概率分布函數(shù)之間的距離,取事件數(shù)量多的才能計(jì)算所有差異。
  • P(m) Q(n)的數(shù)量不一樣,始終用大的,當(dāng)m<n時(shí),還是用n,pi中的i取不到n呀,那是不是累加結(jié)果又變成和取m一樣喃
  • 我覺得n>m時(shí),取m和n得到的結(jié)果是一樣的,而n<m時(shí)則一定要取m(較大的),都取較大的時(shí)為了方便記憶吧
  • 為啥取較大的,i>m的時(shí)候,pi的值是多少呢
  • 剩下的不能簡單的直接帶入概率為0吧?這樣的話你的信息量怎么辦 信息量里面是有l(wèi)og的 而且本來信息量里面有概率 這樣的話事件少對應(yīng)事件多的的信息量為無窮大? 我比較認(rèn)同前面說的拆開按照條件概率分


1、這里求和上下限應(yīng)該是1和2,分別對應(yīng)是貓和不是貓兩個事件

3、這里up不小心把“訓(xùn)練過程要對所有數(shù)據(jù)進(jìn)行迭代”雜糅進(jìn)求和過程了







“交叉熵”如何做損失函數(shù)?打包理解“信息量”、“比特”、“熵”、“KL散度”、“的評論 (共 條)

分享到微博請遵守國家法律
凤城市| 清丰县| 蒙阴县| 五华县| 上蔡县| 沅陵县| 夏河县| 三原县| 石嘴山市| 太白县| 景洪市| 湄潭县| 襄樊市| 临湘市| 徐闻县| 新河县| 涪陵区| 政和县| 东莞市| 中阳县| 调兵山市| 奉化市| 利津县| 新密市| 廊坊市| 镇沅| 辉县市| 舟曲县| 靖州| 临安市| 桐城市| 屯昌县| 麻城市| 长岭县| 高安市| 肇庆市| 沈丘县| 辉县市| 木兰县| 湟源县| 枣庄市|