香農熵是如何對溝通施加根本性限制?
我是斜杠青年,一個熱愛前沿科學的“雜食性”學者!
信息是什么,是真的嗎?克勞德·香農認識到元素成分令人驚訝。

如果有人告訴你一個你已經知道的事實,他們基本上什么都沒告訴你。然而,如果他們泄露了一個秘密,可以公平地說,有些事情真的被傳達了。
這種區(qū)別是克勞德·香農信息理論的核心。它由1948年一篇劃時代的論文《通信數學理論》介紹,為量化準確發(fā)送和接收消息所需的信息量提供了一個嚴格的數學框架,這取決于預期信息可能表達什么的不確定性程度。
也就是說,舉個“栗子”吧……
在一個場景中,我有一個詭計硬幣——它兩邊都有頭。我要翻兩次。傳達結果需要多少信息?根本沒有,因為在收到消息之前,你完全可以肯定兩個翻轉都會出現。
在第二個場景中,我用普通硬幣翻轉兩次——一邊是頭,另一邊是尾巴。我們可以使用二進制代碼傳達結果:頭部為0,尾巴為1。有四條可能的消息——00、11、01、10——每條消息都需要兩位信息。
那么,這有什么意義呢?在第一個場景中,你對消息的內容完全確定,并且傳輸它需要零位。在第二場景中,你有1比4的機會猜出正確的答案——25%的確定性——消息需要兩位信息來解決這種模糊性。一般地說,你對信息表達什么了解越少,傳達的信息就越多。
香農是第一個使這種關系在數學上精確的人。他在計算消息所需的最小位數(后來稱為香農熵的閾值)的公式中捕獲了它。他還表明,如果發(fā)件人使用的位數少于最小值,消息將不可避免地被扭曲。
加州大學圣地亞哥分校的信息理論家塔拉·哈維迪表示:“他也有這樣的直覺,即當你對學習某事最驚訝時,信息就會最大化。”
“熵”一詞來自于物理學中,熵是紊亂的衡量標準。云的熵高于冰立方體,因為云比立方體的晶體結構允許更多的方法來排列水分子。在類似的情況下,隨機消息具有很高的香農熵——如何排列其信息的可能性很大——而遵循嚴格模式的消息具有較低的熵。在物理學和信息論中計算熵的方式也存在形式相似之處。在物理學中,熵公式涉及對可能的物理狀態(tài)進行對數。在信息論中,它是可能的事件結果的對數。
香農熵的對數公式掩蓋了它捕獲內容的簡單性——因為思考香農熵的另一種方式是,平均而言,確定消息內容所需的是或否問題的數量。
例如,想象一下兩個氣象站,一個在圣地亞哥,另一個在圣彼得堡。每個人都想將自己城市的七天天氣預報發(fā)送給另一個。圣地亞哥幾乎總是陽光明媚,這意味著你對天氣預報會的傳播充滿信心。圣彼得堡的天氣不確定——晴天的機會更接近50-50。

發(fā)送每個七天的預測需要多少個是或否問題?對圣地亞哥來說,有利可圖的第一個問題可能是:所有七天的天氣預報都是晴天嗎?如果答案是肯定的(而且可能性是肯定的),那么你已經在一個問題中確定了整個預測。但對于圣彼得堡,你幾乎必須一天一天地完成天氣預報:第一天陽光明媚嗎?第二天呢?
消息內容的確定性越高,平均而言,你確定它所需的是或否問題就越少。
要再舉一個例子,請考慮兩個版本的字母游戲。首先,我從英文字母表中隨機選擇了一個字母,我想讓你猜猜。如果你使用最好的猜測策略,平均需要4.7個問題才能得到它。(一個有用的第一個問題是:“字母在字母表的前半部分嗎?”)
在游戲的第二個版本中,你不是猜測隨機字母的價值,而是試圖猜測實際英語單詞中的字母?,F在,你可以調整你的猜測,以利用一些字母比其他字母出現得更頻繁的事實(“它是元音嗎?”)了解一個字母的值有助于你猜測下一個字母的值(q幾乎總是跟著u)。香農計算出,英語的熵為每個字母2.62位(或2.62是或否問題),遠遠低于每個字母隨機出現時所需的4.7位。換句話說,模式減少了不確定性,這使得使用相對較少的信息進行大量通信成為可能。
請注意,在這樣的示例中,你可以提出更好或更糟糕的問題。香農熵設置了一個不可侵犯的底線:這是傳達信息所需的絕對最小位數,或是或否問題。
“香農展示了光速之類的東西,這是一個基本的極限。”“香農熵是我們可以壓縮源的根本限制,而不會冒失真或損失的風險?!?/p>
今天,香農熵是許多應用環(huán)境中的尺度,包括信息壓縮技術。例如,你可以壓縮大型電影文件,這要歸功于像素顏色具有統(tǒng)計模式,就像英語單詞一樣。工程師可以為從一幀到下一幀的像素顏色模式構建概率模型。這些模型可以通過為模式分配權重,然后根據像素可能出現的所有可能方式獲取權重的對數來計算香農熵。該值告訴你“無損”壓縮的極限——在你開始丟失有關其內容的信息之前,電影絕對可以壓縮。
任何壓縮算法的性能都可以與此限制進行比較。如果你離它很遠,你有動力更努力地工作,找到更好的算法。但如果你接近它,宇宙的信息定律就會阻止你做得更好。
了解更多信息科學,關注我就是你最好的選擇!