【學(xué)術(shù)人生】Yoshua Bengio:我的一生
當(dāng)你初入江湖,迷茫不知道該干什么的時候,不妨去模仿前人是如何進行科研的,并從中歸納出最適合自己的道路。為此,我們推出“學(xué)術(shù)人生”專欄,介紹科研的方法與經(jīng)驗,為你的科研學(xué)習(xí)提供幫助,敬請關(guān)注。
2018 年圖靈獎獲得者、AI 先驅(qū)、深度學(xué)習(xí)三巨頭之一、對抗生成網(wǎng)絡(luò) GAN、標(biāo)志性的銀灰卷發(fā)和濃眉,如果還沒猜到的話,當(dāng)你看到這個封面,一定就會意識到自己在學(xué)習(xí)的路上,已經(jīng)或間接或直接地拜讀過大佬的著作了。

看到花書的封面,和前面的關(guān)鍵詞,也許你會意識到,他就是——Yoshua Bengio。

從下面這個記錄可以看出,他的著作在谷歌學(xué)術(shù)上的引用量也是一騎絕塵。

就在這兩天的 NeurIPS 2022 New in ML Workshop 上,Yoshua Bengio 做了一個 Live Talk,介紹了自己從本科畢業(yè)開始,一直到現(xiàn)在的人生之路。
鏈接:
https://nehzux.github.io/NewInML2022NeurIPS/assets/YoshuaBengio-NewInML-NeurIPS-28nov2022.pdf
接下來,就是Bengio在大會上親口講述“自己一生”的故事。
從最初本科畢業(yè)時的“廣度優(yōu)先搜索”,了解到 Hinton 的連接主義, 到探索人腦、初代語言模型、注意力機制等等,以及度過人工智能寒冬,再到現(xiàn)在探索抽象、生成流網(wǎng)絡(luò)、Ai4Science、HLAI(人類級別智能)、意識先驗、System-2、因果推斷、元學(xué)習(xí)、模塊化等重要且新穎的領(lǐng)域。Yoshua Bengio 回顧了自己的科研生涯,他說“Staying Humble”。
愛上一個研究方向
一開始,Yoshua 講述了“他是如何愛上一個研究方向”。
1985 - 1986 年,他剛讀完本科,思索自己下一步要做什么,閱讀了大量不同領(lǐng)域的論文,將視線聚焦于神經(jīng)網(wǎng)絡(luò)研究,尤其是 Geoff Hinton 和 David Rumelhart 等其他早期連接主義者的論文。
1986 - 1988 年,Yoshua 進一步閱讀玻爾茲曼機,實現(xiàn)音素分類,完成了關(guān)于語音識別的玻爾茲曼機的碩士論文,而后當(dāng)了解到反向傳播時,對它感到興奮,并開始使用它,在之后參加了 1988 年連接主義的暑期學(xué)校,遇到了許多其他充滿熱情的研究生和研究人員們。1988-1991 年,Yoshua 完成了關(guān)于神經(jīng)網(wǎng)絡(luò)(RNNs 和 ConvNets)和 HMM 混合的博士論文。
神經(jīng)網(wǎng)絡(luò)與人工智能
隨后,Yoshua 闡述了自己的工作中對于神經(jīng)網(wǎng)絡(luò)與 AI 的理解。從一個令人興奮的先驗知識出發(fā),他指出,通過學(xué)習(xí),智能(機器、人類或動物)的產(chǎn)生是有一些原則的,這些原則非常簡單,可以被簡潔地描述出來,類似于物理定律,也就是說,我們的智能不只是一堆技巧和知識的結(jié)果,而是獲取知識的一般機制。
他還辨析了傳統(tǒng) AI 和機器學(xué)習(xí)的要點,提到了人工智能的機器學(xué)習(xí)方法:
經(jīng)典的 AI 一般是基于規(guī)則、基于符號的:其知識由人類提供,但直覺知識是不可傳播的,機器只做推理工作,沒有很強的學(xué)習(xí)和適應(yīng)能力,對不確定性的處理能力不足。
而機器學(xué)習(xí)則試圖解決這些問題:在很大程度上取得了成功,但更高層次的(有意識的)認知尚未實現(xiàn)。
而后 Yoshua 從維度詛咒和分布式表示(指數(shù)級優(yōu)勢)這兩個細節(jié)出發(fā),強調(diào)了促使 ML 向 AI 轉(zhuǎn)變的五個關(guān)鍵因素:
海量&海量的數(shù)據(jù);
非常靈活的模型;
足夠的算力;
計算效率推斷;
強大的先驗知識,可以打破“維度詛咒”,實現(xiàn)對新情況的強泛化。
他還提到了腦啟發(fā)(Brain-inspired),以及如下特性:
大量簡單自適應(yīng)計算單元的協(xié)同作用;
關(guān)注分布式表示(如單詞表示);
視智能為結(jié)合的產(chǎn)物(近似優(yōu)化器、初始架構(gòu)/參數(shù)化);
端到端學(xué)習(xí)
長期依賴和梯度下降
緊接著,Yoshua 回顧了機器學(xué)習(xí) 101 課程的要點:
函數(shù)族;
可調(diào)參數(shù);
從未知數(shù)據(jù)中抽樣的例子產(chǎn)生分布;
對經(jīng)過訓(xùn)練的函數(shù)所產(chǎn)生的誤差的度量;
近似最小化算法搜索最佳參數(shù)選擇,迭代減少平均訓(xùn)練誤差
又引出了他們自己 1994 年的工作?"Learning Long-Term Dependencies with Gradient Descent is Difficult"?,并強調(diào)了他的經(jīng)驗:負面結(jié)果可能非常重要,它教會了我們一些東西,推動了許多下游研究,比如 2014 年關(guān)于自注意力機制的工作。接下來他展開介紹了這項工作:如何存儲 1 bit?在某些維度上有多個引力盆地的動力學(xué)
如果動力系統(tǒng)在某些維度上有多個吸引域,則狀態(tài)的某些子空間可以存儲 1 ?bit 或多個 bit 信息。

在有界噪聲存在的情況下穩(wěn)健地存儲 1 bit:
光譜半徑 > 1,噪聲可以踢出吸引子的狀態(tài)(不穩(wěn)定);
而當(dāng)半徑 < 1時就不是這樣了(收縮→穩(wěn)定)。

可靠地存儲→消失的梯度
可靠地存儲比特信息需要譜半徑 < 1
譜半徑 < 1的 T 個矩陣的乘積是一個矩陣,其譜半徑在 T 上以指數(shù)速度收斂于 0。

如果 Jacobian 矩陣的譜半徑 < 1 →傳播梯度消失
為什么它會損害基于梯度的學(xué)習(xí)?
與短期依賴關(guān)系相比,長期依賴關(guān)系得到的權(quán)重是指數(shù)級小的(以 T 為單位)。

當(dāng)譜半徑 < 1時,時間差越長,譜半徑越小。
深度學(xué)習(xí):學(xué)習(xí)內(nèi)部表征
深度學(xué)習(xí)并不像其他機器學(xué)習(xí)方法:
沒有中間表示(線性)
或固定的(通常是非常高維的)中間表示(支持向量機、內(nèi)核機)
那么什么是好的表征形式呢?——使其他或下游任務(wù)更容易。

于是 Yoshua 又回顧了他們 2003 年的經(jīng)典工作《A Neural Probabilistic Language Model》,這是首次用神經(jīng)網(wǎng)絡(luò)來解決語言模型的問題,也為后來深度學(xué)習(xí)在解決語言模型問題甚至很多別的 NLP 問題時,奠定了堅實的基礎(chǔ)(比如之后 word2vec 的提出)。
每個詞由一個分布式連續(xù)值代碼向量表示=嵌入;
跨n-gram(單詞元組)共享;
泛化到語義上與訓(xùn)練序列相似的單詞序列


為什么要設(shè)置多層(multiple layer)?——世界是可構(gòu)成的
具有不斷增加的抽象級別的表示層次;
每個階段都是一種可訓(xùn)練的特征變換。
圖像識別:像素→邊緣→文本→主題→零件→物體;
文本:文字→單詞→詞組→從句→句子→故事;
語音:樣本→譜帶→聲音→……→電話→音素→單。詞

隨著深度學(xué)習(xí)的不斷發(fā)展,不止 NLP 領(lǐng)域,語音和圖像也邁出了重要一步:


但其實 1996-2012 年也是神經(jīng)網(wǎng)絡(luò)的寒冬:
AI 研究失去了達到人類智能水平的雄心
關(guān)注“更簡單”(更容易分析)的機器學(xué)習(xí)
很難說服研究生進行神經(jīng)網(wǎng)絡(luò)的研究
這需要堅持下去,但也要處理一些棘手的問題:
遵循直覺
但嘗試通過實驗或數(shù)學(xué)方法驗證
理清思路以澄清問題,提出“為什么”問題,試著去理解
支持小組的重要性(CIFAR計劃)
生成對抗網(wǎng)絡(luò) GAN
自 2010 年以來,Yoshua 關(guān)于生成式深度學(xué)習(xí)的論文,尤其是和 Ian Goodfellow 共同研究的生成性對抗網(wǎng)絡(luò)(GAN),這篇經(jīng)典之作更是引發(fā)了計算機視覺和圖形學(xué)領(lǐng)域的深刻革命。

GAN 以其優(yōu)越的性能,在短短兩年時間里,迅速成為人工智能的一大研究熱點,也將多個數(shù)據(jù)集的結(jié)果刷至新高。
Attention 機制的“革命”
對一個輸入序列或圖像,通過設(shè)置權(quán)重或每個輸入位置的概率,正如 MLP 中所產(chǎn)生的那樣,運用到每一個位置。Attention 在在翻譯、語音、圖像、視頻和存儲中的應(yīng)用非常廣泛,也具有以下的特點/優(yōu)點:
一次只關(guān)注一個或幾個元素;
根據(jù)具體情況,了解該讓哪參與進來;
能對無序set操作;
是 NLP 中的 SOTA,為 Transformer 的提出奠定基礎(chǔ);
在 RNN 中繞過學(xué)習(xí)長期依賴的問題!!

強化學(xué)習(xí)
深度強化學(xué)習(xí)在 2016 年初露頭角,取得巨大突破:
AlphaGo 以 4-1 擊敗世界冠軍李世石;
人工智能和圍棋專家沒有預(yù)料到;
將深度學(xué)習(xí)與強化學(xué)習(xí)相結(jié)合。

深度學(xué)習(xí)的生物學(xué)突破
除了在計算機領(lǐng)域的成就以外,深度學(xué)習(xí)也在生物學(xué)領(lǐng)域取得重要突破,英國《Nature》雜志在 2021 年發(fā)表了一項結(jié)構(gòu)生物學(xué)最新研究,人工智能公司 DeepMind 的神經(jīng)網(wǎng)絡(luò) Alphafold 2 ,利用注意力圖神經(jīng)網(wǎng)絡(luò),預(yù)測的蛋白質(zhì)結(jié)構(gòu)能達到原子水平的準(zhǔn)確度,這也為生命科學(xué)領(lǐng)域帶來革命性影響。

保持謙遜
最好別想獎項、獎品和認可:這些都是危險的干擾!
自負會使我們盲目,使我們過度自信,是科學(xué)發(fā)現(xiàn)的敵人
損害我們靈活思考的能力,質(zhì)疑我們認為理所當(dāng)然的東西,傾聽別人不同意我們的觀點的能力
我多次改變主意:2005 年有監(jiān)督 vs 無監(jiān)督,2022 年頻率論 vs 貝葉斯。
學(xué)習(xí)更高層次的抽象
(Bengio & LeCun 2007)
深度學(xué)習(xí)的最大回報是允許學(xué)習(xí)更高層次的抽象。
更高層次的抽象:將解釋變量和它們的因果機制分離開,這將使得更容易的泛化和轉(zhuǎn)移到新的任務(wù)上去。
如何發(fā)現(xiàn)好的解耦表征
如何發(fā)現(xiàn)抽象?
什么是好的表現(xiàn)形式?(Bengio et al 2013)
需要線索(=歸納偏差)來幫助理清潛在因素及其依賴性,例如:
空間和時間尺度
要素之間的依賴關(guān)系簡單稀疏(意識優(yōu)先)
因果/機制獨立性(可控變量=干預(yù))
多個時空尺度(粗略的高層因素解釋了較低層的細節(jié))
繞過維度的詛咒
我們需要在機器學(xué)習(xí)模型中構(gòu)建組合性,就像人類語言利用組合性為復(fù)雜的思想賦予表征和意義一樣。利用組合性:在指代能力上獲得指數(shù)級的增長;
分布式表示/嵌入:特征學(xué)習(xí);
當(dāng)前的深度架構(gòu):多層次的特征學(xué)習(xí);
系統(tǒng) 2 深度學(xué)習(xí):一次編寫幾個概念;
先驗假設(shè)(Priori):組合性有助于有效地描述我們周圍的世界。
深度學(xué)習(xí)目標(biāo):發(fā)現(xiàn)因果表征
Yoshua 之前也研究過一段時間的因果,這里他也發(fā)表了與此相關(guān)的一些看法。我們需要了解這些問題:
正確的表述是什么?解釋數(shù)據(jù)的因果變量
如何發(fā)現(xiàn)它們(作為觀測數(shù)據(jù)的函數(shù))?
如何發(fā)現(xiàn)他們的因果關(guān)系、因果圖?
行動如何與因果干預(yù)相對應(yīng)?
原始感官數(shù)據(jù)如何與高層因果變量相關(guān)?高層因果變量如何轉(zhuǎn)化為低層行為和局部觀察?
需要額外的偏見:因果關(guān)系是關(guān)于分布的變化

當(dāng)前機器學(xué)習(xí)的缺失
超越訓(xùn)練分布的理解與泛化;
學(xué)習(xí)理論只處理同一分布內(nèi)的泛化;
模型學(xué)習(xí)但不能很好地泛化(或在適應(yīng)時具有高樣本復(fù)雜性)修改后的分布、非平穩(wěn)性等。
知識重用性差、模塊化差
要超越訓(xùn)練分布的泛化
由于性能不佳的 OOD,目前工業(yè)強度的機器學(xué)習(xí)存在魯棒性問題;
如果沒有獨立同分布(iid),需要替代假設(shè),否則沒有理由期望泛化;
分布如何變化?
人類做得更好!
來自大腦的歸納偏見?
人類如何重用知識?
系統(tǒng)泛化
根據(jù)之前的一些工作,將這種能力總結(jié)如下:
學(xué)過語言學(xué);
動態(tài)重組現(xiàn)有概念;
即使新組合在訓(xùn)練分布下的概率為 0:
例如:科幻小說場景
例:在一個陌生的城市開車
目前的深度學(xué)習(xí)不太成功,它可能會“過擬合”訓(xùn)練分布。

SOTA AI 和人類水平智力之間的差距
其主要的差距有:
樣本復(fù)雜度:學(xué)習(xí)一項任務(wù)所需的樣本數(shù)量;
非分布泛化;
適應(yīng)的非分布速度(遷移學(xué)習(xí));
因果發(fā)現(xiàn)和推理;
復(fù)合知識表示和推理
造成差距的唯一原因:有意識的處理?假設(shè):這種差距源于一種與人類意識處理相關(guān)的計算、知識表示和推理,但在人工智能中尚未掌握。有意識的處理幫助人類處理 OOD 設(shè)置
面對新奇或罕見的情況,人類總是有意識的注意力,迅速結(jié)合適當(dāng)?shù)闹R片段,對它們推理,并設(shè)想解決方案。
我們不遵循我們的慣例,在新奇的環(huán)境中使用有意識的思維。
系統(tǒng) 1 和系統(tǒng) 2 的認知——2個系統(tǒng)(以及認知任務(wù)的類別)
系統(tǒng) 1
直覺、快速、無意識、一步并行、非語言、習(xí)慣性;
隱性知識;
當(dāng)前 DL
系統(tǒng) 2
緩慢的、有邏輯的、順序的、有意識的;
語言,算法,計劃,推理;
明確的知識;
DL 2.0

從推理到 OOD 泛化
目前工業(yè)級別的機器學(xué)習(xí)(包括 NLP)由于糟糕的 OOD 性能而遭受魯棒性問題;
人類使用更高層次的認知(系統(tǒng) 2)進行非分布泛化;
為什么有幫助,如何有幫助?
這與代理、因果關(guān)系有什么關(guān)系?
我們?nèi)绾卧谏疃葘W(xué)習(xí)中結(jié)合這些原則來獲得系統(tǒng) 1 和系統(tǒng) 2 的深度學(xué)習(xí)?
將知識分解成可組合的片段進行推理
目前的深度學(xué)習(xí):同質(zhì)架構(gòu)、知識沒有本地化、完全分布式;
遷移學(xué)習(xí):重用相關(guān)的知識片段,最大限度地減少干擾,最大化重用;
系統(tǒng) 2 推理選擇和組合可命名的知識片段,形成思想(想象的未來、反事實的過去、問題的解決方案、輸入的解釋等)。
如何將知識分解成正確的可重組片段?
遷移到修正分布:超越 iid 假設(shè)
iid 假設(shè)太強→分布外泛化能力差;
寬松的假設(shè):相同的因果動力學(xué),不同的狀態(tài)/干預(yù)
因果關(guān)系作為 OOD 泛化、遷移學(xué)習(xí)、持續(xù)學(xué)習(xí)等的框架:
非平穩(wěn)知識(變量值)的因子平穩(wěn)知識(因果機制);
干預(yù)=變量的改變,不僅僅是由于默認的因果鏈接,而是由于代理;
因果模型=分布族(包括任務(wù));
這些分布的指標(biāo)是干預(yù)措施的選擇(或初始狀態(tài));
固定知識被分解成可重組的因果機制
為什么需要因果
因果模型=通過干預(yù)/環(huán)境/初始狀態(tài)等與共享參數(shù)(機制)索引的分布族
學(xué)習(xí)者必須預(yù)測干預(yù)措施的效果,需要解決 Out-Of-Distribution(OOD)=新的干預(yù)措施;
干預(yù)=完美實現(xiàn)代理的抽象動作;
更現(xiàn)實:實現(xiàn)抽象變量變化的意圖=目標(biāo);
與多任務(wù)和元學(xué)習(xí)不同,不是學(xué)習(xí)特定于任務(wù)或環(huán)境的參數(shù),而是對干預(yù)進行推斷
Yoshua 團隊今年在因果領(lǐng)域研究也有著一個研究成果——作為概率推理機的大型深度網(wǎng)絡(luò):
總結(jié)
最后,Yoshua 也表達了自己的愿景:讓機器學(xué)習(xí)走出實驗室,走入社會。
機器學(xué)習(xí)不再只是一個研究問題
基于機器學(xué)習(xí)的產(chǎn)品正在設(shè)計和部署中
而這也是人工智能科學(xué)家、工程師、企業(yè)家和政府的共同的新責(zé)任。而 AI 也是一個強大的工具,要重點關(guān)注它的:
雙重用途;
智慧競賽:技術(shù)進步 vs 智慧進步;
如何最大化其有益的使用,以及減少其誤用?
同時,一切事物都像雙刃劍,AI 也不例,我們也應(yīng)當(dāng)避免一些對于社會的負面影響:
控制人們思想的 Big Brother 和殺手機器人;
失業(yè)人士的痛苦來源,至少在過渡轉(zhuǎn)型時期是這樣;
來自廣告和社交媒體的操縱;
強化社會偏見和歧視;
使得不平等加劇,權(quán)力集中在少數(shù)人、公司和國家。
來源:夕小瑤的賣萌屋
