散文網 » 科技 »數碼 » 智源青年科學家候選人 | 張祥雨：挑戰(zhàn)自動化深度學習系統(tǒng)

智源青年科學家候選人 | 張祥雨：挑戰(zhàn)自動化深度學習系統(tǒng)

2019-08-06 09:31 作者:智源社區(qū) 0人讀過 | 我要投稿

4月16日，北京智源人工智能研究院發(fā)布“智源學者計劃”，宣布重點支持四類人才：智源科學家首席（CS）、智源研究項目經理（PM）、智源研究員（PI），以及智源青年科學家。

其中，智源青年科學家是38歲以下?lián)碛胁┦繉W位、在科研上具有無限發(fā)展?jié)摿Φ那嗄陮W者，智源研究院將支持他們開展開放性、探索性研究，勇闖人工智能科技前沿“無人區(qū)”，支持他們面向未來人工智能新思維和新體系的發(fā)展，提出引領性的原創(chuàng)基礎研究成果。

在首批9位智源青年科學家候選人名單中，28歲的張祥雨，是最年輕的一位。他的擬研究項目為：自動化深度學習系統(tǒng)。

在平均年齡僅24歲的曠視研究院，28歲的張祥雨已有l(wèi)eader的樣子：每天為團隊里來自清華、北大等名校的員工、實習生討論和規(guī)劃研究方向，他們的研究成果可能會決定公司下一個突破性的基礎技術。

就是這樣一個不到30歲的年輕人，在近年來深度學習推動學術和產業(yè)兩界發(fā)展的進程中身居幕后——2015年橫空出世的ResNet，張祥雨是主要作者，負責底層框架和編碼，跟一作何愷明配合；之后又提出ShuffleNet——憑借其輕量級低功耗和高性能，成為曠視拿下OPPO、小米等手機大廠視覺訂單的技術核武器。

現(xiàn)在，張祥雨又把研究重點放到了另一個領域：AutoML。AutoML自動化設計、訓練AI模型，是用 “計算換智能” 的新范式——如果說手工設計AI模型是坦克的話，AutoML就是飛機，可以極大地加速產品及解決方案在各行業(yè)落地，大大降低人力操作成本。

張祥雨認為，70%的AI從業(yè)者依然從事著能被機器替代的重復性工作，AutoML這項看似會讓AI從業(yè)者“失業(yè)”的工作，他們從去年就已經開始了，這項工作的意義不僅僅能讓AI自動設計AI成為現(xiàn)實，更重要的是，還能夠讓企業(yè)的產品和方案找到快速落地的捷徑，提升整個行業(yè)的AI建模和訓練效率，真正實現(xiàn)“以非凡科技，為客戶和社會持續(xù)創(chuàng)造最大價值”。

兩個月復現(xiàn)AlexNet

與曠視研究院院長孫劍的經歷一樣，張祥雨也是一名“土生土長”的西安交大人，從本科到博士都在西安交大就讀，在大三那年（2011年），張祥雨拿下了美國大學生數學建模競賽（MCM）特等獎提名獎（Finalist），當時創(chuàng)下西安交大參加該項競賽以來歷史最好成績。

但張祥雨也從不認為自己是“神童”型選手?！拔屹Y質真的一般，都是拼命刷題刷的。”

那么在高智商選手云集的AI領域，接連在CVPR、NIPS等頂會“中獎”的人為什么是他？28歲就能拿起斧頭為公司開辟基礎算法新路的人，為什么也是他？

在辦公區(qū)，張祥雨的工位很難不被注意到，在他桌子上高壘著兩摞紙，張祥雨說這是他最近在看的論文。

“從2016年到現(xiàn)在，我已經看了1800篇了，看過的都用軟件記下來”。粗略算一下，張祥雨平均每天看兩篇論文。而這只是他每天做實驗、管理團隊之余，停歇片刻去做的事情。

憑借這次獲獎經歷，張祥雨獲得了后來到微軟亞洲研究院實習的資格。

獲得實習資格的有三人，但最終只有一個人能留下。當時還在微軟亞洲研究院擔任首席研究員的孫劍給這三人出了一道題：用一個月的時間，將人臉檢測的速度提升十倍。

這個任務現(xiàn)在來看比較容易實現(xiàn)，但當時還沒有引入深度學習，張祥雨就靠著對模型調參，用了三天左右的時間完成任務，孫劍看過之后當場決定留下張祥雨。

張祥雨之前并沒有做科研的經驗，這次有意思的實習考驗讓他初嘗到做科研的成就感。他也意識到走學術路線，需要到產業(yè)界去鍛煉。

到了微軟之后，張祥雨加入了視覺計算組，這個小組里的每一位成員名字放在當下來看都是業(yè)界大牛：小組負責人孫劍，組員包括何愷明、危夷晨、代季峰、袁路、曹旭東、任少卿等。

在組里，張祥雨尤其擅長編程，并且還是唯一一個會CUDA人。剛加入小組時，就憑借這一技之長成為多個項目的核心成員，比如幫助危夷晨做Head Dance游戲，為袁路做瀏覽器圖片布局等。

2013年，張祥雨面臨一個重要選擇：博士課題。當時受微軟亞洲研究院工作的一些影響，張祥雨傾向于做人臉這個領域。但是導師孫劍果斷讓他去做深度學習，“孫老師認為Deep learning以后必然會火，他一直非常有前瞻力，我很相信他”。

于是，張祥雨就成了孫劍組里第一個做深度學習的博士生。

他做的第一個深度學習相關的工作就是復現(xiàn)深度學習經典論文AlexNet，這篇由Alex Krizhevsky和2018年圖靈獎得主Geoffrey Hinton等人完成的論文，讓深度學習和神經網絡重新崛起。

張祥雨花了兩個月的時間對論文進行了復現(xiàn)，包括寫完底層全部code。

復現(xiàn)AlexNet的經歷算是深度學習的入門，之后他的主要工作是做框架、寫code。當時深度學習的框架非常少，于是張祥雨干脆自己寫了一個，包括CPU和GPU的。

2013年底Caffe問世，為了對Caffe的模型做兼容，張祥雨就把接口也改成Caffe一樣，還起了個名字叫Caffe Pro。

這份code關鍵的一個亮點是支持圖優(yōu)化，支持多卡，這為后來ResNet的誕生打下了基礎。

ResNet的誕生

在完成這份code以后，孫劍就把何愷明、任少卿、張祥雨拉到一起做深度學習，在組隊之前，何愷明做了圖像重建和哈希計算，任少卿做人臉。

經過一年的磨合，“何張任”組合在孫劍的帶領下小有所成，ECCV、TPAMI等國際視覺會議的論文中開始出現(xiàn)這三個二十多歲中國人的名字。

這幾位年輕人真正爆發(fā)是在2015年。

當時包括谷歌、百度在內的大廠都在參加ImageNet大規(guī)模視覺識別挑戰(zhàn)賽，當時人類識別圖像正確分類的誤差率為5.1%，誰能打破5.1%，就代表在這一領域機器超越了人類，而2014年最好的成績是6.67%，由谷歌創(chuàng)造，但依舊沒能實現(xiàn)5.1%，百度也積極嘗試，試圖第一個打破5.1%。

“何張任”組合決心跟大廠們硬剛一下。

事實證明，想要突破大廠們都還沒打破的記錄并非易事。主要是由于神經網絡想提升能力就得持續(xù)加深，但一加深就不收斂，導致實驗結果很不理想。

有一天，張祥雨突然意識到收斂的問題跟梯度消失有關系，如果做一些獨立性假設的話，是可以推出一套參數初始化的法則，讓梯度消失的問題解決。因此他推導出一組公式，后來在微軟內部命名為“xiangyu初始化法”。

接著，“何張任”組合又引入一種新的修正線性單元（ReLU），將其稱為參數化修正線性單元（PReLU），并且通過對修正線性單元的非線性特征進行直接建模，推導出一種符合理論的初始化方法，并直接從頭開始訓練網絡，將其應用于深度模型的收斂過程。

這種方法應用到比賽之后結果出爐：錯誤率已降低至4. 94%，超越人類！

不過，張祥雨認為，打破記錄確實可以長點臉，但是并不足以證明AI直接超過了人類。他們發(fā)現(xiàn)，挑戰(zhàn)到了后面就完全變成了一個工程問題，成了怎么用有限的資源訓練起來更大的網絡。

“其實我個人是非常不滿意的，因為雖然打敗了人類，但更多是一個噱頭，我們也知道這些方法并不很work，主要是靠調參和堆模型。”張祥雨說。

張祥雨又重新復盤，他發(fā)現(xiàn)2014年的ImageNet冠軍谷歌GoogLeNet只用了一點幾個G的復雜度就實現(xiàn)了非常高的準確度，他認為GoogLeNet可能是其他幾個模型的必經之路。

經過幾個月的研究，張祥雨發(fā)現(xiàn)，GoogLeNet最本質的是它那條1x1的shortcut?！罢f白了，可以把它簡化到最簡單，可以發(fā)現(xiàn)GoogLeNet只有兩條路，一條是1×1，另一條路是一1x1和一個3x3”。

到底是什么在很低的復雜度上支撐起了GoogLeNet這么高的性能？

張祥雨猜想，它的性能由它的深度決定，為了讓GoogLeNet 22層的網絡也能夠成功地訓練起來，它必須得有一條足夠短的直路。

基于這個思路，張祥雨開始設計一個模型，利用一個構造單元不斷的往上分，雖然模型結構的會非常復雜，但是不管怎么復雜，它永遠有一條路，但深度可以非常深?！拔艺J為這種結構就可以保持足夠的精度，同時也非常好訓練，我把這個網絡稱為分形網。”

張祥雨把分形網的成果跟何愷明商量，何愷明的意見是：結構還是過于復雜。

“復雜的東西往往得不到本質”，何愷明一語中的，并建議進一步對這個模型進行化解，用它的一個簡化形式。

于是張祥雨又延伸之前的假設：最短的路，決定容易優(yōu)化的程度；最長的路，決定模型的能力，因此能不能把最短路盡可能的短，短到層數為零？把最深的路，無限的變深？

基于這個思路，誕生了ResNet，有一條路沒有任何參數，可以認為層數是0。

“何愷明老師的研究思路對我啟發(fā)很大，從紛繁的結構中找出最work的本質屬性，這種極簡化的思想是ResNet的核心，并且使得ResNet有很強的泛化能力，任何人都可以在基礎上做各種修改，能啟發(fā)別人的研究?！睆埾橛暾f。

ResNet提出后，“何張任”組合打比賽，張祥雨負責code部分，當年一下取得5項挑戰(zhàn)賽第一，“何張任”組合在導師孫劍的指導下獲2016年CVPR最佳論文獎，迄今單篇引用超20000，ResNet也成為計算機視覺領域最流行的框架之一。

從ShuffleNet到AutoML：年輕人拿起了公司戰(zhàn)略的斧頭

2016年7月，張祥雨也博士畢業(yè)后追隨導師孫劍，開啟了工作歷程。

而剛剛工作，張祥雨便遇到了一個非常嚴峻的問題：產品落地較為困難，特別是在手機領域，實在沒有一個靠譜的網絡可以去依賴。

就在這時，作為論文評審的張祥雨審了一篇論文，這篇論文是Keras作者Fran?ois Chollet等人寫的，張祥雨比較認可論文里所提到的Xception網絡，他敏銳地意識到這個idea可以用于輕量級網絡設計，“以后絕對可以用到移動端”，是未來可發(fā)展的一個方向，并且還給了這篇論文一個Oral。

雖然這篇論文后來被另外的評審給否了，但是給張祥雨帶來非常大的靈感和啟發(fā)。不久之后，張祥雨和同事周昕宇開始一起研究移動端模型，在前期的工作基礎上提出了一個高性能模型，二人不謀而合，同時想到了一個想法——Shuffle。

二人在努力合作后，以共同一作的身份中標了CVPR，并且不論是從實驗結果還是對業(yè)界的影響上，ShuffleNet都是成為移動端網絡模型的杰出代表之一，2017年蘋果推出帶有3D人臉解鎖功能的iPhoneX ，安卓手機廠商隨后跟進，包括VIVO、小米還有錘子手機的人臉解鎖技術，其實就是ShuffleNet在背后提供計算，能夠讓各種配置不一的手機都能實現(xiàn)毫秒級人臉解鎖。

2018年，作為ShuffleNet的升級版，ShuffleNet V2 為ECCV 2018 所收錄。而在剛剛落幕的VALSE 2019中，ShuffleNet V2 一舉斬獲拿下 “VALSE 2018 年度杰出學生論文獎”。其論文技術及一套輕量高效模型方法論的提出，有遷移通用能力的同時，還兼具理論實踐意義和學術借鑒意義。

技術有時候是為了跟上業(yè)務需求，但對張祥雨而言，需要做出一些超前的底層技術，能夠讓技術預見到公司未來幾年戰(zhàn)略需求，同時還能拉開跟對手的差距，是最理想的情況，但這對一個年僅28歲的年輕人來說并非易事。

在關鍵時刻，孫劍的建議起到了非常重要的作用。當年張祥雨還是博士生時，孫劍建議他做深度學習；2017年，孫劍建議他做高性能網絡，2018年，孫劍建議做AutoML。

AutoML領域的研究，之前一直是被國外如Google、微軟等大企業(yè)“壟斷”的狀態(tài)，Google已經推出Cloud AutoML產品，走得非?？壳埃饶茏尮緲I(yè)務有很好的落地路徑，也給競爭對手造成了不小壓力。

經過一年多的研究，今年4月，張祥雨作為共同一作發(fā)表了他的第一篇AutoML技術論文。論文提出的超網絡包含所有子結構，只訓練一次，所有子結構便可以直接從超網絡獲得其權重，無需從頭訓練。實驗結果表明，在精度、內存消耗、訓練時間、模型搜索的有效性及靈活性方面最優(yōu)，超過了Google、Facebook等公司AutoML的成績。

文章轉載自微信公眾號“新智元”，作者：新智元

標簽：