百度AI進(jìn)階:從生活智能到科研全景

本文轉(zhuǎn)載自產(chǎn)業(yè)科技
作為一種前沿通用技術(shù),AI對現(xiàn)實世界的滲透和改變,不止于末端的生活體驗創(chuàng)新,更在于高階的科學(xué)研究賦能。
在一些AI實力靠前的科技公司戰(zhàn)略圖景中,可以看到它們的錨點(diǎn)已經(jīng)從生活智能向基礎(chǔ)科學(xué)研究進(jìn)階。例如百度近期舉辦的Create大會-技術(shù)開放日媒體溝通會,向外界披露了百度最新技術(shù)進(jìn)展,分層次展示百度AI解決方案,對智能生活、產(chǎn)業(yè)智能和科學(xué)研究的助推能力。
具體來看,百度相關(guān)技術(shù)負(fù)責(zé)人輪番介紹了智慧出行的自由語音交互,自動駕駛的核心技術(shù)Bev,以及人工智能科學(xué)計算與超大規(guī)模圖學(xué)習(xí)訓(xùn)練技術(shù)。這些AI黑科技已處于行業(yè)領(lǐng)先水平,而技術(shù)的終極目標(biāo)均指向“用科技讓復(fù)雜的世界更簡單”的愿景。
如果說提升衣食住行的智能體驗,是AI技術(shù)的初級能力,那么當(dāng)AI在足夠的數(shù)據(jù)、靈活的算法和巨大算力支撐下,技術(shù)趨向成熟,也應(yīng)具備更高層次的服務(wù)能力?;貧w到科學(xué)研究的基本盤,AI向技術(shù)上游滲透的趨勢顯現(xiàn),助力科學(xué)研究成為衡量頂尖AI價值的新標(biāo)尺。
不過,要想實現(xiàn)技術(shù)生態(tài)外延,必然需要科技企業(yè)建立一支強(qiáng)大的人才團(tuán)隊,并持續(xù)投入技術(shù)研發(fā),只有這樣才保證創(chuàng)新能力不斷迭代,產(chǎn)出更多前沿解決方案,進(jìn)而在多場景落地。
據(jù)了解,百度在技術(shù)研發(fā)上的累計投入已超過1000億元,開發(fā)了大量業(yè)界領(lǐng)先的技術(shù)。在語音交互、自動駕駛和科研場景之外,百度正在續(xù)寫更多技術(shù)創(chuàng)新推動增長的可能性。
破解語音交互回聲消除
語音交互的回聲消除難題,一直是手機(jī)App語音識別服務(wù)的痛點(diǎn)。尤其在使用手機(jī)導(dǎo)航軟件時,手機(jī)一邊實時播放導(dǎo)航語音認(rèn)路,一邊在聽外界語音信息,很可能反應(yīng)不過來,最終會出現(xiàn)識別自己說的話及其他錯誤信息。
對于導(dǎo)航應(yīng)用而言,信息誤判甚至?xí)P(guān)系到交通安全問題。同時,為了安全起見,一些用戶往往會選擇先把車停下,待語音播報停止時重新發(fā)布語音指令,規(guī)劃行程路線等。很明顯,這樣會大大降低出行效率。
對此,百度語音首席架構(gòu)師賈磊說,在世界范圍內(nèi),很長時間都沒有一個方案能普適的支持在手機(jī)上實現(xiàn)全雙工的語音交互。所謂全雙工語音交互,通俗的解釋就是在手機(jī)播放導(dǎo)航提示的同時,也能夠聽清用戶的指令,甚至像真人對話一樣可以被用戶隨時打斷,并對新的語音指令給予反饋。
雖然全雙工語音交互方案能實現(xiàn)手機(jī)導(dǎo)航等場景的實時交互效果,但技術(shù)突破存在諸多難點(diǎn)。首先,就是要做到語音交互的回聲消除,才能避免手機(jī)終端識別自己播放的聲音。
按照軟件性質(zhì)劃分,回聲消除的落地難度也不盡相同。對于前裝軟件的音箱、車載系統(tǒng),可以通過硬件適配算法,提前保證回聲消除的效果。
而對于手機(jī)App這種純軟件后裝方案,需要讓軟件算法適配不同型號的終端硬件。一般來講,手機(jī)上喇叭距離麥克風(fēng)的距離比較近,并且手機(jī)終端款式多樣,復(fù)雜的硬件環(huán)境決定了聲音信號的回聲消除會出現(xiàn)各種各樣的問題。再加上手機(jī)硬件的迭代頻次高,回聲消除效果就更加難以保證。
值得一提的是,百度在手機(jī)語音交互場景中的回聲消除上率先找到了答案。百度技術(shù)團(tuán)隊融合了傳統(tǒng)信號處理和深度學(xué)習(xí)模型的優(yōu)點(diǎn),基于語音識別目標(biāo),實現(xiàn)端到端地進(jìn)行回聲消除和信號增強(qiáng),解決了手機(jī)場景下的回聲消除難題。
一個形象的概括是,即使手機(jī)音量開到最大,回聲消除量也能達(dá)到40分貝,使得手機(jī)APP的語音識別功能能夠正常工作。據(jù)了解,這是世界范圍內(nèi)第一個能在手機(jī)上實現(xiàn)純軟件方案回聲消除的技術(shù)。
另外,對于多場景下的智能語音識別,百度研發(fā)出的基于SMLTA2的多場景統(tǒng)一預(yù)訓(xùn)練模型,解決噪聲、用戶口音和回聲消除殘余吸收等難題。
在日常使用過程中,語音交互的使用場景其實非常復(fù)雜,如在交互中常常面臨音樂、閑聊、環(huán)境噪聲、內(nèi)噪殘余等與交互內(nèi)容無關(guān)的其他信息干擾,從而給傳統(tǒng)語音識別技術(shù)帶來極大的識別難度。有了SMLTA2大模型加持,各場景下識別率相對提升超過20%,在業(yè)界同類技術(shù)中準(zhǔn)確率最高。
搭配語音語義一體化的置信技術(shù),百度的語音交互技術(shù)方案還可以降低錯誤響應(yīng),支持交互過程中的引導(dǎo)和澄清,讓人機(jī)交互更智能順暢,最大化接近真人之間的交流溝通。
目前,百度全雙工語音交互技術(shù)已經(jīng)應(yīng)用于手機(jī)端,真正實現(xiàn)自然流暢的全雙工語音交互,下一步還可能被用到更多產(chǎn)品中。
解鎖自動駕駛“千里眼”
無論是低階智能駕駛還是高階自動駕駛,感知技術(shù)都是最底層的邏輯支撐。汽車自動駕駛水平的高低,關(guān)鍵在于系統(tǒng)感知識別能力的強(qiáng)弱。
在傳統(tǒng)駕駛場景中,駕駛員主要依靠視覺觀察道路和周邊情況,而遷移到自動駕駛場景,激光雷達(dá)、毫米波雷達(dá)和高分辨率攝像頭等傳感器,逐漸代替人類的視覺,它們決定了自動駕駛系統(tǒng)能獲得什么環(huán)境、路況信息。
因此,建立高效精準(zhǔn)的感知方案,是自動駕駛從實驗室走向量產(chǎn)的前提。從自動駕駛感知路線演變來看,經(jīng)歷了一場從低維到高維的過程。
以往,自動駕駛所依靠的傳統(tǒng)圖像空間感知方法,是將汽車上的雷達(dá)、攝像頭等不同傳感器采集來的數(shù)據(jù)分別進(jìn)行分析運(yùn)算,然后把分析結(jié)果融合到統(tǒng)一的空間坐標(biāo)系中,再去規(guī)劃車輛的行駛軌跡。
問題顯而易見。傳統(tǒng)方案的感知過程中,每個獨(dú)立傳感器收集到的數(shù)據(jù)往往受到特定視角的局限,經(jīng)過各自的分析運(yùn)算后,融合階段容易發(fā)生誤差疊加,最終導(dǎo)致真實路況難以輸出,路線規(guī)劃決策自然存在偏差。
隨著自動駕駛技術(shù)演進(jìn),感知方案的痛點(diǎn)也逐漸被破解。近年來,行業(yè)中提出了BEV(Bird's Eye View,視覺為中心的俯視圖)自動駕駛感知方案。該方案就像俯瞰全局的“上帝視角”,通過車上多個傳感器采集的數(shù)據(jù),輸入到一個統(tǒng)一模型進(jìn)行整體分析推理生成鳥瞰圖,有效避免誤差疊加。
BEV感知方案還能夠做到時序融合,不僅收集分析一個時刻的數(shù)據(jù),而且支持把過去一個時間片段中的數(shù)據(jù)都融合進(jìn)模型做環(huán)境感知建模,時序信息的引入讓感知到的結(jié)果更穩(wěn)定。感知結(jié)果越穩(wěn)定,車輛對于道路情況的判斷就會更加準(zhǔn)確,也會讓自動駕駛成為一項更安全的技術(shù)。
作為全球自動駕駛技術(shù)第一梯隊的玩家,百度在高級別自動駕駛模型方面取得較多成果。除了BEV自動駕駛感知方案,百度還在業(yè)內(nèi)首次提出車路一體的解決方案UniBEV,該方案集成了車端多相機(jī)、多傳感器的在線建圖、動態(tài)障礙物感知,以及路側(cè)視角下的多路口多傳感器融合等任務(wù)。
據(jù)百度技術(shù)團(tuán)隊介紹,基于統(tǒng)一的BEV空間,UniBEV 車路一體大模型更容易實現(xiàn)多模態(tài)、多視角、多時間上的時空特征融合。百度借助大數(shù)據(jù)+大模型+小型化技術(shù)閉環(huán),在車端路側(cè)的動靜態(tài)感知任務(wù)上快人一步。
助推科學(xué)研究智能化
若問AI未來的歸宿是什么?答案顯然要從AI的第一性原理出發(fā),即作為先進(jìn)生產(chǎn)力的代表,AI有沒有場景限制。從手機(jī)語音交互到自動駕駛感知模型再到人工智能科學(xué)計算(AI for Science),百度證明了AI的全景服務(wù)能力。
就在百度把AI解決方案輸送到科學(xué)研究領(lǐng)域,幫助科學(xué)家們加速科學(xué)研究時,AI事實上已經(jīng)在科學(xué)研究中扮演著越來越重要的角色。
例如,在氣象領(lǐng)域,AI實現(xiàn)更快更精準(zhǔn)的數(shù)值天氣預(yù)報,包括預(yù)測強(qiáng)對流天氣的短時臨近降水情況和揭示大尺度的臺風(fēng)形成和演變規(guī)律。在生命科學(xué)領(lǐng)域,傳統(tǒng)的科研方法面臨生物類型實驗數(shù)據(jù)少、計算任務(wù)復(fù)雜、學(xué)科交叉多等挑戰(zhàn),如今AI應(yīng)用已逐漸在藥物篩選、藥物設(shè)計、靶點(diǎn)研究、合成生物學(xué)、疾病機(jī)理研究等方面落地,幫助生命科學(xué)研究增效提質(zhì)。
AI 具備服務(wù)科研上游的能力背后,是一場AI技術(shù)的迭代與升級。以工具角色參與科學(xué)研究,勢必對工具的精準(zhǔn)程度和效率提出更高要求,這樣才能與嚴(yán)謹(jǐn)?shù)目蒲许椖肯噙m配。拆解AI助推科研場景下的技術(shù)底座,最核心的支撐便在于AI基礎(chǔ)軟硬件能力。
首先,深度學(xué)習(xí)平臺需要具備更加豐富的各類計算表達(dá)能力,如高階自動微分、復(fù)數(shù)微分、高階優(yōu)化器等;其次,科學(xué)問題求解需要超大規(guī)模的計算,這對深度學(xué)習(xí)平臺與異構(gòu)超算/智算中心適配及融合優(yōu)化,神經(jīng)網(wǎng)絡(luò)編譯器加速和大規(guī)模分布式訓(xùn)練提出了新的要求。此外,如何實現(xiàn)人工智能與傳統(tǒng)科學(xué)計算工具鏈的協(xié)同,也是需要解決的問題。
著眼科學(xué)研究對AI的能力要求,過去幾年,百度飛槳團(tuán)隊持續(xù)攻關(guān)并取得不少成果。作為國內(nèi)首個自主研發(fā)、開源開放的產(chǎn)業(yè)級深度學(xué)習(xí)平臺,飛槳研發(fā)了一系列用于科學(xué)研究的工具組件,比如賽槳PaddleScience、螺旋槳PaddleHelix、量槳Paddle Quantum等,支持復(fù)雜外形障礙物繞流、結(jié)構(gòu)應(yīng)力應(yīng)變分析、材料分子模擬,廣泛應(yīng)用于AI加計算流體力學(xué)、生物計算、量子計算等前沿方向的科研探索和產(chǎn)業(yè)應(yīng)用。
對于科學(xué)領(lǐng)域大規(guī)模計算的需求,飛槳推出了超大規(guī)模圖學(xué)習(xí)訓(xùn)練技術(shù)PGLBox。這項技術(shù)是業(yè)界首個同時支持復(fù)雜算法+超大圖+超大離散模型的大規(guī)模圖學(xué)習(xí)訓(xùn)練技術(shù),通過顯存、內(nèi)存、SSD三級存儲技術(shù)和訓(xùn)練框架的性能優(yōu)化技術(shù),單機(jī)即可支持百億節(jié)點(diǎn)、數(shù)百億邊的圖采樣和訓(xùn)練,并可通過多機(jī)擴(kuò)展支持更大規(guī)模。
衡量一項技術(shù)的價值前景,關(guān)鍵標(biāo)準(zhǔn)在于產(chǎn)學(xué)研的有效落地,以及技術(shù)生態(tài)的共生共榮。目前,百度飛槳已經(jīng)與高校、科研機(jī)構(gòu)等開展了計算流體力學(xué)、分子動力學(xué)、動力氣象學(xué)等方面的范例建設(shè),并形成了一些開放性的、多學(xué)科交叉的生態(tài)社區(qū),包括飛槳特殊興趣小組(PPSIG)、共創(chuàng)計劃等,多方協(xié)同強(qiáng)化AI的科研創(chuàng)新底色。
押注 AI for Science 賽道,對百度飛槳而言有難度,但很值得。每一次技術(shù)突破,都加深了百度飛槳對AI的洞察力和號召力,置身科學(xué)全景,百度飛槳不做旁觀者,而是科技文明的推動者。