国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

「開(kāi)發(fā)者說(shuō)」第二期|視覺(jué)感知——從2維到N維

2023-08-30 12:10 作者:賽可智能  | 我要投稿



介紹

本次內(nèi)容將會(huì)用大致三個(gè)部分來(lái)介紹視覺(jué)感知算法團(tuán)隊(duì)在視覺(jué)感知領(lǐng)域的一系列探索、思考以及對(duì)未來(lái)的展望,第一部分介紹視覺(jué)感知和計(jì)算機(jī)視覺(jué)的基本概念以及它們?cè)谧詣?dòng)駕駛領(lǐng)域中扮演的角色,第二部分則會(huì)重點(diǎn)介紹從2.5D方案到BEV感知方案的演化以及各個(gè)方案的特點(diǎn),第三部分則會(huì)闡述我們正在嘗試以及未來(lái)將會(huì)探索的一些方案。


01 視覺(jué)感知與自動(dòng)駕駛

視覺(jué)感知是利用接受到的周圍世界反射的可見(jiàn)光來(lái)理解和解釋世界的能力,比如:區(qū)分、定位、識(shí)別周圍環(huán)境的物體;自然界的大多數(shù)動(dòng)物都具備類似的能力。我們使用計(jì)算機(jī)視覺(jué),利用計(jì)算機(jī)算法與軟件去(模仿人類/動(dòng)物)進(jìn)行視覺(jué)感知,從而達(dá)到可以將視覺(jué)感知能力遷移至自動(dòng)駕駛等工業(yè)應(yīng)用領(lǐng)域。

自動(dòng)駕駛對(duì)周圍有著極強(qiáng)的感知需求,需要感知包括但不限于:動(dòng)/靜物體(類別/位置/大小/姿態(tài)/速度等)、路面標(biāo)識(shí)(車道線/路面標(biāo)識(shí)等)、交通標(biāo)識(shí)(交通燈/標(biāo)志牌/其他交通參與者的信號(hào)等)、地形樣貌(路沿/曲率/坑洼/占有等)等等。視覺(jué)感知相比其他感知方法則更貼合車輛駕駛原本的設(shè)計(jì)初衷,并且攝像頭作為一種便宜、耐用的元件可以提供大量豐富的信息以支持車輛對(duì)周圍的全方位感知。但圖片因?yàn)閷?duì)深度信息天然缺失的特點(diǎn),導(dǎo)致我們從圖像中恢復(fù)出完整3D信息的難度很大,因此純視覺(jué)感知系統(tǒng)需要更加強(qiáng)大的算法與更多的數(shù)據(jù)去支持相應(yīng)功能。

圖1:視覺(jué)感知,部分圖片引自[1]


02 從2D到BEV視覺(jué)感知

我們的第一代方案的直接感知空間在2D圖像上,我們使用神經(jīng)網(wǎng)絡(luò)感知目標(biāo)在2D圖像中的位置并預(yù)測(cè)對(duì)應(yīng)的細(xì)節(jié)屬性,使用這些在圖像上的感知結(jié)果來(lái)結(jié)合人為設(shè)計(jì)的先驗(yàn)推理得到目標(biāo)在3D空間的位置,這種方案有著數(shù)據(jù)標(biāo)注獲得難度低、數(shù)據(jù)可復(fù)用性高、可遷移性強(qiáng)等特點(diǎn),但是因?yàn)閺?D到3D的轉(zhuǎn)換以及多個(gè)視角的融合大量依賴人工設(shè)計(jì),所以此方案有著3D感知精度低、corner case難以解決等問(wèn)題。

為了移出2D到3D的人工設(shè)計(jì)從而提高3D信息的估計(jì)精度,我們的第二代方案使用神經(jīng)網(wǎng)絡(luò)直接估計(jì)單個(gè)鏡頭下目標(biāo)的3D信息從而提高我們的3D感知精度,因此這一代方案基本解決了單個(gè)視角下3D信息感知的精度問(wèn)題,但是多個(gè)視角之間感知結(jié)果的融合依然依賴人工規(guī)則并且對(duì)相機(jī)標(biāo)定精度的魯棒性有限。

為了進(jìn)一步克服這兩個(gè)明顯的缺點(diǎn),我們將融合多視角的過(guò)程進(jìn)一步融入神經(jīng)網(wǎng)絡(luò)讓感知模型具備直接在環(huán)繞車身的BEV空間下表示這個(gè)世界的能力,在成功構(gòu)建出BEV表示后,我們用得到的BEV表示進(jìn)行包括但不限于:目標(biāo)檢測(cè)、目標(biāo)跟蹤、車道線檢測(cè)、空間占有預(yù)測(cè)、多模態(tài)融合等一系列可以直接在BEV空間下輸出結(jié)果的感知任務(wù)以更好地提供豐富與精確的感知來(lái)滿足下游使用。從2維圖像空間到環(huán)繞車身的3維BEV空間,我們的方案在進(jìn)化中一步步將感知空間的維度提高,并不斷移除中間各個(gè)環(huán)節(jié)人工設(shè)計(jì)帶來(lái)的偏置。

圖2: 2.5D到BEV方案的演進(jìn),部分圖片引自[2,3]


03 更高維度

我們可以繼續(xù)提升感知的維度嗎?

一個(gè)正在探索的方向則是用模型融合多幀過(guò)去時(shí)刻的3D感知表示,從而形成更加魯棒的4D時(shí)空感知,在提升模型當(dāng)前感知能力的情況下賦予感知模型估計(jì)速度、加速度、跟蹤、軌跡預(yù)測(cè)等高階感知能力,從而減少我們?cè)跁r(shí)間這個(gè)維度融合信息所帶來(lái)的人工設(shè)計(jì)偏差;另一個(gè)我們正在邁向的目標(biāo)則是在當(dāng)前的感知基礎(chǔ)上進(jìn)行更加抽象的推理,我們可以嘗試讓模型學(xué)習(xí)周圍交通環(huán)境中道路目標(biāo)之間的拓?fù)潢P(guān)系,這些目標(biāo)通常包括但不限于:車道線、路沿、地面標(biāo)識(shí)、交通標(biāo)識(shí)、交通信號(hào)燈等,這些目標(biāo)在交通環(huán)境常常會(huì)與其他周邊的物體形成復(fù)雜的關(guān)系進(jìn)而向交通參與者提供必要信息,如果模型能在感知這些物體獨(dú)立存在的基礎(chǔ)上能更進(jìn)一步估計(jì)他們之間的關(guān)系,那將會(huì)極大的減少人工設(shè)計(jì)相關(guān)規(guī)則的復(fù)雜度與誤差。

圖3: 4D時(shí)空融合與道路拓?fù)渫评?,圖片引自[4,5]

從我們一路摸索過(guò)來(lái)的經(jīng)歷來(lái)看,不斷地將人工設(shè)計(jì)環(huán)節(jié)轉(zhuǎn)換為可學(xué)習(xí)模型的一部分從而進(jìn)行數(shù)據(jù)驅(qū)動(dòng)的方案迭代是一種趨勢(shì),我們也相信數(shù)據(jù)驅(qū)動(dòng)是邁向端到端自動(dòng)駕駛的一條可行道路,結(jié)合在自然語(yǔ)言處理與計(jì)算機(jī)視覺(jué)領(lǐng)域冉冉升起的大模型潮流來(lái)看,大量無(wú)標(biāo)簽數(shù)據(jù)自監(jiān)督預(yù)訓(xùn)練結(jié)合少量有標(biāo)簽特定任務(wù)數(shù)據(jù)的有監(jiān)督微調(diào)是一種主流范式;其中自監(jiān)督預(yù)訓(xùn)練是這套范式的難點(diǎn),它的最終目的是為我們提供一個(gè)無(wú)偏的通用表征來(lái)表示我們周圍的世界,我們將它稱為世界模型,我們希望世界模型可以通過(guò)預(yù)測(cè)世界本身來(lái)獲得這種通用的表征從而避免各種具體任務(wù)帶來(lái)的先驗(yàn)偏置,當(dāng)我們得到一個(gè)強(qiáng)大完備的世界模型時(shí),我們可以使用它作為基礎(chǔ)模型進(jìn)而微調(diào)具體任務(wù),從而得到更加魯棒、泛化、準(zhǔn)確的性能。

圖4: 自監(jiān)督的通用世界模型與下游任務(wù)微調(diào)


參考

[1]Stanford CS131: http://vision.stanford.edu/teaching/cs131_fall1314/lectures/lecture1_introduction_cs131.pdf

[2]Hu, Hou-Ning, et al. “Joint monocular 3D vehicle detection and tracking.” Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019.

[3]Xie, Enze, et al. "M $^ 2$ BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified Birds-Eye View Representation." arXiv preprint arXiv:2204.05088 (2022).

[4] Wang, Shihao, et al. "Exploring Object-Centric Temporal Modeling for Efficient Multi-View 3D Object Detection." arXiv preprint arXiv:2303.11926 (2023).

[5] Wang, Huijie, et al. "Road genome: A topology reasoning benchmark for scene understanding in autonomous driving." arXiv preprint arXiv:2304.10440 (2023).

「開(kāi)發(fā)者說(shuō)」第二期|視覺(jué)感知——從2維到N維的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
克东县| 灵寿县| 抚顺县| 铁岭县| 锦屏县| 梅州市| 祁连县| 澄城县| 广河县| 英超| 临猗县| 永安市| 光泽县| 长丰县| 昆山市| 彰武县| 锡林郭勒盟| 彩票| 油尖旺区| 金塔县| 余庆县| 慈利县| 九江市| 吴江市| 石棉县| 内江市| 婺源县| 溧阳市| 紫阳县| 西峡县| 扎赉特旗| 井陉县| 靖西县| 嘉兴市| 浪卡子县| 壶关县| 城口县| 苏尼特左旗| 洛浦县| 镇平县| 荣昌县|