大幅降低計算量!PointOcc:基于點云的3D語義占用預(yù)測新思路(nuScenes SOTA)
大家好,我是PointOCC的一作左思成,很開心能夠在自動駕駛之心的平臺上宣傳我們最新的3D語義占用預(yù)測新工作PointOcc,已經(jīng)授權(quán)自動駕駛之心原創(chuàng),如果您需要轉(zhuǎn)載,請聯(lián)系他們。如果您也有相關(guān)工作需要分享,請在文末聯(lián)系我們!
論文作者?|?左思成?鄭文釗?
編輯 | 自動駕駛之心
我們提出了一種基于點云柱坐標三視角表示的高效3D語義占有預(yù)測方法PointOcc,通過在nuScenes公開數(shù)據(jù)集上進行大量實驗,驗證了PointOcc在3D語義占有預(yù)測和點云分割任務(wù)上可以取得最佳的性能,同時大幅降低計算量。PointOcc僅使用點云數(shù)據(jù)作為輸入,在mIoU和IoU兩種指標上大幅超越了OpenOccupancy benchmark中的多模態(tài)方法。

論文:https://arxiv.org/abs/2308.16896
代碼:https://github.com/wzzheng/PointOcc
1.?提出的背景
當前自動駕駛領(lǐng)域中的語義分割正在經(jīng)歷從稀疏的點云分割到密集的3D語義占有預(yù)測的變革。3D語義占有預(yù)測任務(wù)的目標是對3D空間中的每一個體素都預(yù)測一個語義標簽,以實現(xiàn)對3D場景更加魯棒、準確的感知建模。但由于其密集的預(yù)測空間,當前基于點云體素表示的方法將承受巨大的計算和存儲負擔,從而嚴重限制模型的性能。另一類更加高效的點云表示是基于2D投影表示的方法,例如BEV和range-view表示。盡管相比于體素表示更加高效,但由于其在投影過程中的信息損失,僅使用單平面特征難以建模復(fù)雜3D場景中的細粒度結(jié)構(gòu),從而無法處理具有密集預(yù)測空間的3D語義占有預(yù)測任務(wù)。
為了解決這個問題,我們提出了一種新的基于柱坐標三視角的點云表示來高效、完整地建模3D場景,并進一步提出了一個高效的3D語義占有預(yù)測模型PointOcc。我們采用彼此互補的三視角平面來高效建模點云特征,并使用高效的2D backbone處理。我們提出柱坐標劃分和空間分組池化來減少投影過程中的信息損失,在保持高效的同時進一步提升模型建模復(fù)雜3D場景的能力。實驗表明,我們的模型PointOcc在點云分割任務(wù)中達到了基于2D投影表示方法中的最佳性能,而無需復(fù)雜的后處理操作;并在3D語義占有預(yù)測任務(wù)上取得了比OpenOccupancy benchmark上多模態(tài)方法更好的性能,同時大幅降低模型的計算和存儲負擔。

2. 我們的方法
本文提出了一種新的基于柱坐標三視角的點云表示方法,通過彼此互補的三個2D平面來共同建模3D空間特征。我們僅采用2D backbone來高效處理三視角平面特征,并通過柱坐標劃分和空間分組池化來減少投影過程中的信息損失。最后通過聚合三平面中彼此互補的特征視角下的特征,實現(xiàn)對3D空間高效細致的建模。

2.1 點云的柱坐標三視角表示
在基于點云的自動駕駛感知中,一個重要問題是學(xué)習到有效且高效的3D場景表示。而在當前的主流方法中,3D體素表示會造成巨大的計算和存儲負擔,2D投影表示會由于信息損失而無法恢復(fù)出密集的3D空間特征。為了實現(xiàn)在2D平面高效處理點云特征并保留3D結(jié)構(gòu)信息,我們將Tri-Perspective View (TPV)的思想引入點云,采用三視角下的平面特征來建模3D場景。每個平面負責建模特定視角下的3D場景特征,三個平面彼此正交互補,通過聚合三平面的特征就能恢復(fù)出3D空間中任意一點的結(jié)構(gòu)信息??紤]到激光雷達點云在空間中分布的不均勻特性,即近處的點云更加密集而遠處更加稀疏,我們進一步提出在柱坐標系下建立點云的三視角表示,以實現(xiàn)對近處區(qū)域更加細粒度的建模,并在投影過程中采用空間分組池化來更好地保留3D結(jié)構(gòu)信息。
2.2 PointOcc
基于點云的柱坐標三視角表示,我們提出了一個高效的3D語義占有預(yù)測模型PointOcc,僅利用2D backbone實現(xiàn)模型在性能和效率上的最佳表現(xiàn)。PointOcc主要分為三個模塊:點云的三視角轉(zhuǎn)化、三視角特征編碼、重構(gòu)3D空間特征
點云的三視角轉(zhuǎn)化:給定輸入點云,首先需要通過體素化(voxelization)和空間池化操作(spatial max pooling)其轉(zhuǎn)化為三個視角下的平面特征??紤]到激光雷達點云在空間中的分布密度不一致性,采用直角坐標系下均勻的方格劃分會導(dǎo)致體素中點云密度分布極不均勻,近處點云極度密集而遠處存在大量空體素,造成計算效率下降。因此我們采用柱坐標系下的體素劃分,由于柱坐標系中對近處劃分更加密集而遠處更加稀疏,從而使點云密度分布更加均勻。對點云進行體素劃分后,我們沿柱坐標系下的三個坐標軸分別進行分組池化+特征聯(lián)結(jié),得到點云在柱坐標下的三視角特征。
三視角特征編碼:我們采用2D圖像backbone來編碼每個三視角特征平面,并由FPN聚集每個平面的多尺度特征,最終解碼出高分辨率的三視角特征表示。由于僅在2D空間中進行特征的表示和編碼,我們的模型在計算和存儲上具有高效性。
重構(gòu)3D空間特征:基于點云的三視角特征平面,我們可以高效完整地重構(gòu)出3D空間的特征表示。對于3D空間中的任意一個查詢點,我們首先通過柱坐標轉(zhuǎn)換將其分別投影到三視角平面上并采樣相應(yīng)特征。我們通過相加的方式聚合該點在三視角平面上的特征,并作為最終的3D特征表示。在進行點云分割和3D語義占有預(yù)測時,只需要查詢相應(yīng)點的三視角特征,并由輕量級的分類頭進行預(yù)測。
3. 實驗
3.1 3D語義占有預(yù)測實驗結(jié)果
如下表所示,本文方法在nuScenes 3D語義占有預(yù)測任務(wù)中在mIoU和IoU兩項指標上都達到了最佳性能。本文方法僅使用點云輸入,就在性能上大幅超越了OpenOccupancy中的多模態(tài)方法,顯示了PointOcc方法的優(yōu)越性。

我們進一步比較了PointOcc與其他方法在性能和計算量上的綜合表現(xiàn)。如下圖所示,PointOcc在保持優(yōu)越性能的同時大幅降低了模型的計算量,顯示了本文方法在處理密集預(yù)測任務(wù)時具有高效建模復(fù)雜3D場景的能力。

3.2 點云分割實驗結(jié)果
我們同樣在nuScenes點云分割任務(wù)上驗證本文方法的有效性。如下圖所示,本文方法在性能上超越了所有基于2D投影表示的方法而不需要任何后處理操作,并達到了與基于3D體素表示方法相當?shù)男阅堋4送?,我們驗證了2D圖像backbone在圖像數(shù)據(jù)上預(yù)訓(xùn)練后,能夠提升其在點云感知任務(wù)上的性能。

3.3 消融實驗
我們在nuScenes點云分割任務(wù)上進行消融實驗,首先驗證三視角平面彼此互補的特性。如下表所示,相比于單平面特征,同時利用三個平面來共同建模3D場景時能夠獲得更大的性能提升。

我們還驗證了三視角表示的分辨率和空間分組池化的分組數(shù)對模型性能的影響。如下表所示,當三視角表示分辨率越高、空間池化分組越多時,模型的性能越高。這也證明了對3D場景進行更細粒度的建模能夠有效提升模型的性能。

考慮到ViT模型在從圖像遷移到點云數(shù)據(jù)時展現(xiàn)出驚人的性能,我們進一步探索了將在ImageNet上預(yù)訓(xùn)練的ViT中部分權(quán)重凍結(jié)時對模型性能的影響。如下表所示,當僅凍結(jié)注意力層或FFN層時模型性能并沒有大幅下降,顯示了在圖像數(shù)據(jù)上預(yù)訓(xùn)練的ViT模型可以很好地泛化到點云感知任務(wù)上。

3.4 可視化結(jié)果


投稿作者為『自動駕駛之心知識星球』特邀嘉賓,如果您希望分享到自動駕駛之心平臺,歡迎聯(lián)系我們!
① 全網(wǎng)獨家視頻課程
BEV感知、毫米波雷達視覺融合、多傳感器標定、多傳感器融合、多模態(tài)3D目標檢測、點云3D目標檢測、目標跟蹤、Occupancy、cuda與TensorRT模型部署、協(xié)同感知、語義分割、自動駕駛仿真、傳感器部署、決策規(guī)劃、軌跡預(yù)測等多個方向?qū)W習視頻(掃碼即可學(xué)習)

② 國內(nèi)首個自動駕駛學(xué)習社區(qū)
近2000人的交流社區(qū),涉及30+自動駕駛技術(shù)棧學(xué)習路線,想要了解更多自動駕駛感知(2D檢測、分割、2D/3D車道線、BEV感知、3D目標檢測、Occupancy、多傳感器融合、多傳感器標定、目標跟蹤、光流估計)、自動駕駛定位建圖(SLAM、高精地圖、局部在線地圖)、自動駕駛規(guī)劃控制/軌跡預(yù)測等領(lǐng)域技術(shù)方案、AI模型部署落地實戰(zhàn)、行業(yè)動態(tài)、崗位發(fā)布,歡迎掃描下方二維碼,加入自動駕駛之心知識星球,這是一個真正有干貨的地方,與領(lǐng)域大佬交流入門、學(xué)習、工作、跳槽上的各類難題,日常分享論文+代碼+視頻,期待交流!

自動駕駛之心是首個自動駕駛開發(fā)者社區(qū),聚焦目標檢測、語義分割、全景分割、實例分割、關(guān)鍵點檢測、車道線、目標跟蹤、3D目標檢測、BEV感知、多模態(tài)感知、Occupancy、多傳感器融合、transformer、大模型、點云處理、端到端自動駕駛、SLAM、光流估計、深度估計、軌跡預(yù)測、高精地圖、NeRF、規(guī)劃控制、模型部署落地、自動駕駛仿真測試、產(chǎn)品經(jīng)理、硬件配置、AI求職交流等方向。掃碼添加汽車人助理微信邀請入群,備注:學(xué)校/公司+方向+昵稱(快速入群方式)

④【自動駕駛之心】平臺矩陣,歡迎聯(lián)系我們!
