国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

你的Attention該升級了!DFA3D:全新2D拉升算子,根本上減輕深度不確定性!

2023-08-30 21:57 作者:自動駕駛之心  | 我要投稿

今天自動駕駛之心很榮幸邀請到李弘洋來分享全新的將2D特征拉升到3D空間的基礎算子—DFA3D,如果您有相關工作需要分享,請在文末聯(lián)系我們!


>>點擊進入→自動駕駛之心【BEV感知】技術交流群??

論文作者?| 李弘洋


編輯 | 自動駕駛之心



開源地址:https://github.com/IDEA-Research/3D-deformable-attention.git


大家好,很開心能夠受邀來自動駕駛之心分享我們最近為3D計算機視覺社區(qū)所貢獻的一個新的將2D特征拉升到3D空間的基礎算子--3D?DeFormable?Attention (DFA3D)。這篇工作是華南理工大學、IDEA等幾家單位聯(lián)合出品,下面將會給大家詳細介紹DFA3D的設計思路以及我們在3D目標檢測任務上所做的驗證實驗。


1. 我們的創(chuàng)新點


本文提出了一種新的操作符,稱為三維可變注意力(3D DeFormable Attention,簡稱DFA3D),用于二維到三維特征拉升,將多視角二維圖像特征轉(zhuǎn)換到統(tǒng)一的三維空間,用于三維物體檢測?,F(xiàn)有的特征拉升方法,如基于 Lift-Splat 和基于二維注意力的方法,要么利用估計的深度獲取偽 LiDAR 特征,然后將它們投射到三維空間,受限于單次操作(one-pass)而沒有特征優(yōu)化;要么忽略深度,通過二維注意力機制拉升特征,雖然可以實現(xiàn)更精細的語義,但會遇到深度不確定性問題。相比之下,我們基于DFA3D的方法首先利用估計的深度將每個視角的二維特征圖擴展到三維,而后再利用DFA3D從擴展的三維特征圖中聚合特征。借助DFA3D,可以從根本上有效地減輕深度不確定性問題,并且由于類Transformer架構(gòu)的存在,DFA3D可以逐層逐層地逐漸優(yōu)化拉升的特征。此外,我們提出了DFA3D的數(shù)學等效實現(xiàn),可以顯著提高其內(nèi)存效率和計算速度。僅僅使用少量的代碼修改,我們便實現(xiàn)將DFA3D集成到多種使用二維注意力的特征拉升方法中,并在 nuScenes 數(shù)據(jù)集上進行了評估。實驗結(jié)果顯示mAP平均提升了+1.41%,并且在高質(zhì)量深度信息可用時,mAP 提升高達 +15.1%,展示了DFA3D的優(yōu)越性、適用性和巨大潛力。代碼鏈接:https://github.com/IDEA-Research/3D-deformable-attention.git。



圖1. 多種特征拉升方法的比較


2. 論文貢獻


總的來說,我們的主要貢獻如下:


  1. 我們提出了一種新的基本操作符,稱為三維可變注意力(3D deformable attention,簡稱DFA3D),用于特征拉升。通過利用二維特征與其估計深度之間的外積性質(zhì),我們開發(fā)了一種高效且快速的實現(xiàn)方法。


  2. 基于DFA3D,我們開發(fā)了一種新穎的特征拉升方法,不僅從根本上減輕了深度不確定性問題,還可以受益于類Transformer架構(gòu)的多層特征優(yōu)化。由于DFA3D具有簡單的接口,只需對代碼進行少量的修改我們就可以將基于DFA3D的特征拉升方法實現(xiàn)在任何使用基于二維可變注意力(包括其退化形式)的特征拉升方法的方法中。


  3. 在nuScenes數(shù)據(jù)集進行對比實驗時,我們的方法表現(xiàn)出了穩(wěn)定的提升(平均提升+1.41 mAP),證明了基于DFA3D的特征拉升方法的優(yōu)越性和泛化能力。


3. 方法


基于DFA3D的多視角端到端三維檢測方法的總攬如圖所示(見圖2)。在本節(jié)中,我們介紹了如何構(gòu)建用于DFA3D的擴展三維特征圖(3.1節(jié)),并介紹了DFA3D如何實現(xiàn)特征拉升(3.2節(jié))。此外,我們解釋了我們高效的DFA3D實現(xiàn)方法(3.3節(jié))。最后,我們對基于DFA3D的特征拉升方法與當前主流特征拉升方法進行了詳細的分析和比較(3.4節(jié))。



圖2. 基于DFA3D的多視角端到端三維檢測方法的總攬圖


3.1 特征維度擴展


在多視角三維檢測的背景下,輸入圖像的深度信息不可用。我們仿照BEVDepth,引入單目深度估計來為二維圖像特征補充深度信息。具體而言,我們使用了一個DepthNet模塊,以2D主干網(wǎng)絡所輸出的二維圖像特征圖作為輸入,為每個二維圖像特征生成離散的深度分布,以補充深度信息。DepthNet模塊可以通過使用由LiDAR信息或ground truth 3D邊界框信息所生成的深度信息來進行監(jiān)督訓練。



直接通過外積擴展二維圖像特征圖會導致高內(nèi)存消耗,特別是在考慮多尺度時。我們將在3.3節(jié)解釋如何解決這個問題。


3.2 3D Deformable Attention (DFA3D) 及基于其的特征拉升


在獲取了多視角擴展的三維特征圖后,我們將DFA3D作為后端,將其轉(zhuǎn)換為統(tǒng)一的三維空間,以獲得拉升后的特征。具體而言,在特征拉升的背景下,DFA3D將預定義的三維錨點視為三維查詢,將擴展的三維特征圖視為三維鍵和值,并在三維像素坐標系(比常規(guī)的圖像坐標系多了深度維度)中執(zhí)行可變注意力。



3.3 DFA3D的高效實現(xiàn)



圖3. 三線性插值可以被優(yōu)化為加權了的雙線性插值



3.4 分析


與基于Lift-Splat的特征拉升方法的比較。?基于Lift-Splat的特征拉升方法遵循基于LiDAR的方法的流程。為了構(gòu)建就像是從LiDAR數(shù)據(jù)中獲取的偽LiDAR特征,它也利用深度估計來補充深度信息。它構(gòu)建單尺度的三維擴展特征圖,并通過以相機參數(shù)顯式地將它們從三維像素坐標系轉(zhuǎn)換到自車坐標系。偽LiDAR特征進一步被分配給最近臨的三維錨點,以生成下游任務所需的拉升后的特征。由于三維錨點和偽LiDAR特征的位置是是基于它們的幾何關系所確定的,是恒定的,因此它們之間的分配規(guī)則是固定的,無法通過學習的方式以及多層優(yōu)化的方式進行改進。


在DFA3D中,基于估計的采樣位置計算的3D查詢與擴展的三維特征之間的關系也可以被視為一種分配規(guī)則。與固定的規(guī)則不同,DFA3D可以通過在類Transformer架構(gòu)中逐層更新采樣位置來逐步改進分配規(guī)則。此外,DFA3D的高效實現(xiàn)使得能夠利用多尺度的三維擴展特征,這對于檢測小型(遠處)物體更為關鍵。


與基于2D注意力的特征拉升方法的比較。?與DFA3D類似,基于2D注意力的特征拉升也將每個3D查詢轉(zhuǎn)換為像素坐標系。然而,為了滿足現(xiàn)有的2D注意力操作的輸入,3D查詢需要投影成2D查詢,其深度信息被丟棄。這是一種在實現(xiàn)中的妥協(xié),但這可能會導致多個3D查詢塌縮為一個2D查詢。因此,多個3D查詢可能會極大地糾纏在一起。根據(jù)針孔相機模型,我們可以簡單地證明出來,只要3D查詢在自車坐標系中的坐標(x,y,z)?滿足



4. 實驗


4.1 不同特征拉升方法的直接比較


為了公平地比較不同的特征拉升方法,我們將特征拉升設置為唯一的變量,并保持其他條件相同。具體而言,我們block住了時間信息,使用相同的2D主干網(wǎng)絡和3D檢測頭。結(jié)果如下表所示



我們首先比較了上表中的前四行中四種不同的特征拉升方法。所有模型都只使用了一層從而進行公平比較。結(jié)果顯示,DFA3D勝過了所有以前的方法,證明了其有效性。盡管較大的感受野使得基于2D可變注意力(DFA2D)的方法比基于點注意力的方法取得了更好的結(jié)果,但與基于Lift-Splat的方法相比,其性能還不夠令人滿意。DFA2D 和 Lift-Splat 之間的一個關鍵區(qū)別在于它們對深度的感知。額外的深度信息使得基于Lift-Splat的方法可以取得更好的性能,盡管深度信息是預測的且不夠準確。不同于基于DFA2D的特征拉升,DFA3D 可以在可變注意力機制中利用深度信息,有助于我們的基于DFA3D的特征拉升取得最佳性能。


如在第3.4節(jié)中討論的那樣,可調(diào)整的分配規(guī)則使得基于注意力的方法能夠進行多層次的優(yōu)化。通過再多一層的優(yōu)化,基于DFA2D的特征拉升超過了基于Lift-Splat的方法。然而,受益于更好的對深度信息的利用,我們基于DFA3D的特征拉升仍然保持著優(yōu)越性。


4.2 在不同模型以及模型規(guī)模上的泛化性驗證


為了驗證基于DFA3D的特征拉升的方法的泛化性和可移植性,我們在依賴于2D可變注意力或點注意力的特征拉升方法的各種開源方法上進行了評估。


我們在下表中將baseline方法與集成了DFA3D特征拉升的方法進行了比較。結(jié)果顯示,在不同的方法中,DFA3D 都帶來了穩(wěn)定的提升,表明它在不同模型上具有泛化能力。此外,DFA3D 在 BEVFormer-t、BEVFormer-s 和 BEVFormer-b 上分別帶來了?、?和??mAP 的顯著提升,顯示出 DFA3D 在不同模型尺寸上的有效性。


為了更全面地比較,我們還在 DA-BEV 和 Sparse4D 這兩個同期工作上進行了實驗,它們通過隱式或后續(xù)優(yōu)化來解決深度歧義問題。與之不同的是,我們從特征拉升過程中的根本問題開始著手解決這個問題,這是一種更合理的解決方案。結(jié)果顯示,盡管他們已經(jīng)對對深度模糊進行了緩解,但DFA3D 在 DA-BEV-S、DA-BEV 和 Sparse4D 上分別獲得了?、?和??mAP 的改進,驗證了我們新的特征拉升方法的必要性。


值得注意的是,由于我們在DFA3D上所作的數(shù)學上的優(yōu)化,我們的基于DFA3D的特征拉升可以通過僅對代碼進行少量修改就輕松集成到基于2D注意力機制來做特征拉升的方法中,如下圖所示。



圖4. DFA2D和DFA3D的使用方法對比


4.3 DepthNet以及深度估計的質(zhì)量對結(jié)果的影響


如下表所示,我們首先展示了 DepthNet 模塊本身做帶來的影響。與 DFA3D 帶來的 1.4% mAP 增益(第4行對比第1行)相比,僅僅給 BEVFormer 配備 DepthNet 并監(jiān)督它只能帶來 0.4% mAP 的增益(第2行對比第1行),相對較小。這種比較表明,主要的改進不是來自于 DepthNet 的額外參數(shù)和監(jiān)督,而是來自于更好的特征拉升。


然后,我們評估了深度質(zhì)量對性能的影響。我們實驗了三種不同質(zhì)量的深度:1)通過無監(jiān)督學習獲得的深度,2)通過有監(jiān)督學習獲得的深度,以及 3)通過 LiDAR 生成的ground truth的深度。這些不同質(zhì)量的深度對應結(jié)果在下表的第3、4和5行中。結(jié)果顯示,隨著深度質(zhì)量的提高,性能也會隨著提升。值得注意的是,具有ground truth深度的模型達到了 56.7% 的 mAP,比baseline提高了 15.1% 的 mAP。這表明存在很大的改進空間,值得進一步深入研究如何獲得更好的深度估計。



限于篇幅,請大家參考我們的原文來獲得更多對比實驗以及消融實驗的信息。


結(jié)論


在本論文中,我們提出了一個稱為 3D 可變形注意力(DFA3D)的基本運算符,并在此基礎上開發(fā)了一種新穎的特征拉升方法。這種方法不僅考慮了深度信息以解決深度歧義問題,還從多層優(yōu)化機制中受益。我們通過數(shù)學方法簡化了 DFA3D 并開發(fā)了一種內(nèi)存高效的實現(xiàn)。簡化后的 DFA3D 使得通過可變形注意力在 3D 空間中查詢特征成為可能且高效。實驗結(jié)果表明,該方法能夠帶來穩(wěn)定的提升,展示了 DFA3D 特征拉升方法的優(yōu)越性和泛化能力。


局限性和未來工作展望:?在本文中,我們僅僅使用單目深度估計來為 DFA3D 提供深度信息,這種估計不夠準確和穩(wěn)定。最近提出的方法已經(jīng)證明,長時序信息可以為網(wǎng)絡提供更好的深度感知能力。如何充分利用優(yōu)越的深度感知能力來顯式地生成高質(zhì)量的深度圖,并利用它們來改善基于 DFA3D 的特征拉升方法的性能,仍然是一個需要進一步研究的問題,我們將其留作未來的工作。


① 全網(wǎng)獨家視頻課程


BEV感知、毫米波雷達視覺融合、多傳感器標定、多傳感器融合、多模態(tài)3D目標檢測、點云3D目標檢測、目標跟蹤、Occupancy、cuda與TensorRT模型部署、協(xié)同感知、語義分割、自動駕駛仿真、傳感器部署、決策規(guī)劃、軌跡預測等多個方向?qū)W習視頻(掃碼學習)



視頻官網(wǎng):www.zdjszx.com


② 國內(nèi)首個自動駕駛學習社區(qū)


近2000人的交流社區(qū),涉及30+自動駕駛技術棧學習路線,想要了解更多自動駕駛感知(2D檢測、分割、2D/3D車道線、BEV感知、3D目標檢測、Occupancy、多傳感器融合、多傳感器標定、目標跟蹤、光流估計)、自動駕駛定位建圖(SLAM、高精地圖、局部在線地圖)、自動駕駛規(guī)劃控制/軌跡預測等領域技術方案、AI模型部署落地實戰(zhàn)、行業(yè)動態(tài)、崗位發(fā)布,歡迎掃描下方二維碼,加入自動駕駛之心知識星球,這是一個真正有干貨的地方,與領域大佬交流入門、學習、工作、跳槽上的各類難題,日常分享論文+代碼+視頻,期待交流!



自動駕駛之心是首個自動駕駛開發(fā)者社區(qū),聚焦目標檢測、語義分割、全景分割、實例分割、關鍵點檢測、車道線、目標跟蹤、3D目標檢測、BEV感知、多模態(tài)感知、Occupancy、多傳感器融合、transformer、大模型、點云處理、端到端自動駕駛、SLAM、光流估計、深度估計、軌跡預測、高精地圖、NeRF、規(guī)劃控制、模型部署落地、自動駕駛仿真測試、產(chǎn)品經(jīng)理、硬件配置、AI求職交流等方向。掃碼添加汽車人助理微信邀請入群,備注:學校/公司+方向+昵稱(快速入群方式)



④【自動駕駛之心】平臺矩陣,歡迎聯(lián)系我們!



你的Attention該升級了!DFA3D:全新2D拉升算子,根本上減輕深度不確定性!的評論 (共 條)

分享到微博請遵守國家法律
中阳县| 永兴县| 长子县| 奉新县| 乐东| 房产| 定州市| 宜黄县| 邢台县| 东乡| 原阳县| 德兴市| 图木舒克市| 神农架林区| 北安市| 勃利县| 运城市| 大足县| 鲁甸县| 宁陵县| 民丰县| 溧水县| 郴州市| 青海省| 祁门县| 平远县| 比如县| 勃利县| 耒阳市| 红河县| 古丈县| 内江市| 浮梁县| 滁州市| 昭平县| 遂宁市| 黑龙江省| 望江县| 岱山县| 溧水县| 蓝山县|