国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網 會員登陸 & 注冊

ICCV 2023 | R3D3:從多視圖像實現動態(tài)場景的密集三維重建

2023-10-01 21:03 作者:3D視覺工坊  | 我要投稿

作者:?宇航??| 來源:3D視覺工坊

在公眾號「3D視覺工坊」后臺,回復「原論文」即可獲取論文pdf和代碼鏈接。

添加微信:dddvisiona,備注:3D點云,拉你入群。文末附行業(yè)細分群。


具有泛化性的具參智能是當今人工智能領域最受關注的話題,雖然RT-2和Voxposer等方法展現出了驚人的效果,他們在未知測試場景下的泛化性并不能得到保證。清華AIR的助理教授趙昊老師團隊提出3D Implicit Transporter,并入選ICCV 2023 Oral,只需兩幀點云即可自監(jiān)督提取時序上穩(wěn)定的三維特征點集合,并能用于任意未知鉸鏈物體的閉環(huán)操作,文章和代碼均已經開源。

基于關鍵點的表示被證明在計算機視覺和機器人領域的各種應用中具有優(yōu)勢。但現有的2D和3D關鍵點檢測方法主要依靠幾何一致性來實現空間對齊,而忽略了時間一致性。為了解決這個問題,針對 2D 數據引入了“搬運器”(Transporter) 方法,該方法從源幀重建目標幀以合并空間和時間信息。然而,由于3D點云和2D圖像的結構差異,將“轉運器”方法直接應用于3D點云是不可行的。因此,我們提出了第一個3D版本的搬運器,包括混合3D表示、交叉注意力機制和隱式重建方法。我們將這種新的表達方式應用于3D鉸接物體(剛性物體)和動物(人類和嚙齒動物,非剛性),充分驗證了我們的方法得到的關鍵點是時空一致的。此外,我們提出了一種閉環(huán)控制策略,利用學習到的關鍵點操作鉸鏈物體(包括旋轉關節(jié)或平移關節(jié)),在數據集中幾乎所有類別的物體上的操作成功率都領先于原有的方法,并且在未見過的物體類別上仍有很好的效果,證明其不俗的泛化能力。

1.解決方案

網絡架構

圖1 總體框架圖

本文所提出的3D隱式搬運器的總體框架如圖1所示。我們的網絡由三個組件組成:關鍵點檢測模塊(Keypoint Module),3D特征搬運模塊(3D Feature Transporter)和隱式重建模塊(Implicit Function)。

混合3D表達

2D Transporter [1]中特征搬運要求數據統(tǒng)一(例如 2D 圖像),對于不規(guī)則格式的點云來說是不可行的。在多將點云轉換為統(tǒng)一的 3D 體素網會引入量化誤差,破壞 3D 數據的固有幾何模式(例如等距性);高分辨率的體積表示雖然可以彌補這種信息損失,但計算成本和內存開銷都會呈立方上升,而基于點的模型[2-3]由于其稀疏表示可以顯著減少內存開銷。因此,我們利用基于點的主干從稀疏點中提取局部特征,然后利用基于體素的模型來搬運局部特征。

基于注意力機制的關鍵點檢測

當人類被要求在成對的幀之間找到移動的物體時,會采用迭代過程來檢查和篩選兩個幀中的多個暫定區(qū)域。受到這一做法的啟發(fā),使用交叉注意力模塊來聚合兩個幀的幾何特征來定位關鍵點。交叉注意力通過以下方式實現:

其中

分別為從源點云輸入和目標點云輸入提取的特征。該模塊的輸出是輸入特征和關注特征的串聯(lián),然后,我們使用PointNet++ 解碼器對其進行上采樣以獲得密集特征,并通過投影和 3D UNet將這些密集點特征轉換為關鍵點顯著性體積,然后,我們可以沿三個正交軸邊緣化顯著性體積,以提取3D 關鍵點。

特征搬運

與 2D 搬運器類似,我們將目標狀態(tài)下物體的特征信息轉移到源狀態(tài)物體中,同時擦除源狀態(tài)物體的特征信息。

隱式重建

由于2D 搬運器在傳輸特征后不會改變數據結構,因此可以輕松地通過基于 CNN 的解碼器重建輸入圖像。這對于不規(guī)則的3D數據不可行,受近期隱式神經表達的工作的啟發(fā)[4-6],我們的3D搬運器利用隱式神經表示來重建目標的基礎形狀,而不是原始點云?;趥鬏敽蟮男畔?,我們通過占據隱式場重建目標狀態(tài)下的物體幾何形狀。

利用關鍵點的操作任務

由于3D 搬運器關鍵點的長期一致性,我們的方法非常適合處理3D操作任務。為了證明這一點,我們選擇鉸接式對象操作作為基準。該任務在 UMPNET[6] 中被定義為:給定目標狀態(tài)O,帶有末端執(zhí)行器的機器人旨在生成一組動作,通過這些動作可以將鉸接的物體從當前狀態(tài)O到目標狀態(tài)O。在本文中,物體的每個狀態(tài)都是點云的形式,而不是RGB-D圖像。在實驗中,和UMPNET一樣,我們使用吸盤作為機械臂末端以拉動/推動鉸鏈物體。

我們的控制策略十分簡單且有效:設想我們已有初始狀態(tài)和目標狀態(tài)的對應的關鍵點,將對應的關鍵點連線即可得到稀疏的關節(jié)運動流??梢韵胂?,對于旋轉關節(jié)的鉸鏈物體,初始狀態(tài)到目標狀態(tài)的運動距離越短(夾角越?。P鍵點的連線越接近鉸鏈物體運動的圓弧軌跡,因此,我們的操作是通過多個步驟生成一系列動作來逐漸改變關節(jié)狀態(tài)。為了實現上述目標,我們采用閉環(huán)控制系統(tǒng),依靠反饋來調整當前的動作。具體來說,我們根據對象的當前狀態(tài)和目標狀態(tài)來預測下一步動作。與之前使用恒定移動距離的方法不同,我們利用關節(jié)運動流的大小來動態(tài)調整移動距離。受PID控制器的啟發(fā),我們采用如下公式控制當前狀態(tài)下的運動:

其中,等式左邊是控制動作(操作力,矢量),右側是關節(jié)運動流乘以給定的比例系數。

由于我們的方法是基于對應關鍵點之間連線的操作,可以設想,這樣生成的控制軌跡對于平移關節(jié)和旋轉關節(jié)都是適用的。因此,在操作過程中,我們不需要辨別關節(jié)的類型。圖2詳細地展示了我們如何利用關鍵點操作鉸鏈物體。

圖2 鉸鏈物體操作策略

損失函數

對于感知任務,我們采用表面重建損失函數:

其中,Q是全部的查詢,Prob是隱式解碼器輸出的概率,Prob是目標幀的真實值:如果q來自于輸入的目標點云,Prob為1,否則為0。此外,我們引入了一個額外的損失項 ,以促進源幀重建以獲得更好的感知結果,公式如下:

對于操作任務,除了表面重建損失函數外,我們還引入了兩個損失函數,分別是關鍵點一致性損失函數和運動關節(jié)連續(xù)性損失函數。

由于鉸鏈物體的運動是剛性運動,因此同一物體上的關鍵點的旋轉量和平移量應當一致。我們引入如下關鍵點一致性損失函數:

其中,旋轉矩陣和平移向量通過最小二乘的方法得到:

此外, 在關節(jié)運動過程中,我們注意到某個關節(jié)在不同狀態(tài)下的軸方向應該保持相同或平行。給定鉸鏈物體運動過程,我們可以通過羅德里格斯的旋轉公式計算其軸方向μ和角度θ。我們懲罰特定關節(jié)在不同時間步長的軸方向差異:

對于操作任務,總的損失函數為:

2.實驗結果

剛性物體實驗

我們在數據集(仿真數據集)上進行了定量和定性實驗,并驗證了我們的閉環(huán)控制策略,分別如下所示:

感知部分(時空連續(xù)的關鍵點)定量結果:

感知部分定性結果:

操作部分(鉸鏈物體操作)定量結果:

操作部分定性結果:

我們同樣在真實環(huán)境中驗證了我們方法的關鍵點的時空連續(xù)性,感知結果如下:

同樣,我們在真實環(huán)境中搭建了6自由度機械臂操作平臺,如下圖所示:

我們在該操作平臺上驗證了我們基于時空連續(xù)關鍵點的閉環(huán)控制策略的有效性,實驗結果如下:

非剛性物體實驗

我們在人類(數據集)和嚙齒動物(Rodent3D數據集)上驗證了我們的方法對非剛性物體仍然有有效,實驗結果如下:

人類實驗:

嚙齒動物實驗:

3.總結

我們的工作提出了 3D 隱式搬運器,這是一種從點云序列中發(fā)現時間對應的3D關鍵點的自監(jiān)督方法。我們引入了三個新穎的組件,將2D搬運器擴展到3D領域。廣泛的評估表明,我們的關鍵點在時間上是一致的,并且可以推廣到看不見的對象類別。此外,我們?yōu)橄掠稳蝿臻_發(fā)了一種利用關鍵點的閉環(huán)控制策略,并證明它們適合3D操作任務。

參考文獻

1、Tejas D Kulkarni, Ankush Gupta, Catalin Ionescu, Sebastian Borgeaud, Malcolm Reynolds, Andrew Zisserman, and Volodymyr Mnih. Unsupervised learning of object keypoints for perception and control. In NeurIPS, 2019.

2、Haoqiang Fan, Hao Su, and Leonidas J Guibas. A point set generation network for 3d object reconstruction from a single image. In CVPR, 2017.

3、Charles Ruizhongtai Qi, Li Yi, Hao Su, and Leonidas J Guibas. Pointnet++: Deep hierarchical feature learning on point sets in a metric space. In NeurIPS, 2017

4、Chengliang Zhong, Peixing You, Xiaoxue Chen, Hao Zhao, Fuchun Sun, Guyue Zhou, Xiaodong Mu, Chuang Gan, and Wenbing Huang. Snake: Shape-aware neural 3d keypoint field. In NeurIPS, 2022.

5、Jeong Joon Park, Peter Florence, Julian Straub, Richard Newcombe, and Steven Lovegrove. Deepsdf: Learning continuous signed distance functions for shape representation. In CVPR, 2019

6、Zhenjia Xu, He Zhanpeng, and Shuran Song. Umpnet: Universal manipulation policy network for articulated objects. In RA-L, 2022.

ICCV 2023 | R3D3:從多視圖像實現動態(tài)場景的密集三維重建的評論 (共 條)

分享到微博請遵守國家法律
永胜县| 茶陵县| 阿图什市| 德兴市| 隆安县| 大姚县| 永登县| 新营市| 镇安县| 崇信县| 喀喇| 乃东县| 呈贡县| 兴仁县| 冕宁县| 深圳市| 永定县| 柳林县| 留坝县| 凭祥市| 兖州市| 汾阳市| 金乡县| 新河县| 丘北县| 正镶白旗| 太湖县| 镇赉县| 芒康县| 潜江市| 宣化县| 五华县| 阳原县| 崇仁县| 永城市| 彰武县| 兴安县| 离岛区| 安福县| 普定县| 石林|