CVPR 2022 | CrossPoint:3D點云理解的自監(jiān)督跨模態(tài)對比學(xué)習(xí)
CrossPoint: Self-Supervised Cross-Modal Contrastive Learning for 3D Point Cloud Understanding
代碼鏈接:https://github.com/MohamedAfham/CrossPoint
文章鏈接:https://arxiv.org/abs/2203.00680
作者:HT 文章來源:微信公眾號「3D視覺工坊」
摘 要由于點云的不規(guī)則結(jié)構(gòu),用于各種任務(wù)(例如 3D對象的分類、分割和檢測)的大規(guī)模點云數(shù)據(jù)集的人工標注通常是很費力的。無需任何人工標記的自監(jiān)督學(xué)習(xí),是解決此問題的一種很有前景的方法。在現(xiàn)實世界中,我們觀察到人類能夠?qū)?D圖像中學(xué)習(xí)到的視覺概念映射到3D世界,進而輔助理解。受到這種見解的啟發(fā),我們提出了CrossPoint,這是一種簡單的跨模態(tài)對比學(xué)習(xí)方法,用于學(xué)習(xí)可遷移的3D點云表示。它通過最大化點云和不變空間中相應(yīng)渲染的 2D 圖像之間的一致性,來實現(xiàn)3D-2D對象間的對應(yīng),同時鼓勵點云模態(tài)中的變換不變性。我們的聯(lián)合訓(xùn)練目標結(jié)合了模態(tài)內(nèi)和跨模態(tài)的特征對應(yīng)關(guān)系,從而以自監(jiān)督的方式集成了來自 3D 點云和 2D 圖像模態(tài)的豐富的學(xué)習(xí)信號。實驗結(jié)果表明,在包括 3D 目標分類與分割在內(nèi)的各種下游任務(wù)上,我們的方法均優(yōu)于以前的無監(jiān)督學(xué)習(xí)方法。此外,消融實驗驗證了我們的方法在點云理解方面具有更好效果。
1、介紹
3D 視覺在自動駕駛、混合現(xiàn)實和機器人技術(shù)等應(yīng)用中至關(guān)重要,因其能夠理解人類世界而引起了廣泛關(guān)注。鑒于此,近年來關(guān)于3D 視覺的研究工作層出不窮,例如在分類、檢測和分割等方面,其中點云是最流行的三維數(shù)據(jù)表示方法。然而,深度學(xué)習(xí)的成功在很大程度上依賴于大規(guī)模的標注數(shù)據(jù)。盡管 3D 傳感技術(shù)(例如 LIDAR)的發(fā)展促進了3D點云樣本的廣泛收集,但由于點云的不規(guī)則結(jié)構(gòu),人工標注這種大規(guī)模的 3D 點云數(shù)據(jù)集是非常費力的。自監(jiān)督學(xué)習(xí)是解決這個問題的主要方法之一,并已被證明在2D領(lǐng)域中是有效的。一些工作已經(jīng)探索了點云上的自監(jiān)督表征學(xué)習(xí),主要基于生成模型、重建和其他任務(wù)。除此之外,隨著對比學(xué)習(xí)在圖像和視頻理解方面的成功研發(fā),最近的工作也研究了自監(jiān)督對比學(xué)習(xí)在點云理解方面的應(yīng)用。然而,現(xiàn)有的基于對比學(xué)習(xí)的點云理解方法僅依賴于對 3D 點云的增強施加不變性。從不同的模態(tài)學(xué)習(xí),即跨模態(tài)學(xué)習(xí),在自監(jiān)督學(xué)習(xí)中產(chǎn)生了實質(zhì)性的效果。視覺+語言 和 視頻+音頻 是多模態(tài)學(xué)習(xí)的一些顯著組合。多模態(tài)場景已經(jīng)應(yīng)用于各類 2D 視覺任務(wù)中,例如目標檢測、小樣本圖像分類和視覺問答。受多模態(tài)學(xué)習(xí)進展的啟發(fā),我們提出了CrossPoint,這是一種用于3D點云理解的簡單而有效的跨模態(tài)對比學(xué)習(xí)方法。

圖 1. 提出的方法說明。?給定對象的 3D 點云及其從隨機相機視角渲染出的 2D 圖像,CrossPoint 強制執(zhí)行 3D-2D 對應(yīng),同時通過自監(jiān)督對比學(xué)習(xí)保持模型對仿射空間變換的不變性。這有助于可泛化的點云表征,然后可用于 3D 對象的分類和分割。請注意,右側(cè)顯示的 2D 圖像是直接從可用的 3D 點云中渲染得到的。我們工作的目標是獲得3D對象和2D圖像之間的對應(yīng)關(guān)系,以建設(shè)性地學(xué)習(xí)可轉(zhuǎn)移的點云表征。如圖 1 所示,我們在特征空間中嵌入了點云的增強版本和相應(yīng)的渲染2D圖像,它們彼此相鄰。在現(xiàn)實世界中,人類擅長將從 2D 圖像中學(xué)習(xí)到的視覺概念映射到3D 世界中。例如,如果一個人通過圖像觀察某個物體,他/她將能夠輕松認出該對象。認知科學(xué)家認為,3D-2D的對應(yīng)是兒童在視覺學(xué)習(xí)過程的一部分。同樣,在機器人和自動駕駛等現(xiàn)實世界的應(yīng)用中,知道這種3D-2D對應(yīng)關(guān)系,將極大地促進模型對 3D 世界的有效理解。特別地是,我們的方法遵循一個聯(lián)合目標,即在特征空間中緊密嵌入相同點云的增強版本,同時保留它們與原始3D點云的渲染2D圖像之間的3D-2D對應(yīng)關(guān)系。聯(lián)合模態(tài)內(nèi)和跨模態(tài)學(xué)習(xí)目標使模型獲得以下理想屬性:(a) 關(guān)聯(lián)點云和圖像模態(tài)中出現(xiàn)的組合模式,例如對象的細粒度部分級屬性;(b) 通過增強不變性來獲取關(guān)于點云的空間和語義特性方面的知識;(c) 將渲染的 2D 圖像特征編碼為質(zhì)心,進而增強點云特征,從而促進與變換無關(guān)的3D-2D對應(yīng)關(guān)系。此外,CrossPoint 不需要類似于 SimCLR 的負采樣存儲庫。盡管有存儲庫,但已證明豐富地擴增和硬陽性樣本的形成可以促進對比學(xué)習(xí)。我們假設(shè)在模態(tài)內(nèi)和跨模態(tài)對應(yīng)中使用的轉(zhuǎn)換能夠提供足夠的特征增強。特別地是,渲染的 2D 圖像特征作為一個硬陽性來形成更好的表征學(xué)習(xí)。我們通過多個下游任務(wù)驗證了我們的方法的魯棒性。具體來說,我們對合成對象數(shù)據(jù)集和現(xiàn)實世界對象數(shù)據(jù)集,進行形狀分類。盡管在合成對象數(shù)據(jù)集上進行了預(yù)訓(xùn)練,但 CrossPoint 在分布外的樣本中的性能證明了聯(lián)合學(xué)習(xí)目標的重要性。此外,消融實驗證明了內(nèi)模態(tài)和跨模態(tài)目標的分量方面的貢獻。我們還采用了多個廣泛使用的點云網(wǎng)絡(luò)作為我們的特征提取器,從而證明了我們方法的通用性。我們提出的方法的主要貢獻,總結(jié)如下:1)我們表明,在特征空間中的簡單3D-2D對應(yīng)的數(shù)據(jù)對象上進行自監(jiān)督對比學(xué)習(xí),這有助于對3D點云的有效理解。2)我們提出了一種新的端到端自監(jiān)督學(xué)習(xí)目標,其中封裝了模態(tài)內(nèi)的損失函數(shù)和模態(tài)間的損失函數(shù)。這使得2D圖像特征更好地嵌入到相應(yīng)的3D點云中,從而避免了特定增強的偏差。3)通過三個下游任務(wù),我們廣泛評估了我們提出的方法,即:目標分類、小樣本學(xué)習(xí)和對各種合成和真實數(shù)據(jù)集的部分分割,其中 CrossPoint 優(yōu)于以前的無監(jiān)督學(xué)習(xí)方法。4)此外,我們在CIFAR-FS數(shù)據(jù)集上進行了小樣本圖像分類,證明了通過CrossPoint預(yù)訓(xùn)練的圖像backbone進行調(diào)優(yōu)后的效果優(yōu)于baseline。
2、相關(guān)工作
點云上的表征學(xué)習(xí)。與其他模式(例如圖像)相比,點云表征的學(xué)習(xí)是一項具有挑戰(zhàn)性的任務(wù)。這是因為點云的不規(guī)則結(jié)構(gòu),以及在處理點數(shù)據(jù)時所需要的置換不變性。最近,開創(chuàng)性工作PointNet,提出了直接使用 3D 點云而無需任何預(yù)處理的方法和架構(gòu),也就是點云的深度學(xué)習(xí)網(wǎng)絡(luò)。從那時起,基于點云的任務(wù)取得了許多進展,例如 3D 目標分類、3D 目標檢測 和 3D 點云融合。此外,人們還提出了幾種數(shù)據(jù)增強策略,用來增強模型的表征能力。然而,不管使用何種主干網(wǎng)絡(luò),這種表征學(xué)習(xí)方法的性能取決于帶標注的點云數(shù)據(jù),而標注的點云數(shù)據(jù)通常很難獲得。Sharma 等人,提出了 cTree,其中點云表征可以在標簽高效的場景中學(xué)習(xí)(即,小樣本學(xué)習(xí))。相比之下,我們的方法側(cè)重于學(xué)習(xí)可轉(zhuǎn)移的點云表征信息,而不利用任何標注數(shù)據(jù)。然后,可以將其用于各種下游任務(wù),例如分類和分割。點云上的自監(jiān)督學(xué)習(xí)。對于點云的自監(jiān)督表征學(xué)習(xí),已經(jīng)探索了好幾種方法。最初的工作線利用生成對抗網(wǎng)絡(luò)和自動編碼器進行生成建模,其目的在于用不同的架構(gòu)設(shè)計,來重建給定的輸入點云。最近的一系列研究工作提出了各種代理自監(jiān)督任務(wù),其目標是學(xué)習(xí)豐富的語義點屬性,最終導(dǎo)致高層次的判別知識。例如,Wang等人,訓(xùn)練編碼器-解碼器模型來學(xué)習(xí)遮擋點云。Poursaeed 等人,將點云旋轉(zhuǎn)角度的估計定義為代理任務(wù)。然而,在這項工作中,我們利用對比學(xué)習(xí)來學(xué)習(xí)特征空間中的不變映射。受自監(jiān)督對比學(xué)習(xí)在圖像理解中的成功的啟發(fā),許多工作分析了這種用于點云理解的場景。Point Contrast 在給定點云的兩個變換視圖上進行點級不變映射。類似地,Liu等人,也分析了點級不變映射。通過引入點區(qū)分損失,使特征與形狀表面上的點一致,與隨機采樣的噪聲點不一致。STRL是BYOL對3D點云的直接擴展,它通過在線網(wǎng)絡(luò)和目標網(wǎng)絡(luò)的交互無監(jiān)督地學(xué)習(xí)表示。與現(xiàn)有的利用對比學(xué)習(xí)的工作相反,我們引入了一個輔助的跨模態(tài)對比目標,它可以捕獲3D-2D對應(yīng)關(guān)系,從而產(chǎn)生更好的表示能力。跨模態(tài)學(xué)習(xí)。從不同的模態(tài)中學(xué)習(xí),往往能提供豐富的學(xué)習(xí)信號,進而可以更輕松地處理給定上下文的語義信息。最近的研究工作已經(jīng)證明,跨模態(tài)環(huán)境下的預(yù)訓(xùn)練產(chǎn)生可轉(zhuǎn)移的表征,然后可以將其用到各種下游任務(wù)中。CLIP 旨在通過最大化圖像和文本模態(tài)之間的余弦相似度來學(xué)習(xí)多模態(tài)嵌入空間。同樣,Morgado 等人,結(jié)合音頻和視頻模態(tài)來執(zhí)行跨模態(tài)協(xié)議,從而在動作識別和聲音識別任務(wù)中獲得顯著效果。Zhang等人介紹了一種點云和體素的聯(lián)合學(xué)習(xí)方法。此外,其他還有通過濾波器膨脹,將預(yù)訓(xùn)練的 2D 圖像模型轉(zhuǎn)換為點云模型。我們的工作與另一個工作密切相關(guān),它使用固定的圖像特征提取器來進行像素到點的特征遷移。與現(xiàn)有方法相比,與 3D 理解的目標一致,CrossPoint 的設(shè)計方式是鼓勵將 2D 圖像特征嵌入到相應(yīng)的 3D 點云模型中,同時在點云模態(tài)中添加轉(zhuǎn)換不變性。
3、方法
在這項工作中,我們通過引入內(nèi)模態(tài)和跨模態(tài)對比學(xué)習(xí)目標的融合,改進了無監(jiān)督的3D點云表征學(xué)習(xí)。本節(jié)首先介紹所提出方法的網(wǎng)絡(luò)架構(gòu)細節(jié)(第3.1節(jié))。然后我們描述了在內(nèi)模態(tài)(第 3.2 節(jié))和跨模態(tài)(第3.3節(jié))場景中制定的對比學(xué)習(xí)損失函數(shù)。最后,我們介紹了我們的總體訓(xùn)練目標(第3.4節(jié))。所提出方法的概述如圖 2 所示。

圖 2.?所提出的方法 (CrossPoint) 的總體架構(gòu)。它包括兩個分支,即:1)點云分支,通過對點云增強施加不變性來建立模態(tài)內(nèi)的對應(yīng)關(guān)系;2)圖像分支,通過引入渲染的2D圖像特征和點云原型特征之間的對比損失,來簡單地制定跨模態(tài)對應(yīng)。CrossPoint 結(jié)合兩個分支的學(xué)習(xí)目標,來聯(lián)合訓(xùn)練模型。我們丟棄圖像分支,僅使用點云特征提取器作為下游任務(wù)的backbone。
3.1方法概述

3.2模內(nèi)的實例判別


3.3 跨模態(tài)的實例判別
除了點云模態(tài)內(nèi)的特征對齊之外,我們還引入了一個跨點云和圖像模態(tài)的輔助對比目標來學(xué)習(xí)判別特征,從而獲得更好的 3D 點云表征學(xué)習(xí)能力。如第二節(jié)所討論的,一些研究工作旨在學(xué)習(xí)跨模態(tài)場景中的可轉(zhuǎn)移點云表征。然而,據(jù)我們所知,執(zhí)行 3D-2D 對應(yīng)的聯(lián)合學(xué)習(xí)目標,同時在點云模態(tài)中進行實例判別,尚未得到很好的探索。我們用4.2節(jié)的實驗結(jié)果進行了實證驗證。我們的聯(lián)合目標優(yōu)于現(xiàn)有的無監(jiān)督表征方法,從而促進了 3D 點云的有效表征學(xué)習(xí)。


3.4 總體目標

4、實驗
4.1 預(yù)訓(xùn)練
數(shù)據(jù)集。我們使用 ShapeNet 作為?CrossPoint?預(yù)訓(xùn)練的數(shù)據(jù)集。它最初由 55 個類別的 50,000 多個 CAD 模型組成。我們從 [67] 中獲得渲染的 RGB 圖像,其中包含來自 13 個對象類別的 43,783 幅圖像。對于給定的點云,我們從所有渲染的圖像中隨機選擇一個 2D 圖像,該圖像是從任意視角捕獲的。我們?yōu)槊總€點云使用 2048 個點,同時將相應(yīng)的渲染 RGB 圖像調(diào)整為 224×224。除了在3.2節(jié)中描述的應(yīng)用于點云的增強之外,我們還對渲染圖像執(zhí)行隨機裁剪、顏色抖動和隨機水平翻轉(zhuǎn),以此作為數(shù)據(jù)增強。
4.2 下游任務(wù)
通過進行三個廣泛使用的下游任務(wù),我們評估了 CrossPoint 在點云表征學(xué)習(xí)中的可遷移性,即:(i) 3D 對象分類(合成和真實世界數(shù)據(jù)),(ii) Few-shot對象分類(合成和真實世界數(shù)據(jù)), (iii) 3D對象部分分割。(i)3D對象分類。我們在 ModelNet40 和 ScanObjectNN 上進行分類實驗,以證明我們的方法在合成和真實世界的 3D 形狀表征學(xué)習(xí)中的通用性。ModelNet40 是一個合成數(shù)據(jù)集,其中點云是通過對 3D CAD 模型進行采樣獲得的。它包含來自 40 個類別的 12,331 個對象(9,843 個用于訓(xùn)練,2,468 個用于測試)。ScanObjectNN 是更真實和更具挑戰(zhàn)性的 3D 點云分類數(shù)據(jù)集,它由從真實世界室內(nèi)掃描中提取的遮擋對象組成。它包含來自 15 個類別的 2,880 個對象(2304 個訓(xùn)練集和 576 個測試集)。我們遵循標準協(xié)議來測試我們的模型在對象分類中的準確性。我們擱置了預(yù)訓(xùn)練的點云特征提取器,并在分類數(shù)據(jù)集的訓(xùn)練分割上擬合了一個簡單的線性 SVM 分類器。我們從每個對象中隨機抽取 1024 個點用于訓(xùn)練和測試分類結(jié)果。我們的 CrossPoint 在不同的 backbone中也提供一致的性能。我們在 PointNet 和 DGCNN 中都進行了實驗,其中 PointNet 是基于 MLP 的特征提取器,而 DGCNN 是建立在圖卷積網(wǎng)絡(luò)上的。表 1 報告了 ModelNet40 上的線性分類結(jié)果。很明顯,CrossPoint 在這兩種特征提取器上都優(yōu)于以前最先進的無監(jiān)督方法,從而為點云的自監(jiān)督學(xué)習(xí)建立了新的baseline。特別地是,我們的模型性能相比于 Depth-Contrast顯著提高了 5.8%,Depth-Contrast 也采用了跨模態(tài)場景進行點云表征學(xué)習(xí)。雖然我們的方法以相當大的優(yōu)勢超越了之前使用自監(jiān)督對比學(xué)習(xí) 的研究工作,但由于不同的預(yù)訓(xùn)練機制和特征提取器的差異等各種原因,其他一些方法無法進行公平的比較。表 2 展示了 ScanObjectNN 的線性評估結(jié)果。與之前最先進的無監(jiān)督方法相比,PointNet網(wǎng)絡(luò)的準確率提高了1.3%,DGCNN 骨干網(wǎng)絡(luò)的準確率提高了 3.4%,這表明我們提出的聯(lián)合學(xué)習(xí)方法也適用于分布外的數(shù)據(jù)。表1. ?ModelNet40線性分類結(jié)果與以往自監(jiān)督方法的比較。使用預(yù)訓(xùn)練模型將線性分類器擬合到 ModelNet40 的訓(xùn)練集上,并報告了測試集中分類的總體精度。我們的方法 CrossPoint ,超越了 PointNet 和 DGCNN 骨干網(wǎng)絡(luò)的現(xiàn)有工作。

表 2. ?ScanObjectNN 線性分類結(jié)果與以前的自監(jiān)督方法的比較。在以 PointNet 和 DGCNN 為骨干網(wǎng)絡(luò)中,CrossPoint 均顯示出對先前工作的持續(xù)改進。這說明了我們的方法在現(xiàn)實環(huán)境中的有效性。

表 3. ?ModelNet40 上的few-shot對象分類結(jié)果。我們報告了 10 次運行結(jié)果的平均誤差和標準誤差。每個backbone的最好結(jié)果以紅色和藍色著色。我們提出的 CrossPoint 提高了所有報告環(huán)境中的小樣本精度。表格是 [57] 的擴展版本

(ii) 小樣本對象分類。少樣本學(xué)習(xí)(FSL)旨在訓(xùn)練一個用有限的數(shù)據(jù)進行泛化的模型。我們在傳統(tǒng)的少樣本任務(wù)(N-way K-shot learning)上進行實驗,其中模型在 N 個類別上進行評估,每個類別包含 N 個樣本。2D 領(lǐng)域中的一些研究工作表明,在以自監(jiān)督方式訓(xùn)練表征的基礎(chǔ)之上,訓(xùn)練簡單的線性分類器是有效的。類似于標準的 3D 對象分類,我們使用 ModelNet40 和 ScanObjectNN 數(shù)據(jù)集進行 FSL 實驗。雖然在兩個數(shù)據(jù)集中都沒有 FSL 的標準數(shù)據(jù)集,但為了與以前的方法進行公平的比較,我們隨機抽取 10 個小樣本任務(wù),并報告結(jié)果的平均值和標準差。表 3 顯示了 ModelNet40 上的 FSL 結(jié)果,其中在 PointNet 和 DGCNN 為backbone的所有 FSL 任務(wù)中,CrossPoint 都優(yōu)于先前的工作。值得注意的是,與使用 PointNet 骨干網(wǎng)絡(luò)的方法相比,我們使用 DGCNN 骨干網(wǎng)絡(luò)的方法在某些 FSL 任務(wù)中表現(xiàn)不佳。在以前的方法中也觀察到了類似的規(guī)律。我們歸因于這樣一個事實,即復(fù)雜的骨干網(wǎng)絡(luò)可能會降低小樣本的學(xué)習(xí)性能,這在圖像的FSL文獻中也可以一致觀察到。我們在表4中報告了 ScanObjectNN 數(shù)據(jù)集上的 FSL 結(jié)果。在PointNet和DGCNN特征提取器的大多數(shù)場景中,CrossPoint 都產(chǎn)生了顯著的準確度提升,證明了即使在分布外場景中也可以使用有限數(shù)據(jù)達到泛化的能力。表 4. ?ScanOb-jectNN 上的小樣本對象分類結(jié)果。?我們報告了 10 次運行結(jié)果的平均誤差和標準誤差。每個backbone的最好結(jié)果以紅色和藍色表示。提出的CrossPoint 提高了所有報告場景中的小樣本精度。表格是 [57] 的擴展版本

(iii) 3D 對象部分分割。我們在廣泛使用的 ShapeNetPart 數(shù)據(jù)集中執(zhí)行對象部分分割。ShapeNetPart包含來自 16 個類別的 16881 個 3D 對象,總共標注了 50 個部分。在 ShapeNet 數(shù)據(jù)集上,我們首先使用我們的方法對 DGCNN 中提出的backbone進行預(yù)訓(xùn)練以進行局部分割,并在 ShapeNetPart 數(shù)據(jù)集的訓(xùn)練集中以端到端的方式進行微調(diào)。我們報告了平均 IoU(Intersection-over-Union)度量,計算方法是在對表5中每個對象類獲得的值進行平均之前,對對象中每個部分的 IoU 進行平均。使用 CrossPoint 預(yù)訓(xùn)練的backbone進行部分分割,比隨機初始化的 DGCNN 骨干網(wǎng)絡(luò)分割效果好 0.4%。這表明 CrossPoint 為特征提取器提供了更好的權(quán)重初始化。與以前的自監(jiān)督學(xué)習(xí)框架相比,CrossPoint 的準確度提高表明,它通過聯(lián)合方式施加模態(tài)內(nèi)和跨模態(tài)間的對應(yīng),更傾向于捕獲細粒度的部分級屬性,而這在部分分割中至關(guān)重要。
4.3 消融實驗與分析
聯(lián)合學(xué)習(xí)目標的影響。如第3節(jié)所述,我們的方法旨在訓(xùn)練具有聯(lián)合學(xué)習(xí)目標的模型。我們假設(shè),與單個學(xué)習(xí)目標相比,以聯(lián)合方式處理模態(tài)內(nèi)和跨模態(tài)對應(yīng)有助于更好的表示學(xué)習(xí)。內(nèi)模態(tài)對應(yīng)鼓勵模型通過對變換施加不變性來捕獲細粒度的部分語義,而跨模態(tài)對應(yīng)則通過對比學(xué)習(xí)建立硬正特征樣本,使學(xué)習(xí)更具挑戰(zhàn)性,從而產(chǎn)生更好的結(jié)果。我們在所有可能的場景中訓(xùn)練模型,并在 ModelNet40 和 ScanObjectNN 數(shù)據(jù)集中評估線性 SVM 分類器,對這一假設(shè)進行了實證檢驗。圖 3 說明了在所有學(xué)習(xí)環(huán)境中,所提出的聯(lián)合學(xué)習(xí)范式的表現(xiàn)優(yōu)于單個目標。特別地是,將模態(tài)內(nèi)學(xué)習(xí)目標和跨模態(tài)學(xué)習(xí)目標結(jié)合使用DGCNN 特征提取器,分別比 ModelNet40 和 ScanObjectNN 中的第二最佳方法獲得了 1.2% 和 0.7% 的精度增益。表 5. ?在ShapeNetPart 數(shù)據(jù)集上的部分分割結(jié)果。?我們報告所有對象類的平均 IoU。有監(jiān)督使用的是隨機初始化特征backbone訓(xùn)練的模型,而自監(jiān)督模型使用的是預(yù)訓(xùn)練特征提取器初始化的模型。


圖 3. 聯(lián)合學(xué)習(xí)目標對單獨的內(nèi)模態(tài)和跨模式目標的影響。?在 ModelNet40(左)和 ScanObjectNN(右)數(shù)據(jù)集上,使用線性 SVM 的預(yù)訓(xùn)練嵌入進行分類的結(jié)果。我們特別觀察到,在分類準確度指標中,具有跨模態(tài)學(xué)習(xí)目標的線性評估略微優(yōu)于具有內(nèi)模態(tài)學(xué)習(xí)目標的線性評估。我們認為,通過利用點云原型特征,將圖像特征嵌入到兩個增強點云的特征附近,跨模態(tài)學(xué)習(xí)目標有助于部分語義理解。數(shù)字。圖 4 顯示了從 ModelNet10 數(shù)據(jù)集的測試集中獲得的特征的 t-SNE 圖。很明顯可見, CMID 和 IMID 都可以很好地區(qū)分類別,即使沒有使用明確的標記數(shù)據(jù)進行訓(xùn)練。但是,某些類(例如,desk、table)的類邊界并不精確和緊湊。聯(lián)合學(xué)習(xí)目標能夠這些類中創(chuàng)建更好的區(qū)分邊界。對應(yīng)的 2D 圖像的數(shù)量。我們通過改變渲染的 2D 圖像的數(shù)量 (n) 來研究圖像分支的貢獻。我們選擇從不同隨機方向捕獲的渲染 2D 圖像。如果有多個渲染的 2D 圖像,我們計算渲染圖像的所有投影特征的平均值,以執(zhí)行跨模態(tài)實例判別 (CMID)。表 6 報告了 ModelNet40 數(shù)據(jù)集上的線性 SVM 分類結(jié)果。我們的方法,即使使用單張渲染的 2D 圖像也能捕獲跨模態(tài)的對應(yīng)關(guān)系,以產(chǎn)生更好的線性分類結(jié)果。很明顯,當使用 2 張以上渲染圖像時,從 2D 圖像模態(tài)收集的信息可能變得多余,因此準確性下降。

圖 4. 采用自監(jiān)督方式訓(xùn)練 DGCNN 主干后,對ModelNet10?數(shù)據(jù)集的測試集特征的 t-SNE 可視化。與使用單個目標學(xué)習(xí)的模型相比,所提出的聯(lián)合學(xué)習(xí)方法提供了更好地分類(例如凳子、桌子)。表 6. ?ModelNet40 上對具有不同數(shù)量的渲染 2D 圖像 (n) 進行線性分類的結(jié)果。對應(yīng)有單個對應(yīng)圖像的 CrossPoint 的性能優(yōu)于或等于多個渲染圖像。對于所有的實驗,我們選擇 n = 1。

CIFAR-FS 上的小樣本圖像分類。盡管我們在點云下游任務(wù)中丟棄了圖像特征提取器,但我們進行了一個簡單的小樣本圖像分類,來研究其對圖像的理解能力。我們使用 CIFAR-FS 數(shù)據(jù)集,這是一個廣泛用于小樣本圖像分類的數(shù)據(jù)集,包含 100 個類別,包括 64個訓(xùn)練集、16個驗證集 和 20個測試集。在 5-way 1-shot 和 5-way 5-shot 場景中,表 7 報告了與標準基線 RFS的比較結(jié)果。值得注意的是,在沒有任何監(jiān)督微調(diào)的情況下,CrossPoint 在少樣本圖像分類場景中不能很好地泛化。我們認為,這是因為點云渲染的 2D 圖像與 CIFAR-FS 中的真實圖像之間存在相當大的差異。因此,CrossPoint 未能推廣到這種分布外的數(shù)據(jù),這是我們工作的一個限制。然而,在 CrossPoint 中使用無監(jiān)督訓(xùn)練的圖像特征提取器初始化主干,并使用 RFS 中提出的方法進行微調(diào),在這兩種小樣本場景中的表現(xiàn)都明顯優(yōu)于baseline結(jié)果。表 7. CIFAR-FS 上的小樣本圖像分類結(jié)果。使用 RFS 微調(diào) CrossPoint 可以提高性能。

5、總結(jié)
在本文中,我們提出了一種簡單的自監(jiān)督學(xué)習(xí)框架 CrossPoint,用于 3D 點云表征學(xué)習(xí)。盡管我們的方法是在合成 3D 對象數(shù)據(jù)集上進行訓(xùn)練的,但在合成和真實世界數(shù)據(jù)集上進行的 3D 對象分類和 3D 對象部分分割等下游任務(wù)的實驗結(jié)果表明,我們的方法在學(xué)習(xí)可遷移表征方面的有效性。我們的消融實驗驗證了我們的想法,即施加內(nèi)模態(tài)和跨模態(tài)對應(yīng)的聯(lián)合學(xué)習(xí),導(dǎo)致更通用和可轉(zhuǎn)移的點云特征。此外,小樣本圖像分類實驗為跨模態(tài)理解提供了強有力的方向,可以在未來的研究中進行探索。
本文僅做學(xué)術(shù)分享,如有侵權(quán),請聯(lián)系刪文。
3D視覺精品課程學(xué)習(xí)網(wǎng)址:https://www.3dcver.com
網(wǎng)站內(nèi)3D視覺精品課程包括:
1、國內(nèi)首個面向自動駕駛領(lǐng)域的多傳感器數(shù)據(jù)融合系統(tǒng)課程
2、徹底搞透視覺三維重建:原理剖析、代碼講解、及優(yōu)化改進
3、深入剖析激光SLAM的關(guān)鍵算法與實現(xiàn)(LOAM 和 LEGO-LOAM )
4、國內(nèi)首個面向工業(yè)級點云處理的實戰(zhàn)課程
5、徹底搞懂視覺-慣性SLAM:VINS-Fusion原理精講與源碼剖析
6、徹底剖析室內(nèi)、室外激光SLAM關(guān)鍵算法原理、代碼和實戰(zhàn)(cartographer+LOAM+LIO-SAM)
7、徹底剖析激光-視覺-IMU-GPS融合SLAM算法:理論推導(dǎo)、代碼講解和實戰(zhàn)
8、自動駕駛中的深度學(xué)習(xí)模型部署實戰(zhàn)
9、相機模型與標定系統(tǒng)課程(單目+雙目+魚眼+深度相機)
10、單目深度估計方法: 理論與實戰(zhàn)
11、面向自動駕駛領(lǐng)域的3D點云深度學(xué)習(xí)目標檢測課程
12、從零搭建一套結(jié)構(gòu)光3D重建系統(tǒng) 【理論+源碼+實踐】
13、四旋翼飛行器:算法與實戰(zhàn)
14、(第二期)徹底搞懂基于LOAM框架的3D激光SLAM: 源碼剖析到算法優(yōu)化
15、國內(nèi)首個3D視覺缺陷檢測:理論、源碼與實戰(zhàn)
16、(第二期)徹底搞懂基于LOAM框架的3D激光SLAM: 源碼剖析到算法優(yōu)化
更多干貨
歡迎加入【3D視覺工坊】交流群,方向涉及3D視覺、計算機視覺、深度學(xué)習(xí)、vSLAM、激光SLAM、立體視覺、自動駕駛、點云處理、三維重建、多視圖幾何、結(jié)構(gòu)光、多傳感器融合、VR/AR、學(xué)術(shù)交流、求職交流等。工坊致力于干貨輸出,為3D領(lǐng)域貢獻自己的力量!歡迎大家一起交流成長~
添加小助手微信:dddvision,備注學(xué)校/公司+姓名+研究方向即可加入工坊一起學(xué)習(xí)進步