用幾何信息來輔助基于特征的視覺定位(arxiv 2022)
標(biāo)題:Improving Feature-based Visual Localization by Geometry-Aided Matching
發(fā)表于:arxiv 2022.10.16
來自:浙大CAD&CG國(guó)家重點(diǎn)實(shí)驗(yàn)室 商湯科技
開源代碼:https://github.com/openxrlab/xrlocalization.
主要內(nèi)容:提出了一種新的2D-3D匹配方法,幾何輔助匹配(GAM),使用外觀信息和幾何上下文來改進(jìn)2D-3D特征匹配,可以在保持高精度的同時(shí)增強(qiáng)2D-3D匹配的recall,將GAM插入到分層視覺定位pipeline中,表明GAM可以有效地提高定位的魯棒性和準(zhǔn)確性,其實(shí)驗(yàn)表明,GAM可以找到比手工啟發(fā)式和學(xué)習(xí)的方法更正確的匹配,在多個(gè)視覺定位數(shù)據(jù)集上獲得了最先進(jìn)的結(jié)果。
來源:微信公眾號(hào)「3D視覺工坊」
Contributions:
提出了GAM,首先根據(jù)視覺外觀為每個(gè)2D點(diǎn)建立多個(gè)候選匹配,然后根據(jù)幾何上下文過濾不正確的匹配。
提出了一種稱為BMNet的深度神經(jīng)網(wǎng)絡(luò)來處理多對(duì)多候選匹配,它可以預(yù)測(cè)每個(gè)2D-3D匹配的幾何先驗(yàn)并輸出全局最優(yōu)匹配集。
提出了一種具有新場(chǎng)景檢索策略的分層視覺定位方法,進(jìn)一步提高了姿態(tài)估計(jì)的魯棒性。
所提出的定位方法在多個(gè)數(shù)據(jù)集上優(yōu)于最先進(jìn)的方法。
幾何輔助匹配:


網(wǎng)絡(luò)架構(gòu):



Hungarian Pooling:如果直接訓(xùn)練g(g;θ),網(wǎng)絡(luò)參數(shù)將很難學(xué)習(xí),因?yàn)閹缀我恢滦钥赡芘c監(jiān)督?jīng)_突,如下圖所示。

2D圖像點(diǎn)與在3D空間中接近的兩個(gè)3D點(diǎn)匹配,在相同的相機(jī)姿勢(shì)下,它們可能都有小的重投影誤差,網(wǎng)絡(luò)易于根據(jù)提取的幾何特征為它們生成相似的權(quán)重,這兩種對(duì)應(yīng)關(guān)系都被認(rèn)為是幾何一致的。然而其中只有一個(gè)是inlier,其余的則是outlier,多個(gè)對(duì)應(yīng)具有相似的幾何特征但具有不同標(biāo)簽的這種差異使得網(wǎng)絡(luò)難以收斂。為了解決這個(gè)問題,將匈牙利算法引入到網(wǎng)絡(luò)中進(jìn)行端到端訓(xùn)練。匈牙利算法可以找到全局最優(yōu)的一對(duì)一匹配,因?yàn)橹贿x擇了兩個(gè)對(duì)應(yīng)關(guān)系中的一個(gè),所以可以消除幾何一致性和監(jiān)督之間的差異。基于由g(g;θ)預(yù)測(cè)的權(quán)重向量w和二分圖g,權(quán)重矩陣w被構(gòu)造為:

其中W的未填充元素被設(shè)置為0,然后將匈牙利算法應(yīng)用于該權(quán)重矩陣W獲得匹配M的最大權(quán)重。分配向量s由下列公式獲得:

由于輸出邊緣來自輸入邊緣的子集,引入匈牙利算法的層可以被視為一個(gè)特殊的采樣層,稱之為匈牙利池,端到端訓(xùn)練中使用的反向傳播公式如下:

分層定位pipeline:
對(duì)于查詢圖像,提取其全局特征和局部特征,全局特征用于粗略定位以確定要匹配的3D點(diǎn)集,提取的局部特征和結(jié)合相應(yīng)描述符的3D點(diǎn)集都被送到GAM中以獲得全局最優(yōu)2D-3D對(duì)應(yīng)。整個(gè)定位過程分為三個(gè)模塊,即場(chǎng)景檢索、2D-3D特征匹配和先驗(yàn)引導(dǎo)姿態(tài)估計(jì)。場(chǎng)景檢索:


根據(jù)場(chǎng)景檢索的順序執(zhí)行GAM并輸出匹配的2D-3D對(duì)應(yīng),對(duì)于第k個(gè)場(chǎng)景

,獲取其3D點(diǎn)和相應(yīng)的描述子來構(gòu)建3D特征集,在從查詢圖像提取的2D局部特征和3D特征之間執(zhí)行GAM,輸出匹配M的最大權(quán)重,根據(jù)歐氏距離執(zhí)行kNN比率匹配,當(dāng)描述子被歸一化時(shí),這可以通過矩陣運(yùn)算有效地實(shí)現(xiàn)。
先驗(yàn)引導(dǎo)的姿態(tài)估計(jì):
由于M中仍然存在一些錯(cuò)誤匹配,在RANSAC循環(huán)中應(yīng)用PnP解算器,在RANSAC loop中,采樣2D-3D對(duì)應(yīng)的概率由BMNet預(yù)測(cè)的似然決定,這使得能夠以更大的機(jī)會(huì)對(duì)可能的inlier進(jìn)行采樣。
實(shí)驗(yàn):
首先進(jìn)行了2D-3D匹配實(shí)驗(yàn),表明GAM以比手工制作的方法和學(xué)習(xí)方法更高的精度找到更多的真實(shí)匹配。數(shù)據(jù)集:MegaDepth數(shù)據(jù)集中選擇一個(gè)位置作為2D-3D匹配評(píng)估的測(cè)試數(shù)據(jù)集。將GAM與傳統(tǒng)手工制作方法和學(xué)習(xí)匹配方法進(jìn)行了比較使用最近鄰(NN)匹配器從描述符空間中的每個(gè)2D點(diǎn)的所有3D點(diǎn)中找到最近鄰,手工制作的異常值剔除方法包括比率測(cè)試(ratio)、距離閾值(distance)和彼此最近的鄰居(cross check),因?yàn)闆]有其他基于學(xué)習(xí)的方法直接用于2D-3D特征匹配,因此將最近提出的一些在2D-2D匹配中表現(xiàn)良好的方法遷移到2D-3D進(jìn)行比較,將LGCNet和OANet的輸入從2D-2D對(duì)應(yīng)替換為2D3D對(duì)應(yīng),即LGCNet-2D3D和OANet2D3D

評(píng)估GAM在視覺定位方面的有效性以及提出的視覺定位框架:數(shù)據(jù)集:Aachen Day-Night

與SOTA定位方法的比較:數(shù)據(jù)集:Cambridge Landmarks 和Aachen Day-Night


總結(jié):
提出了一種用于視覺定位的2D-3D匹配方法GAM,同時(shí)使用外觀信息和幾何上下文來提高匹配性能,在保持高精度的同時(shí)提高了2D-3D匹配的召回率,其引入了一種新的二部匹配神經(jīng)網(wǎng)絡(luò)BMNet以提取2D-3D對(duì)應(yīng)的幾何特征,并可以學(xué)習(xí)全局幾何一致性以預(yù)測(cè)每個(gè)對(duì)應(yīng)的真實(shí)匹配的可能性,還將匈牙利算法集成到BMNet中作為一個(gè)特殊的池層以端到端的方式找到最大權(quán)重匹配,使得定位能夠獲得更正確的匹配從而提高了定位的魯棒性和準(zhǔn)確性。
本文僅做學(xué)術(shù)分享,如有侵權(quán),請(qǐng)聯(lián)系刪文。
點(diǎn)擊進(jìn)入—>3D視覺工坊學(xué)習(xí)交流群
3D視覺工坊精品課程官網(wǎng):3dcver.com
1.面向自動(dòng)駕駛領(lǐng)域的3D點(diǎn)云目標(biāo)檢測(cè)全棧學(xué)習(xí)路線!(單模態(tài)+多模態(tài)/數(shù)據(jù)+代碼)
2.徹底搞透視覺三維重建:原理剖析、代碼講解、及優(yōu)化改進(jìn)
3.國(guó)內(nèi)首個(gè)面向工業(yè)級(jí)實(shí)戰(zhàn)的點(diǎn)云處理課程
4.激光-視覺-IMU-GPS融合SLAM算法梳理和代碼講解
5.徹底搞懂視覺-慣性SLAM:基于VINS-Fusion正式開課啦
6.徹底搞懂基于LOAM框架的3D激光SLAM: 源碼剖析到算法優(yōu)化
7.徹底剖析室內(nèi)、室外激光SLAM關(guān)鍵算法原理、代碼和實(shí)戰(zhàn)(cartographer+LOAM +LIO-SAM)
8.從零搭建一套結(jié)構(gòu)光3D重建系統(tǒng)[理論+源碼+實(shí)踐]
9.單目深度估計(jì)方法:算法梳理與代碼實(shí)現(xiàn)
10.自動(dòng)駕駛中的深度學(xué)習(xí)模型部署實(shí)戰(zhàn)
11.相機(jī)模型與標(biāo)定(單目+雙目+魚眼)
12.重磅!四旋翼飛行器:算法與實(shí)戰(zhàn)
13.ROS2從入門到精通:理論與實(shí)戰(zhàn)
14.國(guó)內(nèi)首個(gè)3D缺陷檢測(cè)教程:理論、源碼與實(shí)戰(zhàn)
15.基于Open3D的點(diǎn)云處理入門與實(shí)戰(zhàn)教程
16.透徹理解視覺ORB-SLAM3:理論基礎(chǔ)+代碼解析+算法改進(jìn)
17.不斷更新中......
點(diǎn)擊進(jìn)入—>粉絲交流群
重磅!粉絲學(xué)習(xí)交流群已成立
交流群主要有3D視覺、CV&深度學(xué)習(xí)、SLAM、三維重建、點(diǎn)云后處理、自動(dòng)駕駛、多傳感器融合、CV入門、三維測(cè)量、VR/AR、3D人臉識(shí)別、醫(yī)療影像、缺陷檢測(cè)、行人重識(shí)別、目標(biāo)跟蹤、視覺產(chǎn)品落地、視覺競(jìng)賽、車牌識(shí)別、硬件選型、ORB-SLAM系列源碼交流、深度估計(jì)、TOF、求職交流等方向。
添加小助理微信(dddvisiona),一定要備注:研究方向+學(xué)校/公司+昵稱,例如:”3D視覺 + 上海交大 + 靜靜“。請(qǐng)按照格式備注,可快速通過且邀請(qǐng)進(jìn)群。原創(chuàng)投稿也請(qǐng)聯(lián)系。? ??