工業(yè)應(yīng)用中基于三維模型的6D目標(biāo)檢測綜述

2022-06-18 15:12 作者:3D視覺工坊 0人讀過 | 我要投稿

文章名稱：A Survey of 6D Object Detection Based on 3D Models for Industrial Applications，J. Imaging | Free Full-Text | A Survey of 6D Object Detection Based on 3D Models for Industrial Applications (mdpi.com)

綜述

剛性物體的六維檢測是一個與工業(yè)背景下的質(zhì)量控制和機(jī)器人操作特別相關(guān)的問題。這項(xiàng)工作是對六維物體檢測技術(shù)現(xiàn)狀的調(diào)查，其中考慮到了這些用例，特別是側(cè)重于只用三維模型或其渲染物訓(xùn)練的算法。我們的第一個貢獻(xiàn)是列出了工業(yè)應(yīng)用中通常遇到的要求。第二個貢獻(xiàn)是收集了用合成數(shù)據(jù)訓(xùn)練的幾種不同的6D物體檢測方法的定量評估結(jié)果，并對其進(jìn)行了比較和分析。我們針對工業(yè)應(yīng)用對物體檢測器的個別要求確定了頂級方法，但發(fā)現(xiàn)由于缺乏可比較的數(shù)據(jù)，無法在多個方面進(jìn)行大規(guī)模比較。

作者：Yu|來源：微信公眾號「3D視覺工坊」

一、介紹

6D物體檢測的問題包括物體的檢測以及對其平移和旋轉(zhuǎn)的估計。在三維空間中，這兩個屬性都有三個自由度，因此形成了術(shù)語的6D部分。在許多情況下，解決這個問題的算法也給出了目標(biāo)物體類別的估計（在這項(xiàng)工作中，物體檢測一詞意味著物體分類）。這里用于記錄場景的最常見的傳感器是照相機(jī)。在這項(xiàng)工作中，我們著重研究解決這個問題的方法，它有兩個具體的特性。

RGBD相機(jī)（即顏色和深度）可用于為算法提供輸入；
只需要三維物體模型（CAD或重建）來設(shè)置算法（即不需要真實(shí)相機(jī)的記錄）。

具有這些特性的算法特別適合于工業(yè)應(yīng)用，特別是自動化任務(wù)。一方面，RGBD圖像在生產(chǎn)環(huán)境中很容易獲得。我們有大部分的室內(nèi)場景，照明可控，簡化了主動傳感器的使用。與RGB相機(jī)相比，較大的外形尺寸在靜態(tài)設(shè)置中通常沒有問題，而且高質(zhì)量的RGBD傳感器的價格不會對公司規(guī)模的預(yù)算造成很大影響。另一方面，工業(yè)制造的產(chǎn)品通?；谟嬎銠C(jī)輔助設(shè)計（CAD），這使得目標(biāo)物體的3D模型很容易獲得。在工業(yè)環(huán)境中，有兩個主要的用例需要對現(xiàn)實(shí)世界的物體進(jìn)行定位：機(jī)器人操縱和質(zhì)量控制，這些例子在圖1中顯示。

在這項(xiàng)工作中，我們研究了6D物體檢測在工業(yè)用例中的應(yīng)用現(xiàn)狀。我們把重點(diǎn)放在經(jīng)驗(yàn)數(shù)據(jù)上；據(jù)我們所知，我們收集了迄今為止對具有上述特性的物體檢測器的評價分?jǐn)?shù)的最全面比較。我們的核心貢獻(xiàn)有以下幾點(diǎn)。

典型的工業(yè)用例對物體檢測器的要求清單。
全面收集符合確定標(biāo)準(zhǔn)的6D物體檢測器的實(shí)驗(yàn)經(jīng)驗(yàn)數(shù)據(jù)。
關(guān)于物體檢測器FFB6D性能的經(jīng)驗(yàn)數(shù)據(jù)，該檢測器還沒有用純粹的基于模型的訓(xùn)練進(jìn)行評估。

在這項(xiàng)工作的其余部分，我們首先對相關(guān)工作進(jìn)行了概述。然后，我們通過提出6D物體檢測任務(wù)的定義來介紹我們的工作背景，通過確定典型工業(yè)應(yīng)用的要求來建立我們關(guān)注的理由，并簡要介紹了基于模型的訓(xùn)練（嚴(yán)格來說，訓(xùn)練一詞是指建立基于學(xué)習(xí)的算法。為了提高可讀性，在這項(xiàng)工作中，我們也用它來指代為非基于學(xué)習(xí)的算法生成參考數(shù)據(jù)）和為此目的的合成數(shù)據(jù)生成。然后，我們描述了我們的分析方法，包括對所研究的算法的分類和對所使用的數(shù)據(jù)集和指標(biāo)的描述。最后，對收集到的數(shù)據(jù)進(jìn)行了介紹和討論，然后是一個簡短的結(jié)論。

二、相關(guān)工作

在本節(jié)中，我們概述了與工業(yè)應(yīng)用的6D物體檢測有關(guān)的論文，首先列出該領(lǐng)域的綜述和基準(zhǔn)，然后介紹各個物體檢測器及其具體貢獻(xiàn)，最后介紹基于模型的訓(xùn)練和為物體檢測器的訓(xùn)練生成合成數(shù)據(jù)的技術(shù)現(xiàn)狀。

2.1. 綜述和基準(zhǔn)

Hoda ˇ n等人在他們的BOP挑戰(zhàn)賽2020中對6D物體檢測器進(jìn)行了大規(guī)模的基準(zhǔn)測試。他們以統(tǒng)一的格式提供了7個文獻(xiàn)中已知的數(shù)據(jù)集，并為每個數(shù)據(jù)集添加了用BlenderProc生成的合成圖像，BlenderProc是一套允許用Blender對程序生成的場景進(jìn)行基于物理的渲染的腳本（https：//www.blender.org/）。他們測試了26種不同的方法，發(fā)現(xiàn)CosyPose在他們的衡量標(biāo)準(zhǔn)下具有最佳的整體得分，以及合成訓(xùn)練的物體檢測器的最佳得分。除了他們的論文，他們還在附帶的網(wǎng)站（https://bop.felk.cvut.cz/home/）上發(fā)表了他們的評估結(jié)果，該網(wǎng)站仍在擴(kuò)展新的評估數(shù)據(jù)和新的數(shù)據(jù)集。

Sahin等人【A review on object pose recovery: From 3D bounding box detectors to full 6D pose estimators】在2020年發(fā)表了迄今為止關(guān)于6D物體檢測的最全面的評論。他們根據(jù)數(shù)學(xué)模型對各自的方法進(jìn)行了分類，比較了其經(jīng)驗(yàn)結(jié)果，并確定了不同數(shù)據(jù)集的挑戰(zhàn)。

2021年，Cong【A Comprehensive Study of 3-D Vision-Based Robot Manipulation】等人和Du【Vision-based robotic grasping from object localization, object pose estimation to grasp estimation for parallel grippers: a review】等人討論了機(jī)器人操縱的具體用例。與Sahin等人一樣，他們對不同的物體檢測器和數(shù)據(jù)集進(jìn)行了分類。他們還收集了大量的定量數(shù)據(jù)來比較各種方法。然而，與之前的綜述不同，他們考慮了抓取估計的具體指標(biāo)和數(shù)據(jù)集。

我們將上述參考文獻(xiàn)作為我們研究的起點(diǎn)，但用在撰寫本文時尚未得到的算法的評估結(jié)果來擴(kuò)展這些作品中討論的數(shù)據(jù)。我們還把數(shù)據(jù)放在一個新的背景下，把研究的重點(diǎn)放在第3.2節(jié)中定義的工業(yè)用例的要求上。

2.2. 6D物體檢測器和姿態(tài)估計器

在這里，我們列出了不同的6D姿勢估計方法，以及他們各自出版物中提出的創(chuàng)新之處。粗體關(guān)鍵詞標(biāo)志著符合本工作范圍的要求的方法，因此在我們的分析中被考慮。

2010年，Drost等人[9]提出了一種檢測點(diǎn)云（或深度圖像）中已知三維模型的物體的方法。他們依靠計算基于兩個物體點(diǎn)之間的距離和法線角度的特征，稱為點(diǎn)對特征（PPFs）。

Hinterstoisser等人（2016）通過引入更穩(wěn)健的采樣和投票方案改進(jìn)了PPFs，Vidal等人進(jìn)一步發(fā)展了這些方案。他們的方法在2018年BOP挑戰(zhàn)賽中取得了第一名[12]。

2011年，Hinterstoisser等人通過對輸入圖像的模板匹配進(jìn)行6D物體檢測，他們的方法稱為LineMOD。匹配是在描述RGB-和深度梯度的特征空間中完成的。他們通過改進(jìn)訓(xùn)練姿勢的策略和引入基于物體顏色的過濾策略來改進(jìn)其方法。Rios-Cabrera和Tuytelaars[15]將LineMOD進(jìn)一步擴(kuò)展到DTT-OPT-3D，通過SVMs的判別學(xué)習(xí)模板。2014年和2018年，Tejani等人將LineMOD特征整合到基于斑塊的回歸森林中，并將得到的算法稱為latent-class Hough forest (LCHF) [16,17]。另一個基于模板的方法是由Hodan等人[18]在2015年提出。與LineMOD不同，他們的方法是基于投票方案的。

2014年，Brachmann等人[19]提出了一種基于隨機(jī)森林的方法，預(yù)測2D-3D的對應(yīng)關(guān)系，從中使用RANSAC估計姿勢。這項(xiàng)工作在[20]中被擴(kuò)展到自動上下文隨機(jī)森林和標(biāo)記的不確定性驅(qū)動的姿勢估計。2016年，Kehl等人[21]發(fā)表了一個基于回歸和投票的方法，在RGBD圖像上使用卷積自動編碼器（CAE）。同一作者在2017年提出了一個單次拍攝姿勢（SSD）算法擴(kuò)展到SSD6D，該算法在RGB上工作。2017年，Buch等人[22]提出了一個基于子群投票和姿勢聚類的物體檢測器，它使用兩個模型的定向點(diǎn)構(gòu)成的約束。Rambach等人[23]在2018年明確解決了從合成圖像中學(xué)習(xí)物體姿勢的任務(wù)。他們試圖通過讓他們的網(wǎng)絡(luò)在邊緣過濾的圖像上操作來彌補(bǔ)領(lǐng)域的差距。

Tekin等人[24]在2018年發(fā)表了YOLO6D，其主要貢獻(xiàn)是讓CNN預(yù)測物體的3D邊界框角的投影，并使用獲得的2D-3D對應(yīng)關(guān)系來解決使用PnP算法的姿勢。2018年，Sundermeyer等人[25]提出了增強(qiáng)的自動編碼器（AAE），它建立在去噪自動編碼器的基礎(chǔ)上，并通過訓(xùn)練他們的自動編碼器使其不受差距影響的方式來解決合成到現(xiàn)實(shí)領(lǐng)域的差距。Park等人[26]發(fā)表了Pix2Pose，預(yù)測每個像素的物體的三維坐標(biāo)，并使用基于RANSAC的PnP算法重建姿勢。Zakharov等人[27]的密集姿勢物體檢測器（DPOD）以類似的方式工作，但也采用了基于RGB的細(xì)化方式。

Thalhammer等人[28]提出了SyDPose，它再次明確了只使用合成數(shù)據(jù)進(jìn)行訓(xùn)練。Li等人[29]的基于坐標(biāo)的分解姿勢網(wǎng)絡(luò)（CDPN）分別預(yù)測了翻譯和旋轉(zhuǎn)。Hagelskjar和Buch[30]的PointVoteNet，與其他大多數(shù)基于神經(jīng)網(wǎng)絡(luò)的方法不同，它從無序的點(diǎn)云中估計姿勢。Labbé等人的CosyPose[5]也支持多視角姿勢估計，并且是2020年BOP挑戰(zhàn)賽[3]的最佳表現(xiàn)者之一。Hoda ˇ n等人的EPOS[31]將物體表示為緊湊的表面片段。Su等人的SynPo-Net[32]在預(yù)測前將訓(xùn)練圖像和輸入圖像轉(zhuǎn)換為邊緣過濾的表示，以彌補(bǔ)領(lǐng)域差距。Deng等人[33]提出PoseRBPF，使用Rao-Blackwellized粒子過濾框架，分別考慮旋轉(zhuǎn)和平移。He等人[34]提出了PVN3D，這是一個依靠關(guān)鍵點(diǎn)檢測和Hough投票的網(wǎng)絡(luò)，建立在Wang等人[35]的DenseFusion特征之上。他們在2020年擴(kuò)展了這項(xiàng)工作，對RGB和深度特征進(jìn)行了雙向融合，并將所得方法稱為FFB6D[2]。Haugaard和Buch[36]的SurfEmb引入了一個對比性損失。

2.3. 基于模型的訓(xùn)練和圖像合成

在這一節(jié)中，我們介紹了在訓(xùn)練時只有目標(biāo)物體的三維模型可用時解決物體檢測任務(wù)的工作。這里的一個特殊挑戰(zhàn)是渲染（"合成"）適合訓(xùn)練基于學(xué)習(xí)的檢測器的圖像。

Rudorfer等人[37]發(fā)現(xiàn)，通過靜態(tài)背景的剛體模擬，在隨機(jī)背景上的渲染優(yōu)于現(xiàn)實(shí)背景下的渲染。2019年，Denninger等人[4]提出了BlenderProc，這是一個基于Blender的渲染管道，可以創(chuàng)建基于物理渲染（PBR）的合成圖像。他們提供了逼真的照明和不同的模式，如法線圖和深度圖像。這后來被用于2020年BOP挑戰(zhàn)賽，以提供合成訓(xùn)練圖像。Hodan等人[38]將基于物理的渲染與現(xiàn)實(shí)的光照、表面、物體放置和場景背景進(jìn)行比較，以渲染隨機(jī)照片，發(fā)現(xiàn)基于物理的渲染優(yōu)于后者的方法。這一發(fā)現(xiàn)被Hoda ˇ n等人[3]在他們的2020年BOP挑戰(zhàn)賽的背景下證實(shí)。

對于二維物體檢測問題，Hinterstoisser等人[39]表明，在適當(dāng)?shù)那闆r下，基于合成訓(xùn)練的檢測器可以勝過用真實(shí)圖像訓(xùn)練的檢測器。他們特別關(guān)注將領(lǐng)域隨機(jī)化應(yīng)用于渲染，并創(chuàng)建具有良好視點(diǎn)覆蓋的圖像。Rojtberg等人[40]利用GANs來學(xué)習(xí)真實(shí)和合成圖像之間的差異，然后基于這些網(wǎng)絡(luò)將合成圖像轉(zhuǎn)化為真實(shí)域。他們發(fā)現(xiàn)，這種策略不能達(dá)到真實(shí)圖像的性能，但與純領(lǐng)域隨機(jī)化相比，性能有所提高。Eversberg和Lambrecht [41]研究了減少真實(shí)圖像和合成圖像之間領(lǐng)域差距的不同策略的效果，只關(guān)注物體檢測。他們發(fā)現(xiàn)，基于圖像的照明，使用高動態(tài)范圍圖像和使用隨機(jī)真實(shí)圖像作為背景有利于合成訓(xùn)練；他們建議使用至少5000張圖像。Rambach等人[23]和Su等人[32]通過首先應(yīng)用各種增強(qiáng)技術(shù)，然后將合成訓(xùn)練圖像和真實(shí)輸入圖像帶入一個共同的pencil filter域來解決領(lǐng)域差距問題。他們發(fā)現(xiàn)，這種策略提高了合成訓(xùn)練的物體檢測器的準(zhǔn)確性。

三、背景

本節(jié)提供了本工作中所參考的概念的背景信息，并為我們的分析設(shè)定了范圍。具體來說，我們定義了6D物體檢測的問題，描述了工業(yè)應(yīng)用提出的要求，描述了什么是基于模型的訓(xùn)練，并概述了我們在這項(xiàng)工作中考慮到的模式。

3.1. 問題的定義：6D物體檢測

六維物體檢測包括對物體的檢測以及對其三維平移和三維旋轉(zhuǎn)的估計。我們將六維物體檢測、物體檢測和六維姿態(tài)估計的關(guān)系定義如下。

6D object detection = object detection + 6D pose estimation

即，6D物體檢測器檢測場景中的物體實(shí)例，并將其位置輸出為6D姿勢。對于一些檢測方法來說，這是一個單一的算法步驟（通常稱為單階段檢測器，例如[9,26,34]），而其他一些方法則將物體檢測和姿勢估計作為不同的步驟（兩階段或多階段檢測器，例如[42-44]）。后者通常首先采用一個物體檢測器，為圖像中發(fā)現(xiàn)的物體實(shí)例輸出二維邊界框，然后將其輸入姿勢估計器。

Hoda ˇ n等人[3]在他們工作的附錄1中區(qū)分了物體檢測和物體定位。當(dāng)檢測物體時，人們試圖找到一個未知數(shù)量的物體，而定位物體意味著我們預(yù)先知道場景中可見N個物體，我們需要找到它們的位置。在我們的具體案例中，定位一個物體意味著估計其6D姿勢。因此，在這項(xiàng)工作中，物體定位一詞是N個物體的6維姿勢估計的同義詞，根據(jù)上面給出的關(guān)系，物體定位是6維物體檢測的一個子任務(wù)。

文獻(xiàn)中物體檢測的常見用法也意味著對物體的分類。在這項(xiàng)工作中，我們假設(shè)物體的三維模型作為參考來尋找，也就是說，我們研究的是基于非常具體的幾何屬性來執(zhí)行任務(wù)的物體檢測器，這被稱為實(shí)例級檢測。這與類別級檢測形成對比，后者的目標(biāo)是檢測屬于更廣泛類別的物體，例如，"找到圖像中的所有汽車"。

與Sahin等人[6]類似，我們將6D姿勢估計正式定義為

其中，T = (r1, r2, r3, t1, t2, t3)是物體實(shí)例i的六維姿勢，I是輸入圖像，S是看到的物體實(shí)例，O是一個物體類別的參考。姿勢估計器試圖使概率函數(shù)P最大化。在實(shí)踐中，不同的姿勢估計器主要交替使用其對P的表述，例如，一些使用神經(jīng)網(wǎng)絡(luò)[27,34,45]，而另一些使用手工制作的啟發(fā)式方法來確定概率[9,14]。P的輸出也可以被解釋為檢測分?jǐn)?shù)。

一個用例是檢測還是定位任務(wù)有兩個重要的實(shí)際意義。

該算法的參數(shù)化是不同的。對于定位，我們可以接受物體檢測器產(chǎn)生的N個最佳假設(shè)，而對于檢測，我們需要為P設(shè)定一個分?jǐn)?shù)閾值，作為假設(shè)的接受標(biāo)準(zhǔn)。
評價性能所需的指標(biāo)也不同。對于定位來說，確定一個只考慮陽性檢測率的分?jǐn)?shù)就足夠了（例如，召回率）。由于檢測器最多輸出N個結(jié)果，我們知道每一個假陽性都意味著一個假陰性，例如，這里的精度總是至少和召回率一樣好。對于檢測任務(wù)來說，這不是真的，所以我們需要考慮到同時考慮到真陽性和假陽性的指標(biāo)（例如召回率和精確度）。

3.2. 工業(yè)應(yīng)用

當(dāng)應(yīng)用于工業(yè)環(huán)境中發(fā)生的問題時，物體檢測器有很大的潛力。來自質(zhì)量控制和機(jī)器人操作領(lǐng)域的特殊任務(wù)需要快速和準(zhǔn)確地檢測和估計目標(biāo)物體的姿勢。為了推斷出工業(yè)用例對物體檢測器的要求，我們確定了它們在6D物體檢測方面的機(jī)會和挑戰(zhàn)。機(jī)會是這些場景中可能簡化6D物體檢測的方面，而挑戰(zhàn)是那些使之更難的方面。機(jī)會如下：

有CAD模型，這意味著生成參考數(shù)據(jù)很便宜。
高端和RGBD相機(jī)是可用的，因?yàn)榕cRGB相機(jī)相比，較高的成本和較大的外形尺寸在大規(guī)模生產(chǎn)環(huán)境中是可以忽略不計的。
場景設(shè)置是可控的。生產(chǎn)大多發(fā)生在室內(nèi)，燈光和攝像機(jī)的位置可以很容易控制。室內(nèi)設(shè)置也允許更多可能的RGBD攝像機(jī)，因?yàn)橹鲃邮綌z像機(jī)在陽光下往往不能很好地工作。
許多自動化任務(wù)的最小要求幀率是生產(chǎn)的任務(wù)時間，通常低于互動應(yīng)用的要求幀率。

我們的結(jié)論是，將RGBD相機(jī)和3D模型結(jié)合起來作為參考，可以最佳地利用這些機(jī)會。RGBD允許比RGB有更高的魯棒性和準(zhǔn)確性，而3D模型的可用性允許生成合成圖像，這些圖像的獲取比有注釋的真實(shí)世界的記錄要簡單和便宜得多。另一方面，我們發(fā)現(xiàn)，工業(yè)應(yīng)用對6D物體檢測提出了以下具體挑戰(zhàn)。

很多工業(yè)化生產(chǎn)的物體是沒有紋理的。具體來說，處于生產(chǎn)鏈初期的工件往往是由單一材料制成的，表面平坦，沒有紋理。
很多人造物體，特別是那些幾何形狀簡單的物體，都是旋轉(zhuǎn)對稱的，或者至少在某些角度下看起來是如此。這使得它們的姿勢模糊不清，這對依靠優(yōu)化的算法來說是個難題。
機(jī)器人操作領(lǐng)域的一個常見任務(wù)是物體抓取。在這里，單個物體可能是高度遮蔽的。
此外，特別是在物體抓取任務(wù)中，我們有同一物體類別的未知數(shù)量的實(shí)例。如第3.1節(jié)所述，我們把這項(xiàng)任務(wù)稱為物體檢測，與物體定位相反，在物體定位中，要檢測的物體數(shù)量是預(yù)先知道的。當(dāng)試圖檢測未知數(shù)量的實(shí)例時，假陽性可能是一個主要問題。
在參考數(shù)據(jù)中物體的顏色往往是不明確的。CAD模型通常存儲一個物體的幾何和動力學(xué)屬性，但不存儲其表面屬性，定義顏色和反射行為。
有些物體的表面特性難以識別，阻礙了基于光學(xué)記錄的幾何特性的識別，即由高鏡面反射的材料制成的物體，如金屬，或由半透明或透明材料制成的物體，如玻璃。

在這里，RGBD也可以緩解這些挑戰(zhàn)帶來的問題。當(dāng)目標(biāo)物體上沒有可辨別的紋理或參考中沒有顏色信息時，在深度通道中編碼的幾何信息可以補(bǔ)充顏色信息并導(dǎo)致更好的精度。特別是在以大量對象實(shí)例為目標(biāo)的用例中，通過生成帶注釋的合成場景、顯示成堆的對象可以獲得很多好處，因?yàn)槭謩幼⑨寣@些對象來說幾乎是不可行的。

當(dāng)然，不一定所有這些特性都適用于每個工業(yè)用例。然而，根據(jù)我們的經(jīng)驗(yàn)，我們發(fā)現(xiàn)這些特性在生產(chǎn)環(huán)境中是典型的，所以它們設(shè)定了這項(xiàng)工作的范圍。在剩下的部分，我們將分析好的已發(fā)表的物體檢測器是否以及如何滿足所提出的機(jī)會和挑戰(zhàn)所帶來的要求

3.3. 基于模型的培訓(xùn)

在本節(jié)中，我們給出了什么是基于模型的訓(xùn)練的定義，并概述了如何生成合成圖像。對于只考慮目標(biāo)物體的幾何屬性的物體檢測器，基于模型的訓(xùn)練是直接的。這種算法可以通過在潛在空間中生成特征，直接用參考模型進(jìn)行訓(xùn)練，例如，PPF就屬于這種類型。

訓(xùn)練對象檢測器的工作是在表面屬性和模型幾何形狀的投影上進(jìn)行的（即在圖像上），這涉及到更多。這對基于學(xué)習(xí)的算法來說尤其如此，一般來說，訓(xùn)練時可用的數(shù)據(jù)與推理時的輸入數(shù)據(jù)越相似，其效果就越好。

生成 "真實(shí)的圖像"，即用于估計的目標(biāo)物體的記錄，并用地面真實(shí)姿勢來注釋它們，是一個非常復(fù)雜和昂貴的過程。如果用例要求在許多不同的角度、光照條件下或從不同的物體上拍攝訓(xùn)練圖像，這一點(diǎn)尤其嚴(yán)重。

另一方面，由模擬記錄組成的合成圖像很方便，可以很容易地生成大量不同模擬條件下的圖像。要做到這一點(diǎn)，必須要有目標(biāo)物體的三維模型，在工業(yè)生產(chǎn)環(huán)境中就是這樣，因?yàn)榇蠖鄶?shù)產(chǎn)品在制造之前通常都有模型。從這些模型中，人們可以推導(dǎo)出渲染的圖像，同時考慮到記錄過程的屬性。我們發(fā)現(xiàn)利用現(xiàn)實(shí)世界的模型來訓(xùn)練物體檢測器的策略有以下幾種：

三維模型：在這里，我們直接從三維模型中包含的信息，即模型的頂點(diǎn)和法線，推導(dǎo)出潛在空間的特征，例如，PPF在訓(xùn)練時只需要一個物體的三維模型。

增強(qiáng)的真實(shí)圖像：在這個策略中，真實(shí)圖像被增強(qiáng)以產(chǎn)生更多種類的訓(xùn)練圖像。這可以通過模擬不同的記錄條件來實(shí)現(xiàn)，例如，改變圖像的大小或長寬比，其亮度或清晰度，或添加噪音。一個更復(fù)雜的圖像增強(qiáng)模式是 "渲染和粘貼 "策略，在這個策略中，一個物體從它的原始場景中被裁剪出來，粘貼到不同的背景上以模擬不同的背景，或者被另一個裁剪所覆蓋以模擬遮擋情況。

渲染：渲染是模擬整個圖像記錄管道的過程，從而從三維模型生成二維圖像。在這種模擬的實(shí)現(xiàn)方式和所產(chǎn)生的輸出的真實(shí)性方面有很大的差異。渲染圖像的最簡單、最快速的方法是使用基于光柵化的渲染器，如OpenGL。這種類型的渲染器通常會產(chǎn)生可信的，但不一定是物理上準(zhǔn)確的渲染，以實(shí)現(xiàn)實(shí)時性能。一種更好的生成真實(shí)圖像的模式被稱為基于物理的渲染（PBR），這不是一個嚴(yán)格定義的術(shù)語，但通常需要比常用的Blinn-Phong模型[46]更真實(shí)地模擬光線和表面的行為，例如，通過采用光線追蹤。

在這項(xiàng)工作中，基于模型的訓(xùn)練物體檢測器這一術(shù)語指的是僅在三維模型或其渲染（合成圖像）上訓(xùn)練的算法，即這些算法的訓(xùn)練不包括記錄物理目標(biāo)物體。然而，請注意，我們并不排除使用涉及通用真實(shí)世界圖像作為背景、紋理或干擾物的訓(xùn)練圖像的算法，因?yàn)檫@些圖像可以很容易地從二維圖像數(shù)據(jù)集中獲得，例如ImageNet（https://www.image-net.org/）。

我們沒有調(diào)查用于訓(xùn)練這里所提到的方法的每個訓(xùn)練集的性質(zhì)。這意味著，如果在用更先進(jìn)的合成圖像生成策略生成的圖像上進(jìn)行訓(xùn)練，一些方法的表現(xiàn)很可能會好得多。因此，所提出的數(shù)值應(yīng)該被看作是每個算法性能的經(jīng)驗(yàn)證明的下限。

3.4. 模態(tài)

如第3.2節(jié)所述，我們假設(shè)在工業(yè)使用案例中可以使用RGBD相機(jī)，并包括將RGBD圖像作為輸入的6D物體檢測器。對于潛在的用戶來說，一種方法的精度和它使用的模態(tài)更加相關(guān)，RGBD比RGB方法精度更高，只要它與可用的硬件兼容。由于基于RGB的檢測器與RGBD圖像完全兼容，我們的調(diào)查中也包括前者。請注意，通過采用基于幾何的細(xì)化算法，如ICP [47]，基于RGB的檢測可以很容易地用深度信息進(jìn)行細(xì)化。

有兩種模式可以很好地滿足第3.1節(jié)中定義的工業(yè)用例的要求，但在這項(xiàng)工作中沒有明確考慮它們：多視角圖像和點(diǎn)云。我們發(fā)現(xiàn)，使用這些模式作為輸入的算法很難符合這項(xiàng)工作的范圍，原因如下：

除了CosyPose[5]，我們沒有找到任何符合我們用例所給范圍的多視圖方法。
基于點(diǎn)云的物體檢測器在自動駕駛領(lǐng)域非常流行。因此，它們通常在為這一用例量身定做的數(shù)據(jù)集和指標(biāo)上進(jìn)行評估（例如，KITTI數(shù)據(jù)集），而文獻(xiàn)中發(fā)現(xiàn)的評估分?jǐn)?shù)不能與大多數(shù)基于RGBD的物體檢測器相提并論。

然而，我們也發(fā)現(xiàn)，這些模式有可能有利于工業(yè)使用案例，特別是在這些方面：

多視角圖像以及點(diǎn)云通常比單視角圖像覆蓋更大的場景部分。因此，它們可以減輕由于遮擋、姿勢不明確和鏡面反射造成的問題。
點(diǎn)云主要是場景的幾何表示，因此，基于幾何三維模型的物體檢測可能需要較少的訓(xùn)練數(shù)據(jù)預(yù)處理，因?yàn)檩斎牒陀?xùn)練數(shù)據(jù)已經(jīng)處于同一領(lǐng)域。特別是，可以跳過合成圖像的相關(guān)生成。

由于這些原因，我們決定將對基于這些模式的物體檢測器的評估推遲到未來的工作中；特別是，我們計劃用通常用于基于RGBD的檢測器的指標(biāo)和數(shù)據(jù)集來評估其性能。

四、材料和方法

4.1. 方法

在本節(jié)中，我們將對我們所研究和比較的6D物體檢測方法進(jìn)行分類。由于這項(xiàng)工作的范圍是特定于使用情況的，我們重點(diǎn)關(guān)注對方法的使用進(jìn)行約束的方法屬性，以及作為實(shí)施細(xì)節(jié)使用的CNN類型等方面。在下文中，我們將描述我們發(fā)現(xiàn)的與應(yīng)用場景相關(guān)的方法屬性，以及它們能以何種方式約束潛在的使用。這些屬性描述應(yīng)該被看作是一套一般準(zhǔn)則，而不是嚴(yán)格的規(guī)則，例如，盡管基于深度的檢測器往往比基于RGB的檢測器能提供更好的相機(jī)與物體的距離估計，但這不一定在所有情況下都是真的。表1顯示了我們對算法的分類。

Modality模態(tài)：描述了一個方法在訓(xùn)練時和運(yùn)行時接受哪種類型的輸入?；赗GB的方法在估計物體與攝像機(jī)的距離時，往往有較大的誤差。基于深度的方法只基于幾何學(xué)，所以它們不能使用物體上可見的顏色線索或紋理?；赗GBD的方法可以利用兩者的優(yōu)點(diǎn)。我們只考慮核心方法使用的模式，即沒有可選的細(xì)化步驟。當(dāng)然，每一個基于RGB的檢測器都可以擴(kuò)展為RGBD，例如，用ICP[47]對結(jié)果進(jìn)行后處理，每一個基于深度的檢測器都可以通過采用某種基于二維邊緣的姿勢細(xì)化擴(kuò)展為RGBD。

Features特征：說明一個方法是使用學(xué)習(xí)的還是手工制作的特征進(jìn)行物體檢測，也就是說，該算法是數(shù)據(jù)驅(qū)動還是模型驅(qū)動。顧名思義，數(shù)據(jù)驅(qū)動的方法往往需要大量的訓(xùn)練數(shù)據(jù)：在我們的例子中是合成圖像。這些數(shù)據(jù)的生成和隨后的訓(xùn)練在計算上要求很高，在某些情況下需要幾天的時間才能完成全部設(shè)置。手工制作的特征通常不需要那么多的數(shù)據(jù)，而且訓(xùn)練數(shù)據(jù)到特征的轉(zhuǎn)換是直接的，因?yàn)椴恍枰M(jìn)行權(quán)重優(yōu)化。然而，后者往往有更多的參數(shù)需要進(jìn)行微調(diào)以獲得最佳結(jié)果。

Scope尺度：描述了物體檢測步驟中的特征是代表整個目標(biāo)物體（如 "模板"）還是單個興趣點(diǎn)（如單個像素或圖像補(bǔ)?。?。代表整個物體的全局特征，在檢測一個物體類別的多個實(shí)例時，通常更加穩(wěn)健，這些實(shí)例彼此接近或甚至相互遮擋。局部特征往往對一般的遮擋或困難的光照條件更加穩(wěn)健。

Output輸出：給出了輸出姿勢所處的空間類型?；诨貧w的方法預(yù)測的是連續(xù)的結(jié)果，也就是說，他們估計的姿勢在理論上是無限精確的。基于分類的方法預(yù)測的是離散的結(jié)果，也就是說，它們的輸出是先前學(xué)到的有限數(shù)量的類別之一。離散的估計結(jié)果是否足夠好，取決于用例的要求，以及是否有足夠的計算資源來執(zhí)行細(xì)化步驟。

這項(xiàng)工作中提到的所有方法都是通過基于模型的訓(xùn)練來測試的。請注意，不同的方法生成合成數(shù)據(jù)的模式不同，也就是說，可能存在更好的分?jǐn)?shù)，因此，所提出的分?jǐn)?shù)只是下限值。

對個別方法的評論

基于學(xué)習(xí)的方法FFB6D[2]是由我們自己在合成圖像上訓(xùn)練的。為了訓(xùn)練FFB6D，我們使用了BlenderProc[4]為BOP挑戰(zhàn)賽2020[3]生成的合成圖像，將場景2作為驗(yàn)證集。我們停用了所有的數(shù)據(jù)增強(qiáng)功能，并按照渲染圖的原樣進(jìn)行訓(xùn)練。訓(xùn)練運(yùn)行了366,000次迭代，批次大小為3。
PoseRBPF[33]是一種跟蹤方法，而不是一種物體檢測方法。然而，該算法實(shí)際上可以用于物體檢測（在相應(yīng)的論文中被稱為初始化），而且姿勢估計的準(zhǔn)確性在連續(xù)的幀中得到了改善。出于這個原因，我們在這項(xiàng)工作中考慮了它，盡管它不完全符合所需的特征。
PointVoteNet[30]支持全局和局部特征，因?yàn)樗腔赒i等人的PointNet[50]，它將目標(biāo)對象表示為全局和局部特征的級聯(lián)。
基于深度的方法PointVoteNet[30]、PoseCluster[22]和所有PPF變體[9-11]都可以只用點(diǎn)云來訓(xùn)練，即這里不需要圖像合成。

4.2. 數(shù)據(jù)集

在這項(xiàng)工作中，我們把重點(diǎn)放在數(shù)據(jù)集上，一方面，這些數(shù)據(jù)集提出的挑戰(zhàn)與第3.2節(jié)所述的要求相符，而且文獻(xiàn)中也有大量的定量數(shù)據(jù)。對于這項(xiàng)工作中使用的所有數(shù)據(jù)集，都有RGBD圖像，并有地面真實(shí)姿勢和所描述物體的3D模型的注釋。此外，合成的RGBD訓(xùn)練圖像通過BOP提供（見https://bop.felk.cvut.cz/home/）。數(shù)據(jù)集的樣本圖像可以在圖2中看到。這些都被視為這項(xiàng)工作的一部分。

LineMOD（LM）[14]：LM數(shù)據(jù)集由Hinterstoisser等人首次提出，用于評估他們的同名算法，提供了15個場景。在每個場景中，15個不同的物體中的1個被標(biāo)注在辦公環(huán)境中，并放置在一個有嚴(yán)重雜亂的桌面上。

LineMOD occluded（LMO）[19]：該數(shù)據(jù)集包括原始LineMOD數(shù)據(jù)集中的第2個場景，但在單幀中帶有不同類別的多個物體的地面真實(shí)注釋。除了背景雜波外，這也帶來了物體間大量遮擋的挑戰(zhàn)

T-LESS[51]：T-LESS數(shù)據(jù)集包括20個場景，有30個不同物體類別的注釋。所描述的物體都是典型的工業(yè)制造的物體，由無紋理的白色塑料制成，其中許多是旋轉(zhuǎn)對稱的。這些物體都被放置在一個黑色的背景上，所以沒有什么背景雜波。所有場景都顯示了不同位置的物體的不同組合，一個場景中有多個物體的實(shí)例，物體之間相互遮擋。

對于其他通常用于評估6D物體檢測的數(shù)據(jù)集的全面概述，我們建議閱讀Hodan. 等人的出版物[3]。他們的工作不僅給出了數(shù)據(jù)集的細(xì)節(jié)和它們所帶來的具體挑戰(zhàn)，而且作者還將12個廣泛使用的數(shù)據(jù)集放在一個共同的格式中，并為其中大多數(shù)提供了使用BlenderProc[4]生成的合成訓(xùn)練圖像。

4.3. 評估指標(biāo)

對物體檢測器的評估通常是將其視為二進(jìn)制分類器。因此，用于評估物體檢測器性能的指標(biāo)是分兩個階段計算的：

1.檢測到的實(shí)例和地面真實(shí)注釋的距離用一個幾何指標(biāo)來計算?；谝粋€特定的度量閾值，每個檢測到的實(shí)例和地面真實(shí)注釋都被分為真陽性（TP）、假陽性（FP）和假陰性（FN）之一。

2.TPs、FPs和FNs的數(shù)量根據(jù)二元分類器的評價指標(biāo)進(jìn)行匯總，然后給出最終評價分?jǐn)?shù)

在文獻(xiàn)中，有幾個常用的指標(biāo)來確定物體檢測器的性能。我們只詳細(xì)描述與本工作有關(guān)的指標(biāo)。如果一個指標(biāo)能夠?qū)Ψ瞎I(yè)使用情況的多個物體檢測器進(jìn)行比較，則被認(rèn)為是相關(guān)的。我們注意到，大部分考慮基于模型的訓(xùn)練的出版物都使用了下面介紹的指標(biāo)之一。關(guān)于這些指標(biāo)在文獻(xiàn)中的分布概況，請參考表2。

以下是文獻(xiàn)中最常使用的幾何指標(biāo)，用于評估僅在三維模型上訓(xùn)練的6維物體檢測器的性能：

平均距離（對稱）（ADD(S)）[14]：這個指標(biāo)測量物體模型用兩個不同姿勢變換后的三維點(diǎn)的平均距離。ADD-S（也是ADI）是一個變體，它考慮到旋轉(zhuǎn)對稱的物體可以有多個有效的姿態(tài)估計。ADD(S)用于表示對稱變體ADD-S用于具有旋轉(zhuǎn)對稱性的物體，ADD用于非對稱性物體。將一個估計值歸類為正確的最常用的閾值是t = 0.1 - d，其中d是目標(biāo)物體的直徑。有些出版物使用t = 0.15，在相應(yīng)的位置上都有標(biāo)注。

視覺表面差異（VSD）[52]：顧名思義，這個指標(biāo)衡量的是一個物體用兩個不同的姿勢變換后相對于相機(jī)的可見表面的差異，也就是說，如果一個物體用兩個姿勢變換后看起來完全一樣，VSD就是0。特別是，這比ADD(S)更直觀地處理旋轉(zhuǎn)對稱性。這個指標(biāo)有兩個閾值參數(shù)，決定一個姿勢是否被認(rèn)為是正確的：

τ是重疊像素的相機(jī)距離的最大允許差異；θ是根據(jù)τ條件需要認(rèn)為正確的物體像素的最小允許百分比，以使整個假設(shè)被認(rèn)為是正確的。一個廣泛使用的閾值組合是τ = 20 mm和θ = 0.3。BOP挑戰(zhàn)賽2020[3]采用了一種不同的方法，在[0.05-d, 0.5-d]區(qū)間內(nèi)以0.05-d為單位增加τ，在[0.05, 0.5]區(qū)間內(nèi)以0.05為單位增加θ。然后他們確定每一對τ-θ的得分，并取其平均值作為總分。我們把這種配置稱為VSDBOP。

對于評估作為二進(jìn)制分類器的物體檢測器，我們發(fā)現(xiàn)，對于符合我們要求的方法，最廣泛使用的指標(biāo)是召回率和F1分?jǐn)?shù)，后者是召回率和精確度的諧波平均值。它們的計算方式如下：

召回適用于評估物體定位任務(wù)，如第3.1節(jié)所定義的。在這種情況下，我們知道場景中有N個物體實(shí)例，而我們最多有N個結(jié)果假設(shè)。由此可見，F(xiàn)Ps≤FNs，召回率≤精度。這使得計算精度對這個任務(wù)來說是多余的。對于物體檢測來說，要找到的物體的數(shù)量是未知的，所以這里需要F1分?jǐn)?shù)，因?yàn)樗紤]到了真陽性和假陽性。

我們沒有考慮的幾何指標(biāo)，由于它們基于上述條件不相關(guān)，但可以在文獻(xiàn)中找到，包括二維投影誤差、聯(lián)合體上的交叉（IoU）、平移和角度誤差、最大對稱性感知表面距離（MSSD）、最大對稱性感知投影距離（MSPD）和平均方向相似度（AOS）。我們沒有考慮的二元分類指標(biāo)包括平均精度（AP）、平均平均精度（mAP）和曲線下面積（AUC）。關(guān)于這些指標(biāo)的更多信息見Hoda ˇ n等人[3]或Sahin等人[6]。

五、評估

物體檢測器的基準(zhǔn)由三個主要方面定義：使用的數(shù)據(jù)集、使用的評估基準(zhǔn)和用于將檢測結(jié)果分類為成功或失敗的閾值（公差）。在搜索符合我們提出的要求的物體檢測器的性能的定量數(shù)據(jù)時，我們發(fā)現(xiàn)了表2中所列的數(shù)據(jù)集-度量組合的數(shù)據(jù)。

盡管我們在這項(xiàng)工作中著重于物體檢測任務(wù)，但我們也檢查了物體定位基準(zhǔn)的結(jié)果。一方面，在一些工業(yè)用例中，物體定位已經(jīng)足夠，另一方面，如第3.1節(jié)所述，物體定位可以被看作是6D物體檢測的一個子任務(wù)。

請注意，我們發(fā)現(xiàn)的經(jīng)驗(yàn)數(shù)據(jù)并沒有解決第3.2節(jié)中提出的兩個挑戰(zhàn)：未知物體顏色和困難的表面。對于基于學(xué)習(xí)的方法來說，用于訓(xùn)練的合成圖像的屬性對物體顏色變化的魯棒性起著重要作用，特別是渲染是用已知的顏色還是用一些隨機(jī)化策略生成的。我們無法收集到關(guān)于本文介紹的所有算法的訓(xùn)練數(shù)據(jù)生成模式的足夠信息，因此關(guān)于這方面的性能仍然沒有結(jié)論。反光或半透明物體也是如此，這對所有的計算機(jī)視覺任務(wù)來說都是一個非常具有挑戰(zhàn)性的案例，而且據(jù)我們所知，目前還沒有關(guān)于6D物體檢測的注釋數(shù)據(jù)集。

5.1. 討論

在下文中，我們介紹了我們?yōu)閹讉€物體檢測器發(fā)現(xiàn)的經(jīng)驗(yàn)評估結(jié)果。我們首先總結(jié)了我們在基準(zhǔn)分?jǐn)?shù)方面的發(fā)現(xiàn)，同樣關(guān)注第3.2節(jié)中定義的要求，然后我們看看不同方法的運(yùn)行時間，最后向后退一步，描述我們對文獻(xiàn)中經(jīng)驗(yàn)數(shù)據(jù)的可用性和可比性的發(fā)現(xiàn)。

5.1.1. 方法得分

表3中報告了我們在純粹基于模型的數(shù)據(jù)上訓(xùn)練出來的物體檢測器的定量評估結(jié)果。從這些數(shù)字中，我們可以得出以下結(jié)論，關(guān)于第3.2節(jié)中提出的要求。

物體定位：對于LM-ADD(S)、LM-VSD、LM-VSDBOP、TLESS-VSD和TLESSVSDBOP，以下各自的方法表現(xiàn)最好。LCHFs [17], Vidal等人的PPFs [11], SurfEmb [36], PoseRBPF [33]和SurfEmb [36]。LMOVSDBOP允許對PFFs和SurfEmb進(jìn)行直接比較，由此我們可以認(rèn)為后者是總體上更好的方法。我們無法比較其他排名靠前的選手，因?yàn)樗麄儧]有在相同的度量-數(shù)據(jù)集組合上進(jìn)行評估，所以最佳的整體物體定位器仍然沒有結(jié)論。

物體檢測：對于LMO-ADD(S)-F1，LCHFs[17]表現(xiàn)最好。由于它們在LM-ADD(S)的物體定位方面也表現(xiàn)非常好，我們得出結(jié)論，這種方法可以勝過許多其他的物體檢測器，盡管有一些保留。

遮擋：LMO-VSDBOP排名以SurfEmb[36]為首，其次是PointVoteNet[30]和HybridPose[42]，還有一些距離。

工件檢測（無紋理，旋轉(zhuǎn)對稱）：在TLESS-VSD上排名靠前的是帶SDF的PoseRBPF，其次是沒有細(xì)化的同一方法[33]，帶ICP的AAE細(xì)化[43]以較大的優(yōu)勢排名第三。對于TLESS-VSDBOP，SurfEmb[36]再次以較大的優(yōu)勢排名第一，其次是HybridPose[42]和CosyPose[5]。

當(dāng)RGBD圖像和只有基于模型的訓(xùn)練數(shù)據(jù)可用時，哪個是總體上最好的6D姿勢估計器？從定量數(shù)據(jù)中，我們發(fā)現(xiàn)我們無法回答這個問題。大多數(shù)表現(xiàn)最好的方法是在不同的數(shù)據(jù)集-指標(biāo)組合上評估的，因此不能根據(jù)現(xiàn)有的數(shù)據(jù)進(jìn)行比較。特別是大多數(shù)有前途的方法，LCHF[17]、Vidal等人的PPF[11]、SurfEmb[36]和PoseRBPF[33]，不能直接相互比較。

值得注意的是，在某些情況下，手工制作的特征仍然可以與基于學(xué)習(xí)的方法抗衡。特別是對于LM-ADD(S)，十年前的LineMOD算法[14]和Rios-Cabrera[15]的變體幾乎達(dá)到了LCHFs[17]的性能，并且超過了很多其他的新方法（例如SSD6D[44]、SynPo-Net[32]和AAEs[43]）。對于LM-VSD，Vidal等人[11]的基于PPF的方法仍然優(yōu)于所有其他方法，而對于TLESS-VSD，它取得了第二名。然而，在這個排名中的良好表現(xiàn)需要被置于一些保留意見之下：

文獻(xiàn)中的很多新方法都是在真實(shí)數(shù)據(jù)或真實(shí)數(shù)據(jù)與合成數(shù)據(jù)的結(jié)合上進(jìn)行訓(xùn)練的，對于很多普遍看好的方法，目前還沒有或很少有純粹基于模型訓(xùn)練的性能的經(jīng)驗(yàn)數(shù)據(jù)；即使有數(shù)據(jù)，也沒有可比性。
與基于學(xué)習(xí)的方法相比，LineMOD和PPF都有缺點(diǎn)，這些缺點(diǎn)沒有反映在分?jǐn)?shù)上，比如需要手動優(yōu)化參數(shù)（兩者都是），對遮擋的脆弱性（LineMOD）和緩慢的運(yùn)行時間（PPF）。
LineMOD和PPF對LM-F1的表現(xiàn)都很一般，而在產(chǎn)生高召回率方面卻很好。我們認(rèn)為這是因?yàn)檫@兩種方法都不是鑒別性的（即它們沒有明確地 "知道 "要排除什么），因此往往比基于學(xué)習(xí)的方法有較低的精度。

5.1.2. 運(yùn)行時間

在表4中，我們列出了被評估的方法的運(yùn)行時間，如果它們可用的話。表現(xiàn)最好的兩個方法和唯一達(dá)到交互式實(shí)時應(yīng)用的幀率的方法是基于神經(jīng)網(wǎng)絡(luò)的方法，這些方法在RGB圖像上工作，沒有任何細(xì)化[24,32]，這并不奇怪。最快的基于RGBD的方法是LineMOD-variant DTT-OPT-3D[15]。這些數(shù)字表明，ICP-細(xì)化是一個昂貴的操作。依靠ICP的方法通常表現(xiàn)較差，更具體地說，當(dāng)我們比較AAE時，我們可以看到0.6秒的差異，有和沒有細(xì)化。最慢的方法是那些基于PPF的方法。值得注意的是，SurfEmb，在閉塞和工件檢測方面表現(xiàn)最好的方法，每幀需要大約9秒，這對于許多用例來說是不可接受的。

5.1.3. 經(jīng)驗(yàn)數(shù)據(jù)的可用性和可比性

在表2中，我們列出了每個數(shù)據(jù)集-指標(biāo)組合所擁有的數(shù)據(jù)量。我們觀察到文獻(xiàn)中對基于召回的指標(biāo)的關(guān)注?；谡倩氐闹笜?biāo)共有70行數(shù)據(jù)，而同時考慮精度的F1分?jǐn)?shù)只有7行，也就是說，許多出版物只評估他們的算法關(guān)于物體定位的性能，而忽略了假陽性，這在物體檢測場景中可能是一個重要的問題。

許多方法由于在不同的數(shù)據(jù)集或度量標(biāo)準(zhǔn)上被評估而不能被比較。我們認(rèn)為這其中的一個主要原因是處理多個數(shù)據(jù)集或?qū)崿F(xiàn)不同指標(biāo)所需的努力。最好能有一個基準(zhǔn)框架，對數(shù)據(jù)集和姿勢估計結(jié)果有一個明確的接口，支持多種指標(biāo)，并允許簡單的擴(kuò)展。這個框架應(yīng)該有一個在線數(shù)據(jù)庫，可以方便地收集和分析關(guān)于物體探測性能的經(jīng)驗(yàn)數(shù)據(jù)。BOP是朝著這個方向邁出的一大步，特別是在數(shù)據(jù)集的標(biāo)準(zhǔn)化方面。然而，這里實(shí)現(xiàn)的評估指標(biāo)在發(fā)表時是新的，所以它們與舊的結(jié)果沒有可比性。

此外，BOP挑戰(zhàn)在他們的基準(zhǔn)中沒有考慮精度。在[3]的附錄A.1中，作者討論了他們關(guān)于在基準(zhǔn)中排除精度的決定，并得出結(jié)論，為了他們的基準(zhǔn)，基于召回的分?jǐn)?shù)是合適的，原因有二。首先，這些分?jǐn)?shù)在寫作時還沒有飽和，其次，對于評估框架來說，只有關(guān)于召回的計算復(fù)雜性較低。我們認(rèn)為，對于針對研究界的基準(zhǔn)來說，這些論點(diǎn)是有效的，但我們認(rèn)為，對于物體檢測器的潛在應(yīng)用，需要更多的信息，以便在考慮特定用例的要求時確定其適用性。

六、總結(jié)和展望

在這項(xiàng)工作中，我們調(diào)查了6D物體檢測的技術(shù)狀況，重點(diǎn)是工業(yè)應(yīng)用，我們認(rèn)為基于模型的訓(xùn)練和對RGBD圖像的支持特別重要。我們介紹了從文獻(xiàn)中收集的關(guān)于物體檢測器的定性和定量信息以及物體檢測器FFB6D的新數(shù)據(jù)[2]。我們討論了這些數(shù)據(jù)，并確定了應(yīng)對工業(yè)應(yīng)用的具體挑戰(zhàn)的有希望的候選者。

此外，我們還看了一下數(shù)據(jù)的可用性，這些數(shù)據(jù)提供了關(guān)于算法對我們所分析的用例的適用性的信息。我們發(fā)現(xiàn)，對于許多方法來說，文獻(xiàn)中沒有足夠的經(jīng)驗(yàn)數(shù)據(jù)來確定它們在應(yīng)對特定挑戰(zhàn)方面的適合程度，或者將它們與競爭方法進(jìn)行比較。特別是，文獻(xiàn)中的許多方法只在真實(shí)數(shù)據(jù)上進(jìn)行了測試，而且許多方法只在基于召回的指標(biāo)上進(jìn)行了評估。

基于這些發(fā)現(xiàn)，我們認(rèn)為以下未來的研究課題將有利于6D物體檢測在工業(yè)背景下的應(yīng)用：

用基于模型的數(shù)據(jù)訓(xùn)練已有的和有前途的物體檢測器，并對其進(jìn)行評估。
用考慮到精度的指標(biāo)來評估已建立的和有前途的物體檢測器。
將基于點(diǎn)云和多視角圖像的方法考慮在內(nèi)。
通過提供工具和框架，使研究人員能夠產(chǎn)生有意義的和可比較的數(shù)據(jù)，這些工具和框架提供統(tǒng)一的格式和界面，以便在眾多不同的數(shù)據(jù)集和指標(biāo)上評估物體檢測器。此外，提供一個在線數(shù)據(jù)庫，以簡化評估結(jié)果的收集、分類和分析。我們認(rèn)為BOP是這個方向的一個良好開端，但是為了成為一個評估物體檢測的通用框架，它應(yīng)該用更多的指標(biāo)和更簡單的接口進(jìn)行擴(kuò)展。

本文僅做學(xué)術(shù)分享，如有侵權(quán)，請聯(lián)系刪文。

3D視覺工坊精品課程官網(wǎng)：3dcver.com1.面向自動駕駛領(lǐng)域的多傳感器數(shù)據(jù)融合技術(shù)2.面向自動駕駛領(lǐng)域的3D點(diǎn)云目標(biāo)檢測全棧學(xué)習(xí)路線！(單模態(tài)+多模態(tài)/數(shù)據(jù)+代碼)3.徹底搞透視覺三維重建：原理剖析、代碼講解、及優(yōu)化改進(jìn)4.國內(nèi)首個面向工業(yè)級實(shí)戰(zhàn)的點(diǎn)云處理課程5.激光-視覺-IMU-GPS融合SLAM算法梳理和代碼講解6.徹底搞懂視覺-慣性SLAM：基于VINS-Fusion正式開課啦7.徹底搞懂基于LOAM框架的3D激光SLAM: 源碼剖析到算法優(yōu)化8.徹底剖析室內(nèi)、室外激光SLAM關(guān)鍵算法原理、代碼和實(shí)戰(zhàn)(cartographer+LOAM +LIO-SAM)9.從零搭建一套結(jié)構(gòu)光3D重建系統(tǒng)[理論+源碼+實(shí)踐]10.單目深度估計方法：算法梳理與代碼實(shí)現(xiàn)11.自動駕駛中的深度學(xué)習(xí)模型部署實(shí)戰(zhàn)12.相機(jī)模型與標(biāo)定(單目+雙目+魚眼）13.重磅！四旋翼飛行器：算法與實(shí)戰(zhàn)14.ROS2從入門到精通：理論與實(shí)戰(zhàn)15.國內(nèi)首個3D缺陷檢測教程：理論、源碼與實(shí)戰(zhàn)

更多干貨

歡迎加入【3D視覺工坊】交流群，方向涉及3D視覺、計算機(jī)視覺、深度學(xué)習(xí)、vSLAM、激光SLAM、立體視覺、自動駕駛、點(diǎn)云處理、三維重建、多視圖幾何、結(jié)構(gòu)光、多傳感器融合、VR/AR、學(xué)術(shù)交流、求職交流等。工坊致力于干貨輸出，為3D領(lǐng)域貢獻(xiàn)自己的力量！歡迎大家一起交流成長~

添加小助手微信：dddvision，備注學(xué)校/公司+姓名+研究方向即可加入工坊一起學(xué)習(xí)進(jìn)步。

標(biāo)簽：

国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水