161篇文獻(xiàn)回顧:AR遮擋技術(shù)的過(guò)去,現(xiàn)在和未來(lái)
查看引用/信息源請(qǐng)點(diǎn)擊:映維網(wǎng)Nweon
主要回顧了1992年1月至2020年8月期間就AR應(yīng)用遮擋處理發(fā)表的161篇論文
(映維網(wǎng)Nweon?2023年01月18日)AR增強(qiáng)現(xiàn)實(shí)主要是通過(guò)在視圖疊加額外的數(shù)字虛擬內(nèi)容來(lái)增強(qiáng)現(xiàn)實(shí)世界。但這個(gè)過(guò)程十分具有挑戰(zhàn)性,例如你必須執(zhí)行對(duì)真實(shí)世界的精確追蹤,以便將虛擬數(shù)據(jù)配準(zhǔn)到增強(qiáng)場(chǎng)景之中。又如,你必須解決相互遮擋問(wèn)題以確定真實(shí)內(nèi)容是否位于虛擬內(nèi)容前面的區(qū)域,或反之亦然,從而相應(yīng)地呈現(xiàn)虛擬內(nèi)容。
實(shí)際上,遮擋處理是AR中一個(gè)長(zhǎng)期存在的問(wèn)題,近30年來(lái)一直是社區(qū)關(guān)注的一個(gè)活躍課題。在名為《Occlusion Handling in Augmented Reality: Past, Present and Future》的論文中,巴西巴伊亞聯(lián)邦大學(xué)的團(tuán)隊(duì)探究了AR遮擋處理的過(guò)去,現(xiàn)在和未來(lái)。
他們對(duì)161篇文獻(xiàn)的回顧發(fā)現(xiàn),研究人員和開發(fā)人員主要希望解決遮擋問(wèn)題的三個(gè)不同方面,而它們可能是必須項(xiàng)的或可選項(xiàng):

(必需)順序問(wèn)題,亦即確定真實(shí)數(shù)據(jù)和虛擬數(shù)據(jù)之間的深度順序;
(可選)X射線視覺問(wèn)題,允許對(duì)表示真實(shí)場(chǎng)景中被遮擋結(jié)構(gòu)的虛擬數(shù)據(jù)進(jìn)行視覺探索。取決于順序問(wèn)題的解決方案;
(必需)視覺顯示問(wèn)題,增加對(duì)遮擋效果的支持,主要用于視頻顯示器(VST)和光學(xué)透視(OST)顯示器。取決于順序問(wèn)題的解決方案;
盡管社區(qū)已經(jīng)提出了越來(lái)越多的技術(shù)來(lái)應(yīng)對(duì)AR遮擋問(wèn)題,但這個(gè)問(wèn)題依然遠(yuǎn)未得到完美解決。上面提到使用OST顯示器或VST設(shè)備來(lái)可視化增強(qiáng)場(chǎng)景,或者為室外場(chǎng)景提供X射線可視化。在所述用例中,硬件和軟件技術(shù)尚未成熟。
在論文中,巴西巴伊亞聯(lián)邦大學(xué)的團(tuán)隊(duì)主要回顧了1992年1月至2020年8月期間就AR應(yīng)用遮擋處理問(wèn)題發(fā)表的161篇論文。
通過(guò)從不同但互補(bǔ)的角度看待這一領(lǐng)域,研究人員希望對(duì)這一領(lǐng)域的主要成就和公開問(wèn)題進(jìn)行總體概述,包括當(dāng)前的挑戰(zhàn)、研究趨勢(shì),以及對(duì)AR中遮擋處理領(lǐng)域未來(lái)方向的建議。
1. 順序問(wèn)題
首先,假設(shè)每個(gè)圖像I是一個(gè)矩陣,具有m行和n列,存儲(chǔ)在每個(gè)單元I(x,y),其中x∈[1,n]和y∈[1、m],同時(shí)RGB像素I(x、y)=[Ir(x,y)、Ig(x,x)、Ib(x、y)]T分別具有紅色、綠色和藍(lán)色通道。
然后,將R和V表示為從特定視點(diǎn)按順序?qū)R真實(shí)和虛擬世界信息的圖像。對(duì)于希望解決遮擋處理的順序問(wèn)題,相關(guān)技術(shù)的主要目標(biāo)是確定:對(duì)于最終增強(qiáng)圖像A的每個(gè)像素,到底是真實(shí)(A(x,y)=R(x,y))還是虛擬(A(x,y)=V(x,y))世界信息可見,并且必須在所述位置可見。
AR中已經(jīng)提出了一系列的策略來(lái)動(dòng)態(tài)地確定真實(shí)數(shù)據(jù)是否在虛擬數(shù)據(jù)之前。團(tuán)隊(duì)將其分類為基于模型的策略或基于深度的策略。
基于模型的策略利用從真實(shí)場(chǎng)景估計(jì)的特征來(lái)解決相互遮擋問(wèn)題。另一方面,基于深度的策略使用基于特定硬件生成的實(shí)時(shí)深度數(shù)據(jù)來(lái)處理遮擋問(wèn)題。
1.1 基于模型的技術(shù)(基模技術(shù))
通常,基于模型的方法依賴于虛擬體模的可用性、背景的捕獲、AR標(biāo)記的存在、顏色的定義或輪廓的提取來(lái)確定AR中真實(shí)和虛擬對(duì)象之間的順序。

上圖顯示了基模策略的分布情況。

上圖是基模策略概述。
Phantom虛擬體模:在(a)和(f)中,可以通過(guò)使用簡(jiǎn)單的深度測(cè)試來(lái)確定真實(shí)場(chǎng)景是否在虛擬場(chǎng)景之前。
Background背景:在(b)和(g)中,場(chǎng)景中的背景(藍(lán)色墻)可以預(yù)先捕捉,以允許通過(guò)遮擋器進(jìn)行分割。
Marker標(biāo)記:同樣,在(c)和(h)中,AR標(biāo)記可用作允許遮擋器分割的基礎(chǔ)。
Color顏色:在(c)和(i)中,顏色可用作允許遮擋器分割的基礎(chǔ)。
Contur輪廓:在(c)和(j)中,形狀可用作允許遮擋器分割的基礎(chǔ)。
1.1.1 Phantom虛擬體模
解決AR中順序問(wèn)題的熱門基模策略是使用先前建?;颢@取的幾何虛擬體模來(lái)表示真實(shí)場(chǎng)景的感興趣對(duì)象。
在這種情況下,一旦虛擬體模與其真實(shí)對(duì)應(yīng)體配準(zhǔn),就可以生成虛擬數(shù)據(jù)的單通道深度圖和表示真實(shí)數(shù)據(jù)的虛擬體模的另一個(gè)單通道深度表。
然后,可以通過(guò)檢查哪個(gè)數(shù)據(jù)在另一個(gè)前面來(lái)計(jì)算增強(qiáng)圖像A:

自1996年以來(lái),基于體模的策略已用于解決不同AR應(yīng)用中的遮擋問(wèn)題。2000年代早期使用的一種變體是使用逆向反射材質(zhì)制作虛擬對(duì)象的真實(shí)對(duì)應(yīng)物。然后,每當(dāng)回復(fù)反射對(duì)象被另一個(gè)真實(shí)對(duì)象遮擋時(shí),其對(duì)應(yīng)的虛擬數(shù)據(jù)可以被OST顯示渲染為遮擋。
早前的研究表明,考慮到代表真實(shí)數(shù)據(jù)的虛擬體模的可用性,光線追蹤對(duì)于解決遮擋同樣非常有。自2010年以來(lái),社區(qū)開始利用地理信息系統(tǒng)提供的數(shù)據(jù)來(lái)構(gòu)建室外結(jié)構(gòu)的稀疏模型,并解決室外場(chǎng)景的遮擋問(wèn)題。其他人則追蹤用戶手部,并變形高質(zhì)量的虛擬手模型,以便在AR應(yīng)用中實(shí)現(xiàn)基于遮擋的裸手交互。
1.1.2 Background背景
AR應(yīng)用同時(shí)使用背景圖像作為模擬真實(shí)世界中被遮擋部分的一種方式。
定義VM和RM是二進(jìn)制掩碼,其中對(duì)于不包含虛擬數(shù)據(jù)的背景像素:

否則:

另外,每當(dāng)像素估計(jì)為真實(shí)圖像R的背景區(qū)域的一部分時(shí):

否則:

在這種情況下,可以從R靜態(tài)捕獲或動(dòng)態(tài)計(jì)算的背景圖像用于幫助估計(jì)將遮擋虛擬數(shù)據(jù)的動(dòng)態(tài)前景對(duì)象。然后,增強(qiáng)圖像A被確定為:

通常,從捕獲的或動(dòng)態(tài)學(xué)習(xí)的背景圖像估計(jì)在特定顏色空間、RGB、量化RGB中計(jì)算的統(tǒng)計(jì)數(shù)據(jù),例如均值、中值、標(biāo)準(zhǔn)差、協(xié)方差、直方圖或高斯混合模型。然后,在實(shí)時(shí)AR步驟期間,每當(dāng)轉(zhuǎn)換到預(yù)定義顏色空間的前景遮擋像素的值與估計(jì)為表示真實(shí)場(chǎng)景的背景區(qū)域的值不太相同時(shí),就檢測(cè)前景遮擋像素。
1.1.3 Marker標(biāo)記
不少AR應(yīng)用使用基準(zhǔn)標(biāo)記來(lái)實(shí)現(xiàn)實(shí)時(shí)追蹤,并已經(jīng)提出了數(shù)種方法來(lái)解決基于標(biāo)記的AR應(yīng)用的遮擋處理順序問(wèn)題。所述技術(shù)通常利用基準(zhǔn)標(biāo)記的已知圖案來(lái)檢測(cè)可能遮擋AR標(biāo)記的真實(shí)場(chǎng)景的前景部分(R M(x,y)=1),從而遮擋虛擬內(nèi)容。
例如,將在給定幀中檢測(cè)到的基準(zhǔn)標(biāo)記的圖像相對(duì)于特定坐標(biāo)系對(duì)齊,然后執(zhí)行圖像減法和二值閾值處理,以檢測(cè)位于基準(zhǔn)標(biāo)記上方的前景遮擋對(duì)象。又如,為真實(shí)場(chǎng)景中的遮擋和遮擋對(duì)象分配基準(zhǔn)標(biāo)記,執(zhí)行前景提取以分割對(duì)象,并根據(jù)標(biāo)記到camera的距離來(lái)解決遮擋問(wèn)題。
1.1.4 Color顏色
在AR中解決遮擋問(wèn)題的一種不太流行但更簡(jiǎn)單的基模策略是,定義真實(shí)場(chǎng)景的遮擋顏色C。在所述策略中,如果:

并且上面等式(2)可以用于估計(jì)增強(qiáng)圖像A,則二值掩碼RM=1。例如,社區(qū)有人使用HSV顏色空間中定義的藍(lán)色來(lái)提取會(huì)遮擋虛擬醫(yī)療數(shù)據(jù)的手套;有人使用顏色直方圖來(lái)提取真實(shí)圖像中用戶的手;其他人使用綠色將背景與用戶的手分開,并提出一種學(xué)習(xí)如何預(yù)測(cè)遮擋掩模,并在AR環(huán)境中允許基于手部的用戶交互的深度神經(jīng)網(wǎng)絡(luò)。
1.1.5 Contur輪廓
另一種不太流行的基模策略依賴于遮擋區(qū)域輪廓的提取?;旧希o定真實(shí)世界的圖像R,可以使用用戶輔助方法或自動(dòng)輪廓檢測(cè)算法來(lái)提取場(chǎng)景中感興趣對(duì)象的閉合輪廓。假設(shè)在這種情況下,如果真實(shí)圖像中的像素位于由閉合輪廓限定的區(qū)域內(nèi),則二進(jìn)制掩碼R M(x,y)=1,否則R M(x,y)=0,則可以如上面的圖(j)所示精確地估計(jì)增強(qiáng)圖像A。
換言之,每當(dāng)發(fā)現(xiàn)像素位于由輪廓限定的區(qū)域中,或者虛擬像素?zé)o效(即不包含虛擬數(shù)據(jù))時(shí),真實(shí)場(chǎng)景就會(huì)遮擋虛擬場(chǎng)景。
對(duì)于確定真實(shí)對(duì)象和虛擬對(duì)象之間的順序,基于模型的技術(shù)非常流行,因?yàn)樗鼈儾恍枰~外的硬件來(lái)解決遮擋問(wèn)題。然而,由于缺乏可用策略的通用性,所述技術(shù)對(duì)于需要高質(zhì)量遮擋處理的通用AR而言用處不大。
1.2 基于深度的技術(shù)(基深技術(shù))
基深技術(shù)不是使用先前建模的虛擬體模來(lái)表示真實(shí)世界并求解,而是可以通過(guò)基于特定硬件設(shè)置捕獲或估計(jì)真實(shí)世界的實(shí)時(shí)深度數(shù)據(jù)來(lái)簡(jiǎn)化這樣的任務(wù)。

如上圖所示,只要新的硬件技術(shù)由于質(zhì)量提高或成本降低而得到發(fā)展或變得更加流行,它們就會(huì)用于解決AR中的遮擋問(wèn)題。
立體視覺:在90年代,為了估計(jì)實(shí)時(shí)深度數(shù)據(jù)以解決AR中的遮擋問(wèn)題,社區(qū)使用了立體視覺原理,通過(guò)使用兩個(gè)顏色或強(qiáng)度攝像頭來(lái)模擬人類雙目視覺系統(tǒng)提供的深度感知。立體視覺技術(shù)通常執(zhí)行立體匹配步驟,以確定不同圖像的兩個(gè)像素是否對(duì)應(yīng)于真實(shí)場(chǎng)景中的同一點(diǎn),然后基于匹配像素之間計(jì)算的視差來(lái)估計(jì)和細(xì)化深度圖
多視圖立體:2000年代開始使用多視圖立體的原理,在由兩個(gè)以上攝像頭組成的集合執(zhí)行立體匹配和深度圖估計(jì)步驟。與立體視覺技術(shù)相比,它們的主要目標(biāo)是提高精度并最小化生成的深度圖中的孔洞。例如,使用一組攝像頭從不同的視點(diǎn)捕捉真實(shí)場(chǎng)景,并使用visual hull算法恢復(fù)前景對(duì)象的3D表示。其中,visual hull的深度用作處理遮擋問(wèn)題的基礎(chǔ)。
激光測(cè)距:社區(qū)偶爾會(huì)使用激光測(cè)距儀來(lái)提供深度數(shù)據(jù)并協(xié)助AR應(yīng)用的遮擋處理。例如,在飛行時(shí)間(ToF)深度傳感器中,根據(jù)傳感器發(fā)射信號(hào)被場(chǎng)景對(duì)象反射回來(lái)所花費(fèi)的時(shí)間的函數(shù)估計(jì)深度。
結(jié)構(gòu)光:隨著2009年微軟Kinect的發(fā)布,以及所述設(shè)備在2010年的普及。2011年至2017年,結(jié)構(gòu)光傳感器技術(shù)已成為基于深度的戰(zhàn)略中的主導(dǎo)技術(shù)。諸如英特爾RealSense這樣的結(jié)構(gòu)光傳感器在場(chǎng)景中投射已知的條紋圖案,并根據(jù)圖案在場(chǎng)景對(duì)象上的變形來(lái)估計(jì)深度數(shù)據(jù)。
球形視覺:使用單個(gè)攝像頭進(jìn)行深度圖估計(jì)。所述策略的明顯優(yōu)點(diǎn)是,即便對(duì)于在基本硬件設(shè)置中運(yùn)行的AR應(yīng)用,其都可以提供基于深度的遮擋支持,無(wú)需使用額外的攝像頭或深度傳感器作為提供深度估計(jì)的基礎(chǔ)。
單目SfM:使用單目SfM來(lái)估計(jì)深度數(shù)據(jù)的技術(shù)有可能在AR中變得更加普遍,因?yàn)樗鼈円呀?jīng)優(yōu)化到足以在智能手機(jī)提供AR中的深度順序估計(jì)。自2018年以來(lái),有文獻(xiàn)證明,智能手機(jī)正準(zhǔn)備解決移動(dòng)AR應(yīng)用中的遮擋問(wèn)題。當(dāng)為AR應(yīng)用提供遮擋處理時(shí),基于深度的技術(shù)非常有用,因?yàn)樗鼈儾灰蕾噲?chǎng)景中的任何先驗(yàn),并且最新的技術(shù)能夠?yàn)锳R應(yīng)用生成密集、高質(zhì)量的深度映射。所述深度映射不僅可以用于支持遮擋處理的過(guò)程,同時(shí)可以用于更好地理解真實(shí)場(chǎng)景。
2. X射線視覺問(wèn)題
一旦知道真實(shí)數(shù)據(jù)和虛擬數(shù)據(jù)之間的深度順序,就需要確定虛擬內(nèi)容將如何在增強(qiáng)場(chǎng)景中呈現(xiàn)。計(jì)算機(jī)圖形學(xué)領(lǐng)域存在一系列的技術(shù)可以提供具有照片真實(shí)感或非照片真實(shí)感的虛擬對(duì)象的實(shí)時(shí)渲染。
對(duì)于AR,X射線視覺技術(shù)旨在使用AR技術(shù)來(lái)可視化真實(shí)場(chǎng)景中隱藏的、被遮擋的結(jié)構(gòu)。由于人類沒(méi)有這種X射線視覺能力,社區(qū)提出了幾種策略來(lái)合成隱藏對(duì)象的可視化,同時(shí)盡量不降低用戶對(duì)增強(qiáng)場(chǎng)景的深度感知。

Alpha blending:Alpha blending是X射線視覺技術(shù)共享的最常見特征,而不是簡(jiǎn)單地在真實(shí)場(chǎng)景之上渲染表示隱藏的真實(shí)結(jié)構(gòu)的虛擬體模。Alpha blending的使用提供了X射線視覺應(yīng)用中可見結(jié)構(gòu)和遮擋結(jié)構(gòu)可視化之間的平滑過(guò)渡。一旦將真實(shí)圖像分離為背景和前景區(qū)域,乘法和逆乘法混合是在AR場(chǎng)景中合并虛擬隱藏模型的最佳策略。
邊緣:如上圖(b)所示,邊緣通常從真實(shí)世界和虛擬世界中提取,以幫助隱藏結(jié)構(gòu)的可視化,因?yàn)檫吘壨ǔJ莻鬟_(dá)場(chǎng)景基本結(jié)構(gòu)的low-level特征。在使用邊緣信息來(lái)提供X射線視覺的技術(shù)中,約90%的技術(shù)使用Alpha blending來(lái)提供邊緣的平滑可視化。
虛擬窗口:AR在醫(yī)學(xué)中的一個(gè)用途是提供患者醫(yī)療數(shù)據(jù)可視化,如上圖(c)所示,可以以一種虛擬窗口的方式幫助可視化孕婦的虛擬胎兒。
透視線:在X射線視覺應(yīng)用中合并可見結(jié)構(gòu)和遮擋結(jié)構(gòu)的可視化時(shí),深度的概念可能會(huì)丟失。在這種情況下,透視線是有用的,因?yàn)樗鼈儠?huì)聚在距camera最大距離處的消失點(diǎn)。所以,透視線可以充當(dāng)用戶關(guān)于虛擬內(nèi)容的距離的感知提示。
空間操縱:盡管不像其他策略那樣流行,但通過(guò)“爆炸”(h)或扭曲來(lái)對(duì)現(xiàn)實(shí)世界進(jìn)行空間操縱是實(shí)現(xiàn)AR中遮擋對(duì)象透視可視化的一種方式??臻g操縱技術(shù)可以與透視線一起使用,以幫助用戶理解真實(shí)世界在增強(qiáng)場(chǎng)景中是如何扭曲,因?yàn)橥敢暰€同樣會(huì)受到同樣的扭曲效果。
其他特征:盡管邊緣是給定場(chǎng)景的low-level特征,但可以利用從場(chǎng)景中提取的high-level特征來(lái)支持在X射線視覺設(shè)置中合成真實(shí)和虛擬世界,例如顯著性(d),運(yùn)動(dòng)(f),紋理(g),深度和曲率等特征專門用于提高Alpha blending合成的視覺質(zhì)量。
與基于模型的技術(shù)不同,X射線視覺技術(shù)不能使用精度度量進(jìn)行評(píng)估。由于人類不具備X射線視覺能力,所以無(wú)法獲得ground truth結(jié)果,無(wú)法進(jìn)行客觀評(píng)估。
3. 視覺顯示問(wèn)題
在AR中,我們通常將視覺增強(qiáng)顯示器分為兩組:視頻透視(VST)和光學(xué)透視(OST)顯示器。在VST顯示器中,用戶不能通過(guò)顯示器直接看到真實(shí)世界。相反,通過(guò)使用接到顯示硬件的至少一個(gè)附加攝像頭來(lái)捕捉真實(shí)世界的圖像。然后,將增強(qiáng)圖像A作為真實(shí)世界R的數(shù)字表示與計(jì)算機(jī)生成圖像V的組合呈現(xiàn)給用戶。
鑒于已經(jīng)準(zhǔn)確地估計(jì)了真實(shí)和虛擬對(duì)象之間的順序,對(duì)于使用VST顯示器的應(yīng)用程序,可以容易地實(shí)現(xiàn)通過(guò)正確選擇真實(shí)數(shù)據(jù)是否必須顯示在虛擬數(shù)據(jù)之前來(lái)解決遮擋問(wèn)題的任務(wù)。
在這種情況下,知道真實(shí)世界和虛擬世界的數(shù)字表示對(duì)于顯示技術(shù)都是可用的,遮擋可視化問(wèn)題可以減少到確定是否將基于可用的真實(shí)圖像或虛擬圖像來(lái)獲取顯示器顯示的每個(gè)像素顏色。
大多數(shù)先前技術(shù)使用VST顯示器來(lái)可視化增強(qiáng)場(chǎng)景。但隨著微軟HoloLens等設(shè)備的普及和質(zhì)量的提高,OST顯示器在支持AR應(yīng)用的可視化和開發(fā)方面變得更加強(qiáng)大。最新的商用OST顯示器能夠解決真實(shí)到虛擬的遮擋問(wèn)題,即真實(shí)世界中的對(duì)象遮擋增強(qiáng)場(chǎng)景中的虛擬對(duì)象。然而,它們依然無(wú)法完美解決虛擬到真實(shí)的遮擋問(wèn)題。
解決OST顯示器的相互遮擋問(wèn)題并不簡(jiǎn)單,因?yàn)樗鲲@示器無(wú)法輕松控制虛擬圖像在顯示器的可視化方式。諸如照明等現(xiàn)實(shí)世界的特定方面通常會(huì)干擾增強(qiáng)場(chǎng)景的可視化。由于所述硬件限制,虛擬對(duì)象依然呈現(xiàn)出不希望有的透明度。
由于VST顯示器的遮擋問(wèn)題很容易解決,所以巴西巴伊亞聯(lián)邦大學(xué)主要紹了OST顯示器為支持遮擋處理而采用的主要策略。

對(duì)于OST顯示器,提供遮擋支持的三種最常見策略依賴于在顯示器嵌入空間光調(diào)制器(a)、控制真實(shí)場(chǎng)景的圖案照明(b)或在真實(shí)世界中制作和放置侵入式遮擋器((c)。

空間光調(diào)制器:對(duì)于增加對(duì)遮擋真實(shí)世界的完全不透明虛擬對(duì)象的可視化支持,最流行策略是使用嵌入OST顯示器中的空間光調(diào)制器(圖12)。透射式LCD、反射式硅上液晶(LCoS)和單反射數(shù)字微鏡器件(DMD)通常用于提供這種空間光調(diào)制。
圖案照明:?jiǎn)⒂肙ST顯示器中完全不透明對(duì)象的正確渲染的另一個(gè)選項(xiàng)是,通過(guò)使用燈光投影儀控制真實(shí)世界的照明,或至少控制虛擬對(duì)象將被渲染的部分。這種投影儀可以將陰影投射到要遮擋的真實(shí)對(duì)象之上,而OST顯示器可以用于在陰影位置精確地可視化虛擬對(duì)象。這種圖案照明策略能夠?qū)崿F(xiàn)增強(qiáng)場(chǎng)景中完全不透明虛擬對(duì)象的渲染。
遮擋器:對(duì)于解決OST顯示器遮擋,一個(gè)不太流行的策略是使用特定材料準(zhǔn)備虛擬對(duì)象的真實(shí)對(duì)應(yīng)物,以便OST顯示器能夠解決相互遮擋問(wèn)題。
在上述三種策略中,空間光調(diào)制策略是未來(lái)商業(yè)OST顯示器中最受歡迎和最有前景的解決方案。它可以通過(guò)自己的OST顯示器解決遮擋問(wèn)題,無(wú)需在硬件外部進(jìn)行自定義設(shè)置(圖案照明)或制作真正的遮擋器。
4. 討論
最后,巴西巴伊亞聯(lián)邦大學(xué)團(tuán)隊(duì)對(duì)上述技術(shù)了批判性討論。
4.1 基于模型的策略
虛擬體模是基于模技術(shù)使用的最常見特征,并主要用于解決遮擋處理的順序問(wèn)題。但是,由于虛擬體模通常被視為場(chǎng)景的靜態(tài)先驗(yàn)知識(shí),因此至少在沒(méi)有新真實(shí)對(duì)象的另一虛擬對(duì)應(yīng)物的可用性時(shí),在AR實(shí)況流期間可能不會(huì)動(dòng)態(tài)地改變對(duì)應(yīng)的真實(shí)對(duì)象。
在遮擋器是來(lái)自真實(shí)世界的前景對(duì)象時(shí),背景、標(biāo)記和顏色特征可用作以實(shí)時(shí)幀速率提供遮擋處理的方法。然而,在虛擬對(duì)象可能位于前景真實(shí)對(duì)象前面的場(chǎng)景中,所述特征通常不足以解決相互遮擋問(wèn)題。
輪廓特征不像其他特征那樣受歡迎。即使如此,構(gòu)成真實(shí)和虛擬對(duì)象輪廓的邊緣對(duì)于提高基深度技術(shù)的質(zhì)量,或表示X射線視覺應(yīng)用中隱藏結(jié)構(gòu)的low-level特征而言依然非常重要。
4.2 基于深度的策略
Leap Motion、微軟Kinect和英特爾RealSense等低設(shè)備的普及,以及使用兩臺(tái)攝像頭進(jìn)行深度圖估計(jì)的實(shí)用性,使得立體視覺和結(jié)構(gòu)光技術(shù)在AR中用于遮擋處理中占據(jù)主導(dǎo)地位。
最近,行業(yè)廠商甚至將所述技術(shù)集成到移動(dòng)設(shè)備(如微軟HoloLens)和手持式顯示器(如iPhone 11、iPad Pro)。但盡管出現(xiàn)了這種工業(yè)趨勢(shì),最先進(jìn)的技術(shù)已經(jīng)表明,基于已經(jīng)嵌入到手持設(shè)備中的單目攝像頭捕獲的實(shí)時(shí)彩色流,即便是在室內(nèi)和室外場(chǎng)景下,其都有可能實(shí)時(shí)生成高質(zhì)量的深度映射。
這確實(shí)拓寬了解決遮擋處理順序問(wèn)題的可能性。當(dāng)然,我們需要進(jìn)一步提高生成的深度映射精度,同時(shí)保持深度映射生成過(guò)程的實(shí)時(shí)性能和時(shí)間一致性。
鑒于深度傳感器通常提供的原始深度數(shù)據(jù)存在噪點(diǎn),社區(qū)已經(jīng)關(guān)注于主要在捕獲對(duì)象的輪廓改善深度映射質(zhì)量,從而增強(qiáng)原始深度數(shù)據(jù)的質(zhì)量。由于所述研究將RGB-D傳感器提供的原始顏色和深度數(shù)據(jù)作為輸入,并以實(shí)時(shí)幀速率提供更高質(zhì)量的深度數(shù)據(jù)作為輸出,所以它們可以作為其他技術(shù)的預(yù)處理步驟進(jìn)行耦合,以提高遮擋處理的準(zhǔn)確性。
4.3 X射線視覺技術(shù)
控制真實(shí)圖像和虛擬圖像之間的Alpha blending是文獻(xiàn)中用于提供AR場(chǎng)景X射線視圖的最簡(jiǎn)單和最常見的方法。
盡管Alpha blending比虛擬場(chǎng)景在真實(shí)場(chǎng)景的簡(jiǎn)單疊加更有用,但真實(shí)場(chǎng)景和虛擬場(chǎng)景的粗略混合可能會(huì)在增強(qiáng)對(duì)象的深度順序方面混淆用戶,并且不能改善AR應(yīng)用程序的深度感知。文獻(xiàn)已經(jīng)表明,可以實(shí)時(shí)計(jì)算兩個(gè)世界的不同的low-level和high-level特征,并可用于控制X射線視圖效果,而不是僅僅依靠可用的顏色信息。
通過(guò)增強(qiáng)真實(shí)和虛擬對(duì)象最相關(guān)、最顯著部分的可視化,深度、邊緣、顯著性、紋理、運(yùn)動(dòng)和曲率等特征提高了Alpha blending算法的質(zhì)量。然而,尚不清楚哪種特征組合為AR提供了最佳的X射線增強(qiáng),以及新穎的特征是否有助于增強(qiáng)AR中隱藏內(nèi)容的可視化。
在醫(yī)學(xué)AR應(yīng)用中,虛擬窗口非常流行,允許醫(yī)生能夠?qū)⒖梢暬性谄鞴?,同時(shí)感知虛擬渲染周圍的真實(shí)場(chǎng)景情景。文獻(xiàn)同時(shí)提出了其他策略,如在AR場(chǎng)景中添加虛擬透視線,以及對(duì)真實(shí)世界進(jìn)行空間操縱以揭示隱藏結(jié)構(gòu)的存在。
4.4 OST顯示器的遮擋
文獻(xiàn)已經(jīng)提出了OST頭戴式顯示器解決方案。目前的商用OST頭顯已與深度傳感器集成,例如微軟HoloLens。在這種情況下,盡管OST頭顯中提供的深度映射擴(kuò)展了AR中遮擋處理的可能性,但對(duì)于特定應(yīng)用,它們不夠準(zhǔn)確或優(yōu)化不足。
使用圖案照明策略為OST顯示器提供遮擋處理的投影儀顯示器已集成在協(xié)作設(shè)置或當(dāng)前OST 頭顯中,但場(chǎng)景中所需的情景設(shè)置仍可能阻止其在更實(shí)際的場(chǎng)景中使用。
5. 未來(lái)方向
正如這篇綜述所言,過(guò)去近30年的研究已經(jīng)提出了眾多不同的技術(shù)來(lái)處理AR應(yīng)用中的遮擋問(wèn)題。因此,你關(guān)注的大問(wèn)題可能是:這個(gè)領(lǐng)域尚有哪些開放的挑戰(zhàn)?
5.1 實(shí)時(shí)非剛體配準(zhǔn)
真實(shí)對(duì)象不僅可以由剛體組成,同時(shí)可以由可以變形的非剛體組成。因此,可以使用非剛性虛擬體模來(lái)更好地表示AR設(shè)置中的可變形真實(shí)對(duì)象,并且人們可能依然希望追蹤這種可變形對(duì)象,并確定它們是否在AR場(chǎng)景中的其他虛擬對(duì)象之前。
2D非剛體配準(zhǔn)技術(shù)已經(jīng)用于AR中基于標(biāo)記的遮擋處理。另外,文獻(xiàn)已經(jīng)表明,當(dāng)RGB-D傳感器用于捕獲顏色加深度流時(shí),其可以實(shí)現(xiàn)實(shí)時(shí)非剛性配準(zhǔn)。然而,為僅依賴單目攝像頭捕獲的RGB流的無(wú)標(biāo)記AR應(yīng)用提供實(shí)時(shí)3D非剛體配準(zhǔn)依然具有挑戰(zhàn)性,這主要是由于所述過(guò)程中涉及的高計(jì)算成本。
例如,實(shí)現(xiàn)這一目標(biāo)的一個(gè)可能的解決方案是利用單目SfM技術(shù)或深度學(xué)習(xí)策略從顏色數(shù)據(jù)中估計(jì)深度,然后將單目camera轉(zhuǎn)換為RGB-D傳感器。遺憾的是,由于只有少數(shù)單目深度圖估計(jì)技術(shù)可以實(shí)現(xiàn)與AR應(yīng)用的嚴(yán)格處理時(shí)間限制兼容的性能,所以在所述管道中集成RGB-D非剛體配準(zhǔn)時(shí),可能需要大量努力來(lái)實(shí)現(xiàn)實(shí)時(shí)性能。
5.2 X射線視覺
社區(qū)已經(jīng)提出了幾種技術(shù)來(lái)實(shí)現(xiàn)真實(shí)場(chǎng)景的X射線視圖。但巴西巴伊亞聯(lián)邦大學(xué)認(rèn)為,由于多個(gè)原因,這個(gè)領(lǐng)域依然需進(jìn)行更多的研究。
首先,為了解決X射線視覺問(wèn)題,必須在單個(gè)增強(qiáng)的最終圖像中看到在多個(gè)深度移位的內(nèi)容。假設(shè)用戶位于一個(gè)房間、建筑物或其他室內(nèi)空間中,他/她希望看到位于多個(gè)房間中的隱藏內(nèi)容,而房間位于他/她前面的多個(gè)深度。
另一種可能的場(chǎng)景是戶外AR應(yīng)用,其中用戶可以看到位于不同街道中的隱藏內(nèi)容,其中街道可能離用戶近或遠(yuǎn)。因此,主要問(wèn)題是:如何將所述內(nèi)容組合成單個(gè)圖像,同時(shí)為用戶保持良好的空間感知?
行業(yè)已經(jīng)提出通過(guò)數(shù)個(gè)特征來(lái)提高X射線視圖效果的視覺質(zhì)量。團(tuán)隊(duì)認(rèn)為,對(duì)所述特征的使用進(jìn)行更廣泛的用戶研究,并對(duì)其最近的X射線視覺技術(shù)進(jìn)行評(píng)估,將有助于提出這一領(lǐng)域當(dāng)前可能的最佳策略。
另一個(gè)原因是將X射線視覺和基于模型/深度的方法相結(jié)合,以避免在真實(shí)場(chǎng)景中X射線視圖的不小心重疊。正如上面所述,只有13.7%的X射線視覺論文是針對(duì)遮擋處理的順序問(wèn)題。即使對(duì)于X射線視覺應(yīng)用,我們都需要?jiǎng)討B(tài)確定真實(shí)和虛擬對(duì)象之間的深度順序。
5.3 OST顯示器
OST顯示器缺乏相互遮擋處理,這給AR應(yīng)用程序帶來(lái)了一個(gè)真正的問(wèn)題,因?yàn)楦鶕?jù)真實(shí)場(chǎng)景的真實(shí)世界照明條件,渲染的虛擬對(duì)象可能會(huì)在真實(shí)世界中漂浮。盡管文獻(xiàn)在提出能夠以合理的視覺質(zhì)量處理遮擋問(wèn)題的新型OST顯示器方面已經(jīng)取得了所有努力和進(jìn)步,但我們依然沒(méi)有能夠解決相互遮擋問(wèn)題,提供一種輕量級(jí)的,對(duì)變焦渲染和基于順序的遮擋處理具有魯棒性的穩(wěn)健、流行和商用OST頭顯。
這一事實(shí)本身表明,我們依然需進(jìn)行大量研究以增強(qiáng)OST頭顯的能力,推進(jìn)最先進(jìn)的解決方案,并填補(bǔ)學(xué)術(shù)界和工業(yè)界之間的差距。
5.4 機(jī)器/深度學(xué)習(xí)
最近,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)在包括AR在內(nèi)的計(jì)算機(jī)科學(xué)的多個(gè)領(lǐng)域提供了巨大的進(jìn)步。最先進(jìn)的技術(shù)正在使用機(jī)器和深度學(xué)習(xí)來(lái)提供基于模型的和基于深度的順序估計(jì),甚至AR中的X射線視覺。
每年,與AR相關(guān)的其他領(lǐng)域(如圖像處理)都提出了更新、更魯棒的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)。從這個(gè)意義上講,不僅在單目深度圖估計(jì)等領(lǐng)域,而且在單圖像遮擋估計(jì)和顯著性確定等其他領(lǐng)域同樣取得了進(jìn)展,可以集成到AR應(yīng)用程序中,從而為研究人員和開發(fā)人員提供更多工具來(lái)最小化遮擋問(wèn)題的不同方面。
5.5 時(shí)間一致性
為了提高遮擋處理的準(zhǔn)確性和一致性,已經(jīng)有技術(shù)明確地將時(shí)間一致性建模為待解決問(wèn)題的一部分。即便是這樣,團(tuán)隊(duì)認(rèn)為更多的技術(shù)應(yīng)該考慮時(shí)間一致性,同時(shí)仍然能夠提供實(shí)時(shí)性能,從而提高遮擋處理的視覺質(zhì)量和用戶體驗(yàn)。
相關(guān)論文:Occlusion Handling in Augmented Reality: Past, Present and Future
對(duì)于本次研究,團(tuán)隊(duì)希望對(duì)AR中迄今為止是如何處理遮擋問(wèn)題進(jìn)行回顧和批判性分析,從而為AR的未來(lái)做出貢獻(xiàn),幫助研究人員和開發(fā)人員能夠就所建議的主題開展工作,從而進(jìn)一步提高最新水平,并提高現(xiàn)有AR應(yīng)用程序的魯棒性。
---
原文鏈接:https://news.nweon.com/104482