解決?動駕駛中計算機視覺的?標檢測問題
來源:投稿?作者:cairuyi01
原文:公眾號【學(xué)姐帶你玩AI】
最近讀了《Object detection with location-aware deformable convolution and backward attention filtering》,這是?篇2019年刊登在CVPR上的CV論?。與解決普適性的CV任務(wù)不同,作者CHEN ZHANG和JOOHEE KIM希望解決的是?動駕駛中計算機視覺的?標檢測問題,如何檢測距離攝像頭較遠的交通參與者,以及如何檢測到互動的交通參與者。

這篇論?究竟想解決什么樣的問題
?先,我們來看?個典型的交通場景,如上圖,有?個架設(shè)在?動駕駛?輛上的攝像頭,從攝像頭的?度來看,會看到路?上的各種道路使?者和交通參與者,典型的類別包括了:??,???,汽?。對于(a)和(b),我們發(fā)現(xiàn)本篇論?建議的模型,它能?Faster R-CNN多檢測出了??背后的???,以及兩輛距離較遠的汽?。對!參考圖即便??眼也較難發(fā)現(xiàn)的?標,論?建議的模型也檢測出來了,這有什么意義?
汽?在?速?駛,這?秒距離還?較遠的交通參與者,在下?秒可能就在?前了
汽?在?速地?駛,在城市道路上?擁堵時,會以時速約40-60KM前進,這意味著,這?秒距離還?較遠的交通者,在下?秒就會來到?前了。要避免交通事故的發(fā)現(xiàn),我們必須提前檢測到他的存在。?當交通參與者距離攝像頭較遠時,往往他的外觀都會?較?。
交通參與者之間存在互動,被遮擋的交通參與者容易造成漏檢的情況
交通參與者在道路上總是運動著的,他們的?些交互和互動往往會導(dǎo)致交通狀況的不確定性。試想?下,前?距離很近的兩輛?正在?駛,此時因為他們局部重疊?造成漏檢。在下?個時刻,被漏檢的?輛忽然打燈切線更換?道,這就很容易造成事故,因為你?直追蹤的?標并未與你發(fā)?相對位置的變動,?現(xiàn)在忽然多出來?個?標,并且??出現(xiàn)在了?前。
?這輛漏檢的汽?,被前?遮擋后只有局部的外觀能被看到。再如,斑?線上的??指示燈正在由?轉(zhuǎn)紅,道路指示燈正在由紅轉(zhuǎn)綠,計算機視覺檢測到三五個??的?群已經(jīng)基本靜?,于是準備發(fā)動?輛。此時,被?群遮擋的???忽然駛出,沖到了道路上。悲劇的是,由于?直沒有感知到???的存在,突如其來的交通情況極其容易造成事故。?這輛被?群遮擋的???,往往是在那三五?群間隙中只露出了局部外觀。
檢測需求和?臨的問題
上?談及的兩個檢測需求,?標都?較?,他們要么遠離攝像頭,要么被其他交通參與者遮擋了只露出了局部的外觀。要檢測到他們,就需要在較?分辨率的特征圖中進?,這樣才能保證有?夠的空間信息。
但,這是?個兩難的問題:
1)在深度神經(jīng)?絡(luò)中,較?層級的特征圖具備更豐富的語義,更容易歸納?標的特征,易于分類,但是,它過低的分辨率?會導(dǎo)致??標在特征圖上消失,難以作出有效定位。這樣?來,簡單地使??層級的特征圖并不能滿?檢測需求。
2)如果我們使?淺層的特征圖,那么空間信息是?夠了,對定位帶來了幫助,但是粗糙的特征提取?使得分類任務(wù)難以被滿?。再者,我們并不能保證測試集和訓(xùn)練集中背景內(nèi)容具備同質(zhì)性,于是,更?的受視野才能有?夠的上下信息幫助感知?標的存在與否。這樣?來,簡單地使?淺層級的特征圖并不能滿?檢測需求。
那么,如何是好呢?下?,我們來看看作者在論?中建議的模型是如何解決這些局限性,滿?檢測需求的。
作者使?的baseline?絡(luò)

作者使?的是Faster R-CNN作為baseline?絡(luò)的,它由以下的?個部分組成:
1)conv layers,使?諸如VGG,ResNet,MobileNet,GoogleNet,Inception ResNet等的backbone?絡(luò)對圖像進?特征的提取。
2)利?backbone提取的特征圖,輸?到Region Proposal Network(RPN),得到若?個的Region Proposal。
3)根據(jù)Region Proposal的坐標映射到第?步得到的特征圖中,會得到?個個感興趣的區(qū)域(ROI,Region of interesting)。這些區(qū)域會經(jīng)由ROI Pooling統(tǒng)?為固定的??尺?,放進后續(xù)的?絡(luò)中進?分類預(yù)測和錨框回歸,得到最終的檢測結(jié)果。
在論?中,作者是以此作為baseline,并在這個基礎(chǔ)上修改了backbone,以及加?了neck。
對backbone的修改
設(shè)計思路
在論?中,作者是使?VGG16作為baseline的backbone,它可以被更換為上?提及的其他backbone。
在實驗中,作者選擇了VGG16和ResNet18,主要考慮了?動駕駛中?標檢測往往對實時性有所要求。

VGG16的?絡(luò)架構(gòu)如上圖,它在每?層卷積層中?標準的3*3卷積核進?卷積操作,逐?提取特征,每層輸出的特征圖?于下?層的輸?。
由于上?提及的問題:
1)?標在互動過程中可能產(chǎn)?變形(?為的動作變化)。
2)?標產(chǎn)?遮擋,有意義的外觀只是局部(露出的局部可能是不規(guī)整的)。
于是,采?標準的3*3卷積核采樣會弱化了待檢測?標的特征濃度,作者提出了Location-aware deformable convolution(位置感知的可變形卷積)。
前置知識-Deformable convolutional(可變形卷積)

從上圖中我們可以看到,(a)是標準的3*3卷積,與之相對的,(b)是可變形的卷積,采樣的點可以根據(jù)需要進?偏移,按需進?采樣。(c)和(d)是兩種特殊情況,其中,(c)的變形?式使得采樣相當于增?了受視野,?(d)的變形?式則是使得采樣相當于進?旋轉(zhuǎn)。

以兩層卷積層的采樣過程為例,標準3*3卷積采取固定的空間位置進?采樣,?可變形的3*3卷積則是每層中根據(jù)感興趣的空間位置進?了采樣。誠然,在最后的特征圖表征上,變形的3*3卷積得到的語義更加豐富。

具體的實現(xiàn)上,在input feature map之后進?可變形卷積之前會同時建??個?絡(luò)分?,這個分?會利??個卷積層學(xué)習(xí)可變卷積核中每個采樣點的位置偏移。值得注意的是,這個分??絡(luò)上的卷積層所采?的是與可變形卷積受視野?致的標準卷積核,換句話來說,如果可變形卷積核計劃?膨脹率為1的3*3的卷積核。


綜上所述,完成了?個可變卷積的過程。
Location-aware deformable convolution(位置感知的可變形卷積)在有了可變形卷積的前置知識后,下?我們來看看作者在論?中建議的位置感知的可變形卷積??纯此诳勺冃尉矸e的基礎(chǔ)上做了那些改變,?起到了哪些作?。
學(xué)習(xí)偏移量的卷積層使?的卷積核,可以和位置感知的可變形卷積核有不同的受視野在input feature map之后進?可變形卷積之前所建?的?絡(luò)分?上。
1)可變形卷積?絡(luò)中,如果計劃使?的可變形卷積核是膨脹率為1的3*3卷積核,那么學(xué)習(xí)偏移量的卷積核也必須是使?標準的3*3卷積核;
2)位置感知的可變形卷積?絡(luò)中,雖然計劃使?的可變卷積核是膨脹率為2的3*3卷積核,但是學(xué)習(xí)偏移量的卷積核依然可以隨意選擇??的受視野,例如下圖中,是使?標準的3*3卷積核。

由于位置感知的可變形卷積核本身和學(xué)習(xí)它的偏移量的卷積核在受視野上進?了解耦,于是,在學(xué)習(xí)偏移量的過程中可以更靈活,這促使了?絡(luò)更容易得到最優(yōu)解。
在學(xué)習(xí)每個采樣點的偏移量時,卷積運算的中?點以采樣點為基礎(chǔ)
在使?卷積核進?卷積運算學(xué)習(xí)偏移量時:
1)可變形卷積?絡(luò)中,學(xué)習(xí)偏移量的卷積操作是以當前input feature map的輸?樣本點為中?的。
例如,假設(shè)當前坐標為(0,0),那么它的9個偏移量都是以(0,0)作為中?點進?卷積操作的。
2)位置感知的可變形卷積?絡(luò)中,學(xué)習(xí)偏移量的卷積操作是以可變性卷積核的采樣點為中?的。

例如,假設(shè)當前坐標為(0,0),根據(jù)膨脹率為2的情況下,那么它的9個偏移量都是以對應(yīng)(0,0)(-2,-2)(-2,0)(-2,2)(0,-2)(0,2)(-2,2)(0,2)(2,2)的9個采樣點作為中?點進?卷積操作的。
把位置感知的可變形卷積整合到VGG16中
位置感知的可變形卷積將被整合到VGG16的Conv3-3,Conv4-3,Conv5-3中。

在整合時,VGG16原來的標準3*3卷積是保留的,在此基礎(chǔ)上,再添加?個位置感知的可變形卷積分?:

?先把標準3*3卷積分?的輸出和位置感知的可變形卷積分?的輸出按照通道進?拼接,然后,再使??個1*1的卷積層將它們進?步融合。

由于后續(xù)的后向注意?過濾的需要,在VGG16常規(guī)的Conv5之后還添加?個Conv6的卷積層,在Pooling后,Conv6的feature map相?Conv5再縮??倍。
?此,作者就對backbone?絡(luò)的改造就完成了,他要解決的是?標與環(huán)境互動產(chǎn)?外觀變形或局部被遮擋時導(dǎo)致外觀不規(guī)整時,卷積能針對?標的空間位置有更靈活的采樣,使得特征提取更有意義。

從作者的實驗中,我們也可以 看到,采取位置感知的可變形卷積(Method B)要?標準卷積(Method C)和可變形卷積(Method A)有更?的檢測準確率。
添加neck?絡(luò)——后向注意?過濾(backward attention filtering)
設(shè)計思路
要進???標的檢測,對?分辨率的特征圖是有嚴重依賴的,因為只有特征圖上有?夠的空間信息,??標才能被檢測出來。不過,如果我們直接使?淺層的?分辨率特征圖,它們雖然有?夠的空間信息,但同時?擾的信息也多,這對于模型?絡(luò)后續(xù)的分類預(yù)測和錨框回歸也帶來不少負?作?。
作者提出了?種后向注意?過濾的?法,他希望利?深層?絡(luò)中富有語義的特征圖作為過濾器對相對淺層的特征圖進?過濾,把?擾的背景信息逐?濾除,留下當前分辨率特征圖該有的?標信息。這樣?來,每個分辨率的特征圖送?后續(xù)的檢測??絡(luò),都能得到不錯的,對應(yīng)該分辨率的?標檢測效果。
后向注意?過濾的原理
建?過濾器
作者是使?深層的特征圖作為基礎(chǔ)進?濾波器的制作的。以Conv6為例,它的輸出將被?作Conv5的過濾器。作為過濾器,作者需要:

1)把它的特征圖取值范圍映射到(0,1)之間,如此?來,后續(xù)與?標特征圖進?相乘時,可以起到越接近0,?標特征圖該處的特征被抹除,越接近1,?標特征圖該處的特征被保留的作?。
2)Conv6的feature map相?Conv5縮?了?倍,于是,接下來還需要做?次upsample(上采樣),使得濾波器特征圖還原到與Conv5的feature map?樣的??,如此?來,后續(xù)的逐像素相乘才能??對應(yīng)。
進?過濾操作
作者利?濾波器特征圖與?標特征圖進?相乘,同時,?標特征圖再做了?次skip,逐像素相加到相乘的結(jié)果之上。

加?skip的?的應(yīng)該是借鑒了ResNet設(shè)計的思路,作為最后的學(xué)習(xí)保障,這個過濾層可以在學(xué)習(xí)?果時不起任何作?。這?選擇交由模型?絡(luò)??決策。最后,整個后向注意?濾波的計算公式為:

添加后向注意?過濾后的模型

可以看到,整個過濾的過程是從深層?絡(luò)?步?步向淺層遞進的。每次過濾后的特征圖???會作為下?個淺層特征圖過濾的過濾器,過濾三次后送進RPN進?錨框的?成,另外???也會送進ROI Pooling中,為最后?步的分類預(yù)測和錨框回歸作準備。
head?絡(luò)——接上Faster R-CNN的detector
后向注意?過濾之后,?絡(luò)會把過濾后的特征圖送進?檢測?絡(luò)中。

1)送?RPN?絡(luò)的特征圖,是三次過濾后的特征圖,它擁有較?的分辨率,也就具備了?夠的空間信息。在它的基礎(chǔ)上進?錨框的?成將有利于把不同尺度的?標進?初定位。
2)根據(jù)?成的Region proposal,提取不同分辨率特征圖上對應(yīng)的區(qū)域進?ROI Pooling,此時,不同層級的特征圖擁有不同受視野的語義,在之后的分類預(yù)測和錨框回歸中起到?常好的正?作?。

由上圖我們可以看到,過濾了?擾信息后,RPN只需要?成更少的錨框,就能使得平均準確率?之前?,這也就意味著,此時模型中的RPN能?成質(zhì)量更?的錨框。

最后,我們可以看到,作者把他建議的模型與當時的其他具有最佳性能的檢測模型在PASCAL?VOC2017測試集上進?了對?,其檢測性能僅次于FPN,取得了?常有競爭?的結(jié)果。

?值得注意的是,作者建議的模型在運?性能上?常優(yōu)秀,Runtime僅為0.22 sec(backbone?VGG16)和0.14 sec(backbone ResNet18),為?動駕駛領(lǐng)域提供了?效運?的性能?持。
結(jié)論
在?動駕駛領(lǐng)域,交通參與者的檢測是計算機視覺關(guān)?的話題。由于這些交通參與者者需要提前被感知,此時,他們因為遠離攝像頭?顯得外觀較?;同時,這些交通參與者可能因為互動?為或者被遮擋導(dǎo)致了外觀的變形或不規(guī)整,?露出的外觀也可能是較?的,這些都成為了?標檢測中的難題。
作者建議的模型,通過使?位置感知的可變形卷積解決了?標與環(huán)境互動產(chǎn)?外觀變形或局部被遮擋時導(dǎo)致外觀不規(guī)整時,卷積能針對?標的空間位置有更靈活的采樣,使得特征提取更有意義。同時,通過后向注意?過濾的?法,利?深層?絡(luò)中富有語義的特征圖作為過濾器對相對淺層的特征圖進?過濾,把?擾的背景信息逐?濾除,留下當前分辨率特征圖該有的?標信息。借此平衡了淺層特征圖有?夠空間信息但語義不強,?深層特征圖有豐富語義但缺乏空間信息的問題,??標的檢測也能在逐層過濾中得到更?質(zhì)量的檢測。
最終,截?論?發(fā)表時,作者建議的模型在保證了運?性能的同時,檢測性能上取得良好表現(xiàn),其檢測性能僅次于FPN,取得了?常有競爭?的結(jié)果。
—?完?—
點這里關(guān)注我??,記得標星哦~

一鍵「點贊」和「評論」點贊的情誼學(xué)姐銘記在心~