權威發(fā)布|計算機視覺重要研究進展(一)
傳送門:計算機視覺重要研究進展(二)
引言
計算機視覺是研究用計算機來模擬人或生物視覺系統(tǒng)功能的學科,其目的是基于圖像讓計算機能夠感知和理解周圍世界,具體地說,就是對圖像或視頻數(shù)據中的場景、目標、行為等信息進行識別、測量和理解等。計算機視覺是人工智能的重要研究領域之一。
計算機視覺的前提和基礎是成像技術。早在公元前魯國時代,墨子就已經發(fā)現(xiàn)了小孔成像。之后直到19世紀,尼埃普斯(Joseph Nicéphore Nièpce)和達蓋爾(Louis-Jacques-Mandé Daguerre)等發(fā)明了照相機。隨后同世紀,惠斯登(Wheaston)發(fā)明了鏡面立體裝置(mirror stereoscope),證實了雙眼視差現(xiàn)象:兩個2D圖片可以引起3D立體感覺。20世紀40年代,吉布森(Gibson)提出了光流的概念,并提出從二維平面的光流場可以恢復3D空間運動參數(shù)和結構參數(shù)的假說。20世紀60年代起,Ulf Grenander從數(shù)學的角度,整合代數(shù)、集合論和概率論,提出Analysis-by-Synthesis的思想,為計算機視覺奠定了重要的開創(chuàng)性的理論基礎。同時期在視覺模式識別研究中,傅京孫(King-Sun Fu)提出了句法結構性的表達與計算,支撐了自底向上或自頂向下的視覺計算過程。20世紀70年代,馬爾(David Marr)力圖用計算機模擬人的視覺過程,使計算機實現(xiàn)人的立體視覺功能。馬爾的視覺計算理論立足于計算機科學,并系統(tǒng)地概括了當時心理學、神經科學等方面的重要成就,其重要特征在于使視覺信息處理的研究變得更加嚴密,把視覺研究從描述的水平提高到有數(shù)學理論支撐且可以計算的層級,從此標志著計算機視覺成為了一門獨立的學科。自從馬爾視覺理論提出之后,計算機視覺得到了快速蓬勃的發(fā)展。雖然馬爾視覺理論框架存在有不足,時至今日馬爾視覺理論依然一直占據著計算機視覺的中心地位。依據馬爾計算視覺理論框架,計算機視覺分為底層的圖像特征提取與處理,中層的三維計算機視覺,以及高層的物體識別與場景理解。由于馬爾視覺理論的系統(tǒng)性和主導性,過去幾十年來的重要研究進展,多數(shù)集中在該理論框架之下。
2012年ImageNet大規(guī)模圖像分類挑戰(zhàn)賽中,采用的卷積神經網絡(CNN)模型的深度學習方法帶來了巨大的突破。其后基于深度學習的人臉識別等被廣泛應用于各行各業(yè)。伴隨著計算資源、人工智能的迅猛發(fā)展和實際應用的大量需求,馬爾視覺理論曾經存在爭議的地方有了更明確的解析。例如,對馬爾視覺提出批評的“主動視覺”(Active Vision)和“目的和定性視覺”(Purpose and Qualitative Vision)的學者認為視覺過程必然存在人與環(huán)境的交互,認為視覺要有目的性,且在很多應用中不需要三維重建過程。但是,隨著深度學習與人工智能發(fā)展對計算機視覺發(fā)展的促進,當今二維視覺的系列任務已經不能滿足實際的應用需求,各種深度相機不斷出現(xiàn),二維視覺任務正在往三維拓展,越來越多的三維點云分析與處理的工作正在大量涌現(xiàn),逐漸驗證了馬爾視覺理論的正確性?,F(xiàn)階段專用人工智能得到了充足的發(fā)展,未來將逐漸邁向通用人工智能的研究階段。通用人工智能要求有“時間”、“空間”、“推理”的計算能力,馬爾視覺理論框架正具備了前二者的能力,再融入“推理”,馬爾視覺理論未來將會成為通用計算機視覺智能的基石。而對過去這個框架下的重要研究進展的了解對未來研究的指導也將具有重要意義。
本報告在對過去計算機視覺領域的研究進展進行分析總結的基礎上,提煉出對學科發(fā)展和應用技術產生了重要影響或推動力的13項研究進展進行介紹。這些重要研究進展體現(xiàn)在計算成像學、初期視覺、圖像增強與復原、圖像特征提取與匹配、多視幾何理論、攝像機標定與定位、三維重建、目標檢測與識別、圖像分割、圖像場景理解、圖像檢索、目標跟蹤、行為與事件分析等方面。
1. 計算成像學
自由空間中傳播的光線攜帶著三維立體世界豐富的信息,是人類感知外部世界最重要的介質和載體之一。光是一種高維信號,不僅自身具有波長 、傳播時間 等屬性,在自由空間傳播過程中還具有位置和方向屬性,包括三維坐標( , , )和角度( , )。計算成像(Computational Imaging)學結合計算、光學系統(tǒng)和智能光照等技術,將成像系統(tǒng)采集能力與計算機處理能力相結合,創(chuàng)新性地將視覺信息處理與計算前移至成像過程,提出新的成像機制,設計新的成像光路,開發(fā)新的圖像重構方法,能夠在視覺信息的維度、尺度與分辨率等方面實現(xiàn)質的突破,使得對光信號進行高維高分辨率的采樣成為可能。
1936年,Arun Gersun開始研究光線在空間中的分布,首次提出了“光場”(Light Field)的概念,用于描述光在三維空間的輻射特性。1991 年 Adelson等人進一步拓展和完善了光場的理論,提出了全光函數(shù)(Plenoptic Function),用一個 7D 函數(shù)表征光線的空間分布,即 ( , , , , , , )。1992 年 Adelson 等人在全光理論的基礎上研制了光場相機原型。忽略光線在傳播過程中的衰減(省略 、 ),Gortler 等人提出了流明圖(Lumigraph)的概念,進一步忽略 ,將7D全光函數(shù)降維成 4D,即僅用( , )和( , )四個維度表示一條光線,包含了光線的空間和角度信息。1996年,Marc Levoy和Pat Hanrahan將光場引入計算機圖形學,提出了光場渲染理論(Light Field Rendering),并對四維光場進行了雙平面參數(shù)化。2005年5月,麻省理工學院、斯坦福大學、微軟研究院的研究人員在麻省理工學院召開了首屆計算攝影學(Computational Photography)研討會。自2009年,IEEE計算攝影學國際學術會議(IEEE International Conference on Computational Photography)每年舉行。斯坦福大學博士吳義仁(Ren Ng)在畢業(yè)論文中詳細地描述了家用級光場相機的硬件、軟件問題和其解決方案,2006年創(chuàng)立創(chuàng)立Lytro公司,并發(fā)布了Plenoptic 1.0手持式光場相機,隨后又有Raytrix、Pelican等多家公司發(fā)布了光場相機,提出了多種不同的光場成像結構。光場理論發(fā)展的同時,過去的數(shù)十年間國內外各種各樣的光場成像設備被研制和開發(fā)出來,特別是多種類型的工業(yè)級和消費級光場相機相繼問世,比較有代表性的光場成像設備設計結構包括:光場采集支架(Light Field Gantry)、相機陣列(Camera Array)、微透鏡型光場相機(Microlens-Based Light Field Camera)和可編碼孔徑相機(Programmable Aperture Camera)。近年來,光場成像技術多被用于VR/AR等沉浸式體驗設備。同時,光場成像技術也被用在顯微觀測中,美國麻省理工學院和奧地利維也納大學的研究人員使用光場顯微鏡第一次可在毫秒時間的尺度上,產生整個斑馬魚幼蟲大腦的3D影像,相關成果發(fā)表在Nature Methods期刊。
相對傳統(tǒng)光學成像,光場成像技術是重大技術革新,以其多視角、大景深、多聚焦成像等突出特性為模式識別、計算機視覺等學科的發(fā)展與創(chuàng)新帶來了新機遇,目前已經在深度估計、三維重建、自動重聚焦、合成孔徑成像、分割、識別等視覺任務中得到了應用。除了經典視覺任務外,光場成像還在視覺里程計 (Visual Odometry)、場景光流估計(Scene-Flow Estimation)、相機轉動(Camera Rotation)估計和視頻防抖(Video Stabilization)、全景拼接(Panoramic Stitching)等視覺任務中得到了一定程度的應用。
除了光場相機以外,考慮光線空間位置和傳播方向的成像技術還有編碼成像、散射成像、全息成像等典型代表。從光線傳播的時間、相位維度進行光場的采集,則有單光子成像、飛行時間(ToF)成像等手段,而從波長、光譜層次進行研究,則衍生出可見光、近紅外、高光譜等多種成像技術,另外還有利用光線的波動屬性進行成像,例如偏振成像等。
2. 初期視覺
人類的視覺信息處理包括初期視覺和高層視覺,初期視覺主要通過分析輸入的視覺信號變化來獲取物體的位置、形狀、表觀和運動等信息,基本不涉及場景信息的語義理解。類似于人類的視覺信息處理過程,計算機視覺也分為初期視覺和高層視覺,其中的初期視覺主要涉及視覺信息預處理和編碼,具體包括圖像濾波、邊緣提取、紋理分析、立體視覺、光流、圖像增強與復原等方面的研究內容。是否具有物體識別、行為分析、事件解譯等語義理解能力是區(qū)分初期視覺和高層視覺的主要依據。
圖像濾波是圖像預處理的主要手段之一,目的是突出圖像中的有效信息、壓制不需要的其他信息。根據濾波的操作域不同,圖像濾波可以分為空域濾波和頻域濾波;根據濾波操作的計算特性不同,圖像濾波可以分為線性濾波和非線性濾波;根據濾波的目的不同,圖像濾波可以分為平滑濾波、形態(tài)學濾波、雙邊濾波、引導濾波等。高斯濾波是最常用的線性濾波器,Gabor濾波器符合人類視覺初級視皮層的信息處理特性,在圖像特征提取中應用較多,雙邊濾波和引導濾波具有良好的邊緣保持特性,并不會影響其他非邊緣區(qū)域的濾波效果,相對雙邊濾波而言,引導濾波更加高效,而且可以保持更多類型的圖像結構。在圖像濾波思想上發(fā)展出了局部圖像特征,其中,LBP和Haar是兩個具有深遠影響的局部圖像特征,前者利用相鄰像素之間的灰度大小關系進行特征編碼,具有良好的光照魯棒性和判別能力,在人臉識別、紋理分析中發(fā)揮了重要作用,而后者通過定義一系列矩形區(qū)域,通過它們的平均像素差進行判別分析,結合adaboost特征選擇算法,是人臉檢測領域里程碑式的工作,也廣泛應用于其他目標的檢測任務中。圖像增強和復原技術是基于圖像濾波發(fā)展而來的,早期的方法集中在濾波器設計上,如維納濾波、約束最小二乘濾波、Lucy-Richardson解卷積算法等。在2000年之后,以正則化方法和字典學習為代表的稀疏編碼方法因其出色的性能表現(xiàn)逐漸成為主流,如針對圖像去噪問題的BM3D算法、LSC算法、FOE模型等,以及針對圖像去模糊問題的TV正則化算法、L1正則化算法等。目前,也出現(xiàn)了基于深度學習的圖像增強和復原方法。邊緣提取的早期研究中,主要是根據邊緣的物理特性,設計相應的濾波器進行圖像濾波,代表性工作是canny邊緣算子;在2000年以后,這種根據設計者經驗設計的濾波方法逐漸被基于學習的方法所替代,如PB和gPB;近年來,深度學習進一步促進了邊緣檢測技術的發(fā)展,最早的工作有DeepContour和DeepEdge,以及可端到端訓練的邊緣檢測算法HED,目前較好的方法是RCF。在立體視覺和光流這類基于匹配對應的初期視覺問題中,基于馬爾科夫隨機場將全局約束信息進行建模的方法是深度學習出現(xiàn)之前比較有代表性的一類方法,該方法利用通常利用圖割、信念傳播、動態(tài)規(guī)劃等算法對構造的極小化問題進行求解。對于立體匹配問題,基于全局優(yōu)化的方法通常速度較慢,半全局和基于特征的局部方法更加實用,其中,半全局塊匹配算法(SGBM)在速度和精度方面具有良好的折中。解決光流問題的基本假設是運動的顏色恒常性,可以為變分法、基于區(qū)域的方法、基于特征的方法、頻域處理方法,以及最近出現(xiàn)的基于CNN的方法。在深度學習出現(xiàn)之前,變分法在光流的發(fā)展中占主導地位,大部分性能優(yōu)秀的光流算法都屬于變分法的范疇,基于顏色恒常性基本假設形式化優(yōu)化目標函數(shù)中的數(shù)據項,同時輔于平滑性約束,最終通過求解最優(yōu)化問題得到光流解。最近興起的基于CNN的光流計算通過一次網絡的前向運算得到輸入圖像的光流,因此更加高效,計算速度是傳統(tǒng)方法的幾十倍,具有很大的潛力,比較有代表性的工作是FlowNet系列、SpyNet、TVNet、PWC-Net。
初期視覺的研究產生了廣泛的影響,如從圖像濾波發(fā)展出來的圖像卷積是卷積神經網絡的核心組件,光流計算是視頻行為分析中是最基本的處理方法,基于立體視覺技術發(fā)展出來的RGBD相機作為傳統(tǒng)圖像傳感器的重要補充在許多應用中發(fā)揮重要作用,圖像超分辨率和視頻去模糊技術已經在各類攝像類數(shù)碼產品中廣泛使用。
3. 圖像增強與復原
圖像增強與復原是圖像處理領域研究的一類經典問題。在圖像的成像、保存和傳輸過程中,受各種外在因素的影響,圖像會產生不同類型的質量退化問題。圖像增強和復原主要研究如何基于圖像先驗和圖像退化模型,提升圖像的視覺質量或恢復圖像的原本面目。圖像增強與圖像復原又略有區(qū)別。前者通常以提升圖像的視覺質量為最終目的,常常作為后續(xù)圖像處理與分析過程的預處理步驟。而后者則以恢復圖像本來面目為目標,因此復原過程往往需要考慮圖像的退化機理,并構建圖像質量退化模型。經典的圖像增強與復原問題包括圖像去噪、圖像去模糊、圖像去霧、去雨、去陰影、圖像超分辨率以及圖像幾何畸變校正等。需要指出,由于退化模型的不適定性,圖像增強與復原問題通常涉及一類逆問題的求解,是典型的不適定問題。圖像的增強與復原不存在統(tǒng)一的處理方法,常需要根據具體問題,針對圖像質量退化模型和可利用的圖像先驗構造恰當?shù)那蠼夥椒ā?/p>
早期的圖像增強與復原方法主要包括各種濾波方法。由于噪聲與圖像內容通常具有不同的頻譜,因此可在不同的譜段上分別處理,從而保證在去除噪聲的同時盡量不損害圖像內容。這類方法主要針對圖像去噪和去模糊等問題,代表性的方法包括中值濾波、同態(tài)濾波、維納濾波、約束最小二乘濾波、加權最小二乘法、Lucy-Richardson解卷積算法等。隨后,以正則化和字典學習為代表的稀疏編碼方法因其出色的性能表現(xiàn)逐漸成為圖像復原方法的主流。從貝葉斯觀點來看,正則項對應圖像的先驗分布,因此,圖像復原的好壞與選取的圖像先驗關系密切。與濾波方法相比,稀疏編碼提供了一種更為精確、有效的手段來刻畫圖像先驗,往往能夠取得非常優(yōu)異的表現(xiàn)。這一時期針對圖像去噪和去模糊問題,涌現(xiàn)出大量的研究工作和性能優(yōu)異的算法,如針對自然圖像去噪的Fields of Experts (FOE)模型、Block-Matching 3D (BM3D)算法、基于K-SVD的圖像去噪算法,以及針對圖像去模糊問題的TV范數(shù)、L1范數(shù)以及Lp范數(shù)正則化算法等。近年來,隨著深度學習熱潮的興起,基于數(shù)據驅動的、可端到端學習的圖像復原方法逐漸獲得研究者青睞。受益于神經網絡強大的模型表示能力,研究者嘗試用深度神經網絡來隱式的刻畫圖像先驗以及圖像退化模型。通過將其納入生成對抗網絡框架,從而將圖像復原問題轉化成一個圖像生成問題。該方法的優(yōu)勢在于可將多種類型的圖像增強與復原問題納入一個統(tǒng)一的計算框架來處理。未來,圖像復原問題仍將是一個有待繼續(xù)深入研究的問題。相關領域知識的有效嵌入以及高效便捷計算模型的構建仍將是圖像增強與復原研究關注的重點。
由于圖像增強與復原研究涉及不適定問題的求解以及高維空間中圖像先驗的表示與學習等多個問題,該研究也從客觀上推動了圖像稀疏編碼、圖像深度編碼、圖像先驗表示與正則化學習等研究的進展。此外,作為圖像處理領域中的一個經典研究問題,圖像增強與復原也成為新的圖像表示理論與算法研究的試金石。作為提升圖像視覺質量的一種有效手段,圖像增強與復原在底層視覺、計算成像、文字識別、虹膜識別、指紋識別、人臉識別、目標跟蹤、視頻監(jiān)控等眾多領域獲得了廣泛的應用。
4. 圖像特征提取與匹配
圖像特征提取和匹配的目的是對不同圖像中相同或相似的基元建立對應關系,基元也稱為圖像特征,常用的圖像特征包括點、直線/曲線、區(qū)域,因此根據使用的特征不同,圖像特征匹配又分為點匹配、直線/曲線匹配、區(qū)域匹配,而從圖像中自動提取這些特征的過程也稱為圖像特征提取。相對來說,點匹配的應用最廣,更受研究人員關注。點匹配又可分為稠密點匹配和稀疏點匹配。稠密點匹配的任務是建立圖像之間逐像素的對應關系,廣泛應用于立體視覺、光流、運動場估計等計算機視覺任務中。特征點匹配包括特征點檢測、特征點描述、匹配模型的魯棒估計三部分內容,旨在建立圖像之間的稀疏點對應關系。
對于稠密點匹配,早期工作主要是局部匹配與全局優(yōu)化相結合的方法,比較有代表性的工作是基于圖割的方法和基于信念傳播的方法,目前的研究重點則集中在利用深度學習解決該問題。相對于稠密點匹配,特征點匹配應用更廣,是主流的特征匹配方法。其中的特征點檢測算法用于檢測圖像上的角點和斑點,以使得不同圖像中的相同點能被重復檢測,這是進行特征點匹配的基本前提。早期的Harris角點檢測算法一直使用至今,并產生了許多改進算法,而FAST角點檢測算子則是快速特征點檢測的首選算法;斑點檢測算法中比較有代表性的工作是SIFT特征點檢測算法以及基于積分圖技術對它的改進算法SURF。特征點描述的目的是根據特征點周圍的圖像信息建立一個向量對其進行表達,以建立不同圖像間相同特征點的對應關系,分為基于專家知識設計的方法和基于學習的方法?;诜謮K梯度方向直方圖設計的SIFT算法是基于專家知識設計的諸多特征描述方法中的杰出代表,在其基礎上改進的著名特征描述方法還有SURF,其在后來的二進制局部特征(如ORB,BRISK等)出現(xiàn)之前的很長一段時間,一直都是作為SIFT在速度要求高的場合的替代算法,同樣獲得了廣泛的應用。隨著深度學習的興起,特征點描述領域在2017年基本完成了從基于專家知識設計的方法到基于深度學習的方法的轉變,利用卷積神經網絡強大的特征表達能力基于成對的匹配/不匹配圖像塊自動學習得到區(qū)分能力強、魯棒性好的特征描述子。目前,面向特征描述使用較多的網絡結構是L2Net。此外,將特征點檢測和特征點描述兩個具有內在關聯(lián)的任務統(tǒng)一起來用深度網絡求解是目前流行的方法,代表性工作有LIFT、RF-Net、D2Net、R2D2。魯棒的模型估計研究從包含錯誤匹配點的點匹配集合中計算出真實變換模型的方法,廣泛使用的方法是RANSAC。此外,如何對特征點匹配結果進行誤匹配去除一直都受到研究人員的關注,主要有基于圖匹配的方法和基于運動一致性的方法,如GMS、CODE,近年來,也出現(xiàn)了一些利用深度學習進行錯誤特征點匹配過濾的方法,總體思路是將一對匹配特征點看做一個四維向量,研究深度學習方法以四維向量集合作為輸入,挖掘集合中不同點之間的上下文關系,推理得到誤匹配特征點。
圖像特征提取和匹配產生了廣泛的影響,如受SIFT啟發(fā)出現(xiàn)的HoG特征則在目標檢測領域產生了重要影響,是深度學習出現(xiàn)之前目標檢測領域的首選特征;局部圖像特征點提取和描述直接催生了基于詞袋模型的圖像表示研究,是前深度學習時代圖像分類、識別的主要方法;以圖像特征點匹配為基礎的全景圖像拼接技術已經走進了千家萬戶,在日常生活中得到廣泛使用;此外,特征點匹配還廣泛應用于三維重建、視覺定位、攝像機標定等三維計算機視覺任務,在增強現(xiàn)實、基于視覺的定位、城市數(shù)字化、自動駕駛等新興應用中發(fā)揮著重要作用。
5. 多視幾何理論
多視圖幾何是計算機視覺研究中幾何視覺(Geometric Computer Vision)所使用的基本數(shù)學理論,主要研究在射影變換下,不同視角二維圖像對應點之間,以及圖像點與三維場景、相機模型之間的幾何約束理論和計算方法,進而實現(xiàn)通過二維圖像恢復和理解場景的三維幾何屬性。多視圖幾何建立在嚴格的代數(shù)和幾何理論之上,并發(fā)展出了一系列解析計算方法和非線性優(yōu)化算法,是三維重建、視覺SLAM、視覺定位等三維幾何視覺問題所使用的基本數(shù)學理論。多視圖幾何研究的代表人物包括澳大利亞國立大學的R. Hartely、英國牛津大學的A. Zisserman、法國國家信息與自動化研究所的O. Faugeras等學者,2000年由R. Hartely和A. Zisserman合著的著作《Multiple View Geometry in Computer Vision》對這方面的研究工作做出了比較系統(tǒng)的總結??梢哉f,多視圖幾何的理論研究在2000年左右已基本完善。
多視圖幾何主要研究兩幅圖像對應點之間的對極幾何約束(Epipolar Geometry),三幅圖像對應點之間的三焦張量約束(Tri-focal Tensor),空間平面點到圖像點或多幅圖像點之間的單應約束(Homography)等。多視圖幾何的核心算法包括三角化、八點法估計基本矩陣、五點法估計本質矩陣、多視圖因式分解法、基于Kruppa方程的相機自標定等解析計算方法,以及以捆綁調整(Bundle Adjustment)為代表的迭代優(yōu)化方法。多視圖幾何中最核心的理論是從1990年至2000年左右建立起來的分層重建理論。分層重建的基本思想是在從圖像到三維歐氏空間的重建過程中,先從圖像空間得到射影空間下的重建(11個未知數(shù)),然后將射影空間下的重建提升到仿射空間(3個未知數(shù)),最后將仿射空間下的重建提升到歐氏空間(5個未知數(shù))。在分層重建理論中,從圖像對應點進行射影重建,就是確定射影空間下每幅圖像對應的投影矩陣的過程;從射影重建到仿射重建,在于確定無窮遠平面在射影重建下(某個特定射影坐標系)的對應坐標向量;從仿射重建到度量重建,本質上在于確定相機的內參數(shù)矩陣,即相機的自標定過程。由于任何一個幾何視覺問題最終都可以轉化為一個多參數(shù)非線性優(yōu)化問題,而非線性優(yōu)化的困難在于找到一個合理的初值。待優(yōu)化的參數(shù)越多,一般來說解空間越復雜,尋找合適的初值越困難,所以,如果一個優(yōu)化問題如能將參數(shù)分組分步優(yōu)化,則一般可以大大簡化優(yōu)化問題的難度。分層重建理論由于每一步重建過程中涉及到的未知變量少,幾何意義明確,因此算法的魯棒性得到了有效提高。
多視圖幾何和分層重建是計算機視覺發(fā)展歷程中的一個重要的理論成果,其本身的理論框架已經構建的比較完善。隨著相機制作水平的提高,傳統(tǒng)小孔成像模型下的相機內參數(shù)通??梢院喕癁橹挥薪咕嘁粋€內參數(shù)需要標定,且焦距的粗略數(shù)值通常可以從圖像的EXIF頭文件中讀出,因此相機的內參數(shù)通??梢哉J為是已知的。此時基于兩幅圖像之間的本質矩陣約束,通過五點法可以求解兩幅圖像之間的外參數(shù)(旋轉和平移向量),進而直接進行三維重建,而不再需要分層進行重建。盡管如此,多視圖幾何和分層重建由于其理論的優(yōu)美性和數(shù)學的完備性,其在計算機視覺尤其是幾何視覺領域仍然是不可或缺的。
6. 攝像機標定與視覺定位
攝像機的參數(shù)包括內參數(shù)與外參數(shù)。內參數(shù)包括焦距、縱橫比、斜參數(shù)、主點等,屬于相機的內在屬性。外參數(shù)是指攝像機的運動參數(shù),包括攝像機運動的旋轉矩陣與平移向量。對攝像機內外參數(shù)的求解可以統(tǒng)稱為攝像機標定。對攝像機機外參數(shù)求解,又可以稱為攝像機定位或視覺定位。
攝像機內參數(shù)標定分為基于先驗信息的標定和自標定。首先介紹基于先驗信息標定方法:1986年Tsai提出了利用三維標定物的兩步法。由于三維標定物的制作要求工藝較高,且容易發(fā)生遮擋,1999年,Zhang提出了基于二維棋盤格的標定法,該方法簡單易用,在工業(yè)界與學術界被大家廣泛使用。自標定方法中,最重要的方法是1992年Faugeras提出的基于Kruppa方程的自標定法,通過圖像之間的匹配點,計算出圖像之間的基本矩陣,則可建立相機內參數(shù)的方程。通?;谙闰炐畔⒌臉硕ㄊ蔷€性問題,而自標定都是非線性的。由于Kruppa方程的原理簡單,方程容易建立,如何求解這類非線性問題也曾吸引了很多研究者。當相機參數(shù)較少時,Kruppa方程也可轉化為線性問題。之后,有比較重要影響的自標定方法是1997年,Triggs提出的基于絕對對偶二次曲面的自標定方法,其中需要射影重建,比Kruppa方程的自標定要復雜一些,但是可以避免一些退化的出現(xiàn)?;诮^對對偶二次曲面的自標定方法的重要性還體現(xiàn)在當相機自標定后,可以在射影重建的基礎上自然過渡到度量重建上。
攝像機定位可以分為兩大類,環(huán)境信息已知的方法和環(huán)境信息未知的方法。環(huán)境信息已知主要是PnP問題的研究,環(huán)境信息未知主要是SLAM (Simultaneous Localization and Mapping)的研究。PnP的研究最早起源于1841年。1841年及1903年Grunert Finsterwalder及Scheufele 研究得到P3P問題最多有4個解,P4P問題有唯一解。之后,開啟了PnP問題的系列研究。1999年Quan和Lan給出P4P、P5P的近似線性方法。當n大于等于6,PnP問題是線性的,最早的有影響力的該問題求解方法當屬Abdel-Aziz和H. M. Karara于1971年提出的直接線性變換法,目前使用最多的有效的處理方法是Lepetit等于2008年給出的EPnP方法。SLAM最早由Smith和Cheeseman于1986年提出,并于1995年在機器人研究研討會上被正式命名。SLAM技術具有重要的理論意義與應用價值,被許多學者認為是移動機器人實現(xiàn)真正自主的關鍵,甚至稱其為自主移動機器人界的圣杯。在2002年,Andrew Davison 首次實現(xiàn)了單目實時的SLAM系統(tǒng)MonoSLAM,其中采用了濾波的方法。從此機器人采用單目相機進行實時定位成為可能,也為單目相機下進行增強現(xiàn)實打下了重要的基礎。隨著計算機硬件的發(fā)展以及多視幾何理論的逐漸成熟,2007年,Klein和Murray提出了PTAM(Parallel Tracking and Mapping),拚棄之前濾波方法的主流框架,提出并實現(xiàn)了基于多視幾何理論的跟蹤與建圖過程的并行化。之后廣泛流行的Mur-Artal and Tardós 提出的ORB SLAM,正是在PTAM的框架基礎上修改而成。不考慮特征點,而是考慮圖像的梯度信息,直接基于圖像的光度一致性,2014年Engel等人提出了直接法的SLAM,不需要提取特征點、不需要計算描述子,達到了一個較高的跟蹤速度。最近幾年,也出現(xiàn)一系列的深度學習的視覺定位方法,代表性的工作有Tateno等于2017年提出的CNN-SLAM,Bloesch等于2018年提出的CodeSLAM,Xue等2019年提出的引入記憶模塊的VO方法。與傳統(tǒng)方法相比,基于深度學習的方法具有較高的魯棒性能。
攝像機內參數(shù)標定是計算機視覺的基礎,很多應用都是以標定內參數(shù)作為前提。攝像機定位是機器人、無人駕駛、增強現(xiàn)實、虛擬現(xiàn)實中的關鍵技術,具有廣泛的應用價值,不僅可以應用于工業(yè)領域,也可以在消費級領域中具有廣闊市場,吸引了大量的研究與關注。
*本文來自模式識別國家重點實驗室組織發(fā)布的模式識別學科發(fā)展報告,已得到模式識別國家重點實驗室授權發(fā)布。