【課堂筆記】計算機視覺若干研究課題報告

1. 視覺:人類獲取信息的主要方式
a. 朱松純,計算機視覺國際權威
b. 計算機:最好的論文發(fā)到會議(以及期刊)上
i. CVPR
ii. ICCV
iii. ECCV
2. 計算機視覺簡單介紹
a. 利用攝像機以及電腦替代人眼對目標進行識別、跟蹤、測量和判斷決策等,并進一步做圖形處理,使電腦處理的信息稱為更適合人眼觀察或傳送給儀器檢測的圖像。
b. 發(fā)展歷史
i. Marr計算視覺
ii. 多視幾何與分層三維重建
1) 精度很高,目前很多應用場景下有很重要的應用。攝影測量很多人都在做。
2) 成本較高,不夠自動化,不夠快(相較于深度學習)。
a) 例如:該方法重建A杯子過程中的“經驗”,不能用于重建B杯子。(因為沒有學習過程)
3) 渲染:能夠把光纖的折射、散射等等都追蹤出來;而三維重建重在幾何的重建,難以像渲染一樣,把顏色等等也恢復出來。
iii. 基于學習的視覺(深度學習)
c. 不一樣的思路:“計算機式的處理方法”vs“類腦的處理方法”?(不同的研究人員會采用不一樣的方式)
d. 一些Topics
i. 3D from a single image and shape-from-x
1) 讓主播變成3D的
2) 醫(yī)學上應用
ii. Detection and localization in 2D and 3D
iii. Image and video synthesis
1) 一些不靠譜的應用:可見光生成SAR?醫(yī)學上的某個影像生成另一個影像?→可能沒什么用,因為可能做出來的都是假的。
2) 比較踏實的應用:做娛樂
iv. Recognition and classification
v. Transfer/Low-shot/Semi/Unsupervised Learning
1) 機器學習依賴于樣本和標注→醫(yī)學+計算機視覺發(fā)論文,重要的是數(shù)據(jù)集大小。因此一些Nature/Science上的醫(yī)學+計算機視覺的文章可能作者達到幾十上百個
2) 此處的思路:模型的復用
a) Transfer:模型修改一下用到別的地方
b) Low-shot
c) Semi-Unsupervised:半監(jiān)督/無監(jiān)督
e. “數(shù)據(jù)標注公司”
f. 目前計算機的會議,都要求放代碼,放數(shù)據(jù)。因此對什么方法感興趣,去看論文,復現(xiàn)通常不是很難。
g. “人工智能”的三起三落:
i. …支持向量機的提出…
3. 一些Topics介紹
a. 目標檢測:輸入一張圖像,輸出圖像中的物體位置和類別
i. 位置:用Bounding Box描述,也可以通過像素的集合描述
ii. 過程
1) Object Classification
2) Generic Object Detection(Bounding Box,Localization)
3) Sematic Segmentation
4) Object Instance Segmentation
iii. 問題:
1) 目標(前景)之外的“背景”的識別——還要區(qū)分“是背景”和“不是背景”的部分
2) 訓練集中標注的“目標”太大→不適用于衛(wèi)星遙感影像(目標太?。饕獞门c無人機遙感影像等等
3) 到21、22年:基本上提出的網絡,都能考到“100分”→目前的發(fā)展方向:加噪聲、限定訓練集大小等等,期望網絡在此條件下表現(xiàn)也能很好。
a) 加干擾(擾動)→神經網絡攻擊→對抗
b) 為什么要用“攻擊”描述?
i) 此前的一些識別算法是“可解釋”的,因此比如如果加擾動之后,發(fā)現(xiàn)不對了,能找出是哪個地方不對。而深度網絡,過于復雜,加擾動識別出錯之后不知道是哪里出錯了??梢砸暈檫@個網絡在擾動下整個就不行了。
ii) 應用前景:自動駕駛,如果通過一些擾動,使得其識別結果出現(xiàn)很大的錯誤,就會造成事故
iii) 神經網絡的進攻與防御:自己的網絡不要讓別人知道
4) 在訓練集上很好,在真實世界中表現(xiàn)差?Towards Open World Object Detection(github.com/JosephKJ/OWOD)
a) 解決問題:不要強行分類。還要分出“不認識”的類。(即:可以“拒絕”)
iv. 方法:
1) Two Stage Detection Framework:含Region Proposal,先獲取ROI,然后對ROI進行識別和回歸Bounding Box,以RCNN系列方法為代表。
2) One Stage Detection Framework:不含Region Proposal,將全圖grid化,對每個grid進行識別和回歸,以YOLO系列方法為代表
v. 主干網絡/多尺度/目標幾何形變/上下文信息/Detection Proposal Methods
b. 圖像分割:把圖像中的每個像素都劃分到某一個類別上
i. 常用數(shù)據(jù)集:Cityscapes、COCO、Pascal VOC、KITTI、PASCAL-Context等
ii. 代表算法:FCN、Mask R-CNN、RetinaNet、DeepLab系列、U-Net、Dilated Concolution、DRN、DANet
iii. 問題:大公司做的模型,不一定能復現(xiàn)得了(比如,Alpha Go,用了谷歌公司大量的卡。自己是顯然沒有這么多卡的)
iv. Domain Adaptation Semantic Segmentation
1) 用虛擬的去指導真實的?比如用GTA5、Synthia等等游戲場景,直接可以獲得一張每個像素都標注好的圖片,不花錢。
v. BoxInst:High-Performance Instance Segmentation with Box Annotations
1) “松弛”:比如——只拉一個框框住就行了,不需要逐像素標注了
c. 圖像處理:超分辨率、圖像修復、虛擬試穿
i. 超分辨率:由一副低分辨率圖像或圖像序列恢復出高分辨率圖像
1) Deep Learning for Image Super-resolution:A Survey
2) 單張圖片的超分辨率關鍵:需要有足夠的信息量來支持→要有“先驗”?在先驗的指導下,從小信息量到大信息量
3) 深度學習:本質上不是單張圖片超分辨的問題,因為它有基于學習的過程(幾十萬對低分辨率-高分辨率圖像對來供學習)
a) 對比:CNN——越卷越小,以提取特征;這里——反卷積、空洞卷積
b) 可學習的升采樣方法:轉置卷積、反卷積、亞像素卷積
ii. 圖像修復:對受到損壞的圖像進行修復重建或者去除圖像中的多余物體
1) VQ-VAE:修復結果有多最優(yōu)解?(缺損過大時,可能有很多種修復的可能性)
iii. 虛擬試穿:為參考任務穿上指定的服裝(和遙感關系不大)
1) 2D方法/3D方法
d. 人臉:人臉識別、人臉檢測、人臉生成、人臉編輯、人臉反欺騙
i. 目前的趨勢:人臉編輯、人臉反欺騙
ii. A Latent Transformer for Disentangled Face Editing in Images and Videos(github.com/DigitalInc/latent-transformer)
e. 3D:
i. 深度估計:估計RGB圖像中每個像素相對拍攝源的距離
1) Deep Learning for Monocular Depth Estimation:A Review(NeuroComputing 2021)
ii. NeRF(Neural Radiance Fields):三維重建、新視角合成、場景分解、場景編輯
1) dellaert.github.io/NeRF21
2) 涉及到顏色、光線等等(經典的3D模型:模型精度很高,但是紋理恢復不行;本方法:紋理恢復很不錯,但是模型精度較經典方法稍欠缺)
3) city-super.github.io/citynerf/
iii. 三維重建:根據(jù)單視圖或者多視圖的圖像重建三維信息(形狀、外觀等)
1) 需要建立三角網
2) 難度:在于精度
a) 中藥原材料的3D建模?→葉子很薄,建模很難
b) 大壩監(jiān)測:精度1m,本科生可以做到;精度1mm,院士團隊才能做到
c) 做口腔中的一些模型、心臟支架→精度要求更高
d) …
f. 目標跟蹤:在連續(xù)的視頻幀中定位某一物體
i. 基于生成式模型的方法
ii. 基于判別式模型的方法
iii. 基于深度學習的方法
iv. Jialianwu.com/projects/TraDeS.html
v. 問題1:視頻中的時空一致性;目標的暫時消失?
g. 文本檢測和識別:定位/識別中的文字
i. OCR:github.com/FangShancheng/ABINet
1) 考慮字的上下文信息等等約束
4. 計算機視覺的論文怎么讀:
a. 需要盡最大可能性閱讀最新論文,緊跟時代潮流(A類會議:中國計算機協(xié)會…)
i. 論文:審稿慢;會議:發(fā)表快。因此在計算機視覺這個競爭強的領域,大家傾向于發(fā)會議,以防止自己的成果被發(fā)表時已經過時
ii. 論文:可能會被別人拖,然后思路被別人拿走,搶先發(fā)表了。
b. 看大組的最新論文
c. 每篇論文都不會說自己的缺點,只會放大優(yōu)點(因為目前大家喜歡做短平快的工作)
d. 論文為了出成果,一般只會選擇對自己模型有力的數(shù)據(jù)集驗證(調通了性能不好,是一個比較好的事情。需要結合自己的應用目的,去改代碼,把性能提上來)
e. Code+Paper:論文因為要投稿和發(fā)表頂會,故意會云里霧里引入很多概念和公式,當對比代碼,關鍵trick,才能返璞歸真
f. 對于自己關注的領域,可能每篇有影響的,實驗結果不是state-of-the-art也要關注
g. 從原文閱讀思考(一些微信公眾號、知乎喜歡發(fā)讀后感,有時候卻理解不對)、和作者郵箱聯(lián)系尋找答案
5. A類論文的發(fā)表、審稿、寫作 → 看計算機學院的講座