国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網 會員登陸 & 注冊

【課堂筆記】計算機視覺若干研究課題報告

2022-04-08 14:09 作者:梅狄威爾  | 我要投稿


1. 視覺:人類獲取信息的主要方式

a. 朱松純,計算機視覺國際權威

b. 計算機:最好的論文發(fā)到會議(以及期刊)上

i. CVPR

ii. ICCV

iii. ECCV

2. 計算機視覺簡單介紹

a. 利用攝像機以及電腦替代人眼對目標進行識別、跟蹤、測量和判斷決策等,并進一步做圖形處理,使電腦處理的信息稱為更適合人眼觀察或傳送給儀器檢測的圖像。

b. 發(fā)展歷史

i. Marr計算視覺

ii. 多視幾何與分層三維重建

1) 精度很高,目前很多應用場景下有很重要的應用。攝影測量很多人都在做。

2) 成本較高,不夠自動化,不夠快(相較于深度學習)。

a) 例如:該方法重建A杯子過程中的“經驗”,不能用于重建B杯子。(因為沒有學習過程)

3) 渲染:能夠把光纖的折射、散射等等都追蹤出來;而三維重建重在幾何的重建,難以像渲染一樣,把顏色等等也恢復出來。

iii. 基于學習的視覺(深度學習)

c. 不一樣的思路:“計算機式的處理方法”vs“類腦的處理方法”?(不同的研究人員會采用不一樣的方式)

d. 一些Topics

i. 3D from a single image and shape-from-x

1) 讓主播變成3D的

2) 醫(yī)學上應用

ii. Detection and localization in 2D and 3D

iii. Image and video synthesis

1) 一些不靠譜的應用:可見光生成SAR?醫(yī)學上的某個影像生成另一個影像?→可能沒什么用,因為可能做出來的都是假的。

2) 比較踏實的應用:做娛樂

iv. Recognition and classification

v. Transfer/Low-shot/Semi/Unsupervised Learning

1) 機器學習依賴于樣本和標注→醫(yī)學+計算機視覺發(fā)論文,重要的是數(shù)據(jù)集大小。因此一些Nature/Science上的醫(yī)學+計算機視覺的文章可能作者達到幾十上百個

2) 此處的思路:模型的復用

a) Transfer:模型修改一下用到別的地方

b) Low-shot

c) Semi-Unsupervised:半監(jiān)督/無監(jiān)督

e. “數(shù)據(jù)標注公司”

f. 目前計算機的會議,都要求放代碼,放數(shù)據(jù)。因此對什么方法感興趣,去看論文,復現(xiàn)通常不是很難。

g. “人工智能”的三起三落:

i. …支持向量機的提出…

3. 一些Topics介紹

a. 目標檢測:輸入一張圖像,輸出圖像中的物體位置和類別

i. 位置:用Bounding Box描述,也可以通過像素的集合描述

ii. 過程

1) Object Classification

2) Generic Object Detection(Bounding Box,Localization)

3) Sematic Segmentation

4) Object Instance Segmentation

iii. 問題:

1) 目標(前景)之外的“背景”的識別——還要區(qū)分“是背景”和“不是背景”的部分

2) 訓練集中標注的“目標”太大→不適用于衛(wèi)星遙感影像(目標太?。饕獞门c無人機遙感影像等等

3) 到21、22年:基本上提出的網絡,都能考到“100分”→目前的發(fā)展方向:加噪聲、限定訓練集大小等等,期望網絡在此條件下表現(xiàn)也能很好。

a) 加干擾(擾動)→神經網絡攻擊→對抗

b) 為什么要用“攻擊”描述?

i) 此前的一些識別算法是“可解釋”的,因此比如如果加擾動之后,發(fā)現(xiàn)不對了,能找出是哪個地方不對。而深度網絡,過于復雜,加擾動識別出錯之后不知道是哪里出錯了??梢砸暈檫@個網絡在擾動下整個就不行了。

ii) 應用前景:自動駕駛,如果通過一些擾動,使得其識別結果出現(xiàn)很大的錯誤,就會造成事故

iii) 神經網絡的進攻與防御:自己的網絡不要讓別人知道

4) 在訓練集上很好,在真實世界中表現(xiàn)差?Towards Open World Object Detection(github.com/JosephKJ/OWOD)

a) 解決問題:不要強行分類。還要分出“不認識”的類。(即:可以“拒絕”)

iv. 方法:

1) Two Stage Detection Framework:含Region Proposal,先獲取ROI,然后對ROI進行識別和回歸Bounding Box,以RCNN系列方法為代表。

2) One Stage Detection Framework:不含Region Proposal,將全圖grid化,對每個grid進行識別和回歸,以YOLO系列方法為代表

v. 主干網絡/多尺度/目標幾何形變/上下文信息/Detection Proposal Methods

b. 圖像分割:把圖像中的每個像素都劃分到某一個類別上

i. 常用數(shù)據(jù)集:Cityscapes、COCO、Pascal VOC、KITTI、PASCAL-Context等

ii. 代表算法:FCN、Mask R-CNN、RetinaNet、DeepLab系列、U-Net、Dilated Concolution、DRN、DANet

iii. 問題:大公司做的模型,不一定能復現(xiàn)得了(比如,Alpha Go,用了谷歌公司大量的卡。自己是顯然沒有這么多卡的)

iv. Domain Adaptation Semantic Segmentation

1) 用虛擬的去指導真實的?比如用GTA5、Synthia等等游戲場景,直接可以獲得一張每個像素都標注好的圖片,不花錢。

v. BoxInst:High-Performance Instance Segmentation with Box Annotations

1) “松弛”:比如——只拉一個框框住就行了,不需要逐像素標注了

c. 圖像處理:超分辨率、圖像修復、虛擬試穿

i. 超分辨率:由一副低分辨率圖像或圖像序列恢復出高分辨率圖像

1) Deep Learning for Image Super-resolution:A Survey

2) 單張圖片的超分辨率關鍵:需要有足夠的信息量來支持→要有“先驗”?在先驗的指導下,從小信息量到大信息量

3) 深度學習:本質上不是單張圖片超分辨的問題,因為它有基于學習的過程(幾十萬對低分辨率-高分辨率圖像對來供學習)

a) 對比:CNN——越卷越小,以提取特征;這里——反卷積、空洞卷積

b) 可學習的升采樣方法:轉置卷積、反卷積、亞像素卷積

ii. 圖像修復:對受到損壞的圖像進行修復重建或者去除圖像中的多余物體

1) VQ-VAE:修復結果有多最優(yōu)解?(缺損過大時,可能有很多種修復的可能性)

iii. 虛擬試穿:為參考任務穿上指定的服裝(和遙感關系不大)

1) 2D方法/3D方法

d. 人臉:人臉識別、人臉檢測、人臉生成、人臉編輯、人臉反欺騙

i. 目前的趨勢:人臉編輯、人臉反欺騙

ii. A Latent Transformer for Disentangled Face Editing in Images and Videos(github.com/DigitalInc/latent-transformer)

e. 3D:

i. 深度估計:估計RGB圖像中每個像素相對拍攝源的距離

1) Deep Learning for Monocular Depth Estimation:A Review(NeuroComputing 2021)

ii. NeRF(Neural Radiance Fields):三維重建、新視角合成、場景分解、場景編輯

1) dellaert.github.io/NeRF21

2) 涉及到顏色、光線等等(經典的3D模型:模型精度很高,但是紋理恢復不行;本方法:紋理恢復很不錯,但是模型精度較經典方法稍欠缺)

3) city-super.github.io/citynerf/

iii. 三維重建:根據(jù)單視圖或者多視圖的圖像重建三維信息(形狀、外觀等)

1) 需要建立三角網

2) 難度:在于精度

a) 中藥原材料的3D建模?→葉子很薄,建模很難

b) 大壩監(jiān)測:精度1m,本科生可以做到;精度1mm,院士團隊才能做到

c) 做口腔中的一些模型、心臟支架→精度要求更高

d) …

f. 目標跟蹤:在連續(xù)的視頻幀中定位某一物體

i. 基于生成式模型的方法

ii. 基于判別式模型的方法

iii. 基于深度學習的方法

iv. Jialianwu.com/projects/TraDeS.html

v. 問題1:視頻中的時空一致性;目標的暫時消失?

g. 文本檢測和識別:定位/識別中的文字

i. OCR:github.com/FangShancheng/ABINet

1) 考慮字的上下文信息等等約束

4. 計算機視覺的論文怎么讀:

a. 需要盡最大可能性閱讀最新論文,緊跟時代潮流(A類會議:中國計算機協(xié)會…)

i. 論文:審稿慢;會議:發(fā)表快。因此在計算機視覺這個競爭強的領域,大家傾向于發(fā)會議,以防止自己的成果被發(fā)表時已經過時

ii. 論文:可能會被別人拖,然后思路被別人拿走,搶先發(fā)表了。

b. 看大組的最新論文

c. 每篇論文都不會說自己的缺點,只會放大優(yōu)點(因為目前大家喜歡做短平快的工作)

d. 論文為了出成果,一般只會選擇對自己模型有力的數(shù)據(jù)集驗證(調通了性能不好,是一個比較好的事情。需要結合自己的應用目的,去改代碼,把性能提上來)

e. Code+Paper:論文因為要投稿和發(fā)表頂會,故意會云里霧里引入很多概念和公式,當對比代碼,關鍵trick,才能返璞歸真

f. 對于自己關注的領域,可能每篇有影響的,實驗結果不是state-of-the-art也要關注

g. 從原文閱讀思考(一些微信公眾號、知乎喜歡發(fā)讀后感,有時候卻理解不對)、和作者郵箱聯(lián)系尋找答案

5. A類論文的發(fā)表、審稿、寫作 → 看計算機學院的講座


【課堂筆記】計算機視覺若干研究課題報告的評論 (共 條)

分享到微博請遵守國家法律
延津县| 吴江市| 根河市| 神木县| 蛟河市| 上思县| 陕西省| 怀仁县| 江西省| 鸡东县| 吉木乃县| 惠东县| 湟中县| 滦平县| 旌德县| 尚义县| 呼玛县| 边坝县| 榆林市| 金昌市| 岗巴县| 普定县| 美姑县| 石棉县| 自治县| 巫溪县| 高邑县| 桓仁| 杂多县| 互助| 砚山县| 奉节县| 稻城县| 余干县| 错那县| 新化县| 林口县| 濮阳县| 和顺县| 宝兴县| 栾川县|