手機站首頁散文詩歌雜文隨筆日記小小說

散文網 » 生活 »日常 » 【課堂筆記】計算機視覺若干研究課題報告

【課堂筆記】計算機視覺若干研究課題報告

2022-04-08 14:09 作者:梅狄威爾 0人讀過 | 我要投稿

1. 視覺：人類獲取信息的主要方式

a. 朱松純，計算機視覺國際權威

b. 計算機：最好的論文發(fā)到會議（以及期刊）上

i. CVPR

ii. ICCV

iii. ECCV

2. 計算機視覺簡單介紹

a. 利用攝像機以及電腦替代人眼對目標進行識別、跟蹤、測量和判斷決策等，并進一步做圖形處理，使電腦處理的信息稱為更適合人眼觀察或傳送給儀器檢測的圖像。

b. 發(fā)展歷史

i. Marr計算視覺

ii. 多視幾何與分層三維重建

1) 精度很高，目前很多應用場景下有很重要的應用。攝影測量很多人都在做。

2) 成本較高，不夠自動化，不夠快（相較于深度學習）。

a) 例如：該方法重建A杯子過程中的“經驗”，不能用于重建B杯子。（因為沒有學習過程）

3) 渲染：能夠把光纖的折射、散射等等都追蹤出來；而三維重建重在幾何的重建，難以像渲染一樣，把顏色等等也恢復出來。

iii. 基于學習的視覺（深度學習）

c. 不一樣的思路：“計算機式的處理方法”vs“類腦的處理方法”？（不同的研究人員會采用不一樣的方式）

d. 一些Topics

i. 3D from a single image and shape-from-x

1) 讓主播變成3D的

2) 醫(yī)學上應用

ii. Detection and localization in 2D and 3D

iii. Image and video synthesis

1) 一些不靠譜的應用：可見光生成SAR？醫(yī)學上的某個影像生成另一個影像？→可能沒什么用，因為可能做出來的都是假的。

2) 比較踏實的應用：做娛樂

iv. Recognition and classification

v. Transfer/Low-shot/Semi/Unsupervised Learning

1) 機器學習依賴于樣本和標注→醫(yī)學+計算機視覺發(fā)論文，重要的是數(shù)據(jù)集大小。因此一些Nature/Science上的醫(yī)學+計算機視覺的文章可能作者達到幾十上百個

2) 此處的思路：模型的復用

a) Transfer：模型修改一下用到別的地方

b) Low-shot

c) Semi-Unsupervised：半監(jiān)督/無監(jiān)督

e. “數(shù)據(jù)標注公司”

f. 目前計算機的會議，都要求放代碼，放數(shù)據(jù)。因此對什么方法感興趣，去看論文，復現(xiàn)通常不是很難。

g. “人工智能”的三起三落：

i. …支持向量機的提出…

3. 一些Topics介紹

a. 目標檢測：輸入一張圖像，輸出圖像中的物體位置和類別

i. 位置：用Bounding Box描述，也可以通過像素的集合描述

ii. 過程

1) Object Classification

2) Generic Object Detection（Bounding Box，Localization）

3) Sematic Segmentation

4) Object Instance Segmentation

iii. 問題：

1) 目標（前景）之外的“背景”的識別——還要區(qū)分“是背景”和“不是背景”的部分

2) 訓練集中標注的“目標”太大→不適用于衛(wèi)星遙感影像（目標太?。饕獞门c無人機遙感影像等等

3) 到21、22年：基本上提出的網絡，都能考到“100分”→目前的發(fā)展方向：加噪聲、限定訓練集大小等等，期望網絡在此條件下表現(xiàn)也能很好。

a) 加干擾（擾動）→神經網絡攻擊→對抗

b) 為什么要用“攻擊”描述？

i) 此前的一些識別算法是“可解釋”的，因此比如如果加擾動之后，發(fā)現(xiàn)不對了，能找出是哪個地方不對。而深度網絡，過于復雜，加擾動識別出錯之后不知道是哪里出錯了?？梢砸暈檫@個網絡在擾動下整個就不行了。

ii) 應用前景：自動駕駛，如果通過一些擾動，使得其識別結果出現(xiàn)很大的錯誤，就會造成事故

iii) 神經網絡的進攻與防御：自己的網絡不要讓別人知道

4) 在訓練集上很好，在真實世界中表現(xiàn)差？Towards Open World Object Detection（github.com/JosephKJ/OWOD）

a) 解決問題：不要強行分類。還要分出“不認識”的類。（即：可以“拒絕”）

iv. 方法：

1) Two Stage Detection Framework：含Region Proposal，先獲取ROI，然后對ROI進行識別和回歸Bounding Box，以RCNN系列方法為代表。

2) One Stage Detection Framework：不含Region Proposal，將全圖grid化，對每個grid進行識別和回歸，以YOLO系列方法為代表

v. 主干網絡/多尺度/目標幾何形變/上下文信息/Detection Proposal Methods

b. 圖像分割：把圖像中的每個像素都劃分到某一個類別上

i. 常用數(shù)據(jù)集：Cityscapes、COCO、Pascal VOC、KITTI、PASCAL-Context等

ii. 代表算法：FCN、Mask R-CNN、RetinaNet、DeepLab系列、U-Net、Dilated Concolution、DRN、DANet

iii. 問題：大公司做的模型，不一定能復現(xiàn)得了（比如，Alpha Go，用了谷歌公司大量的卡。自己是顯然沒有這么多卡的）

iv. Domain Adaptation Semantic Segmentation

1) 用虛擬的去指導真實的？比如用GTA5、Synthia等等游戲場景，直接可以獲得一張每個像素都標注好的圖片，不花錢。

v. BoxInst：High-Performance Instance Segmentation with Box Annotations

1) “松弛”：比如——只拉一個框框住就行了，不需要逐像素標注了

c. 圖像處理：超分辨率、圖像修復、虛擬試穿

i. 超分辨率：由一副低分辨率圖像或圖像序列恢復出高分辨率圖像

1) Deep Learning for Image Super-resolution：A Survey

2) 單張圖片的超分辨率關鍵：需要有足夠的信息量來支持→要有“先驗”？在先驗的指導下，從小信息量到大信息量

3) 深度學習：本質上不是單張圖片超分辨的問題，因為它有基于學習的過程（幾十萬對低分辨率-高分辨率圖像對來供學習）

a) 對比：CNN——越卷越小，以提取特征；這里——反卷積、空洞卷積

b) 可學習的升采樣方法：轉置卷積、反卷積、亞像素卷積

ii. 圖像修復：對受到損壞的圖像進行修復重建或者去除圖像中的多余物體

1) VQ-VAE：修復結果有多最優(yōu)解？（缺損過大時，可能有很多種修復的可能性）

iii. 虛擬試穿：為參考任務穿上指定的服裝（和遙感關系不大）

1) 2D方法/3D方法

d. 人臉：人臉識別、人臉檢測、人臉生成、人臉編輯、人臉反欺騙

i. 目前的趨勢：人臉編輯、人臉反欺騙

ii. A Latent Transformer for Disentangled Face Editing in Images and Videos（github.com/DigitalInc/latent-transformer）

e. 3D：

i. 深度估計：估計RGB圖像中每個像素相對拍攝源的距離

1) Deep Learning for Monocular Depth Estimation：A Review（NeuroComputing 2021）

ii. NeRF（Neural Radiance Fields）：三維重建、新視角合成、場景分解、場景編輯

1) dellaert.github.io/NeRF21

2) 涉及到顏色、光線等等（經典的3D模型：模型精度很高，但是紋理恢復不行；本方法：紋理恢復很不錯，但是模型精度較經典方法稍欠缺）

3) city-super.github.io/citynerf/

iii. 三維重建：根據(jù)單視圖或者多視圖的圖像重建三維信息（形狀、外觀等）

1) 需要建立三角網

2) 難度：在于精度

a) 中藥原材料的3D建模？→葉子很薄，建模很難

b) 大壩監(jiān)測：精度1m，本科生可以做到；精度1mm，院士團隊才能做到

c) 做口腔中的一些模型、心臟支架→精度要求更高

d) …

f. 目標跟蹤：在連續(xù)的視頻幀中定位某一物體

i. 基于生成式模型的方法

ii. 基于判別式模型的方法

iii. 基于深度學習的方法

iv. Jialianwu.com/projects/TraDeS.html

v. 問題1：視頻中的時空一致性；目標的暫時消失？

g. 文本檢測和識別：定位/識別中的文字

i. OCR：github.com/FangShancheng/ABINet

1) 考慮字的上下文信息等等約束

4. 計算機視覺的論文怎么讀：

a. 需要盡最大可能性閱讀最新論文，緊跟時代潮流（A類會議：中國計算機協(xié)會…）

i. 論文：審稿慢；會議：發(fā)表快。因此在計算機視覺這個競爭強的領域，大家傾向于發(fā)會議，以防止自己的成果被發(fā)表時已經過時

ii. 論文：可能會被別人拖，然后思路被別人拿走，搶先發(fā)表了。

b. 看大組的最新論文

c. 每篇論文都不會說自己的缺點，只會放大優(yōu)點（因為目前大家喜歡做短平快的工作）

d. 論文為了出成果，一般只會選擇對自己模型有力的數(shù)據(jù)集驗證（調通了性能不好，是一個比較好的事情。需要結合自己的應用目的，去改代碼，把性能提上來）

e. Code+Paper：論文因為要投稿和發(fā)表頂會，故意會云里霧里引入很多概念和公式，當對比代碼，關鍵trick，才能返璞歸真

f. 對于自己關注的領域，可能每篇有影響的，實驗結果不是state-of-the-art也要關注

g. 從原文閱讀思考（一些微信公眾號、知乎喜歡發(fā)讀后感，有時候卻理解不對）、和作者郵箱聯(lián)系尋找答案

5. A類論文的發(fā)表、審稿、寫作 → 看計算機學院的講座

標簽：

【課堂筆記】計算機視覺若干研究課題報告的評論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經典語句愛情句子作文大全

国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

【課堂筆記】計算機視覺若干研究課題報告

【課堂筆記】計算機視覺若干研究課題報告的評論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

【課堂筆記】計算機視覺若干研究課題報告

本文作者的其他文章

【課堂筆記】計算機視覺若干研究課題報告的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

【課堂筆記】計算機視覺若干研究課題報告的評論 (共條)