CVPR 近5年最佳論文全盤點(diǎn)?。ê?023最新)
6月剛結(jié)束的CVPR會(huì)議大家關(guān)注了嗎?不得不說真的是神仙打架。學(xué)姐拜讀了一下,今年的best paper質(zhì)量依然炸裂,能從這么多優(yōu)質(zhì)論文中脫穎而出,用“萬里挑一”形容一點(diǎn)也不過分。
作為計(jì)算機(jī)視覺領(lǐng)域最具影響力的會(huì)議之一,CVPR往年的最佳論文也都非常有研究價(jià)值,所以今天學(xué)姐整理了近5年CVPR的最佳論文(2019-2023)來和大家分享。
論文原文和代碼都一并打包了??
掃碼添加小享,回復(fù)“CVPR最佳”?
免費(fèi)獲取全部論文+代碼合集


CVPR 2023
Best Paper 最佳論文獎(jiǎng)
1.Visual Programming: Compositional visual reasoning without training
總的來說,這篇文章提出了一種基于神經(jīng)符號(hào)方法的框架VISPROG,它可以根據(jù)自然語言指令解決復(fù)雜的視覺任務(wù)。作者相信這是一個(gè)使AI系統(tǒng)覆蓋更多復(fù)雜任務(wù)的有趣方式。
這篇最佳論文學(xué)姐之后會(huì)專門做一期詳細(xì)解析,大家可以收藏關(guān)注一下!

2.Planning-oriented Autonomous Driving
這篇論文提出了UniAD框架,用于解決自動(dòng)駕駛?cè)蝿?wù)。

現(xiàn)代自動(dòng)駕駛系統(tǒng)通過車輛感知、預(yù)測和規(guī)劃這三個(gè)模塊實(shí)現(xiàn)。當(dāng)前方法要么使用單獨(dú)模型來實(shí)現(xiàn)每個(gè)任務(wù),要么設(shè)計(jì)多任務(wù)學(xué)習(xí)來分離不同子任務(wù)。但是它們可能會(huì)經(jīng)受累積錯(cuò)誤或任務(wù)協(xié)調(diào)不足。
作者認(rèn)為應(yīng)該設(shè)計(jì)一個(gè)框架來實(shí)現(xiàn)最終目標(biāo):自動(dòng)駕駛規(guī)劃。根據(jù)這個(gè)觀點(diǎn),研究者重新審視感知和預(yù)測模塊,并將任務(wù)優(yōu)先級(jí)設(shè)置為實(shí)現(xiàn)規(guī)劃,提出了UniAD框架,能夠?qū)⑼暾鸟{駛?cè)蝿?wù)集成到一個(gè)網(wǎng)絡(luò)中。
UniAD設(shè)計(jì)利用每個(gè)模塊的優(yōu)勢,并提供全局視角下的特征抽象來促進(jìn) agent 交互。任務(wù)通過統(tǒng)一的查詢接口交流,相互促進(jìn)來實(shí)現(xiàn)規(guī)劃。實(shí)驗(yàn)表明,該框架的理念能夠顯著超越先前的先進(jìn)水平。
Honorable Mention 最佳論文榮譽(yù)提名獎(jiǎng)
3.DynIBaR: Neural Dynamic Image-Based Rendering
這篇論文提出了一種方法來從單目視頻中合成新視點(diǎn)。

當(dāng)前基于時(shí)變 Neural Radiance Fields (動(dòng)態(tài) NeRF) 的方法在這個(gè)任務(wù)上表現(xiàn)出令人印象深刻的效果。但是對于長視頻和復(fù)雜的對象運(yùn)動(dòng)和無控制的相機(jī)軌跡,這些方法會(huì)產(chǎn)生模糊或不準(zhǔn)確的渲染,阻礙了它們在實(shí)際應(yīng)用中的使用。
該研究提出的解決方法不是將整個(gè)動(dòng)態(tài)場景編碼到 MLPs 的權(quán)重中,相反,它采用基于圖像的渲染框架,通過聚合場景運(yùn)動(dòng)感知的附近視圖中的特征,來合成新視點(diǎn)。這個(gè)系統(tǒng)保留了先前方法在建模復(fù)雜場景和視角依賴效果方面的優(yōu)勢,但也能夠從具有復(fù)雜場景動(dòng)力學(xué)和無限制相機(jī)軌跡的長視頻中合成真實(shí)感高的新視圖。實(shí)驗(yàn)表明,在動(dòng)態(tài)場景數(shù)據(jù)集上顯著優(yōu)于目前狀態(tài)齊進(jìn)方法。
Best Student Paper 最佳學(xué)生論文獎(jiǎng)
4.3D Registration with Maximal Cliques
這篇論文提出了一種基于最大種群的3D點(diǎn)云配準(zhǔn)方法。

3D點(diǎn)云配準(zhǔn)是一個(gè)基礎(chǔ)計(jì)算機(jī)視覺問題,它旨在搜索對準(zhǔn)點(diǎn)云對的 optimal pose。作者提出了一種基于最大種群的3D配準(zhǔn)方法,靈感來自放寬前最大種群約束,并在圖中挖掘更多局部一致信息來生成 pose假設(shè)。
首先構(gòu)建了一個(gè)兼容性圖來表示初步對應(yīng)關(guān)系之間的親和關(guān)系,然后搜索最大種群,每個(gè)種群代表一個(gè)一致集。然后執(zhí)行基于節(jié)點(diǎn)的種群選擇,每個(gè)節(jié)點(diǎn)對應(yīng)圖權(quán)重最大的最大種群。對于選擇的種群,使用SVD算法計(jì)算轉(zhuǎn)換假設(shè),并使用最佳假設(shè)進(jìn)行配準(zhǔn)。
實(shí)驗(yàn)表明方法顯著提高了配準(zhǔn)準(zhǔn)確性,超過了多種最新方法,并提高了深度學(xué)習(xí)方法的效果。在3DMatch/3DLoMatch數(shù)據(jù)集上,配合深度學(xué)習(xí)方法實(shí)現(xiàn)了95.7%/78.9%的配準(zhǔn)召回率
Honorable Mention (Student) 最佳學(xué)生論文榮譽(yù)提名獎(jiǎng)
5.DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation
被引用260次
這篇文章提出一種 personalize 大規(guī)模文本到圖像模型的方法。

大規(guī)模文本到圖像模型在AI進(jìn)化中取得了令人難以置信的進(jìn)步,能夠從給定的文本生成高質(zhì)量且多樣性的圖像。然而,這些模型缺乏模仿給定參考集中主體外觀并在不同上下文中生成新版畫的能力。
在這項(xiàng)工作中,研究者提出了一種 personalize 文本到圖像蒸鍍模型的新方法。只需要少量主體圖像作為輸入,研究者能夠微調(diào)預(yù)訓(xùn)練的文本到圖像模型,使之能夠與特定主體綁定獨(dú)一無二的標(biāo)識(shí)符。一旦主體映射到模型的輸出域,獨(dú)一無二的標(biāo)識(shí)符即可用于生成主體在不同場景下的真實(shí)感圖像。通過利用模型內(nèi)置的語義先驗(yàn)與新的自伴生類特定先驗(yàn)保真損失,研究者的技術(shù)能夠在參考圖像中未出現(xiàn)過的場景、姿勢、視角和照明條件下生成主體。研究者將這種技術(shù)應(yīng)用于多個(gè)之前不可能完成的任務(wù),包括主體再上下文化、文本指導(dǎo)視圖合成以及藝術(shù)渲染,同時(shí)保留主體的關(guān)鍵特征。作者還提供了一個(gè)新的數(shù)據(jù)集和評(píng)價(jià)協(xié)議來評(píng)價(jià)這一主體驅(qū)動(dòng)生成新任務(wù)。
CVPR 2022
Best Paper 最佳論文獎(jiǎng)
1.Learning to Solve Hard Minimal Problems
作者提出一種在RANSAC框架下有效解決幾何優(yōu)化問題的方法,設(shè)計(jì)了一個(gè)學(xué)習(xí)策略來選擇起始問題-解決方案配對,并通過實(shí)現(xiàn)RANSAC求解器來解決三個(gè)校準(zhǔn)相機(jī)的相對姿態(tài)問題來展示他們的方法。
Honorable Mention 最佳論文榮譽(yù)提名獎(jiǎng)
2.Dual-Shutter Optical Vibration Sensing
作者提出一種新的高速視覺振動(dòng)計(jì)方法,方法使用兩個(gè)不同快門類型的相機(jī)同時(shí)捕獲場景,從而實(shí)現(xiàn)高達(dá)63kHz的感知速度。
Best Student Paper 最佳學(xué)生論文獎(jiǎng)
3.EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation
這篇論文提出了一個(gè)概率化的PnP方法,將Softmax帶入連續(xù)域,并通過學(xué)習(xí)2D-3D點(diǎn)的分布來解決定向3D對象的問題。實(shí)驗(yàn)表明方法提升了姿態(tài)估計(jì)的效果。
Honorable Mention (Student)最佳學(xué)生論文榮譽(yù)提名獎(jiǎng)
4.Ref-NeRF: Structured View-Dependent Appearance for Neural Radiance Fields
被引用114次
作者提出了Ref-NeRF來解決NeRF在反射表面表現(xiàn)不佳的問題。Ref-NeRF使用反射輻射表示與基于場景屬性的函數(shù),而不是NeRF使用的參數(shù)化視圖依賴輻射。實(shí)驗(yàn)表明Ref-NeRF改進(jìn)了場景中反射表面外觀的真實(shí)性和精度。
掃碼添加小享,回復(fù)“CVPR最佳”?
免費(fèi)獲取全部論文+代碼合集


CVPR 2021
Best Paper 最佳論文獎(jiǎng)
1.GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields
被引用517次
作者通過將組成性3D場景表示納入生成模型,實(shí)現(xiàn)了更可控的圖像合成。實(shí)驗(yàn)結(jié)果表明,該模型能夠有效解耦單個(gè)物體,并且具有很高的可控性。
Honorable Mention 最佳論文榮譽(yù)提名獎(jiǎng)
2.Exploring Simple Siamese Representation Learning
被引用2296次
這篇論文發(fā)現(xiàn)簡單的Siamese網(wǎng)絡(luò)就可以學(xué)習(xí)有意義的表示,而不需要一些常見的假設(shè)。作者指出停止梯度操作起著關(guān)鍵作用,并提供了實(shí)驗(yàn)驗(yàn)證其假設(shè)。
實(shí)驗(yàn)表明:
簡單的Siamese網(wǎng)絡(luò)可以學(xué)習(xí)有意義的表示
停止梯度操作可以防止劣解
"SimSiam"方法取得與SOTA同樣結(jié)果
這簡單的基準(zhǔn)可以讓人重新思考Siamese在無監(jiān)督表示學(xué)習(xí)中的作用
3.Learning High Fidelity Depths of Dressed Humans by Watching Social Media Dance Videos
這篇論文利用社交視頻的動(dòng)態(tài)信息來補(bǔ)充缺少的ground truth,進(jìn)而學(xué)習(xí)穿著人體更精細(xì)的幾何信息。提出的端到端方法能生成高保真深度估計(jì)。
Best Student Paper 最佳學(xué)生論文獎(jiǎng)
4.Task Programming: Learning Data Efficient Behavior Representations
這篇文章提出了一種通過多任務(wù)自監(jiān)督學(xué)習(xí)來高效學(xué)習(xí)嵌入的方法,以減少行為分析領(lǐng)域?qū)<业臉?biāo)注工作量。作者通過"任務(wù)編程"這一過程來有效構(gòu)建任務(wù),同時(shí)證明可以大大減少專家工作量。
Honorable Mention (Student) 最佳學(xué)生論文榮譽(yù)提名獎(jiǎng)
5.Less is More: ClipBERT for Video-and-Language Learning via Sparse Sampling
被引用355次
這篇文章總結(jié)了ClipBERT框架,它通過稀疏采樣實(shí)現(xiàn)視頻和語言任務(wù)的端到端學(xué)習(xí)。從而超越使用全長視頻離線特征的方法。實(shí)驗(yàn)表明少量與稀疏采樣幀往往比密集全長視頻特征更準(zhǔn)確。
6.Binary TTC: A Temporal Geofence for Autonomous Navigation
概述了一種快速估計(jì)時(shí)至撞擊(TTC)的新方法。作者通過一系列二值分類來近似TTC,使其可以在6.4ms的低延遲下提供臨界撞擊時(shí)間,足以在實(shí)時(shí)中用于路徑規(guī)劃。
7.Real-Time High-Resolution Background Matting
被引用122次
這篇論文提出了一種實(shí)時(shí)高分辨率的背景替換技術(shù),這種技術(shù)可以實(shí)現(xiàn)4K下30fps、HD下60fps的實(shí)時(shí)高分辨率背景替換。它利用兩個(gè)神經(jīng)網(wǎng)絡(luò)計(jì)算高質(zhì)量alpha摳圖,并考慮保留毛發(fā)細(xì)節(jié)。作者同時(shí)提出兩個(gè)大規(guī)模的視頻和圖像摳圖數(shù)據(jù)集用來訓(xùn)練模型。實(shí)驗(yàn)證明該方法效果優(yōu)于先前技術(shù),同時(shí)在速度和分辨率方面有顯著提升。
CVPR 2020
Best Paper 最佳論文獎(jiǎng)
1.Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild
被引用244次
論文總結(jié)了一種從單視圖圖像無監(jiān)督學(xué)習(xí)3D可變形物體類別的方法,這種方法利用了物體對稱性這一先驗(yàn),通過自編碼器分解輸入圖像來學(xué)習(xí)3D物體類別。作者進(jìn)一步建??赡艿灰欢▽ΨQ的物體,從而應(yīng)對更廣泛的場景。實(shí)驗(yàn)表明方法可以從單視圖圖像準(zhǔn)確地重建3D形狀。
Best Student Paper 最佳學(xué)生論文
2.BSP-Net: Generating Compact Meshes via Binary Space Partitioning
被引用206次
論文概括了 BSP-Net:一種基于凸分解的無監(jiān)督多邊形網(wǎng)格學(xué)習(xí)方法。該方法利用 BSP 樹來訓(xùn)練網(wǎng)絡(luò),從而從訓(xùn)練集中學(xué)習(xí)到凸分解。生成的多邊形網(wǎng)格緊湊、水密且尖銳。
Honorable Mention (Student) 最佳學(xué)生論文提名獎(jiǎng)
3.DeepCap: Monocular Human Performance Capture Using Weak Supervision
被引用152次
這篇文章提出了一種基于深度學(xué)習(xí)的單目密集人體動(dòng)作捕捉方法。該方法通過基于多視點(diǎn)的弱監(jiān)督訓(xùn)練,從而完全避免需要3D ground truth的數(shù)據(jù)。網(wǎng)絡(luò)結(jié)構(gòu)基于姿態(tài)估計(jì)和非剛性變形兩步,通過區(qū)分這兩部分任務(wù)來促進(jìn)模型學(xué)習(xí)。實(shí)驗(yàn)表明該方法在質(zhì)量和魯棒性上超過state of the art。
CVPR 2019
Best Paper 最佳論文獎(jiǎng)
1.A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruction
被引用155次
這篇文章提出了基于費(fèi)馬光路徑原理和瞬態(tài)成像的新理論和算法,能夠重建非視線隱蔽物體。它利用瞬態(tài)測量的中斷點(diǎn)來約束物體法線方向,從而實(shí)現(xiàn)準(zhǔn)確的物體形狀重建。實(shí)驗(yàn)表明,該方法可以重建周邊隱蔽和散射隱蔽的復(fù)雜物體形狀。這是一個(gè)重要的進(jìn)步,能實(shí)現(xiàn)毫米和微米尺度下的非視線物體重建。
Honorable Mention 最佳論文榮譽(yù)提名獎(jiǎng)
2.A Style-Based Generator Architecture for Generative Adversarial Networks
被引用7419次
論文概述了一種基于風(fēng)格遷移文獻(xiàn)的GAN生成器架構(gòu),可以自動(dòng)學(xué)習(xí)高級(jí)屬性和隨機(jī)變化的分離,并提供直觀的縮放控制。實(shí)驗(yàn)表明,該生成器在傳統(tǒng)分布度量上優(yōu)于state-of-the-art,插值和分解變化因素上也有更好的表現(xiàn)。研究者還提出兩個(gè)新的方法來量化插值質(zhì)量和分解,并介紹了一個(gè)新的人臉數(shù)據(jù)集。
3.Learning the Depths of Moving People by Watching Frozen People
被引用217次
這篇文章提出一種利用人體姿態(tài)先驗(yàn)的方法來預(yù)測場景中人和相機(jī)移動(dòng)時(shí)的密集深度。研究者使用模仿模特的視頻作為新的數(shù)據(jù)來源來學(xué)習(xí)人體深度先驗(yàn)。在推理時(shí),使用場景靜止區(qū)域的運(yùn)動(dòng)視差線索來指導(dǎo)深度預(yù)測。實(shí)驗(yàn)表明方法能夠預(yù)測復(fù)雜人體動(dòng)作序列中的密集深度,并展示相比state-of-the-art的提升。
Best Student Paper 最佳學(xué)生論文獎(jiǎng)
4.Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation
被引用414次
這篇論文研究如何解決視覺語言導(dǎo)航(VLN)三個(gè)關(guān)鍵挑戰(zhàn):跨模態(tài)匹配、模糊反饋和廣度化問題。
作者提出強(qiáng)化跨模態(tài)匹配(RCM)方法,通過強(qiáng)化學(xué)習(xí)聯(lián)合地 enforcing 跨模態(tài)對應(yīng)性。具體來說,匹配 critic 用來提供內(nèi)部獎(jiǎng)勵(lì),鼓勵(lì)指令和軌跡之間的全局匹配。一個(gè)推理導(dǎo)航器用于在局部視覺場景中進(jìn)行跨模態(tài)匹配。
實(shí)驗(yàn)結(jié)果表明該方法達(dá)到新的 ?state-of-the-art 性能,且具有很好的廣度化能力。這對視覺語言導(dǎo)航任務(wù)有重大意義。
掃碼添加小享,回復(fù)“CVPR最佳”?
免費(fèi)獲取全部論文+代碼合集

