推薦一堆講GAN方面的論文
最近終于有NLP方向的同學來問我,有咩有NLP方向的論文推薦了!我以為我的粉絲都是CV方向的呢!不要著急,下下周就開始給大家推薦NLP方向的經(jīng)典論文。如果你著急要,就先加入學姐的交流群領取一部分論文資料吧。
關注【學姐帶你玩AI】公眾號??點擊菜單領資料??點擊鏈接??加群??領資料
熱場完畢,我們來看論文——
GAN
給出GAN的基本框架和理論證明
期刊日期
2014 NIPS(NeurIPS)
論文名稱
《Generative Adversarial Nets》
描述
生成對抗網(wǎng)絡通過一個對抗步驟來估計生成模型,它同時訓練兩個模型:一個是獲取數(shù)據(jù)分布的生成模型G,一個是估計樣本來自訓練數(shù)據(jù)而不是G的概率的判別模型D。G的訓練步驟就是最大化D犯錯的概率。這個框架對應于一個二元極小極大博弈。在任意函數(shù)G和D的空間中,存在唯一解,G恢復數(shù)據(jù)分布,D總是等于1/2。在G和D通過多層感知機定義的情況下,整個系統(tǒng)通過反向傳播訓練。在訓練或者生成樣本過程中,不需要任何馬爾科夫鏈或者展開近似推理網(wǎng)絡。通過對生成樣本定性和定量分析,實驗證明了框架的潛力。
論文鏈接
https://arxiv.org/pdf/1406.2661.pdf
代碼:
https://github.com/goodfeli/adversarial
CGAN
在輸入中加入額外的條件信息來控制輸出
期刊日期
2014 arxiv 2014
論文名稱
《Conditional Generative Adversarial Nets》
描述
Conditional Generative Adversarial Networks,這是一種帶條件約束的生成對抗模型,它在生成模型(G)和判別模型(D)的建模中均引入了條件變量y,這里y可以是label,可以是tags,可以是來自不同模態(tài)是數(shù)據(jù),甚至可以是一張圖片,使用這個額外的條件變量,對于生成器對數(shù)據(jù)的生成具有指導作用,因此,Conditional Generative Adversarial Networks也可以看成是把無監(jiān)督的GAN變成有監(jiān)督模型的一種改進,這個改進也被證明是非常有效的,為后續(xù)的相關工作提供了指導作用。
論文鏈接
https://arxiv.org/abs/1411.1784
DCGAN
使用深度卷積神經(jīng)網(wǎng)絡來實現(xiàn)生成器和判別器
期刊日期
2015 ICLR
論文名稱
《Unsupervised representation learning with deep convolutional generative adversarial?? networks》
描述
近年來,使用卷積神經(jīng)網(wǎng)絡的監(jiān)督學習被大量應用于計算機視覺應用中。相對地,使用卷積神經(jīng)網(wǎng)絡的非監(jiān)督學習則被較少的關注。在這項工作中,我們希望可以幫助縮小監(jiān)督學習和非監(jiān)督學習在CNN的成功上差距。我們介紹了CNN的一個類,稱為深度卷積生成對抗網(wǎng)絡(DCGANs),這個網(wǎng)絡有著明確的結構約束,并且表明他們對非監(jiān)督學習有著強烈的可信度。
在不同的圖像數(shù)據(jù)集上訓練,我們展示出了令人信服的證據(jù),我們的深度卷積對抗對,從對象部分到場景,在生產(chǎn)器和判別器上都能學到層級的表示。此外,我們在一些新的任務上使用學習到的特征,表明了它們在一般化圖像的表示上具有通用性。
論文鏈接
https://arxiv.org/pdf/1511.06434v2.pdf
Improved GAN
對GAN的全方位改進以及評價指標IS的提出
期刊日期
2016 NIPS(NeurIPS)
論文名稱
《Improved Techniques for Training GANs》
描述
GAN是基于博弈論的生成模型方法。GAN訓練一個生成網(wǎng)絡來生成盡可能真實的圖像,一個判別網(wǎng)絡盡可能區(qū)分真是圖像和生成圖像。
訓練GAN要求找到在連續(xù)高維參數(shù)下非凸博弈的納什均衡。但是通常GAN用梯度下降方法去尋找損失函數(shù)的最小值,而不是納什均衡。
本文,我們介紹了幾個方法去鼓勵GAN博弈的收斂。這些方法的靈感來源于非凸問題的啟發(fā)式理解??梢詭椭嵘氡O(jiān)督學習性能和提升采樣生成。
論文鏈接
https://arxiv.org/pdf/1606.03498.pdf
Pix2Pix
把輸入由隨機噪聲改為圖像
期刊日期
2017 CVPR
論文名稱
《Image-to-Image Translation with Conditional Adversarial Networks》
描述
在圖像處理、計算機圖形學和計算機視覺領域,很多問題都可以認為是將一張輸入圖片“轉(zhuǎn)換”成相對應的輸出圖片。一個場景可以被渲染為RGB圖像,梯度域,邊緣圖或語義圖等。類比自動語言翻譯,我們將圖像到圖像的轉(zhuǎn)換問題定義為,在給定足夠訓練數(shù)據(jù)的情況下,將場景的一個可能表示轉(zhuǎn)換成另一個。
語言翻譯之所以困難的一個原因是,語言之間的映射很少是一對一的,一種語言中的概念總是比用其他語言表達來的容易。相似的,絕大多數(shù)圖像轉(zhuǎn)換問題也是多對一的(計算機視覺)或者一對多的(計算機圖形學)。
傳統(tǒng)上,每個任務都使用一種單獨的,專用的機制來解決。但是實際上這些任務本質(zhì)上都是一樣的:從像素點預測新的像素點。本文的目標就是為這些問題設計一種通用的框架。
論文鏈接
https://arxiv.org/pdf/1611.07004.pdf
CycleGAN
輸入和輸出是無需一一對應的兩組圖像
期刊日期
2017 CVPR
論文名稱
《Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks》
描述
圖像到圖像的轉(zhuǎn)換是一個經(jīng)典的視覺和圖形問題,目的是在對齊的數(shù)據(jù)集中學習輸入圖像和輸出圖像之間的映射關系。然而,許多任務,對齊訓練數(shù)據(jù)很難獲取。作者提出一種不對齊數(shù)據(jù)集訓(源數(shù)據(jù)域X到目標域Y)的學習方法。
目標是學習映射G: X -> Y 認為來自G(x)的分布圖與使用對抗性損失的分布圖無法區(qū)分。因為這個映射是高度受限,所以作者使用一個逆映射:Y -> X, 并引入一個循環(huán)一致性損失強制 F(G(X))~X(反之亦然)。
在不存在配對訓練數(shù)據(jù)的情況下,給出了定性的結果,包括收集風格遷移,物體變形,季節(jié)轉(zhuǎn)移,光增強等。通過對幾種已有方法的定量比較,證明了作者的方法的優(yōu)越性。
論文鏈接
https://ieeexplore.ieee.org/document/8237506
Progressively-Growing GAN
GAN使用漸進式訓練來逐步生成越來越大的圖像
期刊日期
2018 ICLR
論文名稱
《Progressive Growing of GANs for Improved Quality, Stability, and Variation》
描述
提出了一種新的訓練對抗神經(jīng)網(wǎng)絡的方法。核心思想是逐步訓練生成器和分別器:從低分辨率開始,隨著訓練進程推進,逐步增加新的層來提煉細節(jié)。這種方法不僅加快了訓練速度并且更加穩(wěn)定,可以產(chǎn)生高質(zhì)量的圖像
提出了一些實施的細節(jié)對于消除生成器和分辨器的不好的競爭
提出了新的方法來評估GAN產(chǎn)生的結果
論文鏈接
https://arxiv.org/pdf/1710.10196v3.pdf
代碼:
https://github.com/tkarras/progressive_growing_of_gans
StackGAN
根據(jù)一段文本描述來生成對應的圖像
期刊日期
2017 ICCV
論文名稱
《StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial?? Networks》
描述
本文是研究文本生成圖片的問題,相比于之前的論文不能生成必要的細節(jié)和具體的對象,本文著重要解決的問題是提高圖片的分辨率同時為圖片添加必要的細節(jié)。
其實stackGAN的原理和做法很類似,可以看作是兩個CGAN串聯(lián)在一起。
論文鏈接
https://arxiv.org/pdf/1612.03242v1.pdf
代碼:
https://github.com/hanzhanggit/StackGAN
BigGAN
大batch、大網(wǎng)絡、限制輸入噪聲z的分布,訓練穩(wěn)定性trick-
期刊日期
2018 ICLR
論文名稱
《Large Scale GAN Training for High Fidelity Natural Image Synthesis》
描述
1、論證了GANs能通過scaling來提升性能。他們使用與原先技術相比,2~4倍的參數(shù)量和8倍的batch size,引入了兩種簡單的結構調(diào)整方法來提升網(wǎng)絡的可擴展性,并修改一種正則化方案來提高conditioning。
2、上述修改產(chǎn)生的另一種影響是,模型非常適用于“trucation trick”,它是一種簡單的采樣技術,可以對樣本多樣性與保真性進行外部地細粒度地調(diào)節(jié)。
3、發(fā)現(xiàn)大型GAN特有的不穩(wěn)定性,并從經(jīng)驗上對他們進行描述。經(jīng)過分析表明通過現(xiàn)有技術與創(chuàng)新的技術的結合能夠減少這種不穩(wěn)定性,但是訓練時完全的穩(wěn)定性只能通過以較大地犧牲模型表現(xiàn)來實現(xiàn)。
論文鏈接
https://arxiv.org/pdf/1809.11096.pdf
StyleGAN
基于progressively-growing?GAN可以精細控制輸出圖像不同尺度的特征
期刊日期
2018 CVPR
論文名稱
《A Style-Based Generator Architecture for Generative Adversarial Networks》
描述
這是NVIDIA的一篇新論文,一個對于GAN(StyleGAN)的基于樣式的生成器體系結構,提出了一個新的模型來應對這個挑戰(zhàn)。StyleGAN是一步一步地生成人工圖像的,從非常低的分辨率開始,一直到高分辨率(1024×1024)。通過分別地修改網(wǎng)絡中每個級別的輸入,它可以控制在該級別中所表示的視覺特征,從粗糙的特征(姿勢、面部形狀)到精細的細節(jié)(頭發(fā)顏色),而不會影響其它的級別。
這種技術不僅可以更好地理解所生成的輸出,而且還可以產(chǎn)生最高水平的結果 — 比以前生成的圖像看起來更加真實的高分辨率圖像。
論文鏈接
https://arxiv.org/pdf/1812.04948.pdf
代碼:
https://github.com/NVlabs/ffhq-dataset
https://github.com/NVlabs/stylegan
免責聲明:所載內(nèi)容來源互聯(lián)網(wǎng),僅供參考。轉(zhuǎn)載稿件版權歸原作者和機構所有,如有侵權,請聯(lián)系我們刪除。
關注【學姐帶你玩AI】
找論文不迷路
