視頻理解論文串講(上)【論文精讀】

論文:A Comprehensive Study of Deep Video Action Recognition
論文地址:https://arxiv.org/pdf/2012.06567.pdf

這是一篇綜述
這里除了沒有講到video transformer基本上包含了之前用深度學(xué)習(xí)做 視頻動作識別的模型

講解按照圖中時間線講解
主要分四個部分講
- Hand-crafted——CNN
- Two-stream
- 3D CNN
- Video transformer
Deep video CVPR2014
論文名:Large-scale Video Classification with Convolution Neural Networks
在這篇文章之前也有神經(jīng)網(wǎng)絡(luò)來做的,但是在AlexNet出現(xiàn)之前,使用數(shù)據(jù)集比較小,網(wǎng)絡(luò)也比較淺
這篇文章算是深度學(xué)習(xí)時代使用卷積神經(jīng)網(wǎng)絡(luò)去處理視頻理解的最早期的工作之一

方法是比較直接的,想法就是如何將卷積神經(jīng)網(wǎng)絡(luò)從圖片識別應(yīng)用到視頻識別里面,視頻和圖片的區(qū)別就是多了一個時間軸,有更多的視頻幀而不是單個的圖片,所以自然是有幾個變體是需要嘗試的

Later-Fusion在網(wǎng)絡(luò)輸出層面做的一些結(jié)合
在視頻中隨機(jī)選幾幀,每一幀單獨通過一個神經(jīng)網(wǎng)絡(luò),這兩個神經(jīng)網(wǎng)絡(luò)是權(quán)值共享的,然后把得到的特征合并一下,通過FC層最后做一下輸出,這個做法的本質(zhì)還是單幀經(jīng)過神經(jīng)網(wǎng)絡(luò)得到一個特征,像圖片分類,但是最后把特征合并起來了,所以稍微有一點時序上的信息在里面
Early Fusion:在輸入層面做了融合,具體做法就是把五個視頻幀在RGB的channel上合起來,變成15個channel,這意味著網(wǎng)絡(luò)的結(jié)構(gòu)需要有一點改變了,第一個卷積層接收輸入的通道數(shù)要變?yōu)?5,之后的網(wǎng)絡(luò)跟之前保持不變,這種做法,可以在網(wǎng)絡(luò)的剛開始輸入的層面感受到時序上的改變,希望能學(xué)到一些全局的運動時間信息
Slow Fusion:結(jié)合Late Fusion和Early Fusion
希望能夠在網(wǎng)絡(luò)學(xué)習(xí)的構(gòu)成中的特征層面做一些合并會更好一些,具體做法是每次選擇10個視頻幀的視頻段,然后每4個視頻幀經(jīng)過一個神經(jīng)網(wǎng)絡(luò)抽取特征,剛開始的層全局共享,抽取最開始的特征之后,由最開始的四個輸入片段合并成兩個片段,再做一些卷積操作獲得更深層的特征,然后把特征交給FC做最后的分類,整個網(wǎng)絡(luò)從頭到尾都在對視頻的整體進(jìn)行學(xué)習(xí),按道理結(jié)果應(yīng)該是最好的,事實上也是最好的
結(jié)果四種方法的結(jié)果都差別不大,即使是在100萬個視頻上做了預(yù)訓(xùn)練之后,在UCF101上做遷移學(xué)習(xí)時還比不上之前的手工特征
另外一條思路,多分辨率卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

把輸入分成兩個部分,一個是原圖,另外一個從原圖的正中間摳出一部分變成一個輸入,因為對于圖片或者視頻來說最有用的或者物體都會出現(xiàn)在正中間,所以把上面的分支交fovea(人臉視網(wǎng)膜里最中心的東西,對外界變化最敏感的區(qū)域) stream,下面分支叫contex stream(圖片整體信息),作者想通過這個操作既獲得圖片中間最有用的信息,又能學(xué)習(xí)到圖片整體的理解,看看這樣能不能提升對視頻的理解,兩個有兩個網(wǎng)絡(luò)權(quán)值共享,可看成早期對注意力使用的方式,
幾種方式比較 baseline
sports-1M數(shù)據(jù)集上

UCF101上
使用那么多預(yù)訓(xùn)練數(shù)據(jù)和大規(guī)模網(wǎng)絡(luò)之后
遷移結(jié)果還不如手工特征(87%)
