国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

視頻理解綜述學(xué)習(xí) p2 自用筆記

2023-03-23 20:29 作者:flow___  | 我要投稿

朱老師的綜述論文

主要包括除開Video Transformer以外的主線文章?

這部分主要是走出手工光流的一些文章,因?yàn)楣饬鞯某槿》浅5馁F,非常的耗時(shí)(如果算一張光流需要0.06s,那么在k400數(shù)據(jù)集上抽取光流對(duì)于單張卡需要的時(shí)間是50天,占用的空間為500g),且需要用光流進(jìn)行推理的應(yīng)用場(chǎng)景要求非常高,0.06s的抽取就已經(jīng)滿足不了實(shí)時(shí)處理。此時(shí)使用3D卷積是符合大眾需求的。


理解3D卷積

3D卷積圖解 =. =?

可以自行理解一下3D網(wǎng)絡(luò)上的殘差連接,和深度可分離卷積等2D卷積的拓展情況。


C3D & I3D

C3D?

Learning Spatiotemporal Features with 3D Convolutional Networks? - ICCV 2015

提出一個(gè)簡(jiǎn)單的更深的3D卷積,在大的數(shù)據(jù)集上進(jìn)行了訓(xùn)練,并得到了好的結(jié)果。

11層的深度網(wǎng)絡(luò),3D版本的VGG

在第一層,稍前的pooling時(shí)序上一般不做下采樣,盡可能保留時(shí)間上的信息。

C3D開放了特征抽取的接口,使得更多人使用3D的卷積神經(jīng)網(wǎng)絡(luò)返回的視頻特征,去做下游任務(wù),是該網(wǎng)絡(luò)廣為被使用的原因。為后續(xù)3D卷積的發(fā)展做鋪墊。


I3D

Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset?- CVPR 2017

這兩篇文章的迭代經(jīng)歷了2年,由此可見訓(xùn)練3d網(wǎng)絡(luò)的成本之高。通過(guò)bootstrapping的形式,降低3d網(wǎng)絡(luò)的訓(xùn)練難度。主要通過(guò)Inflate的初始化操作,使得3D模型的初始化成本大幅度降低,且能夠從ImageNet的2d卷積的與訓(xùn)練模型擴(kuò)充得來(lái),由此可以把所有的2D網(wǎng)絡(luò)架構(gòu)推廣Inflate到3D網(wǎng)絡(luò)。

網(wǎng)絡(luò),簡(jiǎn)單看一下,注意時(shí)間維度上的下采樣時(shí)機(jī)

主要還是Inflation操作和一些3d卷積的訓(xùn)練經(jīng)驗(yàn):把2d模型擴(kuò)充到3d網(wǎng)絡(luò),且將2d預(yù)訓(xùn)練的網(wǎng)絡(luò)參數(shù)進(jìn)行復(fù)制并減少權(quán)值,直接移植到3d的網(wǎng)絡(luò)上,這樣簡(jiǎn)單膨脹擴(kuò)充的操作,實(shí)際使用效果特別好。將整個(gè)視頻理解領(lǐng)域從雙流帶到了3d卷積,且把舊的兩個(gè)視頻分類數(shù)據(jù)集 UCF101 和 HMDB51 都刷爆了,帶到了新的賽道 k400 數(shù)據(jù)集上。

后續(xù)的ResNet -- > ResNet3d,ResNexT--> MFNet, SENet(channel attention) -->STCNet 等等2d到3d的變體,如雨后春筍刷了一波。



Non-local Neural Networks - CVPR 2018??

3D網(wǎng)絡(luò)上引入self-attention去對(duì)3d網(wǎng)絡(luò)的時(shí)序信息建模。詳細(xì)消融實(shí)驗(yàn)去證明,在空間,和時(shí)間上做自注意力操作都同樣重要,對(duì)于越長(zhǎng)的視頻段的建模更有效。且文章使用上了Non local的I3D模型后,甚至比之前使用基于光流的雙流I3D模型效果更好!這也給了“舍棄光流”的研究者們信心。


就是transformer中的QKV操作,和3d卷積結(jié)合起來(lái)


R(2+1)D

A Closer Look at Spatiotemporal Convolutions for Action Recognition? - CVPR2018

文章對(duì)于視頻動(dòng)作識(shí)別任務(wù),將2d和3d網(wǎng)絡(luò)的架構(gòu)組合,組合,做了詳盡的調(diào)查,非常的試驗(yàn)性。實(shí)驗(yàn)對(duì)比于消融值得一讀。

由于只用2d卷積在視頻動(dòng)作識(shí)別領(lǐng)域其實(shí)效果也很好,而3d太貴,作者希望能換就換簡(jiǎn)單的。

不同架構(gòu)的消融實(shí)驗(yàn)

????作者對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),把全3d卷積拆分成空間上的2d和時(shí)間上的1d,最后能得到更好的效果,且訓(xùn)練上也簡(jiǎn)單了很多。在多個(gè)數(shù)據(jù)集上都得到不錯(cuò)的結(jié)果。

3d卷積與(2+1)d的對(duì)比

先做空間上的純2d卷積,中間通過(guò)一次線性投射后,用1*1*d的卷積去處理時(shí)序,這里的線性投射是為了和Res3D進(jìn)行同模型大小下的性能對(duì)比。和GoogleNet的操作有點(diǎn)像啊,先做1*d的卷積后再做d*1的卷積。這里相當(dāng)于每層多做了一次非線性操作,同時(shí)也有直觀的解釋,3d的卷積是比2+1d的更難訓(xùn)練的。文章給出了一個(gè)圖簡(jiǎn)單說(shuō)明自己的2+1d比純3d更好訓(xùn)練收斂。


SlowFast

SlowFast Networks for Video Recognition? ? - 2019


使用雙流的結(jié)構(gòu),基于I3d卷積

核心思想是用用雙流網(wǎng)絡(luò)的架構(gòu),之一是低幀輸入+復(fù)雜網(wǎng)絡(luò),之二是高幀輸入+輕量化網(wǎng)絡(luò),且在前面的每個(gè)block間做fusion(Lateral connections fuse them)做信息交互。能達(dá)到好的精度和一定程度上的輕量化。


視頻理解綜述學(xué)習(xí) p2 自用筆記的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
吴堡县| 凌海市| 甘泉县| 波密县| 炉霍县| 来凤县| 海南省| 东台市| 克什克腾旗| 莒南县| 壶关县| 安宁市| 无棣县| 延吉市| 新竹市| 宜宾县| 桐城市| 两当县| 南阳市| 吉木乃县| 壤塘县| 敦化市| 崇义县| 安康市| 海盐县| 崇州市| 泊头市| 泰州市| 江北区| 芷江| 新昌县| 凤台县| 阜宁县| 根河市| 巫山县| 浠水县| 崇左市| 长顺县| 甘德县| 张家川| 晋中市|