国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

多模態(tài)|論文解讀《Selective residual learning for Visual Question Answeri

2022-03-07 18:41 作者:深度之眼官方賬號  | 我要投稿

來源:投稿 作者:摩卡

編輯:學(xué)姐


# 本文的Motivation為


大量Self-attention based models, 在intra-relation建模時(shí)對所有的object或word進(jìn)行相互關(guān)系的計(jì)算,但其實(shí)在一張圖片中,只有幾個(gè)object是對問題貢獻(xiàn)較大的,之前的建模方式會使得模型忽略掉這些important object進(jìn)而損失模型精度。



# Method


本文針對這一問題提出了三個(gè)策略(創(chuàng)新):Selective residual module(SelRes), Selective mask model(SelMask), Bounding box aggregation module。其中SelRes的思想是:為了選擇important object,先使用Self-attention的方法計(jì)算出每一個(gè)結(jié)果,然后設(shè)置threshold(通過設(shè)置一個(gè)選擇率r和Q,K產(chǎn)生的相似度矩陣相乘產(chǎn)生)對小于threshold的特征進(jìn)行過濾將其全部設(shè)置為0。選擇率r的產(chǎn)生方法有兩種,一種是通過啟發(fā)式搜索產(chǎn)生,另一種是自適應(yīng)產(chǎn)生。


圖1:SelRes


# SelMask的思想是


在應(yīng)用SelRes model之后,未被選擇到的特征將會被設(shè)置為0,但是由于Self-attention模塊是堆疊的,在這一層的被選中特征,在下一層可能就變?yōu)槲幢贿x中特征了,會產(chǎn)生不穩(wěn)定現(xiàn)象(因?yàn)閟elf-attention中的linear會使得0特征變?yōu)榉?特征,然后又通過加權(quán)平均計(jì)算策略使得可能上次被選中的特征變?yōu)槲幢贿x中的特征)。為了解決這一問題,本文直接將上一層被設(shè)置為0的Self-attention特征,在下一層的attention matrix設(shè)置為0,這樣該位置對應(yīng)的特征就不能再使用了。


圖2:SelMask


圖3:self-attention沒有使用mask和使用mask對比


# Bounding box aggregation module思想


將位置坐標(biāo)和寬高坐標(biāo)通過concat融入圖像特征,產(chǎn)生更全面的圖像特征。


圖4:Bounding box aggregation module


圖5:基于MCAN改進(jìn)的模型圖


圖6:基于LXMERT改進(jìn)的模型圖


# 實(shí)驗(yàn)結(jié)果


本文選取了兩個(gè)基線模型,一個(gè)是from-scratch模型MCAN,另外一個(gè)是pre-training模型LXMERT。將上述的三個(gè)模塊應(yīng)用到MCAN,實(shí)驗(yàn)結(jié)果提升了0.4(test-dev 70.6到71.0, test-std 70.9到71.3),應(yīng)用在LXMERT上,實(shí)驗(yàn)結(jié)果提升了0.3(test-dev 72.4到72.7,test-std 72.5-72.8)。該結(jié)果驗(yàn)證了提出模塊的有效性。



參考文獻(xiàn):

[1] Z. Yu, J. Yu, Y. Cui, D. Tao, Q. Tian, Deep modular co-attention networks for

visual question answering, in: CVPR 2019

[2] H. Tan, M. Bansal, LXMERT: learning cross-modality encoder representations from transformers, in: K. Inui, J. Jiang, V. Ng, X. Wan (Eds.), Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the Ninth International Joint Conference on Natural Language Processing, EMNLPIJCNLP 2019, Hong Kong, China, November 3–7, 2019, Association for Computational Linguistics, 2019, pp. 5099–5110, doi:10.18653/v1/D19-1514.

多模態(tài)|論文解讀《Selective residual learning for Visual Question Answeri的評論 (共 條)

分享到微博請遵守國家法律
利川市| 永修县| 鲁甸县| 虹口区| 惠州市| 南岸区| 烟台市| 崇仁县| 大渡口区| 贡嘎县| 德化县| 洞口县| 山阳县| 东乡县| 中宁县| 新巴尔虎左旗| 内江市| 芒康县| 新余市| 黄石市| 定日县| 桃园县| 南漳县| 阿坝县| 宾川县| 西盟| 北川| 博湖县| 天全县| 墨竹工卡县| 青海省| 桃园市| 乡宁县| 莲花县| 青海省| 甘南县| 德阳市| 阳谷县| 德江县| 尼木县| 林周县|