国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

多模態(tài)論文串講·上【論文精讀·46】

2023-07-30 12:22 作者:黃小黃要加油  | 我要投稿

VLMO: Unified Vision-Language Pre-Training with mixture-of-modality-experts:

動機及貢獻:

(1)模型結(jié)構(gòu)的改進

類似于CLIP的Dual-encoder可以提取圖像和文本特征存儲起來,然后跟測試數(shù)據(jù)計算余弦相似度,比較容易做檢索的任務(wù)。但是在一些比較復(fù)雜的任務(wù)上效果不好,如VR。Fusion encoder的結(jié)構(gòu)是先把圖像和文本分別處理,再用transformer encoder做模態(tài)交互,在VR、VE、VQA效果比較好。但當(dāng)去做檢索任務(wù)且圖像-文本對特別大時,只有一個模型要把所有的對同時去編碼推理,然后計算相似度,才能完成檢索,這樣推理時間就會很慢。

提出了一個統(tǒng)一的框架,靈活選擇使用Dual-encoder還是Fusion encoder。即Mixture-of-Modality-Experts。思想是:所有模態(tài)share self-attention權(quán)重,但是feed-forward層每個模態(tài)對應(yīng)自己不同的expert。達到根據(jù)輸入的模態(tài)數(shù)據(jù),選擇使用哪個模型結(jié)構(gòu)。

(2)訓(xùn)練方式的改進

目前沒有大規(guī)模的多模態(tài)數(shù)據(jù)集,但是有大量的單模態(tài)數(shù)據(jù)集,不管是視覺還是文本。

提出Stagewise pre-training strategy,即分階段的模型預(yù)訓(xùn)練。具體做法是vision expert在視覺數(shù)據(jù)集上先預(yù)訓(xùn)練好,然后text expert在文本數(shù)據(jù)集上先預(yù)訓(xùn)練好。這樣vision expert和text expert模型都實現(xiàn)了很好的初始化,然后再在多模態(tài)的數(shù)據(jù)集上做pre-training。

具體細節(jié)

??模型結(jié)構(gòu)-- Mixture-of-modality-experts

特點:不同的模態(tài)有各自的FFN。

??訓(xùn)練方式---Stagewise pre-training strategy

預(yù)訓(xùn)練V-FFN時,利用BEIT 進行Mask image model的Unsupervised task。在預(yù)訓(xùn)練L-FFN時,進行Mask language model任務(wù),frozen V-FFN和Multi-Head Self-attention,都不需要fine-tune Multi-Head Self-attention,效果就很好,但先language訓(xùn)練再在vision上frozen,結(jié)果好像差一些。VL-FFN預(yù)訓(xùn)練時,打開所有參數(shù)fine-tune,損失函數(shù)與ALBEF一樣,也是ITC,ITM,MLM。

多模態(tài)學(xué)習(xí)搭配transformer是一個很好的組合。Transformer的self-attention用了最少的inductive bias,不挑輸入,同樣的self-attention weights,可以用來做不同的任務(wù),例如圖像,文本音頻視頻等輸入,不需要重新去訓(xùn)練這些參數(shù)。

多模態(tài)論文串講·上【論文精讀·46】的評論 (共 條)

分享到微博請遵守國家法律
隆安县| 古蔺县| 太原市| 黎平县| 方山县| 葫芦岛市| 衡山县| 读书| 隆尧县| 龙海市| 遂川县| 乌兰浩特市| 西和县| 宁国市| 会泽县| 宣威市| 古交市| 瑞金市| 旬邑县| 始兴县| 井陉县| 张掖市| 漳浦县| 吉水县| 固原市| 普格县| 大厂| 新蔡县| 横山县| 阿城市| 虹口区| 凤台县| 德惠市| 赣榆县| 府谷县| 普陀区| 邓州市| 西峡县| 富蕴县| 乐亭县| 成安县|