散文網(wǎng) » 筆記 »全部筆記 » 多模態(tài)論文串講·上【論文精讀·46】

多模態(tài)論文串講·上【論文精讀·46】

2023-07-30 12:22 作者:黃小黃要加油 0人讀過 | 我要投稿

VLMO: Unified Vision-Language Pre-Training with mixture-of-modality-experts:

動機及貢獻：

（1）模型結(jié)構(gòu)的改進

類似于CLIP的Dual-encoder可以提取圖像和文本特征存儲起來，然后跟測試數(shù)據(jù)計算余弦相似度，比較容易做檢索的任務(wù)。但是在一些比較復(fù)雜的任務(wù)上效果不好，如VR。Fusion encoder的結(jié)構(gòu)是先把圖像和文本分別處理，再用transformer encoder做模態(tài)交互，在VR、VE、VQA效果比較好。但當(dāng)去做檢索任務(wù)且圖像-文本對特別大時，只有一個模型要把所有的對同時去編碼推理，然后計算相似度，才能完成檢索，這樣推理時間就會很慢。

提出了一個統(tǒng)一的框架，靈活選擇使用Dual-encoder還是Fusion encoder。即Mixture-of-Modality-Experts。思想是：所有模態(tài)share self-attention權(quán)重，但是feed-forward層每個模態(tài)對應(yīng)自己不同的expert。達到根據(jù)輸入的模態(tài)數(shù)據(jù)，選擇使用哪個模型結(jié)構(gòu)。

（2）訓(xùn)練方式的改進

目前沒有大規(guī)模的多模態(tài)數(shù)據(jù)集，但是有大量的單模態(tài)數(shù)據(jù)集，不管是視覺還是文本。

提出Stagewise pre-training strategy，即分階段的模型預(yù)訓(xùn)練。具體做法是vision expert在視覺數(shù)據(jù)集上先預(yù)訓(xùn)練好，然后text expert在文本數(shù)據(jù)集上先預(yù)訓(xùn)練好。這樣vision expert和text expert模型都實現(xiàn)了很好的初始化，然后再在多模態(tài)的數(shù)據(jù)集上做pre-training。

具體細節(jié)

??模型結(jié)構(gòu)-- Mixture-of-modality-experts

特點：不同的模態(tài)有各自的FFN。

??訓(xùn)練方式---Stagewise pre-training strategy

預(yù)訓(xùn)練V-FFN時，利用BEIT 進行Mask image model的Unsupervised task。在預(yù)訓(xùn)練L-FFN時，進行Mask language model任務(wù)，frozen V-FFN和Multi-Head Self-attention，都不需要fine-tune Multi-Head Self-attention，效果就很好，但先language訓(xùn)練再在vision上frozen，結(jié)果好像差一些。VL-FFN預(yù)訓(xùn)練時，打開所有參數(shù)fine-tune，損失函數(shù)與ALBEF一樣，也是ITC，ITM，MLM。

多模態(tài)學(xué)習(xí)搭配transformer是一個很好的組合。Transformer的self-attention用了最少的inductive bias，不挑輸入，同樣的self-attention weights，可以用來做不同的任務(wù)，例如圖像，文本音頻視頻等輸入，不需要重新去訓(xùn)練這些參數(shù)。

標簽：

多模態(tài)論文串講·上【論文精讀·46】的評論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

多模態(tài)論文串講·上【論文精讀·46】

多模態(tài)論文串講·上【論文精讀·46】的評論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

多模態(tài)論文串講·上【論文精讀·46】

本文作者的其他文章

多模態(tài)論文串講·上【論文精讀·46】的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

多模態(tài)論文串講·上【論文精讀·46】的評論 (共條)