国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網 會員登陸 & 注冊

深度學習多模態(tài)實戰(zhàn)班

2023-03-01 11:03 作者:南蠻果  | 我要投稿
  1. 之眼視覺的提取,大多用的是Faster R-CNN:
    1.1 直接提取視覺向量;
    1.2 進行目標檢測,輸出bounding box和對應位置;
    1.3 進行目標檢測,提取類別特征。
    潛在問題:提取的信息有冗余和噪音,對下游任務有益的視覺信息沒有被有效提取,和對應的文本信息有語義鴻溝,不好做視覺-文本對齊等。

  2. 文本一般會用BERT或者Roberta做初始化,大規(guī)模訓練集會從頭開始訓練。

Early fusion:特征提取后,一般是直接concat,進入transformer;
Late fusion:特征提取后,模態(tài)內部再進行深度學習,再做模態(tài)交互。


深度學習多模態(tài)實戰(zhàn)班的評論 (共 條)

分享到微博請遵守國家法律
广河县| 肇州县| 公主岭市| 绵阳市| 临朐县| 南木林县| 张家界市| 巢湖市| 平潭县| 潜山县| 四子王旗| 琼中| 峨眉山市| 卢氏县| 神池县| 昌都县| 霞浦县| 甘德县| 内黄县| 伊宁县| 崇仁县| 治多县| 中西区| 渝中区| 繁峙县| 青川县| 成都市| 电白县| 南开区| 咸宁市| 且末县| 衢州市| 云安县| 临夏市| 乌审旗| 福建省| 开封市| 江川县| 镇巴县| 台中市| 枣强县|