12.1 Swin-Transformer網(wǎng)絡結(jié)構(gòu)詳解


2021 best paper
不同任務排名
目標檢測:coco數(shù)據(jù)集

比較難理解的在4、5部分
swin transformer vs VIT

1、swin transformer構(gòu)建的feature map具有層次性,所以對目標檢測、分割等任務更有優(yōu)勢
VIT直接下采樣16倍,后面一直保持下采樣倍率不變,無法像swin transformer一樣構(gòu)建具有層次性的特征層
2、swin transformer的feature map當中,用的是一個個窗口的形式將feature map分隔開,窗口之間沒有重疊
vit當中是一個整體,沒有進行分割
這一個個window就是待會講的windows multi-head self-attention,引入這個結(jié)構(gòu)就可以在每個window內(nèi)部計算self-attention,window之間不進行信息傳遞
好處:大大降低運算量,尤其是在淺層網(wǎng)絡(下采樣倍率低),相對于在整個特征圖上進行multi-head self-attention可以減少計算量
表格:對比
網(wǎng)絡框架

patch partition是什么
linear embedding干什么
將48變成C
每個stage重復堆疊swin transformer block n次,n是偶數(shù)

patch merging如何操作

W-MSA模塊

MSA vs W-MSA

兩個公式怎么來的


SW-MSA

示例:黑色是特征圖
窗口移動前

移動后



5和3本來是分開的兩個區(qū)域,我們把他們強行劃分在一個window里,對它們進行MSA是有問題的
如何單獨計算5的MSA和3的MSA

和原來在整個窗口進行自注意計算量一樣,只是多了一個mask操作
注意還原會原來位置
滑動窗口舉例

相對位置偏移(通過表格展示其重要性)

什么是相對位置偏移?

如何將二元坐標轉(zhuǎn)一元坐標,




為什么是(2M-1)*(2M-1)


