散文網(wǎng) » 科技 »學(xué)習(xí) » 如何零樣本實現(xiàn)語義分割

如何零樣本實現(xiàn)語義分割

2023-10-08 16:21 作者:聽取蛙蛙聲一片 0人讀過 | 我要投稿

CLIPTeacher：一種基于VLM的通用零樣本語義分割框架，有效地利用了可見和忽略區(qū)域，而不需要對原CLIP模型進行任何更改，性能提升顯著！單位：名古屋大學(xué) 現(xiàn)有的通用零樣本語義分割（GZLSS）方法應(yīng)用微調(diào) CLIP 范式或?qū)⑵渲贫檠诖a分類任務(wù)，受益于視覺語言模型（VLM）。然而，微調(diào)方法受到固定骨干模型的限制，這些模型對于分割不靈活，并且掩模分類方法嚴重依賴于額外的顯式掩模提議器。同時，流行的方法僅利用可見的類別，這是一種極大的浪費，即忽略了存在但未注釋的區(qū)域。為此，我們提出了 CLIPTeacher，這是一種新的學(xué)習(xí)框架，可以應(yīng)用于各種每像素分類分割模型，而無需引入任何顯式掩碼proposer或改變 CLIP 的結(jié)構(gòu)，并利用可見區(qū)域和忽略區(qū)域。具體來說，CLIPTeacher由兩個關(guān)鍵模塊組成：全局學(xué)習(xí)模塊（GLM）和像素學(xué)習(xí)模塊（PLM）。具體來說，GLM 將圖像編碼器的密集特征與 CLS 令牌（即在 CLIP 中訓(xùn)練的唯一token）對齊，這是從 CLIP 模型中探測全局信息的簡單但有效的方法。相比之下，PLM 僅利用 CLIP 的密集標(biāo)記來生成用于忽略區(qū)域的高級偽注釋，而無需引入任何額外的mask proposer。同時，PLM基于偽標(biāo)注可以充分利用整個圖像。在三個基準(zhǔn)數(shù)據(jù)集：PASCAL VOC 2012、COCO-Stuff 164k 和 PASCAL Context 上的實驗結(jié)果顯示出巨大的性能提升，即 2.2%、1.3% 和 8.8% 論文地址：https://arxiv.org/abs/2310.02296