国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

多方向文字檢測(cè)-AdvancedEast詳解

2020-03-10 20:01 作者:知書少年剛剛醬  | 我要投稿


(本文作者)

前 言

AdvancedEast是場(chǎng)景文字檢測(cè)算法,基于EAST算法,對(duì)EAST在長(zhǎng)文本檢測(cè)地方的缺陷進(jìn)行了重大改進(jìn),使長(zhǎng)文本預(yù)測(cè)更加準(zhǔn)確??傮w來(lái)說(shuō)AdvancedEast檢測(cè)算法在多角度文字檢測(cè)方面表現(xiàn)良好,沒(méi)有明顯的缺陷。出于對(duì)作者的尊重,給出github鏈接:AdvancedEast:

https://github.com/huoyijie/AdvancedEAST

作者由于時(shí)間問(wèn)題給出的資料非常有限,網(wǎng)上大多的資料也是基本照搬作者的描述,本文將對(duì)AdvancedEast的實(shí)現(xiàn)細(xì)節(jié)進(jìn)行詳細(xì)的講解。AdvancedEast在整體的設(shè)計(jì)上還是延續(xù)East,在最終的輸出與推測(cè)部分進(jìn)行了精巧的設(shè)計(jì),也是本文重點(diǎn)介紹部分。

1.structure

在模型結(jié)構(gòu)上面,AdvancedEast與EAST差別不大(下方圖片分別為AdvancedEast、EAST結(jié)構(gòu)圖),都是由特征提取、特征融合、輸出三部分組成。

特征提取部分,AdvancedEast采用vgg16而EAST在論文中采用PVANet,但是在github實(shí)現(xiàn)上面EAST多用vgg16或resnet50。

AdvancedEast利用在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的卷積網(wǎng)絡(luò)參數(shù)初始化,在VGG16的4個(gè)階段輸出作為特征融合階段的輸入,其大小分別為輸入圖像的1/4 1/8 1/16 1/32(對(duì)應(yīng)圖中f4、f3、f2、f1)

特征融合部分,AdvancedEast沿用EAST結(jié)構(gòu),使用多尺度特征融合的辦法解決目標(biāo)檢測(cè)中的難題-多尺寸目標(biāo)檢測(cè)。

目標(biāo)檢測(cè)算法中非常需要注意的是感受野的問(wèn)題,感受野過(guò)小容易造成大目標(biāo)檢測(cè)不準(zhǔn)確,感受野過(guò)大會(huì)導(dǎo)致丟失的信息過(guò)多,在小目標(biāo)檢測(cè)上面表現(xiàn)不佳。將不同感受野的feature map進(jìn)行融合,可以補(bǔ)充不同尺寸目標(biāo)信息來(lái)實(shí)現(xiàn)對(duì)不同尺寸物體的檢測(cè)。

每個(gè)融合階段,特征提取部分不同階段的輸出感受野不一樣,特征圖尺寸也不一樣(相鄰階段輸出的feature map是2倍關(guān)系),所以需要將感受野更大的feature map輸入到unpooling層擴(kuò)大其大??;然后,與當(dāng)前層特征圖進(jìn)行合并(通道);合并之后雖然包含了不同尺度的feature map。

但是其中還是有大量的沒(méi)用的信息,這種信息會(huì)加大計(jì)算代價(jià),而且現(xiàn)在的合并只是單純的進(jìn)行通道上的合并,還需要進(jìn)行進(jìn)一步的融合;將合并后的結(jié)果通過(guò)1×1的卷機(jī)神經(jīng)網(wǎng)絡(luò)減少通道數(shù)量和計(jì)算量;再用3×3的卷積神經(jīng)網(wǎng)絡(luò)將局部信息融合以最終產(chǎn)生該合并階段的輸出;

此次類推將每個(gè)階段的feature map進(jìn)行合并,如圖中特征融合部分所示,在最后一個(gè)合并階段之后,conv3×3層會(huì)生成合并分支的最終特征圖并將其送到輸出層。

輸出部分,這部分AdvancedEast進(jìn)行了重要的改進(jìn),也是跟EAST區(qū)別最大的地方,下面會(huì)單獨(dú)進(jìn)行展開說(shuō)明。

2.output layer

輸出部分是AdvancedEAST最大的改動(dòng)地方,主要是解決EAST在長(zhǎng)文本預(yù)測(cè)的限制問(wèn)題,所以在進(jìn)行輸出部分講解之前,先介紹下EAST為什么在長(zhǎng)文本預(yù)測(cè)表現(xiàn)不佳。下圖是EAST的輸出,輸出的feature map是原圖像的四分之一。

score map:置信度,點(diǎn)在文本框內(nèi)的概率;

RBOX:4個(gè)通道分別表示從像素位置到矩形的頂部,右側(cè),底部,左側(cè)邊界的4個(gè)距離;

text rotation angle:表示文本框的旋轉(zhuǎn)角度

QUAD:8個(gè)通道分別表示從矩形的四個(gè)頂點(diǎn)到像素位置的坐標(biāo)偏移,由于每個(gè)距離偏移量都包含兩個(gè)數(shù)字(Δxi;Δyi)。

RBox與QUAD兩種模式選一即可,不管選擇哪一種都有一個(gè)共用的問(wèn)題,這里以RBox舉例,在預(yù)測(cè)邊框和頂點(diǎn)之前,第一步要根據(jù)score map篩選出文本框內(nèi)的點(diǎn),下圖是舉例說(shuō)明確定邊框的過(guò)程,下圖表示一張圖片中的一個(gè)文本框,框內(nèi)的點(diǎn)都有個(gè)預(yù)測(cè)到四條邊的距離,根據(jù)文本內(nèi)每個(gè)點(diǎn)所預(yù)測(cè)的距離(頂點(diǎn))進(jìn)行加權(quán)平均,得出邊框或者頂點(diǎn)。

在文本框比較小的時(shí)候沒(méi)有問(wèn)題,但是最終輸出的feature map中每個(gè)點(diǎn)都有感受野的限制,當(dāng)文本很長(zhǎng)的時(shí)候,用一端的點(diǎn)去預(yù)測(cè)另外一端的邊的距離的時(shí)候,就會(huì)出現(xiàn)攜帶信息沒(méi)有那條邊的信息,所以EAST在預(yù)測(cè)長(zhǎng)文本的時(shí)候會(huì)出現(xiàn)斷裂或者預(yù)測(cè)不出來(lái)的情況。

AdvancedEast算法采用另外的一種思路解決。先看一下輸出:

score map:和EAST一樣,點(diǎn)在文本內(nèi)的置信度;

vertex code:第一通表示是否是邊界元素的置信度。第二通表示是頭/尾元素,0表示頭部元素,1表示尾部元素;

vertex geo:4通分別代表左上(右上)X、左上(右上)Y、左下(右下)X、左下(右下)Y,這里不是真正的X\Y坐標(biāo),而是根據(jù)當(dāng)前點(diǎn)坐標(biāo)的X/Y偏移量。

這里面不太好理解的應(yīng)該是vertex geo,為什么同樣是4通的輸出,但是表達(dá)的含義不同,這里主要的原因是,為了解決East感受野的問(wèn)題,AdvancedEast不再用所有的點(diǎn)進(jìn)行預(yù)測(cè)頂點(diǎn)了,而是用頭部元素預(yù)測(cè)左上、左下點(diǎn),尾部元素預(yù)測(cè)右上右下點(diǎn)。

也就是說(shuō)vertex geo的輸出只對(duì)頭部和尾部元素有意義,且根據(jù)預(yù)測(cè)出的頭/尾元素進(jìn)行加權(quán)平均得到4個(gè)頂點(diǎn)。這樣說(shuō)有點(diǎn)抽象,下面會(huì)對(duì)預(yù)測(cè)過(guò)程展開講解。

3.預(yù)測(cè)過(guò)程

預(yù)測(cè)過(guò)程整體的流程如下:

01.根據(jù)score map輸出的值確定activatin point;

02.遍歷所有activation point,在feature map中左右相鄰的activation point合并形成若干region list;

03.遍歷所有region list,在feature map中上下相鄰的region list合并形成region group;

04.遍歷region group中的點(diǎn),根據(jù)vertex code輸出的值確定頭/尾元素;

05.每個(gè)region group中的頭部(尾部)元素預(yù)測(cè)的vertex geo進(jìn)行加權(quán)平均得到最終文本框頂點(diǎn)。

下面用一張示例圖模擬整個(gè)過(guò)程,為了簡(jiǎn)化問(wèn)題,這里模擬一張圖片中只有一個(gè)文本域的情況,圖中每個(gè)點(diǎn)有7通取值,對(duì)應(yīng)模型的輸出(score map、vertex code、vertex geo)。

第一步遍歷feature map中所有點(diǎn),這里feature map指模型的輸出(score map、vertex code、vertex geo),篩選出score map值高于threshole的點(diǎn),得到activation point(激活元素),如下圖,得到所有activation point(文本框內(nèi)元素)

遍歷上一步獲得的所有activation point,將在feature map中左右相鄰(X坐標(biāo)相差1,Y坐標(biāo)相同)的activation point進(jìn)行合并,得到若干 region list,如下圖,紅色虛線框表示region list。

遍歷上一步得到的region list,將feature map中上下相鄰的region list進(jìn)行合并成為region group,具體上下相鄰規(guī)則是如果region list1中所有元素向下平移一個(gè)單位后,和其他的region list有重合點(diǎn),則進(jìn)行合并,否則不進(jìn)行合并。

這里的region group是文本域的大致位置,為什么要這么說(shuō),在我的圖片示例中展示的是一個(gè)文本的情況,并且是所有的點(diǎn)很規(guī)整的情況,但是在真正的預(yù)測(cè)的時(shí)候并不是所有的點(diǎn)都會(huì)預(yù)測(cè)出來(lái)或者可能會(huì)出現(xiàn)噪音點(diǎn)。并不能根據(jù)這些點(diǎn)很完整的確定出具體的文本,還需要進(jìn)行進(jìn)一步的計(jì)算。

遍歷每個(gè)region group中的點(diǎn),根據(jù)vertex code輸出的值找到其中的頭/尾元素,頭/尾需要滿足的規(guī)則是vertex code中第一通輸出的是否是邊界元素置信度的值高于閾值,且vertex code中的分類置信度滿足閾值(默認(rèn)情況下閾值為0-0.1表示頭部元素,0.9-1表示尾部元素),如代碼中紅線部分。

現(xiàn)在確定了每個(gè)region group中的頭尾元素,如下圖所示,根據(jù)頭部(尾部)元素所預(yù)測(cè)的左上(右上)X、左上(右上)Y、左下(右下)X、左下(右下)Y偏移量進(jìn)行加權(quán)平均,確定最終預(yù)測(cè)的4個(gè)頂點(diǎn)。具體的加權(quán)平均的方式如下,n表示當(dāng)前文本域內(nèi)邊界元素?cái)?shù)量。

這里有點(diǎn)小細(xì)節(jié)需要注意,前面有提到,最終的輸出不是原圖size,而是其1/4,所以feature map中的坐標(biāo)要對(duì)應(yīng)回原圖坐標(biāo)需要進(jìn)行處理(只對(duì)feature map中的坐標(biāo)對(duì)應(yīng)回原圖坐標(biāo),預(yù)測(cè)的偏移量是原圖的偏移量不需要進(jìn)行處理),處理方式如下:

經(jīng)過(guò)上述過(guò)程完成文本檢測(cè),效果圖如下:

<< 滑動(dòng)查看文本檢測(cè)效果>>

<< 滑動(dòng)查看文本檢測(cè)效果>>

后廠理工學(xué)院(www.houchangtech.com)是慧科教育科技集團(tuán)有限公司旗下一所專注前沿互聯(lián)網(wǎng)技術(shù)領(lǐng)域的創(chuàng)新實(shí)戰(zhàn)大學(xué)。

后廠理工學(xué)院(以下簡(jiǎn)稱“后廠理工”)由原百度教育事業(yè)部總經(jīng)理張高博士基于“開課吧”孵化創(chuàng)立并擔(dān)任首任院長(zhǎng)。后廠理工與全球知名IT和互聯(lián)網(wǎng)企業(yè)達(dá)成深度戰(zhàn)略合作,共同打造前沿互聯(lián)網(wǎng)技術(shù)領(lǐng)域的高端實(shí)戰(zhàn)課程, 并通過(guò)線上線下結(jié)合的沉浸式實(shí)戰(zhàn)授課方式全方位培養(yǎng)泛互聯(lián)網(wǎng)領(lǐng)域技術(shù)開發(fā)、應(yīng)用和管理等高端人才,目前已與百度、阿里巴巴、騰訊、華為、滴滴、微軟 等領(lǐng)頭羊企業(yè)共同開發(fā)了人工智能、大數(shù)據(jù)、云計(jì)算和邊緣計(jì)算等前沿實(shí)戰(zhàn)型體系化課程。 基于慧科近十年在高教領(lǐng)域的產(chǎn)教融合經(jīng)驗(yàn)和教學(xué)研發(fā)體系,并依托于“開課吧”豐富的學(xué)科品類、多元化的課程形態(tài)以及強(qiáng)大的人才賦能系統(tǒng)-“馭風(fēng)系統(tǒng)”,后廠理工旨在成為一所專注前沿互聯(lián)網(wǎng)技術(shù)領(lǐng)域的創(chuàng)新實(shí)戰(zhàn)大學(xué)。

你與AI菁英只差這一門課程的距離。

了解更多請(qǐng)加AI小助手:kkb0826


多方向文字檢測(cè)-AdvancedEast詳解的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
巧家县| 札达县| 玉田县| 大连市| 章丘市| 茂名市| 肃南| 南澳县| 大丰市| 罗城| 花莲县| 三江| 吴忠市| 离岛区| 安多县| 德安县| 藁城市| 平湖市| 本溪| 南安市| 林芝县| 塔城市| 宜良县| 伊春市| 东源县| 介休市| 图木舒克市| 白城市| 长治市| 台东县| 贵南县| 恩施市| 左贡县| 保德县| 镇康县| 化隆| 巩留县| 南丹县| 贵定县| 共和县| 宣恩县|