国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

001基于pyqt和卷積網(wǎng)絡(luò)CNN的中文漢字識(shí)別

2023-06-29 20:41 作者:到此一游7758258  | 我要投稿

?直接上效果演示圖:


通過(guò)點(diǎn)擊按鈕可以實(shí)現(xiàn)在畫(huà)板上寫(xiě)漢字識(shí)別和加載圖片識(shí)別兩個(gè)功能。

視頻演示和demo倉(cāng)庫(kù)地址在b站視頻001期:

到此一游7758258的個(gè)人空間-到此一游7758258個(gè)人主頁(yè)-嗶哩嗶哩視頻

所有代碼展示:


十分的簡(jiǎn)潔,主要是01,02,03.py文件

運(yùn)行01dataset.py可以將data文件下的圖片數(shù)據(jù)集保存成txt格式記錄。


運(yùn)行02train.py可以讀取txt記錄的圖片數(shù)據(jù)進(jìn)行訓(xùn)練,訓(xùn)練的模型保存在本地,其中提供了10多種的模型可以任意的切換。包括:efficientnet、Alexnet、DenseNet、DLA、GoogleNet、Mobilenet、ResNet、ResNext、ShuffleNet、Swin_transformer、VGG等。


?訓(xùn)練結(jié)束后保存評(píng)價(jià)指標(biāo)圖在result文件下:


最后運(yùn)行03pyqt.py可以展示一個(gè)可視化的交互界面,通過(guò)點(diǎn)擊按鈕來(lái)識(shí)別,這里彈出的界面上提供了第一個(gè)按鈕為在畫(huà)板上控制鼠標(biāo)寫(xiě)出漢字識(shí)別。

第二個(gè)按鈕為加載漢字圖片進(jìn)行識(shí)別。

?


?先是第一個(gè)按鈕點(diǎn)擊后,左側(cè)為鼠標(biāo)手寫(xiě)漢字界面,右側(cè)為預(yù)測(cè)結(jié)果和控制按鈕。


第二個(gè)按鈕和第一個(gè)按鈕界面展示一樣,只不過(guò)手寫(xiě)變成了加載本地圖片來(lái)識(shí)別。?


科普下卷積神經(jīng)網(wǎng)絡(luò)相關(guān)知識(shí):

CNN是卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network)的縮寫(xiě)。它是一種前饋神經(jīng)網(wǎng)絡(luò),特別適用于處理具有網(wǎng)格狀結(jié)構(gòu)的數(shù)據(jù),例如圖像、視頻和聲音等。CNN由多個(gè)卷積層、池化層和全連接層組成。

CNN的核心思想是通過(guò)卷積操作和池化操作來(lái)提取輸入數(shù)據(jù)中的特征。卷積層使用卷積核對(duì)輸入數(shù)據(jù)進(jìn)行滑動(dòng)窗口操作,以捕捉不同位置的局部特征。通過(guò)堆疊多個(gè)卷積層,網(wǎng)絡(luò)可以學(xué)習(xí)到更加復(fù)雜的特征表示。池化層則用于降低數(shù)據(jù)維度,并保留最顯著的特征。全連接層將特征映射到具體的輸出類(lèi)別上。

CNN在計(jì)算機(jī)視覺(jué)領(lǐng)域取得了巨大成功,廣泛應(yīng)用于圖像分類(lèi)、目標(biāo)檢測(cè)、人臉識(shí)別等任務(wù)。其優(yōu)勢(shì)在于能夠自動(dòng)學(xué)習(xí)具有平移不變性的特征,并且對(duì)于大規(guī)模數(shù)據(jù)集訓(xùn)練時(shí)具有較好的性能。


ALexNet是一種深度卷積神經(jīng)網(wǎng)絡(luò)(CNN),由Alex Krizhevsky等人于2012年提出。它是第一個(gè)在ImageNet Large-Scale Visual Recognition Challenge(ILSVRC)上取得顯著優(yōu)勢(shì)的深度學(xué)習(xí)模型。

ALexNet采用了多層卷積層和全連接層的結(jié)構(gòu)。相比于傳統(tǒng)的淺層網(wǎng)絡(luò),ALexNet引入了更深的網(wǎng)絡(luò)結(jié)構(gòu),包含5個(gè)卷積層和3個(gè)全連接層。同時(shí),它還使用了非線性激活函數(shù)(ReLU)來(lái)增強(qiáng)模型的表達(dá)能力,并且引入了局部響應(yīng)歸一化(Local Response Normalization)層來(lái)提高泛化性能。

ALexNet的設(shè)計(jì)突破了之前的限制,通過(guò)大規(guī)模數(shù)據(jù)集的訓(xùn)練,成功地提升了圖像分類(lèi)任務(wù)的準(zhǔn)確性。它在2012年的ILSVRC比賽中取得了遠(yuǎn)超其他模型的成績(jī),標(biāo)志著深度學(xué)習(xí)方法在計(jì)算機(jī)視覺(jué)領(lǐng)域的崛起。

ALexNet的成功對(duì)深度學(xué)習(xí)的發(fā)展產(chǎn)生了重要影響,激發(fā)了更多研究者對(duì)深度神經(jīng)網(wǎng)絡(luò)的研究興趣,并為后續(xù)的網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)提供了啟示。


GoogleNet,也稱(chēng)為Inception,是由Google團(tuán)隊(duì)在2014年提出的深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)。它是為了參加ImageNet Large-Scale Visual Recognition Challenge(ILSVRC)而設(shè)計(jì)的。

GoogleNet采用了一種稱(chēng)為"Inception模塊"的特殊結(jié)構(gòu),它允許網(wǎng)絡(luò)在不同尺度上進(jìn)行并行處理,以捕捉不同層次的特征。這種并行處理有助于減少參數(shù)量,并且在一定程度上緩解了過(guò)擬合問(wèn)題。

與傳統(tǒng)的網(wǎng)絡(luò)相比,GoogleNet具有更深的結(jié)構(gòu),但通過(guò)合理的設(shè)計(jì)和使用1x1的卷積核進(jìn)行降維操作,成功地減少了計(jì)算復(fù)雜度和參數(shù)數(shù)量。它在2014年的ILSVRC比賽中取得了顯著的成果,并且提出的架構(gòu)思想影響了后續(xù)深度學(xué)習(xí)模型的發(fā)展。


VGG是一種深度卷積神經(jīng)網(wǎng)絡(luò)(CNN),由牛津大學(xué)的研究團(tuán)隊(duì)在2014年提出。它被命名為VGG,以紀(jì)念論文作者之一Visual Geometry Group(視覺(jué)幾何群)。

VGG網(wǎng)絡(luò)的主要特點(diǎn)是其深度和簡(jiǎn)單性。相比于之前的模型,VGG采用了更多的卷積層和池化層,達(dá)到了16或19個(gè)卷積層的深度。同時(shí),VGG中的卷積層都使用了較小的3x3卷積核,并且連續(xù)堆疊多次,以增加網(wǎng)絡(luò)的非線性表達(dá)能力。

VGG網(wǎng)絡(luò)的結(jié)構(gòu)非常規(guī)整,邏輯清晰。它由多個(gè)卷積塊組成,每個(gè)卷積塊由連續(xù)的卷積層和一個(gè)池化層構(gòu)成。最后的全連接層負(fù)責(zé)將提取到的特征映射到具體的輸出類(lèi)別上。

盡管VGG網(wǎng)絡(luò)相對(duì)較深,但它在各種視覺(jué)任務(wù)上表現(xiàn)出色。VGG的設(shè)計(jì)思想啟發(fā)了后續(xù)更深層次的神經(jīng)網(wǎng)絡(luò)架構(gòu),為深度學(xué)習(xí)的發(fā)展做出了重要貢獻(xiàn)。


RESNET是一種深度殘差網(wǎng)絡(luò)(Residual Network),由微軟研究院的研究團(tuán)隊(duì)在2015年提出。它是為了解決深度神經(jīng)網(wǎng)絡(luò)中的退化問(wèn)題(degradation problem)而設(shè)計(jì)的。

在傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)中,隨著網(wǎng)絡(luò)層數(shù)的增加,模型的準(zhǔn)確性通常會(huì)飽和或下降。這是因?yàn)檩^深層次的網(wǎng)絡(luò)更難優(yōu)化,容易出現(xiàn)梯度消失或梯度爆炸等問(wèn)題。為了解決這個(gè)問(wèn)題,RESNET引入了殘差學(xué)習(xí)的思想。

RESNET通過(guò)跳過(guò)連接(skip connection)來(lái)構(gòu)建殘差塊。跳過(guò)連接使得信息可以直接在網(wǎng)絡(luò)中傳遞,繞過(guò)某些層,從而避免了信息丟失和退化。具體而言,每個(gè)殘差塊的輸入通過(guò)一個(gè)恒等映射(identity mapping)與輸出相加,然后再進(jìn)入激活函數(shù)進(jìn)行非線性變換。這種設(shè)計(jì)使得網(wǎng)絡(luò)學(xué)習(xí)到殘差的差異,從而更有效地優(yōu)化模型。

RESNET的結(jié)構(gòu)可以很容易地?cái)U(kuò)展到更深的層數(shù),甚至達(dá)到數(shù)百層的深度。利用殘差連接的設(shè)計(jì),RESNET在ILSVRC比賽等各種視覺(jué)任務(wù)中取得了非常出色的結(jié)果,并且成為深度學(xué)習(xí)中非常重要的網(wǎng)絡(luò)架構(gòu)之一。


MobileNet是一種輕量級(jí)的深度卷積神經(jīng)網(wǎng)絡(luò)(CNN),由Google的研究團(tuán)隊(duì)于2017年提出。它的設(shè)計(jì)旨在實(shí)現(xiàn)在嵌入式設(shè)備和移動(dòng)設(shè)備等資源受限的環(huán)境下進(jìn)行高效的圖像識(shí)別和分類(lèi)。

MobileNet通過(guò)使用深度可分離卷積(depthwise separable convolution)來(lái)減少模型的計(jì)算量和參數(shù)數(shù)量。深度可分離卷積將標(biāo)準(zhǔn)卷積操作拆分為兩個(gè)步驟:深度卷積(depthwise convolution)和逐點(diǎn)卷積(pointwise convolution)。深度卷積對(duì)每個(gè)輸入通道單獨(dú)執(zhí)行卷積操作,而逐點(diǎn)卷積用于組合輸出通道。這種方式可以大幅減少計(jì)算量,同時(shí)保持較好的模型準(zhǔn)確性。

MobileNet還引入了寬度乘法器(width multiplier)和分辨率乘法器(resolution multiplier)的概念。寬度乘法器用于控制每一層的特征通道數(shù),以進(jìn)一步減少模型的計(jì)算負(fù)載。分辨率乘法器則用于調(diào)整輸入圖像的分辨率,從而在模型運(yùn)行時(shí)降低計(jì)算需求。

MobileNet在保持相對(duì)較小模型大小和低計(jì)算成本的同時(shí),仍能保持較高的識(shí)別準(zhǔn)確率。這使得它在移動(dòng)設(shè)備、嵌入式設(shè)備和實(shí)時(shí)應(yīng)用等場(chǎng)景中受到廣泛應(yīng)用,例如圖像分類(lèi)、目標(biāo)檢測(cè)和人臉識(shí)別等任務(wù)。


ShuffleNet是一種輕量級(jí)的深度神經(jīng)網(wǎng)絡(luò)架構(gòu),由微軟研究院的研究團(tuán)隊(duì)于2018年提出。它的設(shè)計(jì)目標(biāo)是在計(jì)算資源受限的設(shè)備上實(shí)現(xiàn)高效的圖像分類(lèi)和目標(biāo)檢測(cè)。

ShuffleNet通過(guò)引入逐通道組卷積(channel shuffling)和分組卷積(group convolution)等操作來(lái)減少模型的計(jì)算復(fù)雜度和參數(shù)量。逐通道組卷積將輸入特征圖的通道重新排列,以增加不同通道之間的交互性。分組卷積將輸入特征圖分為多個(gè)組,并對(duì)每個(gè)組進(jìn)行卷積操作,以減少計(jì)算量。

ShuffleNet的核心結(jié)構(gòu)是Shuffle Unit,它包含了逐通道組卷積、分組卷積和特征重組(feature shuffle)等操作。Shuffle Unit的設(shè)計(jì)使得網(wǎng)絡(luò)在同時(shí)保持較低計(jì)算負(fù)擔(dān)的前提下,能夠?qū)W習(xí)到更豐富的特征表示。

ShuffleNet具有較小的模型大小和低計(jì)算需求,適合在移動(dòng)設(shè)備、嵌入式設(shè)備和實(shí)時(shí)應(yīng)用等場(chǎng)景中部署。它在保持相對(duì)較高的準(zhǔn)確率的同時(shí),有效地優(yōu)化了計(jì)算資源的利用。ShuffleNet已經(jīng)在圖像分類(lèi)、目標(biāo)檢測(cè)和人臉識(shí)別等領(lǐng)域取得了顯著的成果,并為輕量級(jí)深度學(xué)習(xí)模型的發(fā)展提供了重要思路。

EfficientNet是一種高效的深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)架構(gòu),由Google Brain團(tuán)隊(duì)在2019年提出。它通過(guò)聯(lián)合優(yōu)化模型深度、寬度和分辨率來(lái)實(shí)現(xiàn)更好的性能和計(jì)算效率。

EfficientNet的設(shè)計(jì)思想是基于兩個(gè)觀察結(jié)果:首先,較大的模型往往具有更好的性能,但訓(xùn)練和推理成本也更高;其次,網(wǎng)絡(luò)的深度、寬度和分辨率之間存在著相互依賴(lài)的關(guān)系?;谶@些觀察結(jié)果,EfficientNet使用了一個(gè)稱(chēng)為Compound Scaling的方法,同時(shí)增加了模型的深度、寬度和分辨率,以在資源受限的環(huán)境下取得更好的性能。

EfficientNet的核心結(jié)構(gòu)是EfficientNet-B0到EfficientNet-B7,它們是由不同層數(shù)和通道數(shù)的組合構(gòu)成的。通過(guò)使用復(fù)合縮放方法,每個(gè)EfficientNet模型都可以根據(jù)任務(wù)和計(jì)算資源進(jìn)行調(diào)整,并在準(zhǔn)確性和計(jì)算效率之間找到一個(gè)平衡點(diǎn)。

EfficientNet在許多計(jì)算機(jī)視覺(jué)任務(wù)上表現(xiàn)出色,包括圖像分類(lèi)、目標(biāo)檢測(cè)和語(yǔ)義分割等。它已經(jīng)成為當(dāng)今領(lǐng)先的深度學(xué)習(xí)模型之一,為在資源受限的設(shè)備上實(shí)現(xiàn)高效而準(zhǔn)確的推理提供了重要的解決方案。


Swin Transformer是一種新興的視覺(jué)感知模型,由香港中文大學(xué)的研究團(tuán)隊(duì)在2021年提出。它結(jié)合了Transformer架構(gòu)和局部窗口注意力機(jī)制,通過(guò)分解嵌入式圖像處理的長(zhǎng)距離依賴(lài)性問(wèn)題。

傳統(tǒng)的Transformer模型在處理圖像時(shí)會(huì)面臨計(jì)算和內(nèi)存開(kāi)銷(xiāo)的挑戰(zhàn),因?yàn)閳D像具有高分辨率和大量的位置信息。為了解決這個(gè)問(wèn)題,Swin Transformer引入了一個(gè)細(xì)粒度的分割策略和基于窗口的局部注意力機(jī)制。

Swin Transformer首先將輸入圖像分成小的非重疊路徑塊(patch),然后在這些路徑塊上應(yīng)用Transformer的自注意力機(jī)制。接下來(lái),通過(guò)使用窗口化的局部注意力機(jī)制,模型能夠同時(shí)處理局部和全局的信息。這種設(shè)計(jì)不僅降低了計(jì)算和內(nèi)存開(kāi)銷(xiāo),還有效地捕捉到了圖像中不同尺度的特征。

Swin Transformer在多個(gè)計(jì)算機(jī)視覺(jué)任務(wù)上取得了令人印象深刻的結(jié)果,包括圖像分類(lèi)、目標(biāo)檢測(cè)和語(yǔ)義分割等。它兼具高效性和表現(xiàn)力,在減少計(jì)算復(fù)雜度的同時(shí),保持了較好的準(zhǔn)確性和泛化性能。Swin Transformer為圖像處理領(lǐng)域帶來(lái)了新的思路和突破,并吸引了廣泛的關(guān)注和研究。




001基于pyqt和卷積網(wǎng)絡(luò)CNN的中文漢字識(shí)別的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
开平市| 泌阳县| 广德县| 铜梁县| 夏津县| 梧州市| 雅安市| 垦利县| 郸城县| 莱西市| 鄂伦春自治旗| 岢岚县| 宁都县| 抚州市| 揭阳市| 丹寨县| 荆州市| 临泉县| 盘锦市| 读书| 罗平县| 临桂县| 进贤县| 沁水县| 广河县| 象山县| 青龙| 西安市| 永福县| 尼木县| 丰城市| 三江| 项城市| 阳泉市| 景洪市| 五河县| 北安市| 江口县| 邯郸县| 义马市| 车险|