国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

權(quán)威發(fā)布|模式識(shí)別應(yīng)用技術(shù)重要研究進(jìn)展(二)

2020-10-22 14:59 作者:深藍(lán)學(xué)院  | 我要投稿

模式識(shí)別應(yīng)用技術(shù)具體研究進(jìn)展主要表現(xiàn)在如下幾個(gè)方面:面部生物特征識(shí)別、手部生物特征識(shí)別、行為生物特征識(shí)別、聲紋生物特征識(shí)別、文字與文本識(shí)別、復(fù)雜文檔版面分析、多媒體數(shù)據(jù)分析、多模態(tài)情感計(jì)算、圖像和視頻合成、圖像取證與安全、遙感圖像分析、醫(yī)學(xué)圖像分析等。接下來著重介紹,本次分享其中后項(xiàng)。?

前六項(xiàng)傳送門:模式識(shí)別應(yīng)用技術(shù)重要研究進(jìn)展(二)

干貨太多,請(qǐng)自帶水杯~^-^?

以下為報(bào)告正文部分

7. 醫(yī)學(xué)圖像分析

醫(yī)學(xué)影像分析(Medical Image Analysis)屬于多學(xué)科交叉的綜合研究領(lǐng)域,涉及醫(yī)學(xué)影像、數(shù)據(jù)建模、數(shù)字圖像處理與分析、人工智能和數(shù)值算法等多個(gè)學(xué)科。醫(yī)學(xué)圖像中的模式識(shí)別問題,主要指將模式識(shí)別與圖像處理技術(shù)應(yīng)用在醫(yī)學(xué)影像上,并結(jié)合臨床數(shù)據(jù)加以綜合分析,最終目的是找到與特定疾病相關(guān)的影像學(xué)生物指標(biāo),從而達(dá)到輔助醫(yī)生早期診斷,輔助治療和預(yù)后評(píng)估。醫(yī)學(xué)圖像分析主要包括醫(yī)學(xué)圖像分割、圖像配準(zhǔn)、圖像融合、三維重建與可視化,腦功能與網(wǎng)絡(luò)分析、計(jì)算機(jī)輔助診斷等。下面主要介紹醫(yī)學(xué)圖像分割、配準(zhǔn)融合以及計(jì)算機(jī)輔助診斷方面的重要進(jìn)展。

醫(yī)學(xué)圖像分割:醫(yī)學(xué)圖像分割是醫(yī)學(xué)圖像分析中典型的任務(wù),是醫(yī)學(xué)圖像分析的基礎(chǔ),它本質(zhì)上是像素級(jí)別的分類,即判斷圖片上每一個(gè)像素的所屬類別。一般的流程分為數(shù)據(jù)預(yù)處理、感興趣區(qū)域提取、分割、分割結(jié)果后處理等。傳統(tǒng)圖像分割方法包括閾值分割、區(qū)域增長、形變模型、水平集方法、多圖譜引導(dǎo)的分割方法等。隨著全卷積神經(jīng)網(wǎng)絡(luò)(FCN) 和U-Net網(wǎng)絡(luò)等深度學(xué)習(xí)算法的提出,深度學(xué)習(xí)在醫(yī)學(xué)圖像分割領(lǐng)域的應(yīng)用快速發(fā)展。FCN采用端到端的學(xué)習(xí)模式實(shí)現(xiàn)了輸出圖像區(qū)域分割,保證了對(duì)任意尺寸的圖像都能進(jìn)行處理,但其在醫(yī)學(xué)圖像上得到的分割結(jié)果相對(duì)粗糙。U-Net網(wǎng)絡(luò)結(jié)構(gòu)更適用于醫(yī)學(xué)圖像,并且針對(duì)小樣本的醫(yī)學(xué)圖像數(shù)據(jù)也取得了較好的分割結(jié)果,后續(xù)的改進(jìn)模型引入了殘差結(jié)構(gòu)和循環(huán)結(jié)構(gòu),并且與多尺度特征融合、注意力機(jī)制等技術(shù)相結(jié)合,進(jìn)一步提升了分割的效果。

醫(yī)學(xué)圖像配準(zhǔn)和融合:在臨床應(yīng)用中,單一模態(tài)的圖像往往不能提供醫(yī)生所需要的足夠信息,常需將多種模式或同一模式的多次成像通過配準(zhǔn)融合來實(shí)現(xiàn)感興趣區(qū)的信息互補(bǔ)。醫(yī)學(xué)圖像的配準(zhǔn)大部分情況下指對(duì)于在不同時(shí)間或不同條件下獲取的兩幅圖像,基于一個(gè)相似性測度尋求一種或一系列空間變換關(guān)系,使得兩幅待配準(zhǔn)圖像間的相似性測度達(dá)到最大。醫(yī)學(xué)圖像配準(zhǔn)包括被試個(gè)體內(nèi)配準(zhǔn)、被試組間配準(zhǔn)、二維-三維配準(zhǔn)等多個(gè)應(yīng)用場景。醫(yī)學(xué)圖像配準(zhǔn)的經(jīng)典方法包括基于互信息的配準(zhǔn)、自由形變模型配準(zhǔn)、基于Demons的形變配準(zhǔn)(DEMONS)、基于層次屬性的彈性配準(zhǔn)(HAMMER)、大形變微分同胚度量映射(LDDMM)等。幾年來,基于深度學(xué)習(xí)的配準(zhǔn)方法得到了領(lǐng)域內(nèi)的重視,深度學(xué)習(xí)應(yīng)用在配準(zhǔn)上主要采取以下兩種策略,1)用深度神經(jīng)網(wǎng)絡(luò)來預(yù)測兩幅圖像的相似度,2)直接用深度回歸網(wǎng)絡(luò)來預(yù)測形變參數(shù)。

計(jì)算機(jī)輔助診斷:結(jié)合計(jì)算機(jī)圖像處理技術(shù)以及其他可能的生理、生化手段,輔助發(fā)現(xiàn)病灶和特異性變化,提高診斷的準(zhǔn)確率。其一般流程是對(duì)圖像進(jìn)行預(yù)處理,然后通過手工特征或者特征學(xué)習(xí)方法對(duì)整張圖像進(jìn)行全局掃描,然后訓(xùn)練模型,判斷圖片中是否存在病變,并對(duì)疾病進(jìn)行分類。隨著深度學(xué)習(xí)的發(fā)展,尤其是卷積神經(jīng)網(wǎng)絡(luò)CNN的提出,Alexnet、VGG、Resnet等網(wǎng)絡(luò)在圖像分類領(lǐng)域取得了優(yōu)異的結(jié)果,其思想是通過有監(jiān)督或無監(jiān)督的方式學(xué)習(xí)層次化的特征表達(dá),來對(duì)物體進(jìn)行從底層到高層的特征描述。如何設(shè)計(jì)網(wǎng)絡(luò),提取圖片或者特定的區(qū)域的有效的特征,提高分類精度是目前主要研究的問題。例如:DeepMind公司利用深度學(xué)習(xí)開發(fā)了一套眼睛OCT診斷系統(tǒng),其準(zhǔn)確度和世界一流專家相當(dāng)。斯坦福大學(xué)的研究者發(fā)布了一系列成功的研究案例,如診斷皮膚癌的算法,準(zhǔn)確率高達(dá)91%,與人類醫(yī)生的表現(xiàn)相同;開發(fā)了一種新的深度學(xué)習(xí)算法,可基于單導(dǎo)程 ECG 信號(hào)分類 10 種心率不齊以及竇性心律和噪音,堪比心臟科醫(yī)生。國內(nèi)自動(dòng)化所研究團(tuán)隊(duì)基于多中心大樣本的精神分裂癥神經(jīng)影像、多組學(xué)數(shù)據(jù)庫,利用了數(shù)據(jù)建模與機(jī)器學(xué)習(xí)技術(shù),首次發(fā)現(xiàn)并從多方面驗(yàn)證了紋狀體環(huán)路功能異常是精神分裂癥精準(zhǔn)診療的有效生物標(biāo)記,該標(biāo)記可以精準(zhǔn)地從健康人群中篩查出精神分裂癥患者,并預(yù)測患者未來的抗精神病藥物治療效果。另外,最近在形勢緊急的新冠疫情中,國內(nèi)多家研究機(jī)構(gòu)分別使用了多種深度網(wǎng)絡(luò)對(duì)數(shù)據(jù)進(jìn)行分析,不僅能夠?qū)Ψ尾坎≡钸M(jìn)行快速分割,還可基于CT影像對(duì)新冠患者進(jìn)行快速診斷。澳門科技大學(xué)醫(yī)學(xué)院聯(lián)合清華大學(xué)、中山大學(xué)等團(tuán)隊(duì)合作研發(fā)了“面向新冠肺炎的全診療流程的智慧篩查、診斷與預(yù)測系統(tǒng)”,可以根據(jù)胸部的CT影像,對(duì)大量疑似病例進(jìn)行快速篩查、輔助診斷和住院臨床分級(jí)預(yù)警,實(shí)現(xiàn)對(duì)COVID-19病人的全生命周期管理。這些成果進(jìn)一步驗(yàn)證了智能醫(yī)學(xué)影像計(jì)算在計(jì)算機(jī)輔助診斷中的應(yīng)用潛力。

8. 文字與文本識(shí)別

人類社會(huì)生活和互聯(lián)網(wǎng)上存在大量的文字和文檔圖像(把文字和文檔通過掃描或拍照變成圖像)。把圖像中的文字檢測識(shí)別出來,轉(zhuǎn)化為電子文本,是計(jì)算機(jī)文字處理和語言理解的需要。這個(gè)過程稱為文檔圖像識(shí)別,簡稱文檔識(shí)別或文字識(shí)別,或稱為光學(xué)字符識(shí)別(OCR)。廣義的文字識(shí)別是指從文檔圖像中定位并識(shí)別出其中的多種文字內(nèi)容(文本、符號(hào)、公式、表格等);狹義的文字識(shí)別指單個(gè)文字(在版面簡單的文檔中容易分割出來)的識(shí)別。復(fù)雜版面和復(fù)雜背景文檔圖像中的圖文分割和文本定位也有大量的技術(shù)問題,將另外介紹。這里主要介紹單個(gè)文字和文本行(或稱字符串)識(shí)別的進(jìn)展。

文字識(shí)別作為模式識(shí)別領(lǐng)域的一個(gè)研究方向,是在電子計(jì)算機(jī)出現(xiàn)之后,在20世紀(jì)50年代以后發(fā)展起來的。早期文字識(shí)別的對(duì)象主要是印刷體數(shù)字和英文字母,方法以統(tǒng)計(jì)模式識(shí)別和特征匹配為主。后來開始手寫數(shù)字、字母和印刷體漢字、手寫體漢字識(shí)別的研究,研究中形狀歸一化、特征提取、分類器等技術(shù)受到高度重視。80-90年代也提出了一些結(jié)構(gòu)分析方法,并且字符切分、字符串識(shí)別和版面分析受到重視。21世紀(jì)以來,文檔分析和識(shí)別的各個(gè)方面技術(shù)繼續(xù)發(fā)展,性能持續(xù)提高;尤其是近年來,互聯(lián)網(wǎng)大數(shù)據(jù)、GPU并行計(jì)算支撐深度學(xué)習(xí)(深度神經(jīng)網(wǎng)絡(luò))快速發(fā)展,文檔分析和識(shí)別中基于深度學(xué)習(xí)的方法帶來性能快速提升,全面超越傳統(tǒng)方法,甚至在手寫字符識(shí)別等方面的精度超過人類水平。

單字識(shí)別作為一個(gè)分類問題,其方法大致可分為三類:統(tǒng)計(jì)方法、結(jié)構(gòu)方法、深度學(xué)習(xí)方法。統(tǒng)計(jì)方法中,對(duì)文字圖像歸一化、特征提取、分類三個(gè)主要環(huán)節(jié)都提出了很多有效的方法。歸一化是將字符圖像變換到標(biāo)準(zhǔn)大小并校正字符形狀。形狀校正對(duì)手寫字符尤其重要,典型方法有非線性歸一化、偽二維歸一化(Pseudo-two-dimensional normalization)方法等。特征提取方法最有代表性的是局部方向(包括筆劃輪廓方向、骨架方向、梯度方向)直方圖特征,最早在20世紀(jì)70年代末提出,80年代在學(xué)術(shù)界發(fā)表。分類器分類設(shè)計(jì)方面,除了通用的統(tǒng)計(jì)分類器、最近鄰原型分類器(學(xué)習(xí)矢量量化)、多層神經(jīng)網(wǎng)絡(luò)、支撐向量機(jī)等之外,文字識(shí)別領(lǐng)域提出了一些專門針對(duì)大類別集分類的改進(jìn)型分類器,如修正二次判別函數(shù)(MQDF)、樹分類器等。結(jié)構(gòu)方法中,對(duì)字符圖像骨架化(又稱細(xì)化)、筆劃提取、筆劃匹配(主要基于圖匹配思想)、部首分割和匹配等方面提出了很多方法,但是至今為止,結(jié)構(gòu)匹配的識(shí)別精度還不高,且模型學(xué)習(xí)困難。以全連接多層感知器(MLP)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)等為代表的神經(jīng)網(wǎng)絡(luò)模型在90年代起已經(jīng)開始在文字識(shí)別領(lǐng)域得到成功應(yīng)用,特別是在2013年以后,深度神經(jīng)網(wǎng)絡(luò)(主要是深度卷積神經(jīng)網(wǎng)絡(luò)CNN)逐漸占據(jù)主導(dǎo)地位,通過大數(shù)據(jù)訓(xùn)練對(duì)特征提取和分類器聯(lián)合學(xué)習(xí)明顯提高了識(shí)別精度,目前性能已全面超越傳統(tǒng)方法。對(duì)于過去認(rèn)為很難的大類別集(常用字5000類以上)手寫漢字識(shí)別問題,正確率已可達(dá)到97%以上。目前,在訓(xùn)練數(shù)據(jù)充足的情況下,單字識(shí)別問題基本上已得到了很好解決,不再是一個(gè)重要的學(xué)術(shù)問題。

文本行識(shí)別比單字識(shí)別更有實(shí)用價(jià)值。由于字符形狀、大小、位置、間隔不規(guī)則,字符在識(shí)別之前難以準(zhǔn)確切分,因此字符切分和識(shí)別必須同時(shí)進(jìn)行,這也就是文本行識(shí)別的過程。上世紀(jì)80年代,對(duì)日文手寫字符串識(shí)別、英文詞識(shí)別、手寫數(shù)字識(shí)別等問題提出了基于過切分和候選切分-識(shí)別網(wǎng)格的方法。這種方法至今在中文手寫文本行識(shí)別中仍具有優(yōu)勢,結(jié)合深度學(xué)習(xí)分類器(主要是CNN),可以得到優(yōu)異的識(shí)別性能。上世紀(jì)90年代,基于隱馬爾科夫模型(HMM)的方法在英文手寫詞識(shí)別中開始流行。這種方法的好處是可以在詞標(biāo)注(無需給出每個(gè)字的位置)的樣本集上進(jìn)行弱監(jiān)督學(xué)習(xí)。后來(2006年之后),基于長短時(shí)記憶(LSTM)遞歸神經(jīng)網(wǎng)絡(luò) (RNN)和連結(jié)時(shí)序分類(CTC)解碼的RNN+CTC模型在英文和阿拉伯文手寫識(shí)別中性能超越HMM,逐漸成為手寫詞識(shí)別和文本行識(shí)別的主導(dǎo)方法。此外,受到機(jī)器翻譯及自然語言處理領(lǐng)域中提出的注意力(Attention)序列解碼機(jī)制的啟發(fā),注意力模型也被廣泛應(yīng)用到文本行識(shí)別領(lǐng)域之中。近年來,結(jié)合CNN(用于圖像特征學(xué)習(xí))的RNN+CTC模型及RNN+Attention模型用于場景文本識(shí)別和手寫文本識(shí)別都取得了領(lǐng)先的性能?;诨瑒?dòng)窗CNN分類的方法(包括CNN+CTC、CNN+Attention)在多語言(包括中文)文本行識(shí)別中都比較有效。

文字識(shí)別方法研究是模式識(shí)別領(lǐng)域的重要部分,一些成果啟發(fā)了模式分類和計(jì)算機(jī)視覺等方向的研究,比如文字識(shí)別領(lǐng)域在20世紀(jì)80年代提出的梯度方向直方圖特征在2000年以后被廣泛用于計(jì)算機(jī)視覺領(lǐng)域,改名叫HOG。文字識(shí)別技術(shù)已在很多社會(huì)和商業(yè)領(lǐng)域取得成功應(yīng)用。傳統(tǒng)應(yīng)用場景包括印刷文檔數(shù)字化、古籍(歷史文檔)數(shù)字化、郵政分揀、票據(jù)識(shí)別、車牌識(shí)別、卡證識(shí)別、聯(lián)機(jī)手寫文字識(shí)別(主要是單字識(shí)別)等。過去脫機(jī)手寫字符識(shí)別的成功應(yīng)用不多,近年來,手寫文本識(shí)別技術(shù)開始進(jìn)入實(shí)用。各種票據(jù)的識(shí)別開始推廣,除了掃描圖像,拍照文檔(包括票據(jù)、卡證等)越來越多。手寫作業(yè)及試卷手寫文字識(shí)別、法律文檔和檔案識(shí)別開始推廣。相關(guān)方法的研究還在繼續(xù),以不斷提高應(yīng)用系統(tǒng)的性能。研究方向主要包括:小樣本學(xué)習(xí)、輸出置信度和可解釋性、多語言文本識(shí)別、交互式文本識(shí)別。

9. 復(fù)雜文檔版面分析

文檔圖像識(shí)別中,文檔圖像的處理和分割非常關(guān)鍵,因?yàn)槲淖趾臀谋拘斜蛔R(shí)別之前,先要在文檔中定位并被分割出來。對(duì)文檔圖像中的文本和圖形(插圖、表格、公式、簽名、印章等)區(qū)域進(jìn)行分割并分析不同區(qū)域之間的關(guān)系,是版面分析的主要任務(wù)。幾何版面分析是對(duì)圖文區(qū)域進(jìn)行定位和分割;邏輯版面分析則還要標(biāo)出不同區(qū)域之間的邏輯或語義關(guān)系(如閱讀順序)。版面分析的技術(shù)挑戰(zhàn)主要來自三個(gè)方面:低質(zhì)圖像、復(fù)雜版面、復(fù)雜背景。上世紀(jì)80年代以來,對(duì)文檔圖像預(yù)處理、版面分割、復(fù)雜背景圖像文本檢測方面提出了很多有效的方法,取得了巨大進(jìn)展,從而推動(dòng)了文字和文檔識(shí)別技術(shù)的成功應(yīng)用。

圖像預(yù)處理方面的技術(shù)包括二值化(文本與背景分離)、圖像增強(qiáng)、旋轉(zhuǎn)校正、畸變校正等。早期提出的Otsu二值化方法至今仍被廣泛使用。對(duì)于噪聲圖像的二值化,提出了很多從簡單到復(fù)雜的方法,如局部二值化及系列擴(kuò)展,用馬爾科夫隨機(jī)場、條件隨機(jī)場、深度神經(jīng)網(wǎng)絡(luò)(如全卷積網(wǎng)絡(luò))直接對(duì)象素進(jìn)行分類,等等。為了校正旋轉(zhuǎn)的文檔圖像,對(duì)旋轉(zhuǎn)方向估計(jì)提出了投影分析、Hough變換、紋理分析等方法。手持相機(jī)拍照文檔圖像的畸變、光照不均等問題比較突出,對(duì)這些畸變和光照的校正提出了一系列基于幾何分析(如三維幾何)和圖像變換矯正方法。

版面分析方法可分為三類:自上而下、自下而上和混合方法。自上而下的方法把圖像從大到小進(jìn)行劃分,直到每個(gè)區(qū)域?qū)?yīng)某一類對(duì)象(如文本、圖形)。代表性的自上而下方法如投影法和X-Y Cuts。自下而上的方法從圖像基本單元(像素、連通成分)從小到大聚合為文本行和區(qū)域,對(duì)圖像旋轉(zhuǎn)、變形、不規(guī)則區(qū)域等具有更強(qiáng)的適應(yīng)能力。比如手寫文檔中,手寫文本行有傾斜、彎曲,行之間挨得近,用投影法就很難分開,需用自下而上的聚類方法進(jìn)行分割。經(jīng)典的自下而上方法如Smearing、DocStrum(文檔譜)、Voronoi圖、紋理分析、聚類方法等。用條件隨機(jī)場對(duì)連通成分進(jìn)行分類,可以分割復(fù)雜版面的文檔,除了圖文區(qū)域分割,還可區(qū)分印刷和手寫文字。對(duì)于比較復(fù)雜的圖像,比如復(fù)雜背景或噪聲嚴(yán)重干擾的圖像,很難用傳統(tǒng)二值化去掉背景,近年來提出了基于圖模型(例如條件隨機(jī)場、圖卷積)進(jìn)行版面分析及理解、基于全卷積神經(jīng)網(wǎng)絡(luò)通過像素分類來區(qū)分背景和前景、分割文本、圖形等區(qū)域的新方法。混合方法結(jié)合自下而上和自上而下的方法,如在自下而上聚合過程中引入先驗(yàn)知識(shí)和規(guī)則、對(duì)聚合結(jié)果進(jìn)行后處理等??梢钥闯觯罱岢龅膱D模型和全卷積神經(jīng)網(wǎng)絡(luò)方法具有很強(qiáng)的從數(shù)據(jù)學(xué)習(xí)的能力,因而適應(yīng)不同風(fēng)格的文檔產(chǎn)生更好的分割性能。

場景文本檢測可以看成一個(gè)特殊的版面分析問題,由于其技術(shù)挑戰(zhàn)性和巨大的應(yīng)用需求,最近10年成為研究熱點(diǎn),取得了很大進(jìn)展。相關(guān)方法也可分為自下而上和自上而下、以及自上而下和自下而上相結(jié)合的方法。自下而上的方法基于文字或連通成分檢測,然后聚合成文本行,典型的如SegLink。自上而下的方法用類似物體檢測(Object Detection)直接回歸文本行位置,給出文本行的邊界框,典型方法如EAST等。但針對(duì)任意方向文本行和長寬比,需要設(shè)計(jì)特殊的模型和學(xué)習(xí)方法,如直接回歸方法。最近對(duì)形狀彎曲的所謂任意形狀文本檢測吸引了很多研究,典型的方法如TextSnake、自適應(yīng)區(qū)域表示等。在場景文本檢測基礎(chǔ)上,文本行(或詞)識(shí)別方法與普通印刷或手寫文本行識(shí)別類似。也有些方法(如CRNN+CTC)是首先在場景文本識(shí)別中提出來的。端到端的場景文本檢測與識(shí)別是目前的研究熱點(diǎn)之一。

文檔版面分析技術(shù)的發(fā)展推動(dòng)了文檔識(shí)別技術(shù)的成功應(yīng)用。隨著數(shù)碼相機(jī)和智能手機(jī)的普及,拍照文檔越來越多,文檔類型、圖像質(zhì)量多樣化,對(duì)版面分析技術(shù)的要求越來越高。近年來,各類拍照文檔(書籍、檔案、文書、票據(jù)、卡片、證件、場景文本)的自動(dòng)處理和識(shí)別逐漸開始實(shí)用,這得益于版面分析技術(shù)和文本識(shí)別技術(shù)的巨大進(jìn)步。但是,任意復(fù)雜結(jié)構(gòu)、低質(zhì)圖像文檔的版面分割與理解及內(nèi)容識(shí)別仍是有待解決的問題。

10. 多媒體數(shù)據(jù)分析

隨著網(wǎng)絡(luò)通信、數(shù)字電子設(shè)備、計(jì)算機(jī)技術(shù)的快速進(jìn)步,信息社會(huì)已進(jìn)入多媒體大數(shù)據(jù)時(shí)代。由于多媒體數(shù)據(jù)的固有屬性是異構(gòu)及多模態(tài)性,因此使用傳統(tǒng)方法處理這些復(fù)雜數(shù)據(jù)是不可行的。多媒體數(shù)據(jù)分析旨在解決多媒體數(shù)據(jù)的操縱、管理、挖掘、理解的問題,同時(shí)以高效的方式對(duì)不同模態(tài)的異構(gòu)數(shù)據(jù)進(jìn)行智能感知,從而服務(wù)于實(shí)際應(yīng)用。目前,多媒體數(shù)據(jù)的主要存在形式之一是社會(huì)多媒體。作為新一代信息資源,社會(huì)多媒體數(shù)據(jù)除傳統(tǒng)的文字信息外,還包含了具有表現(xiàn)力強(qiáng)、蘊(yùn)含信息量大、形象生動(dòng)等特點(diǎn)的圖像、音頻和視頻等媒體。這些不同的媒體數(shù)據(jù)在形式上多源異構(gòu),語義上相互關(guān)聯(lián)。

多媒體數(shù)據(jù)分析技術(shù)主要包括多模態(tài)表示學(xué)習(xí),模態(tài)間映射、對(duì)齊、融合和協(xié)同學(xué)習(xí)等。其中,多模態(tài)表示學(xué)習(xí)的主要目標(biāo)是將多模態(tài)數(shù)據(jù)所蘊(yùn)含的語義信息數(shù)值化為實(shí)值向量。其主要研究進(jìn)展包括多模態(tài)哈希編碼、多模態(tài)字典學(xué)習(xí)、多模態(tài)稀疏表達(dá)、基于深度學(xué)習(xí)的視覺-語義嵌入及大規(guī)模多模態(tài)數(shù)據(jù)表示學(xué)習(xí)等。模態(tài)間映射主要研究如何將某一特定模態(tài)數(shù)據(jù)中的信息映射至另一模態(tài)。其主要進(jìn)展包括基于注意力機(jī)制和上下文關(guān)系建模的圖像與視頻標(biāo)注方法。Liu等人提出了VisualBERT,其借助自注意力機(jī)制把一段輸入文本中的元素和一張相關(guān)的輸入圖像中的區(qū)域映射到語義空間內(nèi)并隱式地關(guān)聯(lián)起來。對(duì)齊主要研究如何識(shí)別不同模態(tài)間部件、元素的對(duì)應(yīng)關(guān)系。主要進(jìn)展是使用嵌入子空間的特征方法以增強(qiáng)模態(tài)內(nèi)數(shù)據(jù)的相關(guān)性和語義相關(guān)數(shù)據(jù)的關(guān)聯(lián)。融合主要研究如何整合不同模態(tài)間模型與特征。主要進(jìn)展是基于條件隨機(jī)場、主題模型、多視角學(xué)習(xí)和弱監(jiān)督方式的融合方法。協(xié)同學(xué)習(xí)主要研究如何將富集的模態(tài)上學(xué)習(xí)的知識(shí)遷移到信息匱乏的模態(tài),使各個(gè)模態(tài)的學(xué)習(xí)互相輔助。主要進(jìn)展是跨模態(tài)知識(shí)遷移網(wǎng)絡(luò)方法。Huang等人提出了一種跨模態(tài)知識(shí)遷移網(wǎng)絡(luò),將跨模態(tài)數(shù)據(jù)轉(zhuǎn)換為共同表示用于檢索,其中模態(tài)共享遷移子網(wǎng)絡(luò)利用源域和目標(biāo)域的模式作為橋梁,將知識(shí)同時(shí)遷移到兩種模態(tài)。社會(huì)多媒體計(jì)算作為多媒體數(shù)據(jù)分析的主要應(yīng)用點(diǎn)之一,其通常以用戶為中心進(jìn)行建模。主要研究進(jìn)展包括基于排序的多關(guān)聯(lián)因子分析模型、基于關(guān)聯(lián)隱SVM模型的用戶屬性的協(xié)同推斷、多模態(tài)的主題敏感的影響分析方法、基于協(xié)同過濾的內(nèi)容推薦算法等。Chen等人提出了注意力機(jī)制協(xié)同過濾內(nèi)容推薦算法,通過設(shè)計(jì)元件級(jí)的注意力模塊來從多媒體實(shí)例中提取富信息的元件,設(shè)計(jì)物品級(jí)的注意力模塊來為不同的物品進(jìn)行偏好打分,從而顯著提升了當(dāng)前最先進(jìn)的協(xié)同過濾推薦算法。

多媒體數(shù)據(jù)分析是一個(gè)充滿活力的多學(xué)科交叉領(lǐng)域,具有廣泛的影響。多媒體數(shù)據(jù)分析是實(shí)現(xiàn)跨媒體智能的重要手段,進(jìn)而可以高效應(yīng)對(duì)現(xiàn)實(shí)世界中對(duì)象復(fù)雜性、數(shù)據(jù)規(guī)?;?、應(yīng)用需求多樣化等挑戰(zhàn)。多媒體數(shù)據(jù)分析的應(yīng)用包含有多媒體數(shù)據(jù)的聚類、索引和內(nèi)容摘要等方向。例如,多媒體數(shù)據(jù)的內(nèi)容摘要不同于傳統(tǒng)的在單模態(tài)上的內(nèi)容摘要方法,需要融合豐富的多媒體數(shù)據(jù)。此外,多模態(tài)無監(jiān)督深度表征學(xué)習(xí)也是最近的研究熱點(diǎn),其訓(xùn)練不依賴任何標(biāo)簽,通過對(duì)多模態(tài)數(shù)據(jù)內(nèi)在特征的挖掘,找到其間的關(guān)系從而學(xué)習(xí)到高效的特征表示。目前在一些任務(wù)上多模態(tài)無監(jiān)督深度表征學(xué)習(xí)已經(jīng)接近了有監(jiān)督訓(xùn)練的性能。在社會(huì)多媒體計(jì)算方面,社會(huì)多媒體內(nèi)容理解可以通過對(duì)多媒體數(shù)據(jù)進(jìn)行語義分析和關(guān)聯(lián)建模以實(shí)現(xiàn)對(duì)社會(huì)事件的分析、檢測、關(guān)聯(lián)、預(yù)測及決策。其主要應(yīng)用領(lǐng)域包括內(nèi)容監(jiān)測、態(tài)勢分析、智能醫(yī)療、智慧城市等。

11. 多模態(tài)情感計(jì)算

所謂“模態(tài)”,英文是modality,每一種信息的來源或者形式,都可以稱為一種模態(tài)。例如,人有觸覺,聽覺,視覺,嗅覺;信息的媒介,有語音、視頻、文字等。多模態(tài)信息之間具有互補(bǔ)和增強(qiáng)作用,這與大腦通過多種來源的信息感知外在事物是一致的,不同感官會(huì)被無意識(shí)地自動(dòng)結(jié)合在一起對(duì)信息進(jìn)行處理,任何感官信息的缺乏或不準(zhǔn)確,都將導(dǎo)致大腦對(duì)外界信息的理解產(chǎn)生偏差。情感是人類智能的重要組成部分,情感計(jì)算的目的是通過賦予計(jì)算機(jī)識(shí)別、理解、表達(dá)和適應(yīng)人的情感的能力來建立和諧人機(jī)環(huán)境,并使計(jì)算機(jī)具有更高的、全面的智能。多模態(tài)情感計(jì)算是指融合多種模態(tài)信息包括但不限于音頻、視頻、文本和生理信號(hào)等模態(tài)進(jìn)行情感識(shí)別、解釋、處理和模擬,促進(jìn)和諧的人機(jī)交互。

有關(guān)情感計(jì)算的論述可以追述到二十世紀(jì)末的James Russell。1970年,人工智能創(chuàng)始人之一,計(jì)算機(jī)圖靈獎(jiǎng)獲得者,美國麻省理工學(xué)院的Minsky教授在《腦智社會(huì)》專著中就情感的重要性專門指出“問題不在于智能機(jī)器能否有情感,而在于沒有情感的機(jī)器能否實(shí)現(xiàn)智能”。1997年,MIT的Rosalind Picard在她的專著中首次提出“情感計(jì)算”的概念。之后,情感計(jì)算引入機(jī)器學(xué)習(xí)方法進(jìn)行分析,將情感分類分為不同的情感類別進(jìn)行識(shí)別,并且從不同的情感維度(愉悅度和激活度)上表示情感的正負(fù)向性和情感程度來量化情感,從而將情感分析建模為一個(gè)模式識(shí)別問題。因此,不同的機(jī)器學(xué)習(xí)方法都被應(yīng)用到了情感計(jì)算中,如傳統(tǒng)的支持向量機(jī)、隨機(jī)森林、隱馬爾科夫模型以及基于事件評(píng)價(jià)的情感模型等等。近來,隨著深度學(xué)習(xí)的廣泛應(yīng)用,深度神經(jīng)網(wǎng)絡(luò)也被成功地應(yīng)用到了情感計(jì)算中。由于情感的時(shí)序特性,遞歸神經(jīng)網(wǎng)絡(luò)能夠取得相較于其他網(wǎng)絡(luò)更好的效果。

人類具備多種情感表達(dá)方式,并且不同表現(xiàn)方式在表達(dá)情感信息時(shí)存在一定的互補(bǔ)作用。因此,相比于單模態(tài)情感識(shí)別,多模態(tài)情感識(shí)別更加完整,更加符合人類自然的行為表達(dá)方式。多模態(tài)情感分析的難點(diǎn)在于如何有效融合多模態(tài)信息,利用模態(tài)間的互補(bǔ)性,提升情感分析的能力。1997 年,Duc 等人最先提出“多模態(tài)”(Multi-modal)的概念。Pradeep 總結(jié)了多模態(tài)情感融合的三種基本模式,包括特征層融合、決策層融合和模型層融合。特征層融合在前期融合不同模態(tài)的特征,簡單有效但忽略了不同模態(tài)特征之間的差異性,同時(shí)該融合策略很難表示不同模態(tài)之間的時(shí)間同步性,并且融合后特征維度太大,容易造成信息冗余甚至引發(fā)“維數(shù)災(zāi)難”;決策層融合在后期綜合不同模態(tài)的預(yù)測,考慮到了不同模態(tài)特征的差異性,但決策層融合沒有考慮到情感特征之間的聯(lián)系,不能充分利用不同模態(tài)特征所蘊(yùn)含的類別信息,忽略了不同模態(tài)信息的本質(zhì)相關(guān)性;模型層融合依據(jù)于不同模型的內(nèi)在結(jié)構(gòu)進(jìn)行建模,并且利用深度學(xué)習(xí)方法獲得了更好的效果,是目前研究的熱點(diǎn)。模型層融合的另一種思路是多模態(tài)特征學(xué)習(xí),利用深度學(xué)習(xí)網(wǎng)絡(luò)提取不同模態(tài)信息中的情感共性部分而去除干擾部分,學(xué)習(xí)各個(gè)模態(tài)(如音頻、視頻和文本)之間的交互信息,得到魯棒的多模態(tài)情感特征表征。這方面的研究是多模態(tài)情感分析的熱點(diǎn),吸引了許多研究。如Zadeh 提出Tensor融合,將不同模態(tài)編碼到高層表征然后兩兩模態(tài)之間內(nèi)積拼接得到最終的多模態(tài)表征。

基于多模態(tài)融合的情感計(jì)算受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。1998年,美國伊利諾伊大學(xué)和日本 ART 研究院的研究工作者 Chen,Huang和Miyasato等人共同提出了基于表情和語音的雙模態(tài)情感識(shí)別框架。2006年,悉尼科技大學(xué)的研究工作者Gunes和Piccard等人建立了基于表情和姿態(tài)的情感數(shù)據(jù)庫,并在該數(shù)據(jù)庫上進(jìn)行融合表情和姿態(tài)的情感識(shí)別實(shí)驗(yàn)。2010年,東南大學(xué)的研究工作者Huang和Jin等人考慮到腦電信號(hào)可以充分反映人的生理和心理變化,提出了采用特征融合和決策融合算法實(shí)現(xiàn)語音信號(hào)和腦電信號(hào)的多模態(tài)情感識(shí)別。2015年,注意力機(jī)制首次被引入到多模態(tài)情感識(shí)別領(lǐng)域,該機(jī)制能夠考慮到不同模態(tài)對(duì)于情感計(jì)算的差異貢獻(xiàn)性,并且學(xué)習(xí)在不同時(shí)刻動(dòng)態(tài)地改變各個(gè)模態(tài)的權(quán)重。

多模態(tài)情感計(jì)算能夠極大地增加情感分析的準(zhǔn)確性,強(qiáng)化人機(jī)交互的自然度、類人度以及溫度。針對(duì)多模態(tài)情感計(jì)算的研究,能夠同時(shí)促進(jìn)模態(tài)信息融合、以認(rèn)知科學(xué)為基礎(chǔ)的視聽覺計(jì)算等相關(guān)領(lǐng)域的研究。同時(shí),多模態(tài)情感計(jì)算在智能客服、疲勞監(jiān)測、智能教育、智能醫(yī)療等領(lǐng)域有著廣泛地應(yīng)用。例如,利用多模態(tài)情感計(jì)算技術(shù),能夠判斷人的情感變化和心理壓力的變化,來偵測人們的一些行為或會(huì)話過程中,可能出現(xiàn)的一些心理和精神的異常點(diǎn),為醫(yī)生做診斷提供輔助。

12. 圖像取證與安全

以圖像為代表的視覺大數(shù)據(jù)作為客觀信息記錄的重要載體,在日常生活中被廣泛應(yīng)用,然而隨著圖像視頻編輯技術(shù)、特別是深度生成對(duì)抗和偽造技術(shù)等的快速發(fā)展,圖像視頻極易成為被惡意篡改偽造的對(duì)象,在互聯(lián)網(wǎng)和智能手機(jī)上廣泛且快速傳播,對(duì)網(wǎng)絡(luò)安全和媒體公信力造成巨大威脅。在眼見不為實(shí)的背景下,視覺取證技術(shù)應(yīng)運(yùn)而生,其目的是有效鑒別圖像視頻數(shù)據(jù)的真實(shí)性、追溯可疑圖像視頻來源。不同于主動(dòng)式的圖像水印、數(shù)字簽名技術(shù),圖像視頻取證技術(shù)采用被動(dòng)方式,僅從數(shù)據(jù)本身抽取可用線索,最終辨別圖像視頻的真實(shí)性。

雖然圖像篡改偽造問題早在19世紀(jì)照相機(jī)發(fā)明不久之后就已出現(xiàn),作為一個(gè)科學(xué)問題被廣泛研究的圖像視頻取證起源于2000年,是一個(gè)相對(duì)較新的研究領(lǐng)域。早期的圖像取證方法受自然圖像統(tǒng)計(jì)模型的啟發(fā),關(guān)注篡改圖像或計(jì)算機(jī)合成圖像不同于真實(shí)圖像的統(tǒng)計(jì)特征。由于假圖像與真圖像在視覺上很難區(qū)分,研究者多從高頻噪聲層面設(shè)計(jì)手工特征,如噪聲的高階矩特征、小波域特征、馬爾科夫轉(zhuǎn)移矩陣特征、鄰域像素共生矩陣特征等。該研究思路下取證問題與圖像隱寫分析問題非常相似,這些手工特征的設(shè)計(jì)很多借鑒自發(fā)展較為成熟的圖像隱寫分析領(lǐng)域。隨著研究深入,用于圖像視頻取證的特征維度越來越高,同時(shí)分類器也經(jīng)由了簡單線性分類器發(fā)展到核分類器、集成分類器再到近年來流行的深度學(xué)習(xí)網(wǎng)絡(luò)。

與基于統(tǒng)計(jì)模型的取證研究同時(shí)發(fā)展的另一種取證方法是多線索取證。此類方法通過發(fā)掘各成像環(huán)節(jié)中成像模型與成像規(guī)律被篡改行為破壞的線索來揭示篡改。各種類型的多線索取證方法共同構(gòu)成有效的取證工具集,主要包括相機(jī)模式噪聲取證、Color Filter Array (彩色過濾器陣列,簡稱CFA)插值算法取證、JPEG壓縮規(guī)律取證、場景光照一致性取證、場景幾何約束取證、、圖像操作取證等。各類方法的設(shè)計(jì)從特定成像環(huán)節(jié)的數(shù)學(xué)模型出發(fā),旨在通過建模來還原篡改行為對(duì)正常模型的破壞痕跡。此外,基于計(jì)算機(jī)視覺中的成熟技術(shù),有研究者提出對(duì)篡改圖像中復(fù)制粘貼同源區(qū)域進(jìn)行配準(zhǔn)定位;以及基于檢索與匹配技術(shù)從海量圖像中重建篡改圖像來源和篡改過程的取證溯源技術(shù)。

深度學(xué)習(xí)技術(shù)的發(fā)展,特別是深度偽造技術(shù)的出現(xiàn),對(duì)視覺取證領(lǐng)域也帶來了深遠(yuǎn)的影響。不同于一般計(jì)算機(jī)視覺任務(wù),圖像取證深度模型一般在圖像噪聲域設(shè)計(jì),目的是增強(qiáng)包含篡改痕跡的高頻微小信號(hào)。近兩年不斷有新的深度模型被提出,研究者在模型的層數(shù)、架構(gòu)、損失設(shè)計(jì)、圖像濾波層以及各種訓(xùn)練技巧上進(jìn)行了大量嘗試。最新的深度取證模型在標(biāo)準(zhǔn)數(shù)據(jù)庫上已經(jīng)能夠超越傳統(tǒng)統(tǒng)計(jì)模型的預(yù)測性能,然而此類取證方法仍然面臨實(shí)際場景中圖像壓縮、圖像質(zhì)量造成的不利影響以及深度取證方法本身可解釋性弱的問題。

圖像取證研究在內(nèi)容安全方面有著巨大應(yīng)用需求,對(duì)于互聯(lián)網(wǎng)虛假媒體檢測、司法鑒定、保險(xiǎn)反欺詐等都有實(shí)際應(yīng)用場景?!叭A南虎”、“廣場鴿”、“AI換臉”等事件中,圖像取證技術(shù)都發(fā)揮了重要作用。微軟公司與取證研究專家合作開發(fā)的敏感圖像內(nèi)容指紋比對(duì)技術(shù)已大規(guī)模應(yīng)用于各大圖像分享平臺(tái)。隨著智能偽造技術(shù)的快速發(fā)展,其危害日益嚴(yán)重,取證技術(shù)勢必在內(nèi)容安全應(yīng)用中發(fā)揮越來越大的作用。


*本文來自模式識(shí)別國家重點(diǎn)實(shí)驗(yàn)室組織發(fā)布的模式識(shí)別學(xué)科發(fā)展報(bào)告,已得到模式識(shí)別國家重點(diǎn)實(shí)驗(yàn)室授權(quán)發(fā)布。

權(quán)威發(fā)布|模式識(shí)別應(yīng)用技術(shù)重要研究進(jìn)展(二)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
台中县| 绥芬河市| 长治市| 六枝特区| 铁岭市| 庄河市| 会宁县| 弋阳县| 贵定县| 淅川县| 乡宁县| 天祝| 长汀县| 囊谦县| 湟源县| 河曲县| 邹城市| 蒲城县| 济阳县| 曲靖市| 仁布县| 犍为县| 临沧市| 东明县| 册亨县| 井冈山市| 公主岭市| 丰宁| 曲周县| 农安县| 德惠市| 海口市| 辽阳县| 德昌县| 昔阳县| 明光市| 义马市| 左云县| 金堂县| 南昌市| 永定县|