Limu-bert自監(jiān)督學(xué)習(xí)
在摘要中需要說(shuō)
IMU數(shù)據(jù)需要大量的標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練,所以導(dǎo)致了很高的標(biāo)注和訓(xùn)練成本。
充分利用未標(biāo)記的IMU數(shù)據(jù)做自監(jiān)督學(xué)習(xí),提出了什么什么新方法能夠?qū)崿F(xiàn)什么什么的目的,有什么優(yōu)點(diǎn)而且在現(xiàn)實(shí)生活中有什么意義
摘要
其中主要說(shuō)的是使用了BERT架構(gòu),但是不像自然語(yǔ)言處理一樣,而是將其改進(jìn)為更適用于傳感器數(shù)據(jù)的BERT。
(原始的BERT算法不適合于移動(dòng)IMU數(shù)據(jù)。 通過(guò)仔細(xì)觀察IMU傳感器的特性,我們提出了一系列技術(shù),并相應(yīng)地使LIMU-BERT適應(yīng)于IMU的傳感任務(wù)。)
解決方式:
為此,本文設(shè)計(jì)了包括數(shù)據(jù)融合與歸一化、有效的訓(xùn)練方法、結(jié)構(gòu)優(yōu)化等在內(nèi)的多種技術(shù),并將其(IMU data)嵌入到Bert框架中,以提高IMU傳感應(yīng)用的效能和效率
引言(需要包括自己貢獻(xiàn)以及數(shù)據(jù)集比較的結(jié)果以及介紹文章架構(gòu))
深度學(xué)習(xí)在傳統(tǒng)IMU數(shù)據(jù)的缺陷是什么導(dǎo)致阻礙了實(shí)踐中的應(yīng)用
大多數(shù)現(xiàn)有的工作在很大程度上依賴于監(jiān)督學(xué)習(xí)過(guò)程,其中需要大量標(biāo)記的IMU數(shù)據(jù)來(lái)訓(xùn)練傳感模型。 由于兩個(gè)原因,對(duì)大量標(biāo)記數(shù)據(jù)的要求阻礙了它們?cè)趯?shí)踐中的采用。 首先,標(biāo)記的IMU數(shù)據(jù)很少,因?yàn)樵诂F(xiàn)實(shí)環(huán)境中收集足夠的標(biāo)記IMU樣本成本高,耗時(shí)長(zhǎng)。 其次,移動(dòng)設(shè)備、使用模式和環(huán)境的多樣性導(dǎo)致需要帶有電話型號(hào)、用戶和使用場(chǎng)景的各種組合的標(biāo)記數(shù)據(jù),以獲得可推廣的模型。
自監(jiān)督需要做的實(shí)驗(yàn)
在學(xué)習(xí)表征之后,可以用少量標(biāo)記的IMU樣本訓(xùn)練多個(gè)特定于任務(wù)的推理模型?!径鄠€(gè)下游任務(wù),少量標(biāo)記樣本進(jìn)行訓(xùn)練】
本文注重的IMU點(diǎn)
在仔細(xì)研究了IMU數(shù)據(jù)的特點(diǎn)之后,我們重點(diǎn)研究了兩類特征:IMU傳感器單個(gè)測(cè)量值的分布和連續(xù)測(cè)量值的時(shí)間關(guān)系。
本文的貢獻(xiàn)
本文設(shè)計(jì)了一種從無(wú)標(biāo)記IMU數(shù)據(jù)中學(xué)習(xí)一般表示的自監(jiān)督方法?;趯W(xué)習(xí)表示,任務(wù)特定模型可以用少量標(biāo)注樣本進(jìn)行訓(xùn)練,這大大減少了標(biāo)注數(shù)據(jù)的監(jiān)督訓(xùn)練開銷。
本文提出了一系列關(guān)于BERT的調(diào)整和增強(qiáng),以在移動(dòng)傳感應(yīng)用中最好地使用IMU數(shù)據(jù)。LIMU-BERT是輕量級(jí)的,可用于移動(dòng)設(shè)備。
開發(fā)了一個(gè)原型系統(tǒng),并進(jìn)行了實(shí)驗(yàn)驗(yàn)證。廣泛的評(píng)價(jià)結(jié)果表明了LIMU-BERT在學(xué)習(xí)可泛化數(shù)據(jù)表示方面的有效性。
預(yù)備(感覺有點(diǎn)像動(dòng)機(jī))
融合很重要
陀螺儀的讀數(shù)有明顯的波動(dòng),而加速度計(jì)的讀數(shù)更穩(wěn)定,因?yàn)橥勇輧x對(duì)運(yùn)動(dòng)更敏感。 如果考慮加速度計(jì)讀數(shù)的變化,可以減輕陀螺儀波動(dòng)的影響。 換句話說(shuō),多個(gè)傳感器的交叉引用可以提供更多的信息,提高整體性能,這已經(jīng)被先前的工作所證明。 因此,與當(dāng)前多模態(tài)傳感器融合的研究方向相一致,表示學(xué)習(xí)模型應(yīng)該支持多個(gè)IMU傳感器的數(shù)據(jù)融合,這不是原始BERT用于NLP的設(shè)計(jì)目標(biāo)。
分布很重要
因此,我們認(rèn)為IMU讀數(shù)的分布包含了豐富的信息,這是LIMU-BERT應(yīng)該捕捉的一個(gè)特征。我們認(rèn)為,如果要捕獲一般特征,在將原始IMU數(shù)據(jù)輸入神經(jīng)網(wǎng)絡(luò)之前,不應(yīng)進(jìn)行任何可能破壞原始IMU數(shù)據(jù)分布信息的變換。
上下文很重要
因?yàn)榕懿胶妥叩臄?shù)據(jù)在圖中會(huì)顯示出對(duì)應(yīng)的周期性??傊瑫r(shí)間關(guān)系在IMU數(shù)據(jù)的表示學(xué)習(xí)中也扮演著重要的角色,這將很可能受益于BERT-like設(shè)計(jì)。
效率很重要
傳統(tǒng)的BERT參數(shù)數(shù)量太多了,我們要優(yōu)化模型讓其變得小一點(diǎn),更有利于便攜性。
方法
融合與標(biāo)準(zhǔn)化
我們?cè)O(shè)計(jì)了一種簡(jiǎn)單而有效的加速度計(jì)和磁強(qiáng)計(jì)讀數(shù)歸一化方法,以縮小距離差異,而不會(huì)嚴(yán)重改變它們的分布,可以表示為:
X: 張量 X^u:是未標(biāo)記的樣本 X^l:是帶標(biāo)簽的樣本 W = H_dim * S_dim(Hdim是大于Sdim的隱藏尺寸)
這個(gè)部分,寫的很基礎(chǔ),就是通過(guò)MLP讓原先比如(6, 128)的向量進(jìn)行高維化到(64,128)類似是這樣的,同時(shí)得到的(64, 128)也需要針對(duì)其做一個(gè)LayerNorm操作,實(shí)現(xiàn)標(biāo)準(zhǔn)化。
學(xué)習(xí)表示
總之,我們認(rèn)為MLM(bert里面的掩碼策略)有利于從IMU數(shù)據(jù)中提取我們的目標(biāo)特征?!驹颍菏紫?,在MLM訓(xùn)練過(guò)程之后,分類器能夠基于相應(yīng)的表示重構(gòu)被掩蓋的讀數(shù),這意味著Limu-Bert學(xué)習(xí)的特征必須包含分布信息。 其次,需要Limu-Bert為屏蔽讀數(shù)生成表示,這樣的過(guò)程迫使它學(xué)習(xí)IMU數(shù)據(jù)中的上下文關(guān)系?!?/p>
遮蓋方法:(因?yàn)槿绻挥幸粋€(gè)樣本子序列被屏蔽的話實(shí)際上模型能夠通過(guò)鏡像來(lái)重構(gòu)屏蔽的讀數(shù)==>所以我們要使用長(zhǎng)時(shí)間的mask進(jìn)行重建==>引出新的這種mask機(jī)制)
我們實(shí)現(xiàn)了一個(gè)Span Masking機(jī)制[15],它從????????處截取的幾何分布??????(??)中采樣子序列的長(zhǎng)度(用??表示):
成功概率??,掩碼率????,掩碼概率??_m
掩碼方法的細(xì)節(jié)在算法1中進(jìn)行了總結(jié)。第2、4行??[??,??)表示離散均勻分布,間隔[??,??]。????????是一個(gè)IMU序列中被屏蔽的讀數(shù)的最大數(shù)目,第7行中的方程保證每次都有????????讀數(shù)被屏蔽。??和??是每個(gè)子序列的開始和結(jié)束索引。在第2行中,我們從[0,1)中均勻隨機(jī)抽取一個(gè)????,只有當(dāng)????<????時(shí),IMU序列才會(huì)被屏蔽。換句話說(shuō),屏蔽的執(zhí)行概率為????。原因是在監(jiān)督學(xué)習(xí)階段輸入數(shù)據(jù)沒有掩碼,導(dǎo)致兩個(gè)學(xué)習(xí)階段的輸入數(shù)據(jù)存在差異。為了解決這個(gè)問(wèn)題,LIMU-BERT可以學(xué)習(xí)如何通過(guò)概率掩蔽來(lái)處理未掩蔽和掩蔽數(shù)據(jù)。在第11行中,所選讀數(shù)的所有值都替換為0。屏蔽率????和屏蔽概率????分別設(shè)為0.15和0.8。掩碼位置設(shè)置??將用于丟失函數(shù)。
輕量級(jí)模型
因此,我們采用了更小的采樣率(即20 Hz),相比現(xiàn)有的作品[8,33,51],并相應(yīng)地減小了輸入IMU序列的長(zhǎng)度。
limu -BERT的表示維????????小于原始BERT的表示維1024,有助于縮小模型尺寸。
LIMU-BERT采用跨層參數(shù)共享機(jī)制[19],提高參數(shù)效率。LIMU-BERT由多個(gè)編碼器層組成,其中只對(duì)第一個(gè)編碼器層中的參數(shù)進(jìn)行訓(xùn)練。第一層的參數(shù)與其他層共享。這種機(jī)制大大減少了LIMU-BERT的參數(shù)數(shù)量。
架構(gòu)設(shè)計(jì)
其中??是????????×??矩陣。一開始,規(guī)范化的數(shù)據(jù)??在輸入LIMU-BERT之前需要被屏蔽。投影和范數(shù)分量共同實(shí)現(xiàn)了式2和式3中的傳感器融合和歸一化設(shè)計(jì)。請(qǐng)注意,所有的標(biāo)準(zhǔn)化組件(即圖3中的黃色矩形)表示層標(biāo)準(zhǔn)化。接下來(lái),將位置編碼[43]添加到輸入數(shù)據(jù)中,以充分利用order信息。經(jīng)過(guò)第二層歸一化層后,隱藏特征表示如下:
其中????(·)是位置嵌入函數(shù),它將訂單(列)索引映射到長(zhǎng)度為????????的向量。所有位置嵌入都是可訓(xùn)練的變量。然后,一個(gè)注意-腸道塊(即圖3中的紫色矩形)將??作為輸入,并在輸出最終表示之前重復(fù)????????次。這個(gè)塊中的所有組件都是相同的,這個(gè)過(guò)程實(shí)現(xiàn)了跨層的參數(shù)共享機(jī)制。
其中??為[1,????????]中的整數(shù)。MultiAttn(·)是一個(gè)帶有????????注意頭的自我注意層[43]。注意層的查詢、鍵、值隱藏維度為????????。Proj(·)表示全連接層,其輸入和輸出尺寸均為????????。前饋(·)由兩個(gè)完全連通的層組成,隱維為????????,輸入輸出尺寸與Proj(·)相同(????????)。兩個(gè)完全連通層之間存在一個(gè)高斯誤差線性單元(GELU)[9]激活函數(shù)。最后,我們可以得到一個(gè)掩碼IMU序列????的表示??=??{????????}。
超參數(shù)設(shè)置:在LIMU-BERT中,????????和????????被設(shè)置為4。根據(jù)之前的設(shè)計(jì),在20Hz的采樣率下,??設(shè)置為120。
解碼器
????????由三個(gè)組件組成:一個(gè)投影、一個(gè)激活的規(guī)范化層和一個(gè)預(yù)測(cè)頭。解碼器可以表示為:
Pred(·)和Proj(·)為單全連通層,單元號(hào)分別為????????和????????。最后,從被屏蔽的IMU序列中得到重建的IMU序列?????。
訓(xùn)練
如前所述,重構(gòu)問(wèn)題被視為回歸任務(wù)。因此,自監(jiān)督階段的損耗函數(shù)定義如下:
分類頭
在我們的框架中,我們用門控循環(huán)單元(GRU)[4]設(shè)計(jì)了一個(gè)輕量級(jí)分類器,如圖4所示。它包含三個(gè)疊加的GRU層,隱藏大小分別為20、20和10。GRU第一層輸入尺寸為????????。在GRU層上,只將最后一個(gè)位置的隱藏特征輸入dropout層,drop rate為0.5,目的是減少過(guò)擬合。接下來(lái),在softmax層之前構(gòu)建兩個(gè)全連接的層,其中包含10個(gè)隱藏單元。最終的輸出大小與目標(biāo)任務(wù)中的類的數(shù)量相同。GRU分類器是非常輕量級(jí)的,因?yàn)橹挥杏邢薜臉?biāo)簽樣本可用。
實(shí)驗(yàn)
數(shù)據(jù)集:
HHAR, UCI, MotionSense