機(jī)器學(xué)習(xí)(西瓜書(shū)筆記)第一章

一、緒論
1.1引言
1.1.1定義
????????機(jī)器學(xué)習(xí)是致力于通過(guò)計(jì)算的手段,利用數(shù)據(jù)來(lái)改善系統(tǒng)自身的性能的學(xué)科。
1.1.2研究?jī)?nèi)容
????????從數(shù)據(jù)中產(chǎn)生“模型”的算法(即學(xué)習(xí)算法)
1.1.3如何運(yùn)用
????????有了學(xué)習(xí)算法,將經(jīng)驗(yàn)數(shù)據(jù)傳給學(xué)習(xí)算法后,產(chǎn)生相應(yīng)模型;在面對(duì)新情況時(shí),模型將會(huì)給出相應(yīng)的判斷。
1.2基本術(shù)語(yǔ)
????????數(shù)據(jù)集:一組記錄的集合
????????示例/樣本:每條記錄
????????屬性:反映事件或?qū)ο笤谀撤矫娴谋憩F(xiàn)或性質(zhì)的事項(xiàng)。例如每條記錄中的“色澤”、“根蒂”、“敲聲”就是西瓜的屬性
????????屬性空間:屬性張成的空間。例如我們把"色澤" "根蒂" "敲聲"作為三個(gè)坐標(biāo)軸,則它們張成一個(gè)用于描述西瓜的三維空間就是屬性空間
????????特征向量:每個(gè)西瓜都可在這個(gè)空間中找到自己的坐標(biāo)位置。由于空間中的每個(gè)點(diǎn)對(duì)應(yīng)一個(gè)坐標(biāo)向量,因此我們也把這個(gè)坐標(biāo)向量稱(chēng)為一個(gè)特征向量。
????????
????????將每個(gè)屬性作為一個(gè)坐標(biāo)軸,多個(gè)屬性就多個(gè)坐標(biāo)軸,從而形成一個(gè)描述物體的屬性空間。此空間中的每個(gè)樣本對(duì)應(yīng)一個(gè)點(diǎn),每個(gè)點(diǎn)都有一個(gè)坐標(biāo)向量,把這個(gè)坐標(biāo)向量稱(chēng)為特征向量。
????????
????????學(xué)習(xí)/訓(xùn)練:從數(shù)據(jù)中學(xué)得模型的過(guò)程
????????訓(xùn)練數(shù)據(jù):訓(xùn)練過(guò)程中使用的數(shù)據(jù)
????????訓(xùn)練樣本:訓(xùn)練過(guò)程中使用的每一個(gè)樣本
????????訓(xùn)練集:訓(xùn)練樣本組成的集合
????????假設(shè):學(xué)得模型對(duì)應(yīng)了關(guān)于數(shù)據(jù)的某種潛在規(guī)律
????????真相/真實(shí):這種潛在規(guī)律自身
????????
????????如果希望學(xué)得一個(gè)能幫助我們判斷沒(méi)剖開(kāi)的是不是"好瓜"的模型,僅有前面的示例數(shù)據(jù)顯然是不夠的要建立這樣的關(guān)于"預(yù)測(cè)" 的模型,我們還需獲得訓(xùn)練樣本的"結(jié)果"信息,例如"((色澤=青綠;根蒂=蜷縮;敲聲=濁響),好瓜)" 。
????????
????????標(biāo)記:關(guān)于示例結(jié)果的信息,比如上面例子中的 "好瓜" 就屬于標(biāo)記。
????????樣例:擁有了標(biāo)記信息的示例,則稱(chēng)為樣例。一般地,用 (xi,yi) 表示第 i 個(gè)樣例,其中 xi 是特征向量,yi 是這個(gè)樣本的標(biāo)記。
????????標(biāo)記空間/輸出空間:一般的用(xi,yi)表示第i個(gè)樣例,其中yi∈Y是示例xi的標(biāo)記,Y是所有標(biāo)記的集合
????????
????????根據(jù)預(yù)測(cè)結(jié)果的類(lèi)型,可以將機(jī)器學(xué)習(xí)任務(wù)分為二類(lèi)。
????????分類(lèi):預(yù)測(cè)結(jié)果的類(lèi)型是離散值,例如"好瓜","壞瓜";
????????回歸:預(yù)測(cè)結(jié)果的類(lèi)型是連續(xù)值,例如西瓜的成熟度0.37、0.95。
????????
????????學(xué)得模型后,使用其進(jìn)行預(yù)測(cè)的過(guò)程稱(chēng)為測(cè)試
????????測(cè)試樣本:被預(yù)測(cè)的樣本被稱(chēng)為測(cè)試樣本
????????
????????我們還可以對(duì)西瓜做聚類(lèi)
????????在聚類(lèi)學(xué)習(xí)中,“淺色瓜”,“外地瓜”這樣的概念我們事先是不知道的,而且學(xué)習(xí)過(guò)程中使用的訓(xùn)練樣本通常不擁有標(biāo)記信息
????????
????????根據(jù)訓(xùn)練數(shù)據(jù)是否擁有標(biāo)記信息,學(xué)習(xí)任務(wù)也可大致劃分為兩大類(lèi)。
????????監(jiān)督學(xué)習(xí):訓(xùn)練數(shù)據(jù)有標(biāo)記信息,其中分類(lèi)與回歸屬于監(jiān)督學(xué)習(xí)
????????無(wú)監(jiān)督學(xué)習(xí):訓(xùn)練數(shù)據(jù)沒(méi)有標(biāo)記信息,代表有聚類(lèi)
????????機(jī)器學(xué)習(xí)的目標(biāo):使得學(xué)到的模型能夠很好的適用"新樣本"
????????泛化:學(xué)得模型適用于新樣本的能力
????
1.3假設(shè)空間
1.3.1歸納與假設(shè)
????????歸納:從特殊到一般的“泛化”過(guò)程,即從具體的事實(shí)歸結(jié)出一般性規(guī)律
????????假設(shè):從一般到特殊的“特化”過(guò)程,即從基礎(chǔ)原理推演出具體情況
1.3.2假設(shè)空間定義
????????所有假設(shè)構(gòu)成的集合
1.3.3版本空間
????????只保留了假設(shè)空間中與訓(xùn)練數(shù)據(jù)集中正例一致的假設(shè),由這些正確的假設(shè)構(gòu)成的集合成為版本空間(簡(jiǎn)單來(lái)說(shuō),版本空間就是正例的泛化)。
????????
????????假設(shè)空間大小計(jì)算、構(gòu)建假設(shè)空間以及版本空間
????????舉個(gè)例子,假設(shè)西瓜的好壞由“色澤”,“根蒂”以及“敲聲”決定,且"色澤"、"根蒂"和"敲聲"分別有3、2、2 種可能取值。
1.3.4假設(shè)空間大小


1.3.5假設(shè)空間圖示

1.3.6訓(xùn)練集

1.4歸納偏好
????????定義:機(jī)器學(xué)習(xí)算法在學(xué)習(xí)過(guò)程中對(duì)某種類(lèi)型假設(shè)的偏好。
????????任何一個(gè)有效的機(jī)器學(xué)習(xí)算法必有其歸納偏好,否則它將被假設(shè)空間中看似在訓(xùn)練集上"等效"的假設(shè)所迷惑,無(wú)法產(chǎn)生確定的學(xué)習(xí)結(jié)果。如果沒(méi)有偏好,剛才那個(gè)例子就沒(méi)有確定的答案了。這樣的學(xué)習(xí)結(jié)果顯得沒(méi)有意義。
????????歸納偏好可以看做學(xué)習(xí)算法自身在一個(gè)可能很龐大的假設(shè)空間對(duì)假設(shè)進(jìn)行選擇的啟發(fā)式或“價(jià)值觀”
????????奧卡姆剃刀:若有多個(gè)假設(shè)與觀察一直,則選擇最簡(jiǎn)單的那個(gè)。
1.5發(fā)展歷程
????????20世紀(jì)80年代,“從樣例中學(xué)習(xí)”的一大主流師符號(hào)主義學(xué)習(xí),其代表包括決策樹(shù)和基于邏輯學(xué)習(xí)。
????????20世紀(jì)90年代中期之前,“從樣例中學(xué)習(xí)”的另一主流技術(shù)是基于神經(jīng)網(wǎng)絡(luò)的連接主義學(xué)習(xí)。
????????20世紀(jì)90年代中期, “統(tǒng)計(jì)學(xué)習(xí)(statistical learning)”閃亮登場(chǎng)并迅速占據(jù)主流舞臺(tái),代表技術(shù)是支持向量機(jī)(Support Vector Machine,簡(jiǎn)稱(chēng)SVM)以及更一般的“核方法”(kernel methods)
????????21世紀(jì)初,連接主義卷土重來(lái),掀起了以“深度學(xué)習(xí)”為名的熱潮。深度學(xué)習(xí)的前身是連接主義學(xué)習(xí)。

小貼士:
????點(diǎn)擊下方左右箭頭,自動(dòng)跳轉(zhuǎn)到文集的上一篇和下一篇。
????機(jī)器學(xué)習(xí)系列文檔持續(xù)更新,求關(guān)注求三連!