統(tǒng)計學習方法(第2版)
鏈接:https://pan.baidu.com/s/134D3QJTyxQRPFPHJTn40-g?pwd=hvqv?
提取碼:hvqv

編輯推薦
隨著人工智能和大數(shù)據(jù)在社會各行各業(yè)的廣泛應(yīng)用,統(tǒng)計學習方法已經(jīng)成為人們急需了解與掌握的熱門知識與技術(shù)。本書為具有高等數(shù)學、線性代數(shù)和概率統(tǒng)計基礎(chǔ)知識的人們提供了一本統(tǒng)計機器學習的基本讀物。2012年的第一版敘述了一批重要和常用的主要是監(jiān)督學習的方法,受到廣大讀者的歡迎,已加印十三萬多冊。第二版主要增加了無監(jiān)督學習的內(nèi)容,包括近十種統(tǒng)計學習方法,使讀者能夠更好地了解和掌握統(tǒng)計機器學習這門新興學科。
內(nèi)容簡介
統(tǒng)計學習方法即機器學習方法,是計算機及其應(yīng)用領(lǐng)域的一門重要學科。《統(tǒng)計學習方法(第2版)》分為監(jiān)督學習和無監(jiān)督學習兩篇,全面系統(tǒng)地介紹了統(tǒng)計學習的主要方法。包括感知機、k近鄰法、樸素貝葉斯法、決策樹、邏輯斯諦回歸與大熵模型、支持向量機、提升方法、EM算法、隱馬爾可夫模型和條件隨機場,以及聚類方法、奇異值分解、主成分分析、潛在語義分析、概率潛在語義分析、馬爾可夫鏈蒙特卡羅法、潛在狄利克雷分配和PageRank算法等。
《統(tǒng)計學習方法(第2版)》是統(tǒng)計機器學習及相關(guān)課程的教學參考書,適用于高等院校文本數(shù)據(jù)挖掘、信息檢索及自然語言處理等專業(yè)的大學生、研究生,也可供計算機應(yīng)用等專業(yè)的研發(fā)人員參考。
作者簡介
李航,男,畢業(yè)于日本京都大學電氣電子工程系,日本東京大學獲得計算機科學博士學位。北京大學、南京大學兼職教授。曾任日本NEC公司中央研究所研究員,微軟亞洲研究院高級研究員與主任研究員、華為技術(shù)有限公司諾亞方舟實驗室主任?,F(xiàn)任今日頭條人工智能實驗室主任。
內(nèi)頁插圖




目錄
第1篇 監(jiān)督掌習
第1章 統(tǒng)計學習及監(jiān)督學習概論
1.1 統(tǒng)計學習
1.2 統(tǒng)計學習的分類
1.2.1 基本分類
1.2.2 按模型分類
1.2.3 按算法分類
1.2.4 按技巧分類
1.3 統(tǒng)計學習方法三要素
1.3.1 模型
1.3.2 策略
1.3.3 算法
1.4 模型評估與模型選擇
1.4.1 訓練誤差與測試誤差
1.4.2 過擬合與模型選擇
1.5 正則化與交叉驗證
1.5.1 正則化
1.5.2 交叉驗證
1.6 泛化能力
1.6.1 泛化誤差
1.6.2 泛化誤差上界
1.7 生成模型與判別模型
1.8 監(jiān)督學習應(yīng)用
1.8.1 分類問題
1.8.2 標注問題
1.8.3 回歸問題
本章概要
繼續(xù)閱讀
習題
參考文獻
第2章 感知機
2.1 感知機模型
2.2 感知機學習策略
2.2.1 數(shù)據(jù)集的線性可分性
2.2.2 感知機學習策略
2.3 感知機學習算法
2.3.1 感知機學習算法的原始形式
2.3.2 算法的收斂性
2.3.3 感知機學習算法的對偶形式
本章概要
繼續(xù)閱讀
習題
參考文獻
第3章 k近鄰法
3.1 k近鄰算法
3.2 k近鄰模型
3.2.1 模型
3.2.2 距離度量
3.2.3 k值的選擇
3.2.4 分類決策規(guī)則
3.3 k近鄰法的實現(xiàn):kd樹
3.3.1 構(gòu)造kd樹
3.3.2 搜索kd樹
本章概要
繼續(xù)閱讀
……
第2篇 無監(jiān)督掌習
附錄
索引
查看全部↓
精彩書摘
第 1篇
監(jiān)
督
學
習
第 1章統(tǒng)計學習及監(jiān)督學習概論
本書第 1篇講述監(jiān)督學習方法。監(jiān)督學習是從標注數(shù)據(jù)中學習模型的機器學習問題,是統(tǒng)計學習或機器學習的重要組成部分。
本章簡要敘述統(tǒng)計學習及監(jiān)督學習的一些基本概念。使讀者對統(tǒng)計學習及監(jiān)督學習有初步了解。
本章 1.1節(jié)敘述統(tǒng)計學習或機器學習的定義、研究對象與方法; 1.2節(jié)敘述統(tǒng)計學習的分類,基本分類是監(jiān)督學習、無監(jiān)督學習、強化學習; 1.3節(jié)敘述統(tǒng)計學習方法的三要素:模型、策略和算法; 1.4節(jié)至 1.7節(jié)相繼介紹監(jiān)督學習的幾個重要概念,包括模型評估與模型選擇、正則化與交叉驗證、學習的泛化能力、生成模型與判別模型;最后 1.8節(jié)介紹監(jiān)督學習的應(yīng)用:分類問題,標注問題與回歸問題。
1.1統(tǒng)計學習
1.統(tǒng)計學習的特點
統(tǒng)計學習( statistical learning)是關(guān)于計算機基于數(shù)據(jù)構(gòu)建概率統(tǒng)計模型并運用模型對數(shù)據(jù)進行預(yù)測與分析的一門學科。統(tǒng)計學習也稱為統(tǒng)計機器學習 (statistical machine learning)。
統(tǒng)計學習的主要特點是:(1)統(tǒng)計學習以計算機及網(wǎng)絡(luò)為平臺,是建立在計算機及網(wǎng)絡(luò)上的;(2)統(tǒng)計學習以數(shù)據(jù)為研究對象,是數(shù)據(jù)驅(qū)動的學科;(3)統(tǒng)計學習的目的是對數(shù)據(jù)進行預(yù)測與分析;(4)統(tǒng)計學習以方法為中心,統(tǒng)計學習方法構(gòu)建模型并應(yīng)用模型進行預(yù)測與分析;(5)統(tǒng)計學習是概率論、統(tǒng)計學、信息論、計算理論、最優(yōu)化理論及計算機科學等多個領(lǐng)域的交叉學科,并且在發(fā)展中逐步形成獨自的理論體系與方法論。
赫爾伯特·西蒙( Herbert A. Simon)曾對“學習”給出以下定義:“如果一個系統(tǒng)能夠通過執(zhí)行某個過程改進它的性能,這就是學習。 ”按照這一觀點,統(tǒng)計學習就是計算機系統(tǒng)通過運用數(shù)據(jù)及統(tǒng)計方法提高系統(tǒng)性能的機器學習?,F(xiàn)在,當人們提及機器學習時,往往是指統(tǒng)計機器學習。所以可以認為本書介紹的是機器學習方法。
2.統(tǒng)計學習的對象
統(tǒng)計學習研究的對象是數(shù)據(jù)( data)。它從數(shù)據(jù)出發(fā),提取數(shù)據(jù)的特征,抽象出數(shù)據(jù)的模型,發(fā)現(xiàn)數(shù)據(jù)中的知識,又回到對數(shù)據(jù)的分析與預(yù)測中去。作為統(tǒng)計學習的對象,數(shù)據(jù)是多樣的,包括存在于計算機及網(wǎng)絡(luò)上的各種數(shù)字、文字、圖像、視頻、音頻數(shù)據(jù)以及它們的組合。
統(tǒng)計學習關(guān)于數(shù)據(jù)的基本假設(shè)是同類數(shù)據(jù)具有一定的統(tǒng)計規(guī)律性,這是統(tǒng)計學習的前提。這里的同類數(shù)據(jù)是指具有某種共同性質(zhì)的數(shù)據(jù),例如英文文章、互聯(lián)網(wǎng)網(wǎng)頁、數(shù)據(jù)庫中的數(shù)據(jù)等。由于它們具有統(tǒng)計規(guī)律性,所以可以用概率統(tǒng)計方法處理它們。比如,可以用隨機變量描述數(shù)據(jù)中的特征,用概率分布描述數(shù)據(jù)的統(tǒng)計規(guī)律。在統(tǒng)計學習中,以變量或變量組表示數(shù)據(jù)。數(shù)據(jù)分為由連續(xù)變量和離散變量表示的類型。本書以討論離散變量的方法為主。另外,本書只涉及利用數(shù)據(jù)構(gòu)建模型及利用模型對數(shù)據(jù)進行分析與預(yù)測,對數(shù)據(jù)的觀測和收集等問題不作討論。
3.統(tǒng)計學習的目的
統(tǒng)計學習用于對數(shù)據(jù)的預(yù)測與分析,特別是對未知新數(shù)據(jù)的預(yù)測與分析。對數(shù)據(jù)的預(yù)測可以使計算機更加智能化,或者說使計算機的某些性能得到提高;對數(shù)據(jù)的分析可以讓人們獲取新的知識,給人們帶來新的發(fā)現(xiàn)。
對數(shù)據(jù)的預(yù)測與分析是通過構(gòu)建概率統(tǒng)計模型實現(xiàn)的。統(tǒng)計學習總的目標就是考慮學習什么樣的模型和如何學習模型,以使模型能對數(shù)據(jù)進行準確的預(yù)測與分析,同時也要考慮盡可能地提高學習效率。
4.統(tǒng)計學習的方法
統(tǒng)計學習的方法是基于數(shù)據(jù)構(gòu)建概率統(tǒng)計模型從而對數(shù)據(jù)進行預(yù)測與分析。統(tǒng)計學習由監(jiān)督學習( supervised learning)、無監(jiān)督學習( unsupervised learning)和強化學習( reinforcement learning)等組成。
本書第 1篇講述監(jiān)督學習,第 2篇講述無監(jiān)督學習??梢哉f監(jiān)督學習、無監(jiān)督學習方法是最主要的統(tǒng)計學習方法。
統(tǒng)計學習方法可以概括如下:從給定的、有限的、用于學習的訓練數(shù)據(jù)( training data)集合出發(fā),假設(shè)數(shù)據(jù)是獨立同分布產(chǎn)生的;并且假設(shè)要學習的模型屬于某個函數(shù)的集合,稱為假設(shè)空間( hypothesis space);應(yīng)用某個評價準則( evaluation criterion),從假設(shè)空間中選取一個最優(yōu)模型,使它對已知的訓練數(shù)據(jù)及未知的測試數(shù)據(jù)( test data)在給定的評價準則下有最優(yōu)的預(yù)測;最優(yōu)模型的選取由算法實現(xiàn)。這樣,統(tǒng)計學習方法包括模型的假設(shè)空間、模型選擇的準則以及模型學習的算法。稱其為統(tǒng)計學習方法的三要素,簡稱為模型( model)、策略( strategy)和算法( algorithm)。
實現(xiàn)統(tǒng)計學習方法的步驟如下:
(1)得到一個有限的訓練數(shù)據(jù)集合;
1.2統(tǒng)計學習的分類 5
(2)確定包含所有可能的模型的假設(shè)空間,即學習模型的集合;
(3)確定模型選擇的準則,即學習的策略;
(4)實現(xiàn)求解最優(yōu)模型的算法,即學習的算法;
(5)通過學習方法選擇最優(yōu)模型;
(6)利用學習的最優(yōu)模型對新數(shù)據(jù)進行預(yù)測或分析。
本書第 1篇介紹監(jiān)督學習方法,主要包括用于分類、標注與回歸問題的方法。這些方法在自然語言處理、信息檢索、文本數(shù)據(jù)挖掘等領(lǐng)域中有著極其廣泛的應(yīng)用。
5.統(tǒng)計學習的研究
統(tǒng)計學習研究一般包括統(tǒng)計學習方法、統(tǒng)計學習理論及統(tǒng)計學習應(yīng)用三個方面。統(tǒng)計學習方法的研究旨在開發(fā)新的學習方法;統(tǒng)計學習理論的研究在于探求統(tǒng)計學習方法的有效性與效率,以及統(tǒng)計學習的基本理論問題;統(tǒng)計學習應(yīng)用的研究主要考慮將統(tǒng)計學習方法應(yīng)用到實際問題中去,解決實際問題。
6.統(tǒng)計學習的重要性
近二十年來,統(tǒng)計學習無論是在理論還是在應(yīng)用方面都得到了巨大的發(fā)展,有許多重大突破,統(tǒng)計學習已被成功地應(yīng)用到人工智能、模式識別、數(shù)據(jù)挖掘、自然語言處理、語音處理、計算視覺、信息檢索、生物信息等許多計算機應(yīng)用領(lǐng)域中,并且成為這些領(lǐng)域的核心技術(shù)。人們確信,統(tǒng)計學習將會在今后的科學發(fā)展和技術(shù)應(yīng)用中發(fā)揮越來越大的作用。
統(tǒng)計學習學科在科學技術(shù)中的重要性主要體現(xiàn)在以下幾個方面:
(1)統(tǒng)計學習是處理海量數(shù)據(jù)的有效方法。我們處于一個信息爆炸的時代,海量數(shù)據(jù)的處理與利用是人們必然的需求?,F(xiàn)實中的數(shù)據(jù)不但規(guī)模大,而且常常具有不確定性,統(tǒng)計學習往往是處理這類數(shù)據(jù)最強有力的工具。
(2)統(tǒng)計學習是計算機智能化的有效手段。智能化是計算機發(fā)展的必然趨勢,也是計算機技術(shù)研究與開發(fā)的主要目標。近幾十年來,人工智能等領(lǐng)域的研究證明,利用統(tǒng)計學習模仿人類智能的方法,雖有一定的局限性,還是實現(xiàn)這一目標的最有效手段。
(3)統(tǒng)計學習是計算機科學發(fā)展的一個重要組成部分??梢哉J為計算機科學由三維組成:系統(tǒng)、計算、信息。統(tǒng)計學習主要屬于信息這一維,并在其中起著核心作用。
1.2統(tǒng)計學習的分類
統(tǒng)計學習或機器學習是一個范圍寬闊、內(nèi)容繁多、應(yīng)用廣泛的領(lǐng)域,并不存在(至少現(xiàn)在不存在)一個統(tǒng)一的理論體系涵蓋所有內(nèi)容。下面從幾個角度對統(tǒng)計學習方法進行分類。
1.2.1基本分類
統(tǒng)計學習或機器學習一般包括監(jiān)督學習、無監(jiān)督學習、強化學習。有時還包括半監(jiān)督學習、主動學習。
1.監(jiān)督學習
監(jiān)督學習( supervised learning)是指從標注數(shù)據(jù)中學習預(yù)測模型的機器學習問題。標注數(shù)據(jù)表示輸入輸出的對應(yīng)關(guān)系,預(yù)測模型對給定的輸入產(chǎn)生相應(yīng)的輸出。監(jiān)督學習的本質(zhì)是學習輸入到輸出的映射的統(tǒng)計規(guī)律。
(1)輸入空間、特征空間和輸出空間在監(jiān)督學習中,將輸入與輸出所有可能取值的集合分別稱為輸入空間( input space)與輸出空間( output space)。輸入與輸出空間可以是有限元素的集合,也可以是整個歐氏空間。輸入空間與輸出空間可以是同一個空間,也可以是不同的空間;但通常輸出空間遠遠小于輸入空間。每個具體的輸入是一個實例( instance),通常由特征向量( feature vector)表示。這時,所有特征向量存在的空間稱為特征空間( feature space)。特征空間的每一維對應(yīng)于一個特征。有時假設(shè)輸入空間與特征空間為相同的空間,對它們不予區(qū)分;有時假設(shè)輸入空間與特征空間為不同的空間,將實例從輸入空間映射到特征空間。模型實際上都是定義在特征空間上的。在監(jiān)督學習中,將輸入與輸出看作是定義在輸入(特征)空間與輸出空間上的隨機變量的取值。輸入輸出變量用大寫字母表示,習慣上輸入變量寫作 X,輸出變量寫作 Y。輸入輸出變量的取值用小寫字母表示,輸入變量的取值寫作 x,輸出變量的取
值寫作 y。變量可以是標量或向量,都用相同類型字母表示。除特別聲明外,本書中向量均為列向量。輸入實例 x的特征向量記作
x =(x(1),x(2), ··· ,x(i), ··· ,x(n))T
x(i)表示 x的第 i個特征。注意 x(i)與 xi不同,本書通常用 xi表示多個輸入變量中的第 i個變量,即
(1) (2) (n))T
xi =(xi ,xi , ··· ,xi
監(jiān)督學習從訓練數(shù)據(jù)( training data)集合中學習模型,對測試數(shù)據(jù)( test data)進行預(yù)測。訓練數(shù)據(jù)由輸入(或特征向量)與輸出對組成,訓練集通常表示為
T = {(x1,y1), (x2,y2), ··· , (xN ,yN )}
測試數(shù)據(jù)也由輸入與輸出對組成。輸入與輸出對又稱為樣本( sample)或樣本點。
1.2統(tǒng)計學習的分類 7
輸入變量 X和輸出變量 Y有不同的類型,可以是連續(xù)的,也可以是離散的。人們根據(jù)輸入輸出變量的不同類型,對預(yù)測任務(wù)給予不同的名稱:輸入變量與輸出變量均為連續(xù)變量的預(yù)測問題稱為回歸問題;輸出變量為有限個離散變量的預(yù)測問題稱為分類問題;輸入變量與輸出變量均為變量序列的預(yù)測問題稱為標注問題。
(2)聯(lián)合概率分布監(jiān)督學習假設(shè)輸入與輸出的隨機變量 X和 Y遵循聯(lián)合概率分布 P (X, Y )。 P (X, Y )表示分布函數(shù),或分布密度函數(shù)。注意在學習過程中,假定這一聯(lián)合概率分布存在,但對學習系統(tǒng)來說,聯(lián)合概率分布的具體定義是未知的。訓練數(shù)據(jù)與測試數(shù)
據(jù)被看作是依聯(lián)合概率分布 P (X, Y )獨立同分布產(chǎn)生的。統(tǒng)計學習假設(shè)數(shù)據(jù)存在一定的統(tǒng)計規(guī)律,X和 Y具有聯(lián)合概率分布就是監(jiān)督學習關(guān)于數(shù)據(jù)的基本假設(shè)。
(3)假設(shè)空間監(jiān)督學習的目的在于學習一個由輸入到輸出的映射,這一映射由模型來表示。換句話說,學習的目的就在于找到最好的這樣的模型。模型屬于由輸入空間到輸出空間的映射的集合,這個集合就是假設(shè)空間( hypothesis space)。假設(shè)空間的確定意味著學習的范圍的確定。
監(jiān)督學習的模型可以是概率模型或非概率模型,由條件概率分布 P (Y |X)或決策函數(shù)( decision function)Y = f(X)表示,隨具體學習方法而定。對具體的輸入進行相應(yīng)的輸出預(yù)測時,寫作 P (y|x)或 y = f(x)。
(4)問題的形式化監(jiān)督學習利用訓練數(shù)據(jù)集學習一個模型,再用模型對測試樣本集進行預(yù)測。由于在這個過程中需要標注的訓練數(shù)據(jù)集,而標注的訓練數(shù)據(jù)集往往是人工給出的,所以
稱為監(jiān)督學習。監(jiān)督學習分為學習和預(yù)測兩個過程,由學習系統(tǒng)與預(yù)測系統(tǒng)完成,可用圖 1.1來描述。
圖 1.1監(jiān)督學習
首先給定一個訓練數(shù)據(jù)集
T = {(x1,y1), (x2,y2), ··· , (xN ,yN )}
其中 (xi,yi),i =1, 2, ··· ,N,稱為樣本或樣本點。 xi ∈X ? Rn是輸入的觀測值,也稱為輸入或?qū)嵗瑈i ∈Y是輸出的觀測值,也稱為輸出。
監(jiān)督學習分為學習和預(yù)測兩個過程,由學習系統(tǒng)與預(yù)測系統(tǒng)完成。在學習過程中,學習系統(tǒng)利用給定的訓練數(shù)據(jù)集,通過學習(或訓練)得到一個模型,表示為條件概率分布 P?(Y |X)或決策函數(shù) Y = f?(X)。條件概率分布 P?(Y |X)或決策函數(shù) Y = f?(X)描述輸入與輸出隨機變量之間的映射關(guān)系。在預(yù)測過程中,預(yù)測系統(tǒng)對于給定的測試樣本集中的輸入 xN+1,由模型 yN+1 = arg max P?(y|xN+1)或 yN+1 = f?(xN+1)給出
y
相應(yīng)的輸出 yN+1。
在監(jiān)督學習中,假設(shè)訓練數(shù)據(jù)與測試數(shù)據(jù)是依聯(lián)合概率分布 P (X, Y )獨立同分布產(chǎn)生的。
學習系統(tǒng)(也就是學習算法)試圖通過訓練數(shù)據(jù)集中的樣本 (xi,yi)帶來的信息學習模型。具體地說,對輸入 xi,一個具體的模型 y = f(x)可以產(chǎn)生一個輸出 f(xi),而訓練數(shù)據(jù)集中對應(yīng)的輸出是 yi。如果這個模型有很好的預(yù)測能力,訓練樣本輸出 yi和模型輸出 f(xi)之間的差就應(yīng)該足夠小。學習系統(tǒng)通過不斷地嘗試,選取最好的模型,以便對訓練數(shù)據(jù)集有足夠好的預(yù)測,同時對未知的測試數(shù)據(jù)集的預(yù)測也有盡可能好的推廣。
2.無監(jiān)督學習
無監(jiān)督學習①(unsupervised learning)是指從無標注數(shù)據(jù)中學習預(yù)測模型的機器學習問題。無標注數(shù)據(jù)是自然得到的數(shù)據(jù),預(yù)測模型表示數(shù)據(jù)的類別、轉(zhuǎn)換或概率。無監(jiān)督學習的本質(zhì)是學習數(shù)據(jù)中的統(tǒng)計規(guī)律或潛在結(jié)構(gòu)。
模型的輸入與輸出的所有可能取值的集合分別稱為輸入空間與輸出空間。輸入空間與輸出空間可以是有限元素集合,也可以是歐氏空間。每個輸入是一個實例,由特征向量表示。每一個輸出是對輸入的分析結(jié)果,由輸入的類別、轉(zhuǎn)換或概率表示。模型可以實現(xiàn)對數(shù)據(jù)的聚類、降維或概率估計。
假設(shè) X是輸入空間,Z是隱式結(jié)構(gòu)空間。要學習的模型可以表示為函數(shù) z = g(x),條件概率分布 P (z|x),或者條件概率分布 P (x|z)的形式,其中 x ∈X是輸入, z ∈Z是輸出。包含所有可能的模型的集合稱為假設(shè)空間。無監(jiān)督學習旨在從假設(shè)空間中選出在給定評價標準下的最優(yōu)模型。
無監(jiān)督學習通常使用大量的無標注數(shù)據(jù)學習或訓練,每一個樣本是一個實例。訓練數(shù)據(jù)表示為 U = {x1,x2, ··· ,xN },其中 xi,i =1, 2, ··· ,N,是樣本。
無監(jiān)督學習可以用于對已有數(shù)據(jù)的分析,也可以用于對未來數(shù)據(jù)的預(yù)測。分析時使用學習得到的模型,即函數(shù) z = g?(x),條件概率分布 P?(z|x),或者條件概率分布 P?(x|z)。預(yù)測時,和監(jiān)督學習有類似的流程。由學習系統(tǒng)與預(yù)測系統(tǒng)完成,如
①也譯作非監(jiān)督學習。
1.2統(tǒng)計學習的分類 9
圖 1.2所示。在學習過程中,學習系統(tǒng)從訓練數(shù)據(jù)集學習,得到一個最優(yōu)模型,表示為函數(shù) z =?g(x),條件概率分布 P?(z|x)或者條件概率分布 P?(x|z)。在預(yù)測過程中,預(yù)測系統(tǒng)對于給定的輸入 xN+1,由模型 zN+1 = g?(xN+1)或 zN+1 = arg max P?(z|xN+1)
z
給出相應(yīng)的輸出 zN+1,進行聚類或降維,或者由模型 P?(x|z)給出輸入的概率 P?(xN+1|zN+1),進行概率估計。
圖 1.2無監(jiān)督學習
3.強化學習
強化學習( reinforcement learning)是指智能系統(tǒng)在與環(huán)境的連續(xù)互動中學習最優(yōu)行為策略的機器學習問題。假設(shè)智能系統(tǒng)與環(huán)境的互動基于馬爾可夫決策過程( Markov decision process),智能系統(tǒng)能觀測到的是與環(huán)境互動得到的數(shù)據(jù)序列。強化學習的本質(zhì)是學習最優(yōu)的序貫決策。
智能系統(tǒng)與環(huán)境的互動如圖 1.3所示。在每一步 t,智能系統(tǒng)從環(huán)境中觀測到一個狀態(tài)( state)st與一個獎勵( reward)rt,采取一個動作( action)at。環(huán)境根據(jù)智能系統(tǒng)選擇的動作,決定下一步 t +1的狀態(tài) st+1與獎勵 rt+1。要學習的策略表示為給定的狀態(tài)下采取的動作。智能系統(tǒng)的目標不是短期獎勵的最大化,而是長期累積獎勵的最大化。強化學習過程中,系統(tǒng)不斷地試錯( trial and error),以達到學習最優(yōu)策略的目的。
圖 1.3智能系統(tǒng)與環(huán)境的互動
強化學習的馬爾可夫決策過程是狀態(tài)、獎勵、動作序列上的隨機過程,由五元組 (S, A, P, r, γ)組成。
? S是有限狀態(tài)( state)的集合
? A是有限動作( action)的集合
? P是狀態(tài)轉(zhuǎn)移概率( transition probability)函數(shù) :
P (s'|s, a)= P (st+1 = s'|st = s, at = a)
? r是獎勵函數(shù)( reward function): r(s, a)= E(rt+1|st = s, at = a)
? γ是衰減系數(shù)( discount factor): γ ∈ [0, 1]馬爾可夫決策過程具有馬爾可夫性,下一個狀態(tài)只依賴于前一個狀態(tài)與動作,由狀態(tài)轉(zhuǎn)移概率函數(shù) P (s'|s, a)表示。下一個獎勵依賴于前一個狀態(tài)與動作,由獎勵函數(shù) r(s, a)表示。策略 π定義為給定狀態(tài)下動作的函數(shù) a = f(s)或者條件概率分布 P (a|s)。給定一個策略 π,智能系統(tǒng)與環(huán)境互動的行為就已確定(或者是確定性的或者是隨機性的)。
價值函數(shù)( value function)或狀態(tài)價值函數(shù)( state value function)定義為策略 π從某一個狀態(tài) s開始的長期累積獎勵的數(shù)學期望:
vπ(s)= Eπ[rt+1 + γrt+2 + γ2 rt+3 + ···|st = s] (1.1)
動作價值函數(shù)( action value function)定義為策略 π的從某一個狀態(tài) s和動作 a開始的長期累積獎勵的數(shù)學期望:
qπ(s, a)= Eπ[rt+1 + γrt+2 + γ2 rt+3 + ···|st = s, at = a] (1.2)
強化學習的目標就是在所有可能的策略中選出價值函數(shù)最大的策略 π?,而在實際學習中往往從具體的策略出發(fā),不斷優(yōu)化已有策略。這里 γ表示未來的獎勵會有衰減。
強化學習方法中有基于策略的( policy-based)、基于價值的( value-based),這兩者屬于無模型的( model-free)方法,還有有模型的( model-based)方法。
有模型的方法試圖直接學習馬爾可夫決策過程的模型,包括轉(zhuǎn)移概率函數(shù) P (s'|s, a)和獎勵函數(shù) r(s, a)。這樣可以通過模型對環(huán)境的反饋進行預(yù)測,求出價值函數(shù)最大的策略 π?。
無模型的、基于策略的方法不直接學習模型,而是試圖求解最優(yōu)策略 π?,表示為函數(shù) a = f?(s)或者是條件概率分布 P ?(a|s),這樣也能達到在環(huán)境中做出最優(yōu)決策的
查看全部↓
前言/序言
第 2版序言
《統(tǒng)計學習方法》第 1版于 2012年出版,講述了統(tǒng)計機器學習方法,主要是一些常用的監(jiān)督學習方法。第 2版增加了一些常用的無監(jiān)督學習方法,由此本書涵蓋了傳統(tǒng)統(tǒng)計機器學習方法的主要內(nèi)容。
在撰寫《統(tǒng)計學習方法》伊始,對全書內(nèi)容做了初步規(guī)劃。第 1版出版之后,即著手無監(jiān)督學習方法的寫作。由于寫作是在業(yè)余時間進行,常常被主要工作打斷,歷經(jīng)六年多時間才使這部分工作得以完成。猶未能加入深度學習和強化學習等重要內(nèi)容,希望今后能夠增補,完成整本書的寫作計劃。
《統(tǒng)計學習方法》第 1版的出版正值大數(shù)據(jù)和人工智能的熱潮,生逢其時,截至 2019年 4月本書共印刷 25次,152000冊,得到了廣大讀者的歡迎和支持。有許多讀者指出本書對學習和掌握機器學習技術(shù)有極大的幫助,也有許多讀者通過電子郵件、微博等方式指出書中的錯誤,提出改進的建議和意見。一些高校將本書作為機器學習課程的教材或參考書。有的同學在網(wǎng)上發(fā)表了讀書筆記,有的同學將本書介紹的方法在計算機上實現(xiàn)。清華大學深圳研究生院袁春老師精心制作了第 1版十二章的課件,在網(wǎng)上公布,為大家提供教學之便。眾多老師、同學、讀者的支持和鼓勵,讓作者深受感動和鼓舞。在這里向所有的老師、同學、讀者致以誠摯的謝意!
能為中國的計算機科學、人工智能領(lǐng)域做出一點微薄的貢獻,感到由衷的欣慰,同時也感受到作為知識傳播者的重大責任,讓