實驗三 決策樹分類與回歸模型
一、? 實驗要求
1、掌握決策樹創(chuàng)建的工作流程,深刻理解決策樹劃分節(jié)點屬性的原理,如信息增益、信息增益率和基尼指數(shù)。
2、掌握后剪枝方法,掌握連續(xù)值和缺失值處理的方法。
3、掌握參數(shù)調(diào)優(yōu)的方法,包括網(wǎng)格搜索,交叉驗證,Hyperopt自動化超參數(shù)調(diào)優(yōu)和學(xué)習(xí)曲線。
4、掌握決策樹回歸方法的原理和方法,會根據(jù)學(xué)習(xí)曲線判斷模型的過擬合問題,會對特征屬性進行特征選擇。
二、? 實驗內(nèi)容
1、決策樹分類模型
(1)從網(wǎng)址(https://sci2s.ugr.es/keel/category.php?cat=clas)中下載數(shù)據(jù)集penbased.dat,該數(shù)據(jù)集共有10992個樣本、16個屬性和10個類別。
完成如下實驗內(nèi)容:
1)?????????????? 使用sklearn庫中的函數(shù),建立決策樹,對決策樹最大深度進行調(diào)參,并繪制學(xué)習(xí)曲線,根據(jù)學(xué)習(xí)曲線選擇最佳深度,并可視化決策樹。
2)?????????????? 網(wǎng)格搜索交叉驗證,設(shè)置適當(dāng)?shù)膮?shù),進行參數(shù)調(diào)優(yōu),給出最佳參數(shù)組合。
3)?????????????? Hyperopt自動化超參數(shù)調(diào)優(yōu),選擇最佳參數(shù),并利用最佳參數(shù)訓(xùn)練最終模型。
4)?????????????? 對模型進行評價,對結(jié)果進行解釋說明,對可視化繪圖進行解釋說明。
(2)從網(wǎng)址(https://sci2s.ugr.es/keel/category.php?cat=clas)中下載數(shù)據(jù)集texture.dat,該數(shù)據(jù)集共有5500個樣本、40個屬性和11個類別;下載數(shù)據(jù)集newthyroid.dat,該數(shù)據(jù)集共215個樣本,5個屬性和3個類別。
1)????? 對texture.dat樣本數(shù)據(jù)進行適當(dāng)降維,分別選擇累計貢獻率90%、95%,并采用降維后的數(shù)據(jù)訓(xùn)練模型;
2)????? 對模型進行參數(shù)的適當(dāng)調(diào)優(yōu),方法不限。
3)????? 對數(shù)據(jù)集newthyroid.dat降維為兩個主成分,訓(xùn)練模型,對參數(shù)調(diào)優(yōu),并進行分類邊界的繪制。
2、決策樹回歸模型
從網(wǎng)址(https://sci2s.ugr.es/keel/category.php?cat=reg)下載數(shù)據(jù)集concrete.dat,該數(shù)據(jù)集共有1030個樣本,8個屬性,因變量為ConcreteCompressiveStrength。
完成如下實驗內(nèi)容:
(1)??? 使用sklearn庫中的函數(shù),建立回歸決策樹,根據(jù)學(xué)習(xí)曲線選擇最佳深度,并可視化決策樹。
(2)??? 采用Hyperopt自動化超參數(shù)調(diào)優(yōu),選擇最佳模型參數(shù),并根據(jù)最佳參數(shù)訓(xùn)練模型。
(3)??? 對模型的特征屬性進行特征選擇。
(4)??? 各訓(xùn)練模型適當(dāng)進行可視化、度量標(biāo)準(zhǔn)的衡量和結(jié)果的解釋說明。