散文網(wǎng) » 生活 »日常 » R語言基于樹的方法：決策樹，隨機(jī)森林，Bagging，增強(qiáng)樹

R語言基于樹的方法：決策樹，隨機(jī)森林，Bagging，增強(qiáng)樹

2021-03-05 09:58 作者:拓端tecdat 0人讀過 | 我要投稿

原文鏈接：http://tecdat.cn/?p=9859

?

概觀

本文是有關(guān)??基于樹的??回歸和分類方法的。

樹方法簡單易懂，但對于解釋卻非常有用，但就預(yù)測準(zhǔn)確性而言，它們通常無法與最佳監(jiān)督學(xué)習(xí)方法競爭。因此，我們還介紹了Bagging（自助法），隨機(jī)森林和增強(qiáng)樹。這些示例中的每一個都涉及產(chǎn)生多個樹，然后將其合并以產(chǎn)生單個共識預(yù)測。我們看到，合并大量的樹可以大大提高預(yù)測準(zhǔn)確性，但代價是損失解釋能力。

決策樹可以應(yīng)用于回歸和分類問題。我們將首先考慮回歸。

決策樹基礎(chǔ)：回歸

我們從一個簡單的例子開始：

我們預(yù)測棒球運(yùn)動員的??Salary?。

結(jié)果將是一系列分裂規(guī)則。第一個分支會將數(shù)據(jù)分割??Years < 4.5?為左側(cè)的分支，其余的為右側(cè)。如果我們對此模型進(jìn)行編碼，我們會發(fā)現(xiàn)關(guān)系最終變得稍微復(fù)雜一些。

library(tree)
library(ISLR)
attach(Hitters)
# 刪除NA數(shù)據(jù)
Hitters<- na.omit(Hitters)
# log轉(zhuǎn)換Salary使其更正態(tài)分布
hist(Hitters$Salary)

Hitters$Salary <- log(Hitters$Salary)
hist(Hitters$Salary)

summary(tree.fit)

##
## Regression tree:
## tree(formula = Salary ~ Hits + Years, data = Hitters)
## Number of terminal nodes: ?8
## Residual mean deviance: ?0.271 = 69.1 / 255
## Distribution of residuals:
## ? ?Min. 1st Qu. ?Median ? ?Mean 3rd Qu. ? ?Max.
## -2.2400 -0.2980 -0.0365 ?0.0000 ?0.3230 ?2.1500

現(xiàn)在，我們討論通過對特征空間進(jìn)行分層來構(gòu)建預(yù)測樹。通常，有兩個步驟。

找到最能分隔因變量的變量/拆分，從而產(chǎn)生最低的RSS。
將數(shù)據(jù)分為兩個在第一個標(biāo)識的節(jié)點(diǎn)上的葉子。
在每片葉子中，找到分隔結(jié)果的最佳變量/分割。

目標(biāo)是找到最小化RSS的區(qū)域數(shù)。但是，考慮將每個可能的分區(qū)劃分為J個區(qū)域在計算上是不可行的? 。為此，我們采取了??自上而下的貪婪??的方法。它是自頂向下的，因為我們從所有觀測值都屬于一個區(qū)域的點(diǎn)開始。貪婪是因為在樹構(gòu)建過程的每個步驟中，都會在該特定步驟中選擇最佳拆分，而不是向前看會在將來的某個步驟中生成更好樹的拆分。

一旦創(chuàng)建了所有區(qū)域，我們將使用每個區(qū)域中訓(xùn)練觀察的平均值預(yù)測給定測試觀察的因變量。

剪枝

盡管上面的模型可以對訓(xùn)練數(shù)據(jù)產(chǎn)生良好的預(yù)測，但是基本的樹方法可能會過度擬合數(shù)據(jù)，從而導(dǎo)致測試性能不佳。這是因為生成的樹往往過于復(fù)雜。具有較少拆分的較小樹通常以較小的偏差為代價，從而導(dǎo)致方差較低，易于解釋且測試錯誤較低。實現(xiàn)此目的的一種可能方法是僅在每次拆分導(dǎo)致的RSS減少量超過某個（高）閾值時，才構(gòu)建一棵樹。

因此，更好的策略是生成一棵樹，然后??修剪??回去以獲得更好的子樹。

成本復(fù)雜度剪枝算法-也稱為最弱鏈接修剪為我們提供了解決此問題的方法。而不是考慮每個可能的子樹，我們考慮由非負(fù)調(diào)整參數(shù)索引的樹序列??alpha。

?