散文網(wǎng) » 生活 »日常 » 拓端tecdat：R語言集成模型：提升樹boosting、隨機(jī)森林、約束最小二乘法加權(quán)平均模型

拓端tecdat：R語言集成模型：提升樹boosting、隨機(jī)森林、約束最小二乘法加權(quán)平均模型

2021-11-21 22:37 作者:拓端tecdat 0人讀過 | 我要投稿

原文鏈接：http://tecdat.cn/?p=24148

原文出處：拓端數(shù)據(jù)部落公眾號

特別是在經(jīng)濟(jì)學(xué)/計量經(jīng)濟(jì)學(xué)中，建模者不相信他們的模型能反映現(xiàn)實。比如：收益率曲線并不遵循三因素的Nelson-Siegel模型，股票與其相關(guān)因素之間的關(guān)系并不是線性的，波動率也不遵循Garch(1,1)過程，或者Garch(?,?)。我們只是試圖為我們看到的現(xiàn)象找到一個合適的描述。

模型的發(fā)展往往不是由我們的理解決定的，而是由新的數(shù)據(jù)的到來決定的，這些數(shù)據(jù)并不適合現(xiàn)有的看法。有些人甚至可以說，現(xiàn)實沒有基本的模型（或數(shù)據(jù)生成過程）。正如漢森在《計量經(jīng)濟(jì)學(xué)模型選擇的挑戰(zhàn)》中寫道。

“模型應(yīng)該被視為近似值，計量經(jīng)濟(jì)學(xué)理論應(yīng)該認(rèn)真對待這一點”

所有的理論都自然而然地遵循 "如果這是一個過程，那么我們就顯示出對真實參數(shù)的收斂性 "的思路。收斂性很重要，但這是一個很大的假設(shè)。無論是否存在這樣的過程，這樣的真實模型，我們都不知道它是什么。同樣，特別是在社會科學(xué)領(lǐng)域，即使有一個真正的GDP，你可以認(rèn)為它是可變的。

這種討論引起了模型的組合，或者預(yù)測未來的組合。如果我們不知道潛在的真相，結(jié)合不同的選擇，或不同的建模方法可能會產(chǎn)生更好的結(jié)果。

?

模型平均

讓我們使用 3 種不同的模型對時間序列數(shù)據(jù)進(jìn)行預(yù)測。簡單回歸 (OLS)、提升樹和隨機(jī)森林。一旦獲得了三個預(yù)測，我們就可以對它們進(jìn)行平均。

# 加載代碼運行所需的軟件包。如果你缺少任何軟件包，先安裝。
tem <- lappy(c("randomoest", "gb", "quanteg"), librry, charter.oly=T)
# 回歸模型。
moelm <- lm(y~x1+x2, data=f)
molrf <- ranmFrst(y~x1+x2, dta=df)
mogm <- gb(ata=df, g.x=1:2, b.y=4
faiy = "gssian", tre.comle = 5, eain.rate = 0.01, bg.fratn = 0.5)
# 現(xiàn)在我們對樣本外的預(yù)測。
#-------------------------------
Tt_ofsamp <- 500
boosf <- pbot(df_new$x1, df_new$x2)
rfft <- pf(df_new$x1, df_new$x2)
lmt <- pm(df_new$x1, df_new$x2)
# 綁定預(yù)測
mtfht <- cbind(bo_hat, f_fat, lm_at)
# 命名這些列
c("Boosting", "Random Forest", "OLS")
# 定義一個預(yù)測組合方案。
# 為結(jié)果留出空間。
resls <- st()
# 最初的30個觀測值作為初始窗口
# 重新估計新的觀測值到達(dá)
it_inw = 30
for(i in 1:leth(A_shes)){
A_nw$y, mt_fht,Aeng_hee= A_scmes[i, n_wiow = intwdow )
}
# 該函數(shù)輸出每個預(yù)測平均方案的MSE。
# 讓我們檢查一下各個方法的MSE是多少。
atr <- apy(ma_ht, 2, fucon(x) (df_wy - x)^2 )
apy(ma_er[nitnow:Tou_o_saple, ], 2, fncon(x) 100*( man(x) ) )

在這種情況下，最準(zhǔn)確的方法是提升。但是，在其他一些情況下，根據(jù)情況，隨機(jī)森林會比提升更好。如果我們使用約束最小二乘法，我們可以獲得幾乎最準(zhǔn)確的結(jié)果，但這不需要事先選擇 Boosting 、Random Forest 方法。繼續(xù)介紹性討論，我們只是不知道哪種模型會提供最佳結(jié)果以及何時會這樣做。