国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

NGBoost美國斯坦福團(tuán)隊算法介紹-作者親測性能對比LightGBM,XGBoost,catboost

2022-02-28 10:10 作者:python風(fēng)控模型  | 我要投稿

在公眾號「python風(fēng)控模型」里回復(fù)關(guān)鍵字:學(xué)習(xí)資料?

QQ學(xué)習(xí)群:1026993837 領(lǐng)學(xué)習(xí)資料? ? ? ? ? ??

圖片

斯坦福 ML Group最近在他們的論文?Duan et al., 2019 中發(fā)表了一種新算法,其實(shí)現(xiàn)稱為 NGBoost。該算法通過使用自然梯度將不確定性估計包括在梯度提升中。這篇文章試圖理解這個新算法,并與其他流行的增強(qiáng)算法 LightGBM 和 XGboost 進(jìn)行比較,看看它在實(shí)踐中是如何工作的。


斯坦福ngboost官網(wǎng)如下

https://stanfordmlgroup.github.io/projects/ngboost/

圖片

現(xiàn)實(shí)世界中的預(yù)測不確定性估計


估計機(jī)器學(xué)習(xí)模型預(yù)測中的不確定性對于現(xiàn)實(shí)世界中的生產(chǎn)部署至關(guān)重要。我們不僅希望我們的模型做出準(zhǔn)確的預(yù)測,而且我們還希望對每個預(yù)測的不確定性進(jìn)行正確的估計。當(dāng)模型預(yù)測是自動化決策工作流程或生產(chǎn)線的一部分時,預(yù)測不確定性估計對于確定手動備用方案或人工檢查和干預(yù)非常重要。

概率預(yù)測(或概率預(yù)測)是模型在整個結(jié)果空間上輸出完整概率分布的方法,是量化這些不確定性的自然方法。

比較以下示例中的點(diǎn)預(yù)測與概率預(yù)測。

圖片

NGBoost 為 Gradient Boosting 帶來了預(yù)測不確定性估計


圖片


梯度提升方法通常在結(jié)構(gòu)化或表格輸入數(shù)據(jù)的預(yù)測準(zhǔn)確性方面表現(xiàn)最佳。

NGBoost 通過概率預(yù)測(包括實(shí)值輸出)使用 Gradient Boosting 實(shí)現(xiàn)預(yù)測不確定性估計。通過使用自然梯度,NGBoost 克服了通過梯度提升使通用概率預(yù)測變得困難的技術(shù)挑戰(zhàn)。梯度提升方法通常在結(jié)構(gòu)化或表格輸入數(shù)據(jù)的預(yù)測準(zhǔn)確性方面表現(xiàn)最佳。

NGBoost 通過概率預(yù)測(包括實(shí)值輸出)使用 Gradient Boosting 實(shí)現(xiàn)預(yù)測不確定性估計。通過使用自然梯度,NGBoost 克服了通過梯度提升使通用概率預(yù)測變得困難的技術(shù)挑戰(zhàn)。

簡單和模塊化的方法

圖片
  • 基礎(chǔ)模型(學(xué)習(xí)群)

該算法使用基礎(chǔ)(弱)學(xué)習(xí)器。它需要輸入x和輸出用于形成條件概率。這些基礎(chǔ)學(xué)習(xí)器使用 scikit-learn 的決策樹作為樹學(xué)習(xí)器,使用 Ridge 回歸作為線性學(xué)習(xí)器。

  • 參數(shù)概率分布

參數(shù)概率分布是一種條件分布。這是由基礎(chǔ)學(xué)習(xí)器輸出的加法組合形成的。

  • 計分規(guī)則

評分規(guī)則采用預(yù)測的概率分布和對目標(biāo)特征的一次觀察來產(chǎn)生預(yù)測分?jǐn)?shù),其中結(jié)果的真實(shí)分布在預(yù)期中獲得最佳分?jǐn)?shù)。該算法使用 MLE(最大似然估計)或 CRPS(連續(xù)排序概率分?jǐn)?shù))。



自然梯度使學(xué)習(xí)高效且有效

什么是自然梯度提升?

正如我在介紹中所寫,NGBoost 是一種新的提升算法,它使用自然梯度提升,一種用于概率預(yù)測的模塊化提升算法。該算法由基學(xué)習(xí)器、參數(shù)概率分布評分規(guī)則組成。



圖片
圖片

普通梯度可能非常不適合學(xué)習(xí)多參數(shù)概率分布(例如正態(tài)分布)。如上面的概率回歸示例所示,使用自然梯度的訓(xùn)練動態(tài)往往更加穩(wěn)定并產(chǎn)生更好的擬合。



在不確定性估計和傳統(tǒng)指標(biāo)方面的競爭表現(xiàn)

與競爭方法相比,NGBoost 所需的專業(yè)知識要少得多,并且在常見的基準(zhǔn)測試中表現(xiàn)同樣出色。NGBoost 在較小的數(shù)據(jù)集上具有特別強(qiáng)的性能。

圖片


NGboost——與 LightGBM 和 XGBoost 的比較

讓我們實(shí)現(xiàn) NGBoost,看看它的性能如何。原論文還對各種數(shù)據(jù)集做了一些實(shí)驗(yàn)。他們比較了回歸問題中的 MC dropout、Deep Ensembles 和 NGBoost,NGBoost 顯示出其相當(dāng)有競爭力的性能。在這篇博文中,我想展示模型在 Kaggle上著名的房價預(yù)測數(shù)據(jù)集上的表現(xiàn)。該數(shù)據(jù)集由 81 個特征、1460 行組成,目標(biāo)特征是銷售價格。讓我們看看 NGBoost 可以處理這些情況。

圖片




由于測試算法的性能是本文的目的,我們將跳過整個特征工程部分并使用 Nanashi 的解決方案。


導(dǎo)入包;


在這里,我將使用上面的默認(rèn)學(xué)習(xí)器、分布和評分規(guī)則。玩這些并看看結(jié)果如何變化會很有趣。


現(xiàn)在使用 NGBoost 算法進(jìn)行預(yù)測。


對 LightGBM 和 XGBoost 執(zhí)行相同的操作。


現(xiàn)在我們有了所有算法的預(yù)測。讓我們檢查一下準(zhǔn)確性。我們將使用與本次 Kaggle 比賽相同的指標(biāo) RMSE。


以下是預(yù)測結(jié)果的摘要。

圖片

NGBoost 似乎優(yōu)于其他著名的增強(qiáng)算法。如果我調(diào)整 NBGBoost 的參數(shù),模型性能會更好。


NGBoost 與其他 boosting 算法的最大區(qū)別之一是可以返回每個預(yù)測的概率分布。這可以通過使用pred_dist函數(shù)來可視化。此功能可以顯示概率預(yù)測的結(jié)果。



圖片

上圖是每個預(yù)測的概率分布。X 軸顯示銷售價格的對數(shù)值(目標(biāo)特征)。我們可以觀察到索引 0 的概率分布比索引 114 更寬。

四、結(jié)論與思考

從這個實(shí)驗(yàn)的結(jié)果,我們可以得出結(jié)論,NGBoost 與其他著名的 boosting 算法一樣好。但是,計算時間比其他兩種算法要長得多。這可以通過使用二次采樣方法來改善。另外我的印象是 NGBoost 包仍在進(jìn)行中,例如沒有提前停止選項(xiàng),沒有顯示中間結(jié)果的選項(xiàng),選擇基學(xué)習(xí)器的靈活性(目前我們只能在決策樹和 Ridge 回歸之間進(jìn)行選擇) ,設(shè)置隨機(jī)狀態(tài)種子,等等。相信這些點(diǎn)很快就會落實(shí)?;蛘吣梢詾樵擁?xiàng)目做出貢獻(xiàn):)

總結(jié)

  • NGBoost 是一種返回概率分布的新提升算法。

  • 自然梯度提升,一種用于概率預(yù)測的模塊化提升算法。這由基礎(chǔ)學(xué)習(xí)器、參數(shù)概率分布和 評分規(guī)則組成。

  • NGBoost 與其他知名算法相比具有相當(dāng)?shù)母偁幜Α?/p>

    作者親測NGboost在多算法比較中有優(yōu)異的表現(xiàn),可謂kaggle競賽愛好者又一利器。斯坦福算法團(tuán)隊果然名不虛傳。


歡迎各位同學(xué)了解《python金融風(fēng)控評分卡模型和數(shù)據(jù)分析(加強(qiáng)版)》學(xué)習(xí)更多相關(guān)知

入口1:https://ke.qq.com/course/package/43071

入口2:https://study.163.com/series/1202915601.htm?share=2&shareId=400000000398149

版權(quán)聲明:文章來自公眾號(python風(fēng)控模型),未經(jīng)許可,不得抄襲。遵循CC 4.0 BY-SA版權(quán)協(xié)議,轉(zhuǎn)載請附上原文出處鏈接及本聲明。





NGBoost美國斯坦福團(tuán)隊算法介紹-作者親測性能對比LightGBM,XGBoost,catboost的評論 (共 條)

分享到微博請遵守國家法律
堆龙德庆县| 鄂托克旗| 大兴区| 西林县| 安多县| 梅州市| 漯河市| 绥化市| 龙胜| 大渡口区| 青浦区| 游戏| 龙陵县| 光山县| 浙江省| 托克逊县| 松滋市| 盐山县| 泸州市| 法库县| 扶绥县| 芮城县| 珠海市| 新平| 太湖县| 嵩明县| 肇州县| 田东县| 道真| 安徽省| 渝北区| 河西区| 永康市| 大新县| 馆陶县| 徐州市| 上饶市| 全州县| 麻栗坡县| 高雄县| 新闻|