国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

機(jī)器學(xué)習(xí)模型的三個宏觀應(yīng)用

2022-04-07 21:51 作者:python風(fēng)控模型  | 我要投稿

在公眾號「python風(fēng)控模型」里回復(fù)關(guān)鍵字:學(xué)習(xí)資料?

QQ學(xué)習(xí)群:1026993837 領(lǐng)學(xué)習(xí)資料? ? ? ? ? ??

圖片

三月份比較充實,有幾百名學(xué)員報名課程。這段時間不停接受大家咨詢和解決問題,公眾號也有十多天沒更新了。


今天對大家存在的一些問題進(jìn)行匯總,談?wù)剻C(jī)器學(xué)習(xí)模型的三個應(yīng)用場景。

開門見山,機(jī)器學(xué)習(xí)應(yīng)用常見三個場景為:

  1. 教學(xué)場景

  2. 模型競賽場景

  3. 商業(yè)應(yīng)用場景


1.教學(xué)場景

教學(xué)場景對機(jī)器學(xué)習(xí)模型要求比較嚴(yán)格,統(tǒng)計指標(biāo)考究。例如邏輯回歸評分卡模型中,要求踢除相關(guān)性較高變量,缺失率較高變量,踢除異常值,糾正模型多重共線性問題,糾正變量不單調(diào)問題,數(shù)據(jù)非平衡問題等等。


我們在實際商業(yè)建模中,會考慮上述問題,但不會完全遵循上述要求。例如變量A缺失率達(dá)到90%,初學(xué)者一定會刪除此變量。我們不會這樣做,我們可以把缺失值單獨(dú)作為一個分箱處理,并觀察缺失數(shù)據(jù)是否有意義。


例如異常值,教科書上稱異常值對模型有一定影響,的確如此,但不絕對。初學(xué)者會按照統(tǒng)計學(xué)箱型圖查找異常值,然后從建模數(shù)據(jù)中刪除異常值。我們不會這樣簡單處理,異常值分為有意義異常值和無意義異常值,不能粗暴刪除。異常值背后隱藏諸多需要挖掘地方,需要慢慢品味,例如硬盤傳輸延時引起數(shù)據(jù)異常,欺詐客戶引起數(shù)據(jù)異常偏高,封裝模型包代碼錯誤造成數(shù)據(jù)異常。如果簡單刪除異常值,欺詐客戶會開香檳慶祝。


這個月有個學(xué)生堅持稱A卡(申請評分卡)模型的變量不應(yīng)該含有逾期變量,逾期變量屬于B卡范圍,應(yīng)該踢除。這位學(xué)生這么偏執(zhí),是聽了導(dǎo)師的話,導(dǎo)師的話讓他深信不疑,態(tài)度非常偏執(zhí)。在學(xué)術(shù)界,諾貝爾獎得主也會為一些理論爭執(zhí),討論學(xué)術(shù)要有包容的心。


下圖是美國FICO分?jǐn)?shù)的評分細(xì)節(jié),payment history支付歷史明確屬于評分的重要環(huán)節(jié),占35%。國內(nèi)諸多銀行信用評分系統(tǒng)結(jié)構(gòu)和下圖類似。

圖片


例如張三在借唄申請一萬元貸款,借唄就會去查張三征信,查詢張三是否在微粒貸,京東金融等其他平臺有逾期歷史。逾期變量是非常重要變量,iv值非常高。如果這學(xué)生堅持要把此變量排除A卡模型外,模型AUC,KS會很低。


還有個學(xué)生一對一論文輔導(dǎo)中,數(shù)據(jù)存在非平衡情況,他導(dǎo)師讓把建模數(shù)據(jù)好壞客戶占比調(diào)整到1:1。金融場景模型好壞客戶比一般在1:10以下,我明確告訴學(xué)生這樣做會引起模型過度擬合。但他導(dǎo)師不聽勸,堅持教科書理論,我也沒辦法。非平衡數(shù)據(jù)處理時,test測試數(shù)據(jù)集效果很好,但oot樣本外數(shù)據(jù)表現(xiàn)往往不如原始模型,因此在增加少量樣本時,盡量按照最小原則,適當(dāng)增加少量樣本即可。


總結(jié)一下,教學(xué)理論可以參考,但實際商業(yè)建模更加靈活,不必完全遵循。



2.模型競賽場景

很多學(xué)生一對一機(jī)器學(xué)習(xí)項目輔導(dǎo)中,他們要求模型某一指標(biāo)達(dá)到最高。他們思想受到模型競賽深遠(yuǎn)影響。

例如kaggle模型競賽,排名前十的絕對是建模高手,他們知道如果通過一切手段來提升模型單一指標(biāo),這點(diǎn)我深信不疑。但kaggle模型排名前十的模型并非最優(yōu)模型,至少和商業(yè)模型有很大差距。


kaggle等模型競賽追求的是單一指標(biāo)最大化,這和GDP最高國家就是世界最強(qiáng)國家一個道理。

清朝GDP世界第一,但人均GDP,GIni系數(shù),人均教育程度,軍事裝備,數(shù)理化學(xué)術(shù)發(fā)展等其他指標(biāo)并不優(yōu)秀。大清朝自認(rèn)為GDP全世界第一,屬于國中之國,結(jié)果發(fā)生火燒圓明園,老窩都保不住。

圖片

大家不要把機(jī)器學(xué)習(xí)模型想的很復(fù)雜,模型就在我們身邊,存在于生活中。之前發(fā)生的歷史教訓(xùn)也可以應(yīng)用于機(jī)器學(xué)習(xí)模型中。


我們在評估模型質(zhì)量時,會從模型多個角度去衡量模型綜合性能,并非追求AUC或KS最高。

圖片

kaggle競賽中,為了使一個指標(biāo)最大化,往往犧牲其它指標(biāo)性能,這是教科書上看不到的知識。


kaggle等模型競賽中最大詬病是模型變量太多。諸多參賽選手為了讓模型單一指標(biāo)最大化,往往生成大量衍生變量。原始模型變量數(shù)量只有一百多個,衍生變量就可以搞出幾千個。這樣思路在商業(yè)模型是行不通的,下個章節(jié)會詳細(xì)談商業(yè)模型和kaggle模型的區(qū)別。


總結(jié)一下,kaggle模型競賽冠軍是建模高手,但模型綜合質(zhì)量并非絕對優(yōu)秀。大家不要把kaggle模型思路應(yīng)用到商業(yè)模型中。



3.商業(yè)應(yīng)用場景

在大型金融公司,商業(yè)模型有一套完整流程機(jī)制。模型的變量最好有業(yè)務(wù)可解釋性。模型部署暗藏深坑。模型上線后線上線下分?jǐn)?shù)經(jīng)常不一致。

圖片

商業(yè)模型變量不應(yīng)過多或過少,合適即可。如果變量太多,模型部署工作量很大,模型驗證難度也高。如果模型上線后出現(xiàn)問題,查找問題就無從下手。

想象一下,一個摩托車壞了和一艘軍艦壞了,哪個維修難度更高?同樣,模型的每個變量就像一個組件,變量越多,維護(hù)成本越高,查找問題難度越高。

如果按照kaggle等模型競賽思路,模型變量成千上萬,上線后出了問題,你愿意去查找原因嗎?

而且在金融領(lǐng)域,時間=money,變量過多,模型訓(xùn)練和預(yù)測時間越長,和浪費(fèi)錢是一個道理。


模型存在于生活,存在于各行各業(yè),并非計算機(jī)專業(yè)學(xué)生專利。我鼓勵大家都去學(xué)習(xí)機(jī)器學(xué)習(xí)模型,這有助于提升你生活和職場成功概率。學(xué)習(xí)過程就是在提升自己的道與術(shù),打開自己眼界,比比人看的更寬,更深,更遠(yuǎn)。

圖片


今天即興寫作,談的內(nèi)容比較廣,歡迎學(xué)習(xí)更多金融風(fēng)控建模相關(guān)知識《python金融風(fēng)控評分卡模型和數(shù)據(jù)分析微專業(yè)課(加強(qiáng)版)》:https://ke.qq.com/course/package/43071

我方提供大量金融模型實戰(zhàn)案例,創(chuàng)新點(diǎn),復(fù)現(xiàn)kaggle知名案例,有機(jī)器學(xué)習(xí)論文一對一輔導(dǎo)的同學(xué),可以留言聯(lián)系。

? ? ? ? ? ? ? ?



機(jī)器學(xué)習(xí)模型的三個宏觀應(yīng)用的評論 (共 條)

分享到微博請遵守國家法律
兰溪市| 固始县| 萍乡市| 崇文区| 扎兰屯市| 舞钢市| 孟连| 广昌县| 柏乡县| 襄汾县| 阳山县| 德阳市| 德兴市| 洪洞县| 彝良县| 邳州市| 明光市| 屏东县| 佳木斯市| 山阳县| 沂源县| 嘉荫县| 亚东县| 五华县| 襄汾县| 辛集市| 信阳市| 武夷山市| 盘锦市| 龙井市| 岳池县| 西丰县| 隆安县| 新巴尔虎右旗| 淮阳县| 巫山县| 汉沽区| 金坛市| 河间市| 三都| 漳平市|