国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

Python用邏輯回歸、決策樹(shù)、SVM、XGBoost 算法機(jī)器學(xué)習(xí)預(yù)測(cè)用戶(hù)信貸行為數(shù)據(jù)分析報(bào)告

2023-01-09 22:30 作者:拓端tecdat  | 我要投稿

全文鏈接:http://tecdat.cn/?p=31201

原文出處:拓端數(shù)據(jù)部落公眾號(hào)

摘要:此報(bào)告首先將dataset進(jìn)行數(shù)據(jù)清洗,得到dataset_new。再將dataset_new中屬性分為基本信息、貸款行為/意愿信息和征信信息三類(lèi),并逐一進(jìn)行分析。在對(duì)基本信息的分析中得出,在貸款未結(jié)清者中,青年群體、中等教育程度群體、中等和高收入群體的頻數(shù)較高,同時(shí)已婚、受薪雇員占比高于未婚、個(gè)體經(jīng)營(yíng)者。在對(duì)貸款意愿與行為的信息分析中得出,貸款意愿與行為的變化與是否能夠在規(guī)定時(shí)間內(nèi)結(jié)清貸款相關(guān)性較低。在對(duì)征信信息的分析中可以得出,征信信息中的正指標(biāo)與負(fù)指標(biāo)與是否能按期結(jié)清貸款有較為顯著的正相關(guān)與負(fù)相關(guān)關(guān)系。最后再利用機(jī)器學(xué)習(xí)算法訓(xùn)練預(yù)測(cè)是否能夠按期結(jié)清貸款的模型,測(cè)試結(jié)果準(zhǔn)確度較高。

1 屬性分類(lèi)

dataset_new數(shù)據(jù)集中共有6010個(gè)樣本、51個(gè)屬性。由于屬性數(shù)量較多,為了便于分析,以屬性的物理含義為分類(lèi)依據(jù),結(jié)合現(xiàn)實(shí)業(yè)務(wù)特征,挑選出具有代表性且特征涵蓋較為全面的24條屬性,并將其分為三類(lèi):基本信息、貸款行為/意愿信息和征信信息。 原始數(shù)據(jù):

如表1-1所示。

表 1-1 代表性屬性及其分類(lèi)

2 基本信息分析

針對(duì)貸款未結(jié)清者的基本個(gè)人信息進(jìn)行統(tǒng)計(jì)分析,可以得出貸款未結(jié)清者在年齡、受教育程度等屬性上的分布特征。

2.1貸款未結(jié)清者隨年齡的分布

將所有貸款未結(jié)清者從18歲開(kāi)始以5為區(qū)間統(tǒng)計(jì),可以得出如圖2-1-1所示的貸款未結(jié)清者隨年齡的分布情況:在23-33歲的青年群體中,貸款未結(jié)清者的頻數(shù)最高, 在48歲及以上的中老年群體中貢惑術(shù)時(shí)信者慮對(duì)這一群體進(jìn)行更深入的經(jīng)濟(jì)背景調(diào)查款未結(jié)清的主要群體,因此在審批貸款時(shí)應(yīng)考慮對(duì)這一群體進(jìn)行更深入的經(jīng)濟(jì)背景調(diào)查 和征信調(diào)查,以確保貸款對(duì)象具有結(jié)清貸款的能力。

圖 2-1-1 貸款未結(jié)清者隨年齡的分布

2.2 貸款未結(jié)清者隨受教育程度的分布

將貸款未結(jié)清者按受教育程度分類(lèi),可以得出如圖 2-2-1 所示的結(jié)果:在未結(jié)清貸款者中,中等教育程度(12th、 Graduation/Diploma)的頻數(shù)最高,而低教育程度者和高教育程度者的頻數(shù)均較低。

?圖 2-2-1 貸款未結(jié)清者隨受教育程度的分布

2.3 貸款未結(jié)清者的婚姻狀況分布

將貸款未結(jié)清者按照婚姻狀況分類(lèi),可以得到如圖 2-3-1 所示的結(jié)論:在貸款未結(jié)清者中,已婚者的比例略高于未婚者,已婚者與未婚者的占比差距并不顯著。

圖 2-3-1 貸款未結(jié)清者的婚姻狀況分布

2.4 貸款未結(jié)清者的工作狀況和收入狀況分布

將貸款未結(jié)清者按照工作狀況進(jìn)行統(tǒng)計(jì),可以得出如圖2-4-1的結(jié)論:在貸款未結(jié)清者中,35.48%為個(gè)體經(jīng)營(yíng)者,64.52%為受薪雇員,受薪雇員的占比顯著高于個(gè)題經(jīng)營(yíng)者,且兩者比例約為2:1。 將貸款未結(jié)清者按照收入狀優(yōu)進(jìn)仃,-30 00O)和高收入者(50,000-100, 000)清者中,中等收入者(15,000-20,000、20,000-30,000)和高收入者(50,000-100,000) 的頻數(shù)最高,而低收入者(<10,000、>=500,000)的頻數(shù)最低。由此可以考慮,在貸款審批時(shí)對(duì)中等收入和高收入的群體進(jìn)行跟進(jìn)一步的經(jīng)濟(jì)背景調(diào)查和征信調(diào)查。

圖 2-4-1 貸款未結(jié)清者的工作狀況分布

圖 2-4-2 貸款未結(jié)清者的收入狀況分布

3 貸款意愿與行為信息分析

在數(shù)據(jù)集中,貸款意愿主要由安裝的短期以及長(zhǎng)期貸款類(lèi)的APP數(shù)量表征。由于貸款行為在多數(shù)情況下是在一定時(shí)間段內(nèi)對(duì)資金的需求或者對(duì)資金需求的預(yù)期所產(chǎn)生的融資行為,故在考慮貸款意愿與貸款行為信息分析時(shí)可重點(diǎn)考察一定時(shí)間段內(nèi)安裝的貸款類(lèi)APP數(shù)量。

分別將貸款未結(jié)清者(藍(lán)色)與已經(jīng)結(jié)清者(橙色)近3天與30天內(nèi)安裝短期貸款A(yù)PP數(shù)繪制成熱力圖,如圖3-1所示,貸款已結(jié)清者與未結(jié)清者的熱力分布非常近似,所以可認(rèn)為在一定時(shí)間段內(nèi)安裝的短期貸款A(yù)PP數(shù)量與貸款是否結(jié)清的相關(guān)性較低。

圖 3-1 貸款未結(jié)清者與已經(jīng)結(jié)清者近 3 天與 30 天內(nèi)安裝短期貸款 APP 數(shù)熱力圖

再分別將貸款未結(jié)清者(藍(lán)色)與已經(jīng)結(jié)清者(橙色)近30天與90天內(nèi)安裝長(zhǎng)期貸款A(yù)PP數(shù)繪制成熱力圖,如圖3-2所示,貸款已結(jié)清者與未結(jié)清者的熱力分布同樣非常近似,所以也可認(rèn)為在一定時(shí)間段內(nèi)安裝的長(zhǎng)期貸款A(yù)PP數(shù)量與貸款是否結(jié)清的相關(guān)性同樣較低。

圖 3-2 貸款未結(jié)清者與已經(jīng)結(jié)清者近 30 天與 90 天內(nèi)安裝長(zhǎng)期貸款 APP 數(shù)熱力圖

結(jié)合以上分析推測(cè),由于貸款意愿與行為多出自于業(yè)務(wù)上的客觀需求,所以貸款意愿近與行為具有與外生變量相似的特性,因而貸款意愿與行為的變化與是否能夠在規(guī)定時(shí)間內(nèi)結(jié)清貸款相關(guān)性不大。

4 征信信息分析

將征信數(shù)據(jù)歸一化之后,計(jì)算貸款未結(jié)清者與已結(jié)清者之間主要指標(biāo)的差值,如圖4-1。分析可得,對(duì)征信分?jǐn)?shù)、在貸賬戶(hù)數(shù)等正指標(biāo)(即值越高越信用越好),未結(jié)清者顯著低于已結(jié)清者。對(duì)歷史逾期總金額、近60查詢(xún)機(jī)構(gòu)數(shù)等負(fù)指標(biāo)(即值越高越信用越好),未結(jié)清者顯著高于已結(jié)清者。由此可得,征信信息中的正指標(biāo)與負(fù)指標(biāo)與是否能按期結(jié)清貸款有較為顯著的正相關(guān)與負(fù)相關(guān)關(guān)系。所以在審批貸款時(shí),應(yīng)該加強(qiáng)對(duì)征信信息的分析與調(diào)查,以降低貸款者逾期未結(jié)清的概率。

圖 4-1 未結(jié)清與結(jié)清者征信指標(biāo)差(未結(jié)清-結(jié)清者)

5 基于機(jī)器學(xué)習(xí)方法的結(jié)清狀況預(yù)測(cè)

由于貸款是否能按時(shí)結(jié)清受到諸多因素影響,也會(huì)因?yàn)榕既灰蛩禺a(chǎn)生擾動(dòng),同時(shí)考慮到對(duì)每一個(gè)客戶(hù)進(jìn)行人工分析的人工成本和時(shí)間成本較高,故考慮訓(xùn)練基于機(jī)器學(xué)習(xí)方法的結(jié)清狀況預(yù)測(cè)模型,在實(shí)際應(yīng)用中可以直接輸入指標(biāo)利用模型對(duì)是否能夠結(jié)清做出預(yù)測(cè),從而作為人工審批的依據(jù)。 分別采用LogisticRegression、DecisionTree、SVM、XGBoost 算法,以dataset_new中關(guān)鍵屬性作為樣本屬性,訓(xùn)練集:測(cè)試集 =8:2分割所有樣本和標(biāo)簽進(jìn)行訓(xùn)練,所得測(cè)試集準(zhǔn)確率與訓(xùn)練時(shí)間如表5-1所示。

表 5-1 各算法測(cè)試集準(zhǔn)確率與訓(xùn)練時(shí)間

由表5-1可得,各算法測(cè)試集準(zhǔn)確率均為1.0,而在訓(xùn)練時(shí)間上DecisionTree顯著低于其他三種算法??紤]到現(xiàn)實(shí)應(yīng)用中數(shù)據(jù)集規(guī)模可能更大,所以可考慮應(yīng)用DecisionTree對(duì)是否能結(jié)清貸款進(jìn)行預(yù)測(cè)以節(jié)約成本和提高效率。

6 總結(jié)

此報(bào)告對(duì)數(shù)據(jù)集屬性進(jìn)行了分類(lèi),并逐一分析各類(lèi)屬性與是否能夠結(jié)清貸款的關(guān)系。 同時(shí)給出了一種時(shí)間成本低、準(zhǔn)確度高的基于機(jī)器學(xué)習(xí)預(yù)測(cè)是否能夠結(jié)清貸款的方法,用于協(xié)助貸款審批決策與分析工作。

最受歡迎的見(jiàn)解

1.R語(yǔ)言多元Logistic邏輯回歸 應(yīng)用案例

2.面板平滑轉(zhuǎn)移回歸(PSTR)分析案例實(shí)現(xiàn)

3.matlab中的偏最小二乘回歸(PLSR)和主成分回歸(PCR)

4.R語(yǔ)言泊松Poisson回歸模型分析案例

5.R語(yǔ)言回歸中的Hosmer-Lemeshow擬合優(yōu)度檢驗(yàn)

6.r語(yǔ)言中對(duì)LASSO回歸,Ridge嶺回歸和Elastic Net模型實(shí)現(xiàn)

7.在R語(yǔ)言中實(shí)現(xiàn)Logistic邏輯回歸

8.python用線(xiàn)性回歸預(yù)測(cè)股票價(jià)格

9.R語(yǔ)言如何在生存分析與Cox回歸中計(jì)算IDI,NRI指標(biāo)


Python用邏輯回歸、決策樹(shù)、SVM、XGBoost 算法機(jī)器學(xué)習(xí)預(yù)測(cè)用戶(hù)信貸行為數(shù)據(jù)分析報(bào)告的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
长武县| 克什克腾旗| 莱西市| 南平市| 永州市| 大化| 诸暨市| 乾安县| 湾仔区| 铁力市| 五华县| 安平县| 哈巴河县| 田阳县| 旬邑县| 锦州市| 瑞安市| 万载县| 长葛市| 泾川县| 柯坪县| 甘孜| 西藏| 沁源县| 巍山| 鸡西市| 绥棱县| 滕州市| 九寨沟县| 永康市| 安阳市| 福贡县| 石渠县| 湖北省| 滁州市| 房山区| 察雅县| 新乡县| 登封市| 观塘区| 吉隆县|