国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

證據(jù)權(quán)重 (WOE) 和信息價(jià)值 (IV)

2021-07-14 19:50 作者:python風(fēng)控模型  | 我要投稿

在本文中,我們將介紹證據(jù)權(quán)重和信息價(jià)值的概念,以及如何在預(yù)測(cè)建模過(guò)程中使用它們,以及如何使用 SAS、R 和 Python 計(jì)算它們的詳細(xì)信息。

邏輯回歸模型是解決二分類問(wèn)題最常用的統(tǒng)計(jì)技術(shù)之一。這是幾乎所有領(lǐng)域都可以接受的技術(shù)。這兩個(gè)概念——證據(jù)權(quán)重 (WOE) 和信息價(jià)值 (IV) 從相同的邏輯回歸技術(shù)演變而來(lái)。這兩個(gè)術(shù)語(yǔ)在信用評(píng)分領(lǐng)域已經(jīng)存在超過(guò) 4-5 年了。它們已被用作篩選信用風(fēng)險(xiǎn)建模項(xiàng)目中的變量(例如違約概率)的基準(zhǔn)。它們有助于探索數(shù)據(jù)和篩選變量。它還用于營(yíng)銷分析項(xiàng)目,例如客戶流失模型、活動(dòng)響應(yīng)模型等。



什么是證據(jù)權(quán)重 (WOE)?

證據(jù)權(quán)重表明自變量相對(duì)于因變量的預(yù)測(cè)能力。由于它是從信用評(píng)分世界演變而來(lái)的,它通常被描述為區(qū)分好客戶和壞客戶的衡量標(biāo)準(zhǔn)。“壞客戶”是指拖欠貸款的客戶。和“優(yōu)質(zhì)客戶”指的是誰(shuí)償還貸款的客戶。

商品分布 -特定組中好客戶的百分比 不良
分布 -特定組中不良客戶的百分比
ln -自然對(duì)數(shù)


正 WOE 表示貨物分布 > 不良品分布
負(fù) WOE 表示商品分布 < 不良品分布

提示:數(shù)字的對(duì)數(shù) > 1 表示正值。如果小于 1,則表示負(fù)值。


許多人不理解商品/不良品這兩個(gè)術(shù)語(yǔ),因?yàn)樗鼈兊谋尘芭c信用風(fēng)險(xiǎn)不同。從事件和非事件的角度理解 WOE 的概念是很好的。它的計(jì)算方法是取非事件百分比和事件百分比除以的自然對(duì)數(shù)(以 e 為底的對(duì)數(shù))。

WOE = In(非事件百分比 ? 事件百分比)


計(jì)算 WOE 的步驟

  1. 對(duì)于連續(xù)變量,將數(shù)據(jù)分成 10 份(或更少,具體取決于分布)。

  2. 計(jì)算每組中事件和非事件的數(shù)量(bin)

  3. 計(jì)算每組中事件的百分比和非事件的百分比。

  4. 通過(guò)取非事件百分比和事件百分比的自然對(duì)數(shù)來(lái)計(jì)算 WOE

注意:對(duì)于分類變量,您不需要拆分?jǐn)?shù)據(jù)(忽略步驟 1 并按照其余步驟進(jìn)行操作)

證據(jù)權(quán)重和信息價(jià)值計(jì)算



下載:WOE和IV的Excel模板

與 WOE 相關(guān)的術(shù)語(yǔ)

1. 精細(xì)分類

為連續(xù)自變量創(chuàng)建 10/20 個(gè) bins/groups,然后計(jì)算變量的 WOE 和 IV

2. 粗分類

合并具有相似 WOE 分?jǐn)?shù)的相鄰類別


WOE的使用

證據(jù)權(quán)重 (WOE) 有助于根據(jù)因變量分布的相似性(即事件和非事件的數(shù)量)將連續(xù)自變量轉(zhuǎn)換為一組組或箱。

對(duì)于連續(xù)自變量:首先,為連續(xù)自變量創(chuàng)建分箱(類別/組),然后將具有相似 WOE 值的類別組合起來(lái),并用 WOE 值替換類別。在模型中使用 WOE 值而不是輸入值。



對(duì)于分類自變量:組合具有相似 WOE 的類別,然后創(chuàng)建具有連續(xù) WOE 值的自變量的新類別。換句話說(shuō),在模型中使用 WOE 值而不是原始類別。轉(zhuǎn)換后的變量將是具有 WOE 值的連續(xù)變量。它與任何連續(xù)變量相同。

為什么將具有相似 WOE 的類別組合在一起?

這是因?yàn)榫哂邢嗨?WOE 的類別具有幾乎相同的事件和非事件比例。換句話說(shuō),這兩個(gè)類別的行為是相同的。

WOE相關(guān)規(guī)則


  1. 每個(gè)類別 (bin) 應(yīng)至少有 5% 的觀察值。

  2. 對(duì)于非事件和事件,每個(gè)類別 (bin) 都應(yīng)該是非零的。

  3. 每個(gè)類別的 WOE 應(yīng)該是不同的。類似的群體應(yīng)該被聚合。

  4. WOE 應(yīng)該是單調(diào)的,即隨著分組增加或減少。

  5. 缺失值單獨(dú)裝箱。


箱數(shù)(組)

一般來(lái)說(shuō),取 10 或 20 個(gè) bin。理想情況下,每個(gè) bin 應(yīng)包含至少 5% 的案例。bin 的數(shù)量決定了平滑的數(shù)量 - bin 越少,平滑越多。如果有人問(wèn)你“為什么不形成 1000 個(gè)垃圾箱?” 答案是捕獲數(shù)據(jù)中重要模式的 bin 越少,同時(shí)排除噪聲。案例少于 5% 的 bin 可能不是數(shù)據(jù)分布的真實(shí)情況,并可能導(dǎo)致模型不穩(wěn)定。

處理零事件/非事件

如果特定 bin 不包含事件或非事件,您可以使用以下公式忽略丟失的 WOE。我們將組中事件和非事件的數(shù)量增加 0.5。

調(diào)整后的WOE = ln(((組中的非事件數(shù)+ 0.5)/非事件數(shù)))/((組中的事件數(shù)+ 0.5)/事件數(shù)))

如何使用 WOE 檢查正確的分箱

1. WOE 應(yīng)該是單調(diào)的,即隨著 bin 增加或減少。您可以在圖表上繪制 WOE 值并檢查線性度。
2.分箱后進(jìn)行WOE變換。接下來(lái),我們使用 1 個(gè)具有 WOE 值的自變量運(yùn)行邏輯回歸。如果斜率不是 1 或截距不是ln(非事件的百分比/事件的百分比),則分箱算法不好。[來(lái)源: 文章]

WOE 的好處

  1. 它可以處理異常值。假設(shè)你有一個(gè)連續(xù)變量,比如年薪,極值超過(guò)5億美元。這些值將被歸為一類(假設(shè)為 250-5 億美元)。稍后,我們將使用每個(gè)類別的 WOE 分?jǐn)?shù),而不是使用原始值。

  2. 它可以處理缺失值,因?yàn)槿笔е悼梢詥为?dú)裝箱。

  3. 由于 WOE 轉(zhuǎn)換處理分類變量,因此不需要虛擬變量。

  4. WoE 轉(zhuǎn)換可幫助您與對(duì)數(shù)賠率建立嚴(yán)格的線性關(guān)系。否則用對(duì)數(shù)、平方根等其他變換方法很難實(shí)現(xiàn)線性關(guān)系??傊?,如果你不使用WOE變換,你可能需要嘗試幾種變換方法來(lái)實(shí)現(xiàn)這一點(diǎn)。


什么是信息價(jià)值 (IV)?

信息值是在預(yù)測(cè)模型中選擇重要變量的最有用的技術(shù)之一。它有助于根據(jù)變量的重要性對(duì)變量進(jìn)行排名。IV 使用以下公式計(jì)算:

IV = ∑(非事件百分比 - 事件百分比)* WOE



信息價(jià)值相關(guān)規(guī)則


? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?信息價(jià)值可變預(yù)測(cè)性小于 0.02對(duì)預(yù)測(cè)沒(méi)有用0.02 到 0.1預(yù)測(cè)能力弱0.1 到 0.3中等預(yù)測(cè)能力0.3 到 0.5強(qiáng)大的預(yù)測(cè)能力>0.5可疑的預(yù)測(cè)能力


根據(jù) Siddiqi (2006),按照慣例,信用評(píng)分中 IV 統(tǒng)計(jì)量的值可以解釋如下。

如果 IV 統(tǒng)計(jì)量是:

  1. 小于 0.02,則預(yù)測(cè)器對(duì)建模沒(méi)有用

  2. 0.02 到 0.1,則預(yù)測(cè)變量與 Goods/Bads 優(yōu)勢(shì)比的關(guān)系很弱

  3. 0.1 到 0.3,則預(yù)測(cè)變量與 Goods/Bads 優(yōu)勢(shì)比具有中等強(qiáng)度關(guān)系

  4. 0.3 到 0.5,則預(yù)測(cè)變量與 Goods/Bads 優(yōu)勢(shì)比有很強(qiáng)的關(guān)系。

  5. > 0.5,高的可疑(需要檢查)


要點(diǎn)

  1. 信息值隨著自變量的 bins/groups 增加而增加。當(dāng)有超過(guò) 20 個(gè) bin 時(shí)要小心,因?yàn)橛行?bin 可能只有很少的事件和非事件。

  2. 當(dāng)您構(gòu)建除二元邏輯回歸(例如隨機(jī)森林或 SVM)以外的分類模型時(shí),信息值不是最佳特征(變量)選擇方法,因?yàn)闂l件對(duì)數(shù)幾率(我們?cè)谶壿嫽貧w模型中預(yù)測(cè))高度相關(guān)到證據(jù)權(quán)重的計(jì)算。換句話說(shuō),它主要是為二元邏輯回歸模型設(shè)計(jì)的。也可以這樣想 - 隨機(jī)森林可以很好地檢測(cè)非線性關(guān)系,因此通過(guò)信息值選擇變量并在隨機(jī)森林模型中使用它們可能不會(huì)產(chǎn)生最準(zhǔn)確和魯棒的預(yù)測(cè)模型。



如何計(jì)算連續(xù)因變量的 WOE 和 IV

連續(xù)因變量的 WOE 和 IV

Python、SAS 和 R 中的證據(jù)權(quán)重和信息價(jià)值

  • 代碼

  • Python代碼

  • SAS代碼


第 1 步:安裝和加載包首先你需要安裝“信息”包,然后你需要在 R 中加載包。

install.packages("信息")
庫(kù)(信息)

第 2 步:導(dǎo)入您的數(shù)據(jù)

#讀取數(shù)據(jù)
mydata <- read.csv("https://stats.idre.ucla.edu/stat/data/binary.csv")


第 3 步:匯總數(shù)據(jù)

在這個(gè)數(shù)據(jù)集中,我們有四個(gè)變量和 400 個(gè)觀察值。變量admit 是一個(gè)二元目標(biāo)或因變量。

摘要(我的數(shù)據(jù))



第 4 步:數(shù)據(jù)準(zhǔn)備
確保您的獨(dú)立分類變量作為因子存儲(chǔ)在 R 中。您可以使用以下方法進(jìn)行操作 -

mydata$rank <- 因子(mydata$rank)

重要說(shuō)明:在按照此包運(yùn)行 IV 和 WOE 之前,二進(jìn)制因變量必須是數(shù)字。不要讓它成為因素。

第 5 步:計(jì)算信息價(jià)值和 WOE

在第一個(gè)參數(shù)中,您需要定義數(shù)據(jù)框,然后是目標(biāo)變量。在 bins= 參數(shù)中,您需要指定要為 WOE 和 IV 創(chuàng)建的組數(shù)。

IV <- create_infotables(data=mydata, y="admit", bins=10, parallel=FALSE)

它將除因變量之外的所有變量作為數(shù)據(jù)集中的預(yù)測(cè)變量,并對(duì)它們運(yùn)行 IV。

該函數(shù)支持并行計(jì)算。如果你想在并行計(jì)算模式下運(yùn)行你的代碼,你可以運(yùn)行以下代碼。

IV <- create_infotables(data=mydata, y="admit", bins=10, ? parallel=TRUE )


您可以添加ncore=參數(shù)以提及用于并行處理的內(nèi)核數(shù)。

R 中的信息值 在 IV 列表中,列表摘要包含所有自變量的 IV 值。

IV_Value = data.frame(IV$Summary)

要獲取變量gre 的WOE 表,您需要從 IV 列表中調(diào)用表列表。

打?。↖V$Tables$gre,row.names=FALSE)


要將其保存在數(shù)據(jù)框中,您可以運(yùn)行以下命令 - gre = data.frame(IV$Tables$gre)

繪制 WOE 分?jǐn)?shù)

要查看 WOE 變量的趨勢(shì),您可以使用plot_infotables函數(shù)繪制它們。

plot_infotables(IV, "gre")


WOE 情節(jié)


要在一頁(yè)上生成多個(gè)圖表,您可以運(yùn)行以下命令 -

plot_infotables(IV, IV$Summary$Variable[1:3], same_scale=FALSE)


多圖 WOE


重要點(diǎn)?
是要注意“等級(jí)”變量的箱數(shù)。由于它是一個(gè)分類變量,bin 的數(shù)量將取決于因子變量的唯一值。參數(shù) bins=10 不適用于因子變量。


版權(quán)申明

文本原創(chuàng)于公眾號(hào):python風(fēng)控模型

歡迎學(xué)習(xí)更多金融風(fēng)控相關(guān)知識(shí)《python金融風(fēng)控評(píng)分卡模型和數(shù)據(jù)分析》




證據(jù)權(quán)重 (WOE) 和信息價(jià)值 (IV)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
沧源| 山西省| 阜新市| 隆安县| 冕宁县| 永善县| 开封市| 徐汇区| 桐乡市| 通州区| 寻乌县| 桂东县| 绥滨县| 贡山| 乌拉特后旗| 桃源县| 兴化市| 镇宁| 望城县| 商都县| 齐齐哈尔市| 兴安县| 婺源县| 高邑县| 房山区| 无极县| 昌图县| 绥化市| 绥江县| 清涧县| 宜城市| 临夏市| 肇州县| 靖西县| 二手房| 浪卡子县| 四平市| 宁乡县| 新郑市| 浙江省| 嘉鱼县|