国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

【統(tǒng)計】一文帶你搞懂啞變量

2020-05-21 23:29 作者:陸震同學(xué)  | 我要投稿

我們在進行數(shù)據(jù)建模分析時,連續(xù)變量可以以原始錄入數(shù)值的形式納入模型,如身高體重,相應(yīng)的回歸系數(shù)也就表示自變量每增加一個單位時,因變量的平均改變量。

而在處理分類變量時,我們一定會看到這樣的表述:無序多分類要進入模型前,一定要進行啞變量處理。那么問題來了:什么是啞變量?

啞變量也叫虛擬變量(Dummy variable),它實質(zhì)上是將一個多分類變量轉(zhuǎn)換為多個二分類變量,生成二分類變量的就是啞變量。就這么簡單么?

在進一步解釋啞變量意義之前,我們先了解下【參照】的意思。不知道大家注意到?jīng)]有,分類變量在解釋時,實質(zhì)上是需要有參照類別的。如,談?wù)撔詣e對疾病的影響時,當(dāng)我們說男性的影響大,其實暗含了以女性作為參照,男性和女性相比較而言,男性對疾病影響大的意思,如果在沒有參照標(biāo)準(zhǔn)的前提下,你是怎么定義何為影響大的,多少算大,多少算小,這就說不清了。

了解了參照,我們接著來講啞變量的含義。

舉個例子,如血型(A、B、O、AB),它是個無序多分類變量,我們是以數(shù)值1、2、3、4對應(yīng)賦值血型,回歸分析時,如果直接以1/2/3/4數(shù)值引入模型,那么得到的回歸系數(shù)的意義就是:血型每增加1個單位,因變量的平均改變量。

我們想一想,從血型A到B和從血型B到0,因變量的平均改變量難道真的就是一樣的么(即計算求得得回歸系數(shù))?很顯然,只是一種可能。更多的可能是:血型的變化帶來的因變量的平均改變量是不一致的,換句話說,血型與因變量之間可能是非線性關(guān)系,在這種情況下,如果類別之間的變化幅度不一致,你將類別數(shù)值作為連續(xù)變量引入模型,是無法找到類別變量與因變量之間的真實非線性關(guān)系的。

此時,就需要將血型這個無序多分類變量進行啞變量處理,而這就是啞變量存在的意義,也是為什么無序多分類變量一定要進行啞變量處理的原因。如果多分類變量與因變量已經(jīng)是線性關(guān)系,那也就沒有必要再使用啞變量了,使用線性模型可以較好地反映自變量與因變量之間的關(guān)系。

從這個角度,也提醒我們,在將等級變量引入回歸模型之中,需要將其首先因子化處理,否則雖然也能得到回歸分析結(jié)果,但該結(jié)果很可能是有偏差的。

若多分類變量有 k 類,就可以把它轉(zhuǎn)換為 k-1 個二分類變量即啞變量,在解釋時,每個啞變量的解釋都是在以與參照類別的相比的前提下進行的。如,4分類變量作啞變量處理,選擇其中第1個類別作為參照,其他三個類別都和它比,則構(gòu)成了3個二分類變量,即3個啞變量。二分類變量是可以直接進入模型的。比如以類別1為參照,產(chǎn)生3個啞變量,分別是2/1,3/1和4/1,將其引入回歸模型,我們能得到3個回歸系數(shù),分別表示類別2和參照類別1相比因變量變化的大小、類別3和參照類別1相比因變量變化的大小以及類別4和參照類別1相比因變量變化的大小。

通過生成啞變量,在回歸分析時,我們就能得到3個系數(shù)。相比于將類別數(shù)值作為連續(xù)變量引入模型只能得到1個回歸系數(shù),啞變量得到的多個回歸系數(shù)能夠更為詳細(xì)真實地反映無序多分類變量與因變量二者之間的關(guān)系。當(dāng)類別之間的變化呈現(xiàn)非線性關(guān)系時,如類別1跨到類別2遠(yuǎn)沒有類別2跨到類別3對因變量的影響大,此時這種作用更加明顯和真實。

為什么這么說?因為實質(zhì)上,無論你使用的是一般線性回歸模型還是廣義線性回歸模型,它們的前提是默認(rèn)自變量與因變量之間的關(guān)系是線性的,也就是說,隨著自變量改變一個單位,因變量水平是線性變化的,增加的幅度即斜率是固定的。若自變量與因變量呈現(xiàn)非線性關(guān)系,回歸模型得出的結(jié)果是不真實的。

雖然啞變量有用,但是它同時也會帶來一定的問題。在你的樣本量不是很大的情況下,如果你的模型之中有一個或多個無序分類變量,啞變量處理后,會增加你的自變量的個數(shù),有可能會導(dǎo)致模型估計的不穩(wěn)定。

另外,非常要強調(diào)注意的一點就是:在將啞變量引入模型時,一定要保證啞變量同進同出,不能只保留啞變量其中的一部分。只有當(dāng)某多分類變量的全部啞變量同時引入模型之中,啞變量所表達(dá)的意思才是一個完整的原始多分類變量,才能表示剩余各類別相比參照類別的因變量的變化,否則就失去了原始多分類變量的含義。同時,在回歸篩選變量時,要做到啞變量同進同出,要么全部留在模型中,要么全部刪掉,不存在只保留其中幾個。即使只有一個啞變量的系數(shù)有統(tǒng)計學(xué)意義,也要將該無序分類變量的所有啞變量的系數(shù)全部記錄展現(xiàn)出來,而不能知選擇有統(tǒng)計學(xué)意義的那一個啞變量。

最后,啞變量處理時,我們一般選擇風(fēng)險低的類別作為參照類別,剩下的就是依據(jù)專業(yè)知識和你的具體研究目的而定了。

你有沒有搞懂啞變量呢?

【統(tǒng)計】一文帶你搞懂啞變量的評論 (共 條)

分享到微博請遵守國家法律
蒙阴县| 红原县| 曲阜市| 莱芜市| 会宁县| 孙吴县| 南乐县| 合阳县| 邢台县| 桓台县| 汶上县| 黑水县| 龙里县| 曲水县| 绿春县| 宁陕县| 山阴县| 河曲县| 乌兰察布市| 永善县| 雷波县| 翼城县| 赞皇县| 喀喇| 称多县| 云龙县| 连南| 平安县| 都昌县| 建平县| 汉沽区| 油尖旺区| 嘉黎县| 定日县| 大埔县| 杭锦后旗| 贵州省| 正阳县| 赤水市| 蒙阴县| 金沙县|