SPSS多元線性回歸分析流程
線性回歸分析流程圖如下:
一、基本關(guān)系查看
線性回歸分析是用于研究定量數(shù)據(jù)之間的影響關(guān)系的,通常先有相關(guān)關(guān)系,才會(huì)有回歸影響關(guān)系。所以一般在進(jìn)行線性回歸分析之前,需要先查看一下數(shù)據(jù)之間的相關(guān)關(guān)系,可以通過查看變量之間的相關(guān)系數(shù)或者查看散點(diǎn)圖的方式進(jìn)行。
當(dāng)前有一家公司,想要研究員工的初始工資、工作時(shí)間、教育程度、工作經(jīng)驗(yàn)是否會(huì)影響員工的當(dāng)前工資,如果有影響,各個(gè)因素對(duì)當(dāng)前工資的影響大小如何,故通過多元線性回歸進(jìn)行分析(數(shù)據(jù)純屬虛構(gòu),僅做教學(xué)使用)。
首先查看數(shù)據(jù)之間的相關(guān)關(guān)系,分別使用散點(diǎn)圖和相關(guān)系數(shù)進(jìn)行查看。
1、散點(diǎn)圖
散點(diǎn)圖用于直觀展示自變量X與因變量Y之間的關(guān)系情況,通常用于探索性研究階段。使用散點(diǎn)圖查看工資與初始工資、教育程度、工作時(shí)間、工作經(jīng)驗(yàn)之間的關(guān)系,利用SPSSAU可視化->散點(diǎn)圖得到分析結(jié)果如下:
上圖展示了分別以初始工資、教育程度、工作經(jīng)驗(yàn)為X軸,工資為Y軸得到的散點(diǎn)圖,從散點(diǎn)圖可以看出,工資與初始工資、教育程度、工作經(jīng)驗(yàn)之間關(guān)系為線性。
上圖為以工作時(shí)間為X軸,工資為Y軸繪制的散點(diǎn)圖,從上圖可以看到,工作時(shí)間與工資之間并沒有明顯的關(guān)系。但是散點(diǎn)圖的判斷比較主觀,不能說因?yàn)榭雌饋頉]有相關(guān)關(guān)系,就認(rèn)為確實(shí)沒有相關(guān)關(guān)系,需要數(shù)據(jù)進(jìn)行證實(shí),故進(jìn)行相關(guān)分析,查看變量間的相關(guān)系數(shù),進(jìn)一步進(jìn)行數(shù)據(jù)關(guān)系查看。
2、相關(guān)分析
相關(guān)分析用于分析變量之間是否具有相關(guān)關(guān)系,回歸分析用于分析影響關(guān)系,通常先有相關(guān)關(guān)系,才會(huì)有回歸影響關(guān)系。所以在進(jìn)行回歸分析之前,通常先進(jìn)行相關(guān)分析,查看自變量與因變量之間的相關(guān)關(guān)系。
使用SPSSAU相關(guān)分析,得到工資與初始工資、教育程度、工作經(jīng)驗(yàn)、工作時(shí)間兩兩之間的相關(guān)系數(shù)表如下:
從上表可以看出,工資與工作時(shí)間之間的相關(guān)系數(shù)為0.101接近0,同時(shí)對(duì)應(yīng)p值大于0.05沒有呈現(xiàn)出顯著性,而初始工資、教育程度、工作經(jīng)驗(yàn)與工資之間的p值均小于0.01,呈現(xiàn)出顯著性;所以將工作時(shí)間從回歸方程中剔除。
經(jīng)過散點(diǎn)圖與相關(guān)分析得到,初始工資、教育程度、工作經(jīng)驗(yàn)都與工資之間具有顯著相關(guān)關(guān)系,而工作時(shí)間與工資之間并沒有相關(guān)關(guān)系,故將工作時(shí)間從線性回歸模型中移除。
接下來以工資作為因變量Y,初始工資、教育程度、工作經(jīng)驗(yàn)作為自變量X進(jìn)行線性回歸分析。
二、總體顯著性檢驗(yàn)
使用多元線性回歸分析過程中,顯著性檢驗(yàn)應(yīng)該包括兩部分內(nèi)容:對(duì)多個(gè)自變量與因變量這個(gè)整體的顯著性檢驗(yàn)(F檢驗(yàn)),以及每個(gè)自變量對(duì)因變量影響的顯著性檢驗(yàn)(t檢驗(yàn)),二者都是對(duì)線性回歸的顯著性檢驗(yàn),但是檢驗(yàn)?zāi)康牟煌?。特別提示:僅僅在一元線性回歸分析過程中,F(xiàn)檢驗(yàn)與t檢驗(yàn)效果是等價(jià)的,因?yàn)榇藭r(shí)只涉及到一個(gè)自變量。
首先進(jìn)行總體顯著性檢驗(yàn),是使用F檢驗(yàn)進(jìn)行的,可以判斷多元線性回歸方程是否成立。SPSSAU多元線性回歸分析F檢驗(yàn)輸出結(jié)果如下:
從上表可以看出,統(tǒng)計(jì)量F=4009.94,對(duì)應(yīng)的p值小于0.05,所以多元線性回歸通過總體顯著性檢驗(yàn),回歸模型是有意義的,說明至少有1個(gè)X會(huì)對(duì)因變量Y產(chǎn)生影響。
接下來查看每個(gè)自變量對(duì)因變量影響的顯著性,即回歸系數(shù)顯著性檢驗(yàn)。
三、回歸系數(shù)顯著性檢驗(yàn)
回歸系數(shù)顯著性檢驗(yàn)是指每個(gè)自變量對(duì)因變量影響的顯著性檢驗(yàn),使用t檢驗(yàn)進(jìn)行。SPSSAU輸出每個(gè)自變量對(duì)因變量影響的t檢驗(yàn)結(jié)果如下:
從上表可以看出,初始工資、教育程度與工作經(jīng)驗(yàn)三個(gè)自變量對(duì)應(yīng)t檢驗(yàn)的p值均小于0.05,呈現(xiàn)出顯著性特征。說明三個(gè)自變量X對(duì)因變量Y(工資)均呈現(xiàn)出顯著性。
多元線性回歸分析同時(shí)會(huì)輸出一些其他的指標(biāo),接下來將逐個(gè)進(jìn)行說明。
四、其他指標(biāo)解讀
(1)VIF值
VIF值用于共線性判斷,共線性是指在線性回歸分析時(shí),出現(xiàn)的自變量之間彼此相關(guān)的現(xiàn)象。共線性出現(xiàn)的原因可能是由于多個(gè)自變量之間本身就存在很強(qiáng)的相關(guān)關(guān)系;或者由于收集的樣本量不足;再或者由于在回歸分析時(shí)錯(cuò)誤的使用虛擬變量等都可能導(dǎo)致共線性問題的出現(xiàn)。
使用SPSSAU進(jìn)行多元線性回歸時(shí),分析結(jié)果會(huì)自動(dòng)輸出VIF值,用來判斷是否存在共線性。一般VIF值大于10(嚴(yán)格大于5),則認(rèn)為存在嚴(yán)重的共線性。SPSSAU輸出結(jié)果如下:
從上表可以看出,VIF值均小于10,說明不存在共線性問題。但有些文獻(xiàn)要求VIF值小于5才認(rèn)為不存在共線性問題,嚴(yán)格來看,工作經(jīng)驗(yàn)的VIF=6.76>5,說明可能存在一定的共線性問題。如果認(rèn)為數(shù)據(jù)存在共線性,可以手動(dòng)移除相關(guān)性非常高的變量,或者改用逐步回歸、嶺回歸等方法進(jìn)行分析。此處認(rèn)為共線性可以忽略,故不再進(jìn)行贅述。
(2)R方與調(diào)整后R方
R方用于分析模型的擬合優(yōu)度,又稱決定系數(shù)。R方的值介于0~1之間,代表模型的擬合程度,一般認(rèn)為越大越好。例如R方為0.5,說明自變量可以解釋因變量50%的變化原因。但是實(shí)際研究中并不會(huì)過多關(guān)注R方的大小,因?yàn)檫M(jìn)行回歸分析更多的主要關(guān)注自變量對(duì)因變量是否具有影響關(guān)系。調(diào)整后R方并沒有實(shí)際意義,通常在進(jìn)行模型調(diào)整(增加或者減少變量個(gè)數(shù)時(shí))使用,用于判斷你的模型中該不該加入你想加入的變量。
SPSSAU輸出結(jié)果如下圖:
從上表可以看出,R方=0.973,說明自變量可以解釋因變量97.3%的變化原因,模型擬合較好。當(dāng)進(jìn)行模型調(diào)整時(shí),可以關(guān)注調(diào)整后R方的變化。
(3)D-W值
模型的隨機(jī)干擾項(xiàng)相互獨(dú)立或不相關(guān),是多元線性回歸模型的基本假設(shè)之一。隨機(jī)干擾項(xiàng)是數(shù)據(jù)本身的不確定性帶來的誤差。如果模型的隨機(jī)干擾項(xiàng)違背了相互獨(dú)立的基本假設(shè),稱為存在自相關(guān)性。自相關(guān)性可以使用D-W檢驗(yàn)進(jìn)行分析。
D-W檢驗(yàn)(杜賓-瓦特森檢驗(yàn)),計(jì)量經(jīng)濟(jì),統(tǒng)計(jì)分析中常用的一種檢驗(yàn)序列一階自相關(guān)最常用的方法。SPSSAU在進(jìn)行線性回歸分析時(shí),輸出D-W值如下:
一般認(rèn)為,如果D-W值在2附近(1.7~2.3之間),說明不存在自相關(guān)性,模型構(gòu)建比較好,反之如果D-W值明顯偏離2,說明模型具有自相關(guān)性,模型構(gòu)建較差。
從上表得到,本次分析的D-W值=0.438,明顯偏離2,說明模型存在自相關(guān)性,模型構(gòu)建較差。但是由于一般對(duì)于時(shí)間序列分析才會(huì)考慮DW值,本次分析數(shù)據(jù)并非時(shí)間序列,所以暫且忽略自相關(guān)性。如果在分析時(shí)需要自相關(guān)問題修正,可以使用廣義差分法,在此不再進(jìn)行深入分析。
(4)殘差
在進(jìn)行分析時(shí),如果有需要,可以選擇勾選【保存預(yù)測(cè)和殘差值】選項(xiàng),SPSSAU會(huì)輸出殘差值和預(yù)測(cè)值。
針對(duì)殘差值,一般會(huì)檢驗(yàn)殘差值的正態(tài)性。如果殘差直觀上滿足正態(tài)性,說明模型構(gòu)建較好,反之說明模型構(gòu)建較差。SPSSAU利用殘差繪制直方圖,得到結(jié)果如下:
從直方圖可以看出,數(shù)據(jù)呈現(xiàn)出的分布并不對(duì)稱,但是從形狀來看,直方圖近似呈現(xiàn)“中間高,兩頭低”的鐘形分布形狀,說明數(shù)據(jù)為可接受的正態(tài)分布。即說明殘差符合正態(tài)分布,模型構(gòu)建較好。如果殘差正態(tài)性非常糟糕,建議重新構(gòu)建模型,比如對(duì)因變量Y取對(duì)數(shù)后再次構(gòu)建模型等。
以上指標(biāo)分析完成后,最后進(jìn)行歸回分析結(jié)果解讀,判斷哪些自變量對(duì)因變量有顯著影響,影響方向、影響大小是怎樣的;構(gòu)建回歸分析模型。
五、回歸分析模型
SPSSAU輸出回歸分析結(jié)果如下:
(1)模型公式
從上表可以看出,以初始工資、教育程度、工作經(jīng)驗(yàn)為自變量,工資為因變量進(jìn)行多元線性回歸分析,得到回歸模型公式為:工資=18326.101 + 0.353*初始工資-280.300*教育程度 + 144.955*工作經(jīng)驗(yàn)。
特別提示:構(gòu)建回歸模型使用非標(biāo)準(zhǔn)化回歸系數(shù),它是方程中不同自變量對(duì)應(yīng)的原始回歸系數(shù),反映了在其他自變量不變的情況下,該自變量每變化一個(gè)單位對(duì)因變量作用的大小。通過非標(biāo)準(zhǔn)化回歸系數(shù)構(gòu)建的回歸方程,才可以對(duì)因變量進(jìn)行預(yù)測(cè)。
(2)影響大小比較
自變量對(duì)因變量影響大小的比較是通過標(biāo)準(zhǔn)化回歸系數(shù)進(jìn)行比較的。標(biāo)準(zhǔn)化回歸系數(shù)的絕對(duì)值越大,說明該自變量對(duì)因變量的影響越大。
標(biāo)準(zhǔn)化回歸系數(shù),是對(duì)自變量和因變量同時(shí)進(jìn)行標(biāo)準(zhǔn)化處理后所得到的回歸系數(shù),數(shù)據(jù)經(jīng)過標(biāo)準(zhǔn)化處理后消除了量綱、數(shù)量級(jí)等差異的影響,是的不同變量之間具有可比性,因此使用標(biāo)準(zhǔn)化回歸系數(shù)比較不同自變量對(duì)因變量的影響大小。
從線性回歸結(jié)果可以看出,初始工資、教育程度、工作經(jīng)驗(yàn)的標(biāo)準(zhǔn)化回歸系數(shù)分別是:0.168、-0.046、0.881;所以工作經(jīng)驗(yàn)對(duì)工資的影響最大,其次是初始工資,影響最小的是教育程度,且初始工資與工作經(jīng)驗(yàn)對(duì)工資的影響是顯著正向的,而教育程度對(duì)工資的影響是顯著負(fù)向的。
(3)coefPlot
SPSSAU會(huì)輸出coefPlot圖,用于展示具體的回歸系數(shù)值和對(duì)應(yīng)的置信區(qū)間,可直觀查看數(shù)據(jù)的顯著性情況,如果說置信區(qū)間包括數(shù)字0則說明該項(xiàng)不顯著,如果置信區(qū)間不包括數(shù)字0則說明該項(xiàng)呈現(xiàn)出顯著性。
具體數(shù)值還可通過SPSSAU輸出的回歸系數(shù)中間過程值表格查看,見下圖:
從上表可以看出,3個(gè)自變量回歸系數(shù)對(duì)應(yīng)的置信區(qū)間均不包括0,說明3個(gè)自變量對(duì)因變量的影響均呈現(xiàn)出顯著性。
綜上所述,探究工資的影響關(guān)系,經(jīng)過基本關(guān)系分析后,得到與因變量有相關(guān)關(guān)系的自變量后進(jìn)行多元線性回歸分析,發(fā)現(xiàn)初始工資、教育程度、工作經(jīng)驗(yàn)對(duì)工資有顯著影響,其中工作經(jīng)驗(yàn)對(duì)工資的影響最大,多元線性回歸分析結(jié)束。