方差分析知識(shí)一文匯總
一文整理了方差分析的全部?jī)?nèi)容,包括方差分析的定義(基本思想、檢驗(yàn)統(tǒng)計(jì)量的計(jì)算、前提條件)、方差分析分類(lèi)(單因素、雙因素、多因素、事后多重比較、協(xié)方差分析、重復(fù)測(cè)量方差分析)、方差分析流程(數(shù)據(jù)格式、前提條件檢驗(yàn)、進(jìn)行方差分析、結(jié)果解讀)、方差分析的應(yīng)用(回歸模型整體顯著性檢驗(yàn)、回歸模型篩選變量、方差齊檢驗(yàn)、正交試驗(yàn)選擇最優(yōu)組合)、參數(shù)檢驗(yàn)與非參數(shù)檢驗(yàn)(基本說(shuō)明、對(duì)比、常用方法對(duì)比、差異性分析的其他方法),5大部分的內(nèi)容。
一、方差分析定義
1、基本思想
方差分析(Analysis of Variance,簡(jiǎn)稱(chēng)ANOVA),是由R.A.Fisher發(fā)明的,,由英國(guó)統(tǒng)計(jì)學(xué)家R.A.Fisher首創(chuàng),為紀(jì)念Fisher故以F命名,所以方差分析又稱(chēng)“F檢驗(yàn)”。用于兩個(gè)及兩個(gè)以上樣本均數(shù)差異的顯著性檢驗(yàn)。方差分析的基本思想是分解變異,即將數(shù)據(jù)總的變異分解為處理因素引起的變異和隨機(jī)誤差引起的變異,通過(guò)對(duì)兩者進(jìn)行比較作出處理因素有無(wú)作用的統(tǒng)計(jì)推斷。
2、檢驗(yàn)統(tǒng)計(jì)量F值的計(jì)算
上面提到方差分析的基本思想是分解變異,實(shí)驗(yàn)數(shù)據(jù)之間共有3個(gè)不同的變異。
(1)總變異
全部觀測(cè)值大小不同,這種變異稱(chēng)為總變異??傋儺惖拇笮∫螂x均差平方和表示,即各觀測(cè)值Xij與總均數(shù)overline{X}差值的平方和,記為SS_總??傋儺怱S_總反應(yīng)了所有觀測(cè)值之間總的變異程度,計(jì)算公式為:
(2)組間變異
各處理組的樣本均數(shù)overline{X_i}大小也不等,這種變異稱(chēng)為組間變異,其大小用各組均數(shù)與總均數(shù)的離均差平方和來(lái)表示,記為SS_組間,計(jì)算公式為:
(3)組內(nèi)變異
每個(gè)組內(nèi)的數(shù)據(jù)大小不等,稱(chēng)為組內(nèi)變異,用SS_組內(nèi)表示,其大小可用各組內(nèi)部所有數(shù)據(jù)X_ij與該組均數(shù)overline{X_i}的離均差平方和來(lái)表示,計(jì)算公式為:
可以證明,上述三種變異的關(guān)系為SS_總=SS_組間+SS_組內(nèi)
三種變異的自由度計(jì)算公式分別為:
V_總=N-1,V_組間=g-1,V_組內(nèi)=N-g
相應(yīng)的,總自由度可分解為組間自由度與組內(nèi)自由度之和,即
V_總= V_組間+V_組內(nèi)
變異程度除與離均差平方和的大小有關(guān)外,還與其自由度有關(guān),由于各部分自由度不相等,因此各部分離均差平方和不能直接比較,需將各部分離均差平方和除以相應(yīng)的自由度,其比值稱(chēng)為均方差,簡(jiǎn)稱(chēng)均方(MS),組間均方與組內(nèi)均方的計(jì)算公式為:
如果各組樣本的總體均數(shù)相等(H_{0}colonmu_{1}=mu_{2}=cdots=mu_{g}),則組間變異與組內(nèi)變異一樣,只反映隨機(jī)誤差作用的大小,組間均方與組內(nèi)均方的比值稱(chēng)為F統(tǒng)計(jì)量
若F值接近于1,就沒(méi)有理由拒絕H_0,;反之F值越大,拒絕H_0的理由越充分。若對(duì)應(yīng)p值<0.05,則拒絕H_0,認(rèn)為各樣本總體均數(shù)不全相等,存在顯著差異;否則無(wú)差異。
3、前提條件
上述變異分解、均方估計(jì)及F統(tǒng)計(jì)量都是基于正態(tài)分布理論,進(jìn)行方差分析時(shí)同樣要求資
料滿(mǎn)足正態(tài)分布且方差相等的基本假設(shè)。故方差分析的前提條件有以下3個(gè):
1、各樣本組內(nèi)觀察值相互獨(dú)立;
2、各樣本服從正態(tài)分布;
3、各樣本組內(nèi)觀察值總體方差相等,即方差齊性。
二、方差分析分類(lèi)
方差分析從使用頻率來(lái)講可分為以下6類(lèi):單因素方差分析、雙因素方差分析、多因素方差分析、事后多重比較、協(xié)方差分析、重復(fù)測(cè)量方差分析,接下來(lái)分別進(jìn)行簡(jiǎn)單介紹。
1、單因素方差分析
用于分析一類(lèi)定類(lèi)數(shù)據(jù)與定量數(shù)據(jù)之間的差異性,且定類(lèi)數(shù)據(jù)通常為多分類(lèi)數(shù)據(jù)。比如分析不同班級(jí)(1班、2班、3班)學(xué)習(xí)成績(jī)之間的差異,就可以使用單因素方差分析進(jìn)行3個(gè)班級(jí)學(xué)習(xí)成績(jī)均值的差異性分析(獨(dú)立樣本t檢驗(yàn)只能進(jìn)行2組數(shù)據(jù)之間均值差異的比較)。
SPSSAU位置:【通用方法】模塊->【方差分析】
2、雙因素方差分析
用于分析2類(lèi)定類(lèi)數(shù)據(jù)與定量數(shù)據(jù)之間的差異性,比如分析不同班級(jí)(1,2,3班)、不同性別(男女)學(xué)習(xí)成績(jī)之間的差異,此時(shí)可使用雙因素方差分析。當(dāng)主效應(yīng)存在,即方差分析結(jié)果顯示存在顯著差異時(shí)(p<0.05),要具體對(duì)比兩兩組別的差異(如1班和2班,2班和3班,1班和3班),需要進(jìn)行事后多重比較。雙因素方差還可以分析二階交互效應(yīng)。如班級(jí)*性別這個(gè)交互項(xiàng)是否存在顯著差異,如果進(jìn)行二階效應(yīng)且呈現(xiàn)出顯著性,此時(shí)可進(jìn)一步進(jìn)行簡(jiǎn)單效應(yīng)分析。后面在第3部分方差分析流程中會(huì)詳細(xì)進(jìn)行說(shuō)明。
SPSSAU位置:【進(jìn)階方法】模塊->【雙因素方差】
3、多因素方差分析
三因素及以上統(tǒng)稱(chēng)為多因素方差分析,用于分析多類(lèi)定類(lèi)數(shù)據(jù)與定量數(shù)據(jù)之間的差異。如三因素方差分析,可同時(shí)進(jìn)行二階效應(yīng)分析和三階效應(yīng)分析。當(dāng)主效應(yīng)存在時(shí),可進(jìn)行事后多重比較;當(dāng)交互效應(yīng)存在時(shí),需要進(jìn)行簡(jiǎn)單效應(yīng)分析。后面第3部分將詳細(xì)進(jìn)行說(shuō)明。
SPSSAU位置:【進(jìn)階方法】模塊->【三/多因素方差】
4、事后多重比較
事后多重比較是基于方差分析進(jìn)行的,當(dāng)某一定類(lèi)數(shù)據(jù)呈現(xiàn)出顯著差異,要具體對(duì)比該類(lèi)別下兩兩組別之間的差異性時(shí),就需要進(jìn)行事后多重比較。
SPSSAU位置:【進(jìn)階方法】模塊->【事后多重比較】
事后多重比較的方法有很多種,但功能均一致,僅在個(gè)別點(diǎn)或使用場(chǎng)景上有小區(qū)別,當(dāng)前SPSSAU共提供LSD,Scheffe,Tukey,Bonferroni校正,Sidsk,Tamhane T2,SNK Q檢驗(yàn)、Duncan檢驗(yàn),共8種事后多重比較方法,該8種方法如何選擇說(shuō)明如下表格所示:
其中,LSD法使用最廣泛。LSD法又稱(chēng)最小有意義差異t檢驗(yàn),用于多組中兩兩組在專(zhuān)業(yè)上有特殊意義的均數(shù)進(jìn)行比較。檢驗(yàn)統(tǒng)計(jì)量LSD-t的界值是一般的t界值,統(tǒng)計(jì)量計(jì)算公式為:
5、協(xié)方差分析
如果在方差分析過(guò)程中,會(huì)有干擾因素;比如“減肥方式”對(duì)于“減肥效果”的影響,年齡很可能是影響因素;同樣的減肥方式,但不同年齡的群體,減肥效果卻不一樣;年齡就屬于干擾項(xiàng),因此在分析的時(shí)候需要把它納入到考慮范疇中。如果方差分析時(shí)需要考慮干擾項(xiàng),此時(shí)就稱(chēng)之為協(xié)方差分析,而干擾項(xiàng)也稱(chēng)著協(xié)變量。
SPSSAU位置:【進(jìn)階方法】模塊->【協(xié)方差分析】
協(xié)方差分析有一個(gè)重要的假設(shè)即“平行性檢驗(yàn)”:平行性是指自變量X與協(xié)變量對(duì)于因變量Y的影響時(shí),自變量X與協(xié)變量之間保持獨(dú)立性。
如果交互項(xiàng)(即有*號(hào)項(xiàng))的p 值>0.05則說(shuō)明平行,滿(mǎn)足平行性檢驗(yàn),可進(jìn)行分析。如果協(xié)方差分析不滿(mǎn)足平行性,交互項(xiàng)(即有*號(hào)項(xiàng))的p 值< 0.05則說(shuō)明不平行,不滿(mǎn)足平行性檢驗(yàn),此時(shí)應(yīng)該將協(xié)變量項(xiàng)移出。
6、重復(fù)測(cè)量方差分析
重復(fù)測(cè)量方差分析(Repeated analysis of measurement variance)常見(jiàn)于醫(yī)學(xué)實(shí)驗(yàn)中。當(dāng)我們需要對(duì)同一因變量進(jìn)行重復(fù)測(cè)量,如果仍然使用一般的方差分析就會(huì)出現(xiàn)問(wèn)題,因?yàn)樵谥貜?fù)測(cè)量時(shí),觀測(cè)對(duì)象的測(cè)量結(jié)果之間存在一定程度的相關(guān),這違背了方差分析數(shù)據(jù)獨(dú)立性的要求,所以在進(jìn)行分析時(shí)就需要選擇重復(fù)測(cè)量方差分析。
重復(fù)測(cè)量設(shè)計(jì)在醫(yī)學(xué)、生物學(xué)研究中較為常見(jiàn),即在給予一種或多種處理后,在多個(gè)時(shí)間點(diǎn)上從同一個(gè)受試對(duì)象重復(fù)獲得指標(biāo)的觀察值。重復(fù)測(cè)量研究的目的是探討同一研究對(duì)象在不同時(shí)間點(diǎn)某指標(biāo)的變化情況,例如患者在治療后(或手術(shù)后)1天、2天、1周、2周等,各時(shí)間點(diǎn)上某指標(biāo)的變化。
重復(fù)測(cè)量方差分析時(shí)涉及兩個(gè)重要的術(shù)語(yǔ)名詞,分別是組內(nèi)和組間。比如有這樣一項(xiàng)關(guān)于抑郁癥的研究,共有12名患者,分別6名患者使用新藥或者舊藥;并且分別測(cè)試12名患者用藥后分別第1周,第4周和第8周時(shí)的抑郁程度。因此數(shù)據(jù)中涉及到時(shí)間點(diǎn)的記錄,和組別的記錄。時(shí)間點(diǎn)則稱(chēng)之組內(nèi)項(xiàng),組別稱(chēng)為組間項(xiàng)。
SPSSAU 位置:【實(shí)驗(yàn)/醫(yī)學(xué)研究】模塊->【重復(fù)測(cè)量方差】
有關(guān)重復(fù)測(cè)量方差的部分可查看SPSSAU幫助手冊(cè),本文主要探討通用方差分析的部分。
https://spssau.com/helps/medicalmethod/repeatedAnova.html
三、方差分析流程
第3大部分將結(jié)合一個(gè)雙因素方差分析的案例,介紹方差分析的流程,包括數(shù)據(jù)格式、前提條件檢驗(yàn)、軟件操作以及結(jié)果解讀。這部分將具體介紹差異幅度的效應(yīng)量指標(biāo)、事后多重比較、交互效應(yīng)以及簡(jiǎn)單效應(yīng)分析的內(nèi)容。
案例:假設(shè)有甲乙丙三種施肥方式,A、B、C三種小麥品種,現(xiàn)在想要研究不同施肥方式和不同品種小麥之間產(chǎn)量是否有差異,以及施肥方式和品種的交互作用對(duì)水稻產(chǎn)量是否有影響。使用雙因素方差分析進(jìn)行研究,收集到部分?jǐn)?shù)據(jù)如下:
1、數(shù)據(jù)格式
第2部分提到的6種方差分析方法的數(shù)據(jù)格式可大概分為2類(lèi),一類(lèi)為常規(guī)格式,一類(lèi)為重復(fù)測(cè)量方差分析的數(shù)據(jù)格式。
(1)常規(guī)格式
不論是單因素方差、雙因素方差、多因素方、協(xié)方差,其均是研究X對(duì)于Y的差異,1個(gè)X均占用1列,1個(gè)Y也占用1列,如果有協(xié)變量那么1個(gè)協(xié)變量占用1列。數(shù)據(jù)格式類(lèi)似如下:
(2)重復(fù)測(cè)量方差格式
重復(fù)測(cè)量數(shù)據(jù)是指同一批樣本(病例)在不同的時(shí)間點(diǎn)測(cè)量了多次數(shù)據(jù),因此重復(fù)測(cè)量數(shù)據(jù)的特殊之處在于一定會(huì)有ID號(hào)(即樣本或者病例號(hào)),以及時(shí)間點(diǎn)數(shù)據(jù),如下圖。同一個(gè)ID會(huì)有多個(gè)時(shí)間點(diǎn)的數(shù)據(jù),比如下面有12個(gè)樣本(12個(gè)ID號(hào)),并且測(cè)量5個(gè)時(shí)間點(diǎn)。那么就一定會(huì)有12*5=60行數(shù)據(jù)。同一個(gè)ID號(hào)會(huì)重復(fù)5次,同一個(gè)時(shí)間點(diǎn)會(huì)重復(fù)12次。
2、前提條件檢驗(yàn)
使用方差分析需要滿(mǎn)足獨(dú)立性、正態(tài)性、方差齊性的前提條件。接下來(lái)本案例數(shù)據(jù)進(jìn)行前提條件檢驗(yàn)。
(1)獨(dú)立性檢驗(yàn)
方差分析獨(dú)立性是指各組數(shù)據(jù)之間相互獨(dú)立,通常獨(dú)立性與試驗(yàn)設(shè)計(jì)有關(guān),主觀判斷即可。因?yàn)楦鹘M小麥?zhǔn)┓史绞脚c品種之間不存在相互影響,因此滿(mǎn)足獨(dú)立性假設(shè)。
(2)正態(tài)性檢驗(yàn)
正態(tài)性檢驗(yàn)的方法有很多種,包括統(tǒng)計(jì)檢驗(yàn)法(Kolmogorov-Smirnov檢驗(yàn)、Shapiro-Wilk檢驗(yàn)、Jarque-Bera檢驗(yàn))、描述法(峰度絕對(duì)值小于10并且偏度絕對(duì)值小于3,則說(shuō)明數(shù)據(jù)基本可接受為正態(tài)分布)、圖示法查看直方圖、P-P圖或Q-Q圖等。
其中,統(tǒng)計(jì)檢驗(yàn)法最為嚴(yán)格,如果對(duì)數(shù)據(jù)正態(tài)性要求很?chē)?yán)格時(shí),可以使用該種方法。但當(dāng)對(duì)數(shù)據(jù)正態(tài)性要求不是特別嚴(yán)格時(shí),可以使用圖示法進(jìn)行正態(tài)性檢驗(yàn),如果直方圖近似呈現(xiàn)為“中間高,兩頭低”的鐘形或者P-P圖和Q-Q圖近似呈一條對(duì)角直線(xiàn),則可認(rèn)為數(shù)據(jù)近似滿(mǎn)足正態(tài)分布。
本案例使用統(tǒng)計(jì)檢法對(duì)各組樣本數(shù)據(jù)的正態(tài)性檢驗(yàn),分別對(duì)不同品種、不同施肥方式的產(chǎn)量進(jìn)行正態(tài)性檢驗(yàn),操作如下圖:
分別得到正態(tài)性檢驗(yàn)結(jié)果如下:
小樣本(n<50)時(shí)建議使用Shapiro-Wilk檢驗(yàn),分析各組正態(tài)性檢驗(yàn)結(jié)果可知,p值均大于0.05,說(shuō)明數(shù)據(jù)滿(mǎn)足正態(tài)性特質(zhì)(原假設(shè)為數(shù)據(jù)滿(mǎn)足正態(tài)分布)。
當(dāng)數(shù)據(jù)不滿(mǎn)足正態(tài)分布時(shí),可以嘗試進(jìn)行數(shù)據(jù)轉(zhuǎn)換?;蛘咭?yàn)榉讲罘治鰧?duì)數(shù)據(jù)正態(tài)性不是特別敏感,若數(shù)據(jù)不是那么嚴(yán)重偏態(tài),仍然可以進(jìn)行方差分析。
接下來(lái)驗(yàn)證方差齊性。
(3)方差齊性
各組數(shù)據(jù)的方差齊性,用于檢驗(yàn)各個(gè)組別數(shù)據(jù)的波動(dòng)情況(標(biāo)準(zhǔn)差)是否有明顯的差異,可通過(guò)SPSSAU【通用方法】模塊的方差分析中的方差齊檢驗(yàn)進(jìn)行分析,SPSSAU操作如下圖:
得到方差齊結(jié)果如下:
分析方差齊結(jié)果可知,不同品種的產(chǎn)量均滿(mǎn)足方差齊性(p>0.05),但是不同施肥方式的產(chǎn)量不滿(mǎn)足方差齊性。一般來(lái)講如果不滿(mǎn)足方差齊條件,方差分析的檢驗(yàn)性能也較好,因而多數(shù)時(shí)候并沒(méi)有進(jìn)行方差齊檢驗(yàn)直接就使用方差分析。所以本案例將繼續(xù)進(jìn)行雙因素方差分析(演示使用)。
當(dāng)數(shù)據(jù)不滿(mǎn)足方差齊性時(shí),可使用非參數(shù)檢驗(yàn),同時(shí)還可使用welch 方差,或者Brown-Forsythe方差進(jìn)行分析。
3、進(jìn)行方差分析
前提條件檢驗(yàn)完成后,接下來(lái)進(jìn)行雙因素方差分析。同時(shí)研究效應(yīng)量大小、二階效應(yīng)、簡(jiǎn)單效應(yīng)以及事后多重比較,在分析前,勾選SPSSAU的方框即可,操作如下圖:
SPSSAU得到雙因素方差分析結(jié)果如下:
4、結(jié)果解讀
(1)先看p值
分析雙因素方差分析結(jié)果可知,品種呈現(xiàn)出顯著性(F=8.470,p=0.003<0.05) ,說(shuō)明主效應(yīng)存在,品種會(huì)對(duì)產(chǎn)量產(chǎn)生差異關(guān)系,可對(duì)品種進(jìn)行事后多重比較,比較兩兩品種之間產(chǎn)量的差異。施肥方式呈現(xiàn)出顯著性(F=9.050,p=0.002<0.05) ,說(shuō)明主效應(yīng)存在,施肥方式會(huì)對(duì)產(chǎn)量產(chǎn)生差異關(guān)系,同理可進(jìn)行事后多重比較。品種和施肥方式的交互項(xiàng)呈現(xiàn)出顯著性(F=5.073,p=0.006<0.05),可進(jìn)一步分析二階效應(yīng)和簡(jiǎn)單效應(yīng)。
(2)具體差異對(duì)比
當(dāng)自變量呈現(xiàn)出顯著差異(p<0.05),可通過(guò)以下3種方式進(jìn)行具體差異對(duì)比。
方法1:對(duì)比平均值
主效應(yīng)存在時(shí)具體差異可通過(guò)單因素方差分析進(jìn)行均值對(duì)比,比如對(duì)施肥方式的產(chǎn)量進(jìn)行單因素方差分析,得到結(jié)果如下:
具體對(duì)比平均值差異可知,施肥方式甲的平均產(chǎn)量為94.444,明顯低于施肥方式乙產(chǎn)量103.333和丙產(chǎn)量132.222。同理可對(duì)品種進(jìn)行單因素方差分析,在此不在進(jìn)行贅述。
方法2:可視化圖形
表格形式不夠直觀,可通過(guò)折線(xiàn)圖的形式對(duì)品種和施肥方式的均值進(jìn)行直觀展示,SPSSAU單因素方差分析自動(dòng)輸出可視化圖形如下:
方法3:效應(yīng)量指標(biāo)
還可以通過(guò)效應(yīng)量指標(biāo)描述差異幅度,常用的包括偏Eta方(Partial η2)和Cohen's d值。偏Eta方值介于0~1之間,該值越大說(shuō)明差異幅度越大,比如偏Eta方為0.1,即說(shuō)明數(shù)據(jù)的差異有10%是來(lái)源于不同組別之間的差異。使用偏Eta方表示效應(yīng)量大小時(shí),效應(yīng)量小、中、大的區(qū)分臨界點(diǎn)分別是:0.01,0.06和0.14。
與此同時(shí),事后多重比較中會(huì)提供Cohen's d值這一效應(yīng)量值,通常情況下Cohen's d 值表示效應(yīng)量大小時(shí),效應(yīng)量小、中、大的區(qū)分臨界點(diǎn)分別是:0.20,0.50和0.80。
分析上表輸出的偏Eta方(Partial η2)值,品種、施肥方式、品種*施肥方式的效應(yīng)量值分別為0.485,0.501,0.53,說(shuō)明這3類(lèi)變量組內(nèi)存在很大程度的差異。
3、事后多重比較
當(dāng)主效應(yīng)存在時(shí),我們想知道具體是哪兩組之間存在差異,這就涉及到因素的不同水平之間兩兩差異比較,稱(chēng)為事后多重比較。事后多重比較的方法有多種,其中最常用的為L(zhǎng)SD法,本案例使用該方法進(jìn)行事后多重比較。
比如在本案例中,我們知道施肥方式的主效應(yīng)存在,那么說(shuō)明不同施肥方式的產(chǎn)量之間存在顯著差異。但是施肥方式有3種,如果想知道具體哪兩種施肥方式之間存在顯著差異,那就需要進(jìn)行事后多重比較。SPSSAU輸出施肥方式的事后多重比較結(jié)果如下:
分析上表可知,施肥方式甲-乙的產(chǎn)量未呈現(xiàn)出顯著差異(p>0.05),施肥方式甲-丙、乙-丙之間均呈現(xiàn)出顯著差異(p<0.05),且對(duì)應(yīng)Cohen's d值的絕對(duì)值均大于0.8,差異幅度非常大。
同理不同品種之間進(jìn)行事后多重比較,品種B-C之間未呈現(xiàn)出顯著差異(p>0.05),品種A-B、A-C間呈現(xiàn)出顯著差異(p<0.05),且對(duì)應(yīng)Cohen's d值的絕對(duì)值均大于0.8,差異幅度非常大。
4、交互效應(yīng)分析
(1)二階效應(yīng)
雙因素方差分析中,我們將兩個(gè)自變量的搭配對(duì)因變量產(chǎn)生的差異稱(chēng)為交互效應(yīng)(也稱(chēng)二階效應(yīng))。施肥方式和品種的交互項(xiàng)呈現(xiàn)出顯著性((F=5.073,p=0.006<0.05),說(shuō)明施肥方式和品種的交互效應(yīng)對(duì)產(chǎn)量的影響是顯著的,即二階效應(yīng)存在。
如果二階效應(yīng)存在(且前提是存在一階主效應(yīng)),則可結(jié)合品種和施肥方式的均值對(duì)比圖和均值對(duì)比表進(jìn)行具體分析研究。SPSSAU輸出結(jié)果如下:
從上圖可明顯看出,施肥方式丙和品種C的組合產(chǎn)量176.67明顯高于其他8種組合。而方式甲和品種A的組合產(chǎn)量83.33最低。
(2)簡(jiǎn)單效應(yīng)
當(dāng)交互效應(yīng)呈現(xiàn)出顯著性時(shí),可以進(jìn)一步進(jìn)行簡(jiǎn)單效應(yīng)分析;當(dāng)交互效應(yīng)沒(méi)有呈現(xiàn)出顯著性時(shí),一般不進(jìn)行簡(jiǎn)單效應(yīng)分析。簡(jiǎn)單效應(yīng)是指一個(gè)自變量在某個(gè)水平時(shí),另一個(gè)自變量在不同水平下因變量差異的比較。
下表為固定某種施肥方式,進(jìn)行兩兩小麥品種之間的簡(jiǎn)單效應(yīng)分析。
分析上表可知,當(dāng)施肥方式為甲時(shí),品種A-B、A-C、B-C之間的產(chǎn)量均未呈現(xiàn)出顯著差異(p值均>0.05),同理施肥方式乙下各品種產(chǎn)量也未呈現(xiàn)出顯著差異。而在施肥方式丙下,品種A-B和A-C之間的產(chǎn)量呈現(xiàn)出顯著差異(p值均<0.05)。
同理可分析固定品種,不同施肥方式之間產(chǎn)量的差異,結(jié)果如下表:
至此,有交互效應(yīng)的雙因素方差分析結(jié)束。
補(bǔ)充:有交互效應(yīng)的雙因素方差分析計(jì)算過(guò)程:
各平方和計(jì)算公式:
四、方差分析應(yīng)用
方差分析除可進(jìn)行不同樣本均數(shù)之間的差異性分析,還有很多其他的應(yīng)用。比如回歸模型整體顯著性檢驗(yàn)、回歸模型篩選變量、方差齊檢驗(yàn)、正交試驗(yàn)選擇最優(yōu)組合等,接下來(lái)進(jìn)行簡(jiǎn)單介紹。
1、回歸模型整體顯著性檢驗(yàn)
構(gòu)造回歸模型時(shí),顯著性檢驗(yàn)包括兩部分內(nèi)容:對(duì)多個(gè)自變量與因變量這個(gè)整體的顯著性檢驗(yàn)(F檢驗(yàn)),以及每個(gè)自變量對(duì)因變量影響的顯著性檢驗(yàn)(t檢驗(yàn)),二者都是對(duì)線(xiàn)性回歸的顯著性檢驗(yàn),但是檢驗(yàn)?zāi)康牟煌?strong>模型總體顯著性檢驗(yàn),是使用F檢驗(yàn)進(jìn)行的,可以判斷回歸模型是否有意義。如果加入模型的自變量回歸系數(shù)全為0,則Y與各個(gè)自變量沒(méi)有任何關(guān)系,這就失去了建立回歸方程的意義,故當(dāng)檢驗(yàn)結(jié)果為拒絕H0時(shí),稱(chēng)該回歸模型是有統(tǒng)計(jì)學(xué)意義的。
回歸模型F檢驗(yàn)結(jié)果如下(以多元線(xiàn)性回歸模型為例):
分析上表可知,F(xiàn)=133.02,p=0.007<0.05,所以拒絕原假設(shè)H0,即回歸模型有統(tǒng)計(jì)學(xué)意義。
2、回歸模型篩選變量
方差分析還可用于回歸模型篩選變量。當(dāng)模型自變量非常多時(shí),方差分析可以判斷出各個(gè)自變量對(duì)因變量的影響程度,從而篩選出對(duì)因變量影響顯著的變量。然后再放入模型中。
3、方差齊檢驗(yàn)
方差齊性是很多方法需要滿(mǎn)足的前提條件,比如方差分析、t檢驗(yàn)、回歸分析等。方差齊檢驗(yàn)也是通過(guò)F檢驗(yàn)進(jìn)行的。在本文的前提條件檢驗(yàn)部分已經(jīng)講過(guò),不再贅述。
4、正交試驗(yàn)選擇最優(yōu)組合
正交試驗(yàn)后,通常會(huì)進(jìn)行方差分析或者極差分析找到最優(yōu)組合。極差分析原理簡(jiǎn)便,通俗易懂,在分析數(shù)據(jù)中起到了一定的作用,但這種分析方法的局限性很強(qiáng)。雖然我們可以將所有考查的因素進(jìn)行主次的排序,得到主要因素,但這種因素對(duì)試驗(yàn)的影響是否顯著,在何種水平上顯著都無(wú)法得知,所以可以使用方差分析解決這一問(wèn)題。
五、參數(shù)檢驗(yàn)與非參數(shù)檢驗(yàn)
方差分析是典型的參數(shù)檢驗(yàn)方法,下面補(bǔ)充參數(shù)檢驗(yàn)與非參數(shù)檢驗(yàn)的部分內(nèi)容。
1、基本說(shuō)明
參數(shù)檢驗(yàn)是假定樣本總體為某一已知分布的情況下,對(duì)總體參數(shù)如均值或者方差進(jìn)行估計(jì)和檢驗(yàn)的方法。與參數(shù)檢驗(yàn)相對(duì)的是非參數(shù)檢驗(yàn),非參數(shù)檢驗(yàn)并不對(duì)總體的分布形態(tài)做假定,此時(shí)不能進(jìn)行參數(shù)間的比較,而是做分布間的比較。
2、對(duì)比
(1)檢驗(yàn)指標(biāo)對(duì)比
參數(shù)檢驗(yàn):假設(shè)數(shù)據(jù)服從某種特定的分布,例如正態(tài)分布,并且總體參數(shù)是已知的。因此,參數(shù)檢驗(yàn)通常關(guān)注的是樣本均值與總體均值的差異,以檢驗(yàn)樣本數(shù)據(jù)是否符合預(yù)期的分布。
非參數(shù)檢驗(yàn):不需要數(shù)據(jù)符合特定的分布,而是基于數(shù)據(jù)本身的分布來(lái)推斷總體參數(shù)。非參數(shù)檢驗(yàn)通常關(guān)注的是數(shù)據(jù)的次序而不是具體的值,例如中位數(shù)、四分位數(shù)等。
(2)優(yōu)缺點(diǎn)對(duì)比
參數(shù)檢驗(yàn):優(yōu)點(diǎn)在于符合條件時(shí),檢驗(yàn)效率高。然而,它對(duì)數(shù)據(jù)的要求較為嚴(yán)格,如等級(jí)數(shù)據(jù)、非確定數(shù)據(jù)不能使用參數(shù)檢驗(yàn),而且要求數(shù)據(jù)的分布型已知和總體方差相等。此外,參數(shù)檢驗(yàn)不適用于樣本量較小且分布未知的情況。當(dāng)樣本量足夠大時(shí),參數(shù)檢驗(yàn)的方法對(duì)非正態(tài)分布的數(shù)據(jù)也能夠很好地進(jìn)行處理,因?yàn)闃颖揪档姆植几鶕?jù)中心極限定理是近似正態(tài)分布。
非參數(shù)檢驗(yàn):優(yōu)點(diǎn)在于不受總體分布的限制,對(duì)數(shù)據(jù)的要求不嚴(yán)格,應(yīng)用范圍廣、簡(jiǎn)便、易掌握。缺點(diǎn)在于若對(duì)符合參數(shù)檢驗(yàn)條件的數(shù)據(jù)用非參數(shù)檢驗(yàn),則檢驗(yàn)效率低于參數(shù)檢驗(yàn)。非參數(shù)檢驗(yàn)主要使用等級(jí)或者符號(hào)秩,而不是使用原始數(shù)據(jù),會(huì)損失部分信息,降低統(tǒng)計(jì)檢驗(yàn)效率,導(dǎo)致犯第二類(lèi)錯(cuò)誤的概率比參數(shù)檢驗(yàn)大。此外,當(dāng)樣本量較小且分布未知時(shí),通常會(huì)考慮使用非參數(shù)檢驗(yàn)。
3、常用方法對(duì)比
常用方法對(duì)比如下:
4、差異性分析的其他方法
方差分析用于分析定類(lèi)數(shù)據(jù)與定量數(shù)據(jù)之間的差異性,同樣的還可以使用t檢驗(yàn)進(jìn)行分析。二者的區(qū)別在于t檢驗(yàn)只能對(duì)比兩組數(shù)據(jù)之間的差異,而方差分析可對(duì)比多組。如果同樣為兩組數(shù)據(jù)是,通常小樣本(n<100)使用t檢驗(yàn)進(jìn)行分析較好,大樣本時(shí)使用方差分析。若要研究定類(lèi)數(shù)據(jù)與定類(lèi)數(shù)據(jù)之間的差異性,應(yīng)該使用卡方檢驗(yàn)進(jìn)行分析。對(duì)比說(shuō)明如下:
參考文獻(xiàn):
[1]孫振球,徐勇勇.醫(yī)學(xué)統(tǒng)計(jì)學(xué).第4版[M].人民衛(wèi)生出版社,2014
[2]顏紅,徐勇勇.醫(yī)學(xué)統(tǒng)計(jì)學(xué).第3版[M].人民衛(wèi)生出版社,2015