国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

【茗創(chuàng)科技】如何看待心理學(xué)實驗中的數(shù)據(jù)缺失?

2022-06-28 16:53 作者:茗創(chuàng)科技  | 我要投稿


導(dǎo)讀

缺失數(shù)據(jù)是實驗數(shù)據(jù)集的一個共同特征。心理學(xué)研究人員用來處理缺失的標(biāo)準(zhǔn)方法依賴于不切實際的假設(shè)、無效的隨機(jī)分配程序,以及效應(yīng)量的偏差估計。作者描述了實驗數(shù)據(jù)集中通常遇到的不同類別的缺失數(shù)據(jù),并討論了它們?nèi)绾斡绊懷芯咳藛T的因果推斷。本文提供了處理每類缺失數(shù)據(jù)的具體指南,重點(diǎn)關(guān)注做出合理假設(shè)的兩種方法:i) 輕度缺失實例的逆概率加權(quán) (IPW),以及 ii) 嚴(yán)重缺失實例的雙重抽樣和邊界。在回顧了這些方法提高研究人員對效應(yīng)量估計準(zhǔn)確性的原因之后,作者提供了研究人員可以在自己的研究分析中使用的R代碼。


前言

實驗數(shù)據(jù)集通常存在一定程度的數(shù)據(jù)缺失。當(dāng)數(shù)據(jù)集中某些被試的一個或多個變量包含缺失值,但其他變量不包含缺失值時,就會出現(xiàn)此問題。本教程的重點(diǎn)是向心理學(xué)研究人員介紹損耗問題和糾正方法,并定義為因變量中的缺失。損耗是心理學(xué)研究中最普遍和最關(guān)鍵的缺失類型。作者還回顧了預(yù)處理協(xié)變量的缺失,研究人員在回歸分析中使用這些協(xié)變量來提高統(tǒng)計功效和他們估計實驗治療效果的精確度。預(yù)處理協(xié)變量中存在缺失是有問題的,但可以通過簡單的插補(bǔ)方法輕松解決。本文將描述其中一種糾正方法。最后一種可能的缺失類型是處理賦值變量的缺失。然而,在實驗研究的情況下,這種可能性被設(shè)計排除了,因為研究人員總是可以知道(至少在原則上),誰被隨機(jī)分配到了實驗條件與控制條件。

缺失現(xiàn)象在心理學(xué)研究中普遍存在,因為研究人員很少能從樣本中的每個被試那里收集到他們需要的所有信息。首先,參與者可能不愿意提供某些回答,這通常是當(dāng)問題被認(rèn)為是敏感的情況下。例如,關(guān)于參與者的心理健康、就業(yè)狀況、對有爭議話題的態(tài)度等問題可能會引起焦慮并導(dǎo)致人員流失。其次,參與者退出研究可能會導(dǎo)致數(shù)據(jù)缺失。退出的動機(jī)可能是無聊、有其他優(yōu)先事項、不再需要報酬,或者只是決定以不同的方式利用空閑時間。第三,參與者可能無法完成研究。最后,數(shù)據(jù)缺失可能是由于操作者錯誤,例如意外刪除了數(shù)據(jù)集中的某些值。

缺失值是心理學(xué)家需要在他們的數(shù)據(jù)分析中解決的一個嚴(yán)重問題。具體來說,缺失數(shù)據(jù)不利于因果推斷,因為數(shù)據(jù)的缺失會使隨機(jī)分配程序無效和在研究人員對效應(yīng)量進(jìn)行估計時引入偏差。如果處理不當(dāng),這種缺失會將精心設(shè)計的實驗變成相關(guān)性研究。

盡管已經(jīng)開發(fā)出強(qiáng)大的方法來解釋實驗研究中的缺失數(shù)據(jù),但心理學(xué)家很少使用它們。相反,心理學(xué)家通常會忽略缺失值的存在,而只是簡單地對沒有缺失的數(shù)據(jù)進(jìn)行分析。在某些情況下,這種做法伴隨著使用統(tǒng)計檢驗(例如 t 檢驗)比較不同實驗條件或人口統(tǒng)計組中的缺失率。不幸的是,這些廣泛使用的策略是不恰當(dāng)?shù)?,并且依賴于不切實際的假設(shè)。本文建議研究人員使用不同的方法來處理數(shù)據(jù)中的損耗。具體來說,作者回顧了做出更為現(xiàn)實假設(shè)的方法:逆概率加權(quán)和雙重抽樣與邊界。這里不討論做出更強(qiáng)模型假設(shè)的統(tǒng)計方法,例如多重插補(bǔ) (MI) 或多重過度插補(bǔ) (MO)。有興趣了解這些方法的研究人員可以查閱有關(guān)該主題的相關(guān)文獻(xiàn)。

本文的目標(biāo)是為在實驗研究中遇到缺失數(shù)據(jù)的研究人員提供具體的指南。在存在缺失值的情況下,研究人員需要仔細(xì)考慮為什么某些參與者的數(shù)據(jù)缺失而另一些參與者的數(shù)據(jù)沒有缺失的可能原因。這將導(dǎo)致研究人員對其數(shù)據(jù)中的缺失類別做出關(guān)鍵假設(shè),并且該假設(shè)將確定適當(dāng)?shù)慕y(tǒng)計或基于設(shè)計的程序來處理損耗。需要明確的是,在此過程中做出的任何假設(shè)都是基于人的判斷,研究人員應(yīng)該準(zhǔn)備好在他們的文章中證明他們的決定是正確的。

本教程的其余部分旨在幫助研究人員完成這些不同的步驟。首先,作者回顧了一個框架,以了解缺失數(shù)據(jù)如何影響實驗研究的結(jié)果。具體來說,作者引入了潛在結(jié)果框架并將缺失定義為潛在結(jié)果。該框架使我們能夠區(qū)分不同類別的缺失數(shù)據(jù)。第一類缺失,稱為完全隨機(jī)缺失 (MCAR),在心理學(xué)研究中是極不可能的。但通常的做法卻是不恰當(dāng)?shù)丶僭O(shè)缺失值是MCAR。第二類和第三類缺失,稱為完全隨機(jī)的以觀察變量為條件的缺失 (MCAR|X) 和非隨機(jī)缺失 (MNAR),更為合理。本教程重點(diǎn)介紹針對這些更現(xiàn)實案例的方法。具體來說,作者解釋了逆概率加權(quán) (IPW)和雙重抽樣與界限 (DSB) 的理論基礎(chǔ),并提供了研究人員可以用作模板進(jìn)行其研究分析的R代碼行。


潛在結(jié)果:理解實驗數(shù)據(jù)集中缺失的框架

實驗設(shè)計的分析策略

具體而言,假設(shè)在某虛構(gòu)學(xué)校(一所六年級和七年級的中學(xué))中進(jìn)行了一項實驗,測試治療對因變量 (DV) 的因果效應(yīng)。對于這個假設(shè)實驗,招募了一組學(xué)生樣本,將每個學(xué)生隨機(jī)分配到治療或控制條件,并收集數(shù)據(jù)。最終數(shù)據(jù)集包括 DV 和三個預(yù)處理協(xié)變量:種族、性別和年級。表 1 顯示了本研究的假設(shè)數(shù)據(jù)集 (N = 8)。

表1.無缺失值的虛構(gòu)學(xué)校學(xué)生數(shù)據(jù)集的說明。


接下來考慮兩種常見的分析策略來測試實驗研究中治療對DV 的影響:i)簡單回歸分析(相當(dāng)于ANOVA)和 ii)多元回歸分析,其中控制預(yù)處理協(xié)變量。

簡單回歸模型可以正式寫成:

Yi=β0+τZi+?i (1)

其中 i 表示樣本中的參與者,Y 是因變量,τ 是治療效果,Zi 是二元治療分配指標(biāo),如果參與者被分配到治療條件,則返回1,如果參與者被分配到控制條件,則返回0,?是一個誤差項。

要在 R 中運(yùn)行此分析,可以編寫以下代碼行:

lm(DV ~ treatment , data = data)


多元回歸模型可以正式寫成:

Yi=β0+τZi+Xiβ+?i (2)

其中 i表示樣本中的參與者,Y 是因變量,τ 是治療效果,Zi是二元治療分配指標(biāo),如果參與者被分配到治療條件,則返回1,如果參與者被分配到控制條件,則返回0,X是預(yù)處理協(xié)變量矩陣,β是協(xié)變量效應(yīng)向量,?是誤差項。

要在 R 中運(yùn)行此分析,可以編寫以下代碼行:

lm(DV ~ treatment + race + gender + grade, data = data)



如果數(shù)據(jù)集中沒有數(shù)據(jù)點(diǎn)缺失,例如表1中顯示的數(shù)據(jù),則兩種分析策略都會對虛構(gòu)學(xué)校的平均治療效果 (ATE) 產(chǎn)生無偏估計。請注意,多元回歸分析通常表現(xiàn)更好,因為將性別、種族和等級等預(yù)處理協(xié)變量納入回歸模型可提高ATE的精度,即估計的平均治療效果。即使研究人員沒有指定將協(xié)變量與因變量聯(lián)系起來的“正確”基礎(chǔ)模型,或者當(dāng)協(xié)變量的測量存在誤差(例如,通過插補(bǔ))時,情況也是如此。


潛在結(jié)果和平均治療效果

研究人員進(jìn)行實驗以估計感興趣的治療(例如干預(yù)、訓(xùn)練)對群體(例如虛構(gòu)學(xué)校的學(xué)生)的因變量(例如歸屬感、智商)的平均因果效應(yīng)。為此,從感興趣的人群中隨機(jī)抽取個體,并隨機(jī)分配到以下兩種實驗條件之一:治療與對照。本質(zhì)上,這個程序旨在回答一個難以直接測試的問題。假設(shè)我們可以在兩個平行世界中同時觀察研究對象中的所有個體,這些個體只在一個維度上存在差異:有無治療。這兩個世界的 DV 平均差異是多少?

這個問題假設(shè)每個個體 i 對因變量有兩個潛在的結(jié)果:在沒有治療的情況下結(jié)果為 Yi(0) 和有治療的情況下結(jié)果為 Yi(1)。在這個框架下,治療對每個個體 i 都有一個因果效應(yīng) τi,可以寫成:

τi = Yi(1) ? Yi(0) (3)

來自大小為 N 的群體中所有個體的平均治療效果 (ATE) 等于 τi 的平均值,可以表示為:


表2中說明了潛在結(jié)果的概念,該表顯示了虛構(gòu)學(xué)校學(xué)生的假設(shè)潛在結(jié)果。例如,可以觀察到,治療對學(xué)生1的因果效應(yīng)量為4,而對學(xué)生7的因果效應(yīng)為0。表2中8名學(xué)生的平均治療效應(yīng)等于 2.5,即 τi的總和除以8(學(xué)生人數(shù))。

表2.潛在結(jié)果。


實際上,治療 τi 對個體 i 的因果效應(yīng)是無法衡量的,因為無法同時觀察到同一個體的潛在結(jié)果 Yi(0) 和 Yi(1)。相反,在沒有缺失的情況下,觀察到的 Yi(0) 或 Yi(1) 取決于個體i被分配到的實驗條件 zi(治療或控制)。每個個體 i 觀察到的潛在結(jié)果可以寫成:

Yi = Yi(1)zi + Yi(0)(1 ? zi) (5)

其中,當(dāng)個體i被分配到治療條件時,zi取值1,當(dāng)個體i被分配到控制條件時,zi取值0。因為zi ∈ (0, 1),等式5意味著觀察到分配給治療條件的參與者為Yi(1),以及分配給控制條件的參與者為Yi(0)。


用實驗設(shè)計估計ATE

如果實驗無法推導(dǎo)出 τi,那么實驗設(shè)計如何讓我們實際估計 ATE?為了理解這一點(diǎn),接下來使用公式 4 來推導(dǎo) ATE的潛在結(jié)果:


其中μYi(1)是Yi(1)的平均值,μYi(0)是Yi(0)的平均值。

通過將個體隨機(jī)分配到不同實驗條件下,以期消除治療組和對照組之間存在的任何系統(tǒng)性差異。這意味著在沒有數(shù)據(jù)缺失的情況下,實驗設(shè)計允許我們使用分配給治療的結(jié)果得出μYi(1)的無偏估計和使用分配給控制的結(jié)果得出μYi(0)的無偏估計。具體來說,μYi(1)是通過平均Yi(1)的觀測值來估計的,而μYi(0)是通過平均Yi(0)的觀測值來估計的。從這個意義上說,估計的平均治療效果

最好使用條件期望來表示:


關(guān)于偏差的注意事項

重要的是,偏差并不是指某一感興趣量(例如,ATE、μYi(0)、μYi(0))的單個估計與該感興趣量在總體中的真實值之間的差異。相反,偏差是估計過程中的產(chǎn)物。因此,ATE的偏差可以被認(rèn)為是所有可能隨機(jī)分配的平均 ATE估計值與真實總體ATE之間的差異。在等式7 中,如果隨機(jī)分配過程沒有偏差,預(yù)期μYi(0)和μYi(0)估計是正確的,則ATE是無偏的。

在實踐中,ATE的無偏估計及其標(biāo)準(zhǔn)誤差和相應(yīng)的p值是通過使用簡單或多元線性回歸的一行代碼得出的,如公式1和2后面的代碼中所述。接下來將探討這些分析是如何在缺失數(shù)據(jù)的情況下導(dǎo)致偏差的。


缺失值導(dǎo)致的偏差

統(tǒng)計軟件從分析中排除存在缺失值的個體

當(dāng)實驗數(shù)據(jù)集的值缺失時,統(tǒng)計軟件(例如,R、Stata、SPSS)完全忽略了分析過程的變量中顯示的缺失值,而且沒有給出系統(tǒng)提示。 表 3 顯示了一個新版本的模擬虛構(gòu)學(xué)校的數(shù)據(jù)集,其中包括 DV 和預(yù)處理協(xié)變量中的缺失值,用“NA”表示。作者將使用表 3 來說明缺失如何影響實驗數(shù)據(jù)分析的結(jié)果。

表3.數(shù)據(jù)集中缺失值的說明。


預(yù)處理協(xié)變量的缺失。預(yù)處理協(xié)變量中的缺失值會影響多元線性回歸,但不會影響簡單線性回歸。具體來說,統(tǒng)計軟件會刪除模型中包含的預(yù)處理協(xié)變量之一中至少有一個缺失值的參與者。例如,在虛擬學(xué)校數(shù)據(jù)集中,在包含預(yù)處理協(xié)變量種族和性別的多元回歸分析中,表3中顯示的所有學(xué)生都不會被考慮在內(nèi)。一些學(xué)生,例如學(xué)生 1 和 7,會因為缺少性別而被軟件刪除。其他學(xué)生將因為他們的種族(例如,學(xué)生 3 和 6)或 DV 缺失(例如,學(xué)生 2)被刪除。

這意味著當(dāng)研究人員忽略協(xié)變量中缺失值的存在并使用多元線性回歸時,他們會引入因變量中的缺失值來進(jìn)行分析。因此,協(xié)變量中的缺失,如果不加以校正,就會產(chǎn)生損耗。這兩種形式的缺失數(shù)據(jù)的主要區(qū)別在于協(xié)變量中的缺失很容易校正。研究人員可以(并且應(yīng)該始終)使用一個簡單的策略,例如均值替換,以防止統(tǒng)計軟件因為協(xié)變量缺損而排除觀測值。該方法包括用該協(xié)變量的均值來替換該協(xié)變量中的缺失值。在本教程中,作者提供了一個簡單的代碼來實現(xiàn)這一點(diǎn)(參見場景2)。重要的是,這種替代方法(或類似的替代方法)不會在ATE中引入偏差,并且可用于糾正協(xié)變量中任何類型的缺失。但是,這種方法永遠(yuǎn)不適用于校正損耗。

損耗:因變量 Yi 中的缺失以完全相同的方式影響簡單和多元線性回歸分析。統(tǒng)計軟件會在沒有警告的情況下排除任何因變量缺失的個體,并僅對剩余的參與者進(jìn)行分析。校正損耗很關(guān)鍵,但并不那么簡單。為了了解損耗如何影響實驗結(jié)果,回溯到潛在結(jié)果框架并將損耗定義為一種潛在結(jié)果。


損耗作為一種潛在的結(jié)果

在實驗中,被分配到實驗條件zi的個體有兩個可能的結(jié)果:他們的因變量要么被報告,要么被遺漏。令ri(z)表示分配給實驗條件z的個體i的潛在結(jié)果,如果將個體i分配給治療條件,則zi = 1,如果將個體i分配給控制條件,則zi = 0。當(dāng)報告因變量時令ri = 1,當(dāng)因變量缺失時令ri = 0。因此,ri(0) 表示當(dāng)個體i被分配到控制條件時,是否報告了個體i的因變量。相反,ri(1) 表示當(dāng)個體i被分配到治療條件時,是否報告了個體i的因變量(表4)。觀察到的潛在結(jié)果ri可以寫成:

ri= ri(0)(1?zi)+ri(1)zi (8)

如表4所示,等式8暗示了實驗中4種可能類型的缺失。 參與者可以始終是響應(yīng)者,在這種情況下,觀察他們獨(dú)立于治療任務(wù)的DV。參與者可能永遠(yuǎn)不會是響應(yīng)者,在這種情況下,其缺失值與治療分配無關(guān)。最后,一些參與者的潛在缺失結(jié)果可能取決于治療分配。當(dāng)治療分配不會導(dǎo)致?lián)p耗時,可以獲得對特定人群的ATE無偏估計。

表4.潛在結(jié)果說明。


什么時候缺失無傷大雅?

簡短的回答:缺失很少是無害的。很難想象任何心理學(xué)研究中,研究人員可以安全地假設(shè)缺失是以不偏向總體ATE估計的方式產(chǎn)生。僅當(dāng)這些值是完全隨機(jī)缺失(MCAR)時,缺失值的存在才不會影響研究人員的因果推斷。

完全隨機(jī)缺失 (MCAR) 是研究人員對數(shù)據(jù)集中的缺失可能做出的最強(qiáng)有力的假設(shè)。這種類型的缺失極不可能且難以證明,因為它意味著缺失與人們可以想象的任何變量無關(guān),包括研究中沒有收集到的變量。例如,MCAR 暗示缺失與治療分配以及參與者的情緒、價值觀、收入、性別、種族、政治取向、宗教信仰、睡眠方式、頭發(fā)顏色等無關(guān)。換句話說,如果缺失數(shù)據(jù)是 MCAR,則研究中的每個參與者都有完全相同的缺失概率。如果某些值被計算機(jī)程序以完全隨機(jī)的方式意外刪除,則可能會出現(xiàn)這種情況。

當(dāng)缺失為 MCAR時,Ri獨(dú)立于治療分配Zi和因變量Yi的潛在結(jié)果?;仡櫟仁?,這意味著,μYi(0)和μYi(1)以及μYi(0)和μYi(1)之間的差異都不受缺失的影響??偠灾绻霈F(xiàn)以下情況,缺失值不會導(dǎo)致偏差:


何時假設(shè)數(shù)據(jù)完全隨機(jī)丟失 (MCAR)

作者竭力主張心理學(xué)者不要假設(shè)數(shù)據(jù)值是完全隨機(jī)缺失(MCAR)的。當(dāng)參與者決定退出研究或不回答某些問題時(這是心理學(xué)研究中數(shù)據(jù)缺失的最常見原因),不可能證明缺失值是MCAR,因為這將需要證明無數(shù)未知的不可觀測值為零。在極少數(shù)情況下,研究人員有充分的理由相信缺失是以完全隨機(jī)的方式產(chǎn)生的(例如,由不了解參與者特征或反應(yīng)的計算機(jī)程序),并能證明這一點(diǎn),那么缺失被認(rèn)為是可忽略的。


統(tǒng)計分析不能證明放寬關(guān)于缺失的假設(shè)是合理的

與常見的誤解相反,比較不同組水平(例如男性和女性,或治療和控制條件參與者)之間缺失值比率的統(tǒng)計分析通常無法證明缺失是 MCAR。只有在一種情況下,這些分析可以提供相應(yīng)的證明信息:如果它們揭示了不同組之間的缺失差異率。在這種情況下,他們確認(rèn)缺失不是 MCAR,研究人員可以使用它們來推測數(shù)據(jù)中缺失值的可能原因。當(dāng)研究人員發(fā)現(xiàn)不同組或?qū)嶒灄l件之間的缺失率沒有顯著差異時,這些分析無法提供信息。在這種情況下,研究人員不應(yīng)斷定缺失是 MCAR。首先,研究人員通常缺乏合適的方法來預(yù)測樣本中的缺失。也就是說,他們可能沒有測量足夠的變量來預(yù)測缺失。其次,研究人員可能缺乏檢測不對稱缺失的統(tǒng)計能力。例如,研究人員可以比較男性和女性、黑人參與者和白人參與者、自由派和保守派之間的缺失率并找出不顯著的差異。然而,這些不顯著的結(jié)果并不能證明缺失是對稱的或缺失是無影響的。事實上,這些不顯著的結(jié)果可能是由于統(tǒng)計功效低,尤其是在小樣本中。


非隨機(jī)缺失是如何導(dǎo)致偏差的?

作者描述了數(shù)據(jù)很少完全隨機(jī)丟失(MCAR),因為損耗不太可能真正完全隨機(jī)發(fā)生。大多數(shù)時候,一些參與者比其他參與者有更高的缺失概率。當(dāng)非隨機(jī)缺失不獨(dú)立于Yi的潛在結(jié)果時,它會引入偏差。接下來將說明非隨機(jī)缺失如何影響實驗研究的結(jié)果。


治療分配引起的非隨機(jī)缺失偏差。由治療分配引起的非隨機(jī)缺失會產(chǎn)生偏差,即使治療效果不存在異質(zhì)性,也就是說,即使治療對缺失數(shù)據(jù)的個體具有相同的效應(yīng)大小的τattrit。


來自與治療分配無關(guān)的非隨機(jī)缺失偏差。現(xiàn)在假設(shè)在虛構(gòu)學(xué)校研究中,七年級學(xué)生仍然有因變量 Yi值較低的趨勢,并且其數(shù)據(jù)更有可能缺失。在這種情況下,非隨機(jī)缺失不是治療分配的函數(shù)。如果七年級學(xué)生的治療效果與總體(本例中為虛構(gòu)學(xué)校)的平均治療效果相同,則μYi(1)和μYi(0)都會向上偏倚,但差異μYi(1)- μYi(0)對于ATE將保持無偏。想象一下如果對參與者的治療效果τattrit為10,但對其他人群的治療效果為1會發(fā)生什么?在這種情況下,缺失會在估計的總體ATE中產(chǎn)生向下偏差。


實驗研究中關(guān)于缺失的解決方法

作者重點(diǎn)關(guān)注以下方面:i) 校正協(xié)變量中的缺失值;ii) 實施逆概率加權(quán) (IPW),以及 iii) 使用雙重抽樣和邊界法 (DSB)。

接下來將使用以下假設(shè)情景:一家公司有意為其2萬名員工引入多元化培訓(xùn)計劃。在引入該計劃之前,希望在2000名員工中隨機(jī)抽樣來測試其效能。公司對所有員工進(jìn)行調(diào)查,詢問他們的種族、性別和教育水平。為簡單起見,假設(shè)所有員工都為黑人或白人、女性或男性,并擁有大學(xué)或研究生學(xué)位。作為本次調(diào)查的一部分,該公司還測量了每位員工對多樣性的基本看法。樣本被隨機(jī)分配處理條件(多樣性培訓(xùn))和控制條件(可持續(xù)性培訓(xùn))。除了內(nèi)容,這些培訓(xùn)的結(jié)構(gòu)是相同的。一天培訓(xùn)結(jié)束時,樣本中的所有員工都被要求完成一系列測量培訓(xùn)有效性的任務(wù)。

使用模擬器生成一個完整的數(shù)據(jù)集(即沒有缺失值),其中包括這家假設(shè)公司的所有2萬名員工的人口統(tǒng)計信息和前測變量。通過為處理和控制條件下的員工分配潛在結(jié)果值來生成因變量 (DV)。為此,作者從N = 20000中隨機(jī)抽取了2000名員工樣本,并將其用于四種不同的場景。在每個場景中,使用完全相同的2000名員工樣本,但引入了不同數(shù)量和類型的缺失數(shù)據(jù)。然后使用適當(dāng)?shù)姆椒▉砑m正R中的缺失并估計ATE。


場景 1:沒有缺失數(shù)據(jù)

在場景 1 中,作者處理的是一個完全沒有缺失數(shù)據(jù)的樣本。在這個假設(shè)場景中,隨機(jī)抽樣的2000名員工都提供了人口統(tǒng)計信息并完成了培訓(xùn)后的調(diào)查。為了根據(jù)這2000名員工的樣本來估計2萬名員工中的ATE,作者使用以下兩個線性回歸模型之一:

模型 1:

模型 2:



在沒有缺失值的情況下,簡單線性回歸估計量(模型1)和多元線性回歸估計量(模型 2)對于平均處理效果都是無偏的。


場景 2:協(xié)變量缺失

校正協(xié)變量缺失數(shù)據(jù)的過程始終相同。它簡單、高效,并且不依賴于所涉及的缺失類別。實驗框架的分析中包含協(xié)變量有一個目的:提高處理條件對 DV(ATE)影響的估計精度。此過程的目的是確保統(tǒng)計軟件不會因協(xié)變量缺失而排除任何被試。為此,只需將每個協(xié)變量的缺失值替換為該協(xié)變量的平均值。這樣,因變量保持不變,不會在估計對因變量的影響時引入偏差。想象一下,因變量中沒有缺失值,但樣本中的 2000 名員工中總共有 500 名缺少來自種族、性別、教育或前測值。由于簡單線性回歸分析(模型1)中不包含協(xié)變量,因此這種缺失協(xié)變量的假設(shè)情況只會影響多元線性回歸分析(模型2)。

當(dāng)協(xié)變量值缺失時校正ATE中的偏差很簡單,并且不依賴于缺失的類型。當(dāng)協(xié)變量中缺少值時,只需用該協(xié)變量的可用值的均值替換所有缺失值即可。例如,在R中用種族變量的均值替換種族變量中的缺失值,可以使用以下代碼:


場景 3:結(jié)果數(shù)據(jù)完全隨機(jī)缺失(MCAR|X)

假設(shè)樣本中的2000名員工中有750人決定退出研究。仔細(xì)觀察后會發(fā)現(xiàn),對于所有員工,變量前測值逐漸偏高。但整個數(shù)據(jù)集中的數(shù)據(jù)并不是完全隨機(jī)缺失的,而是在前測得分高的參與者子集中完全隨機(jī)缺失。如果某些參與者的結(jié)果數(shù)據(jù)缺失,并且我們想假設(shè)一個或多個觀察變量完全解釋結(jié)果缺失的模式,可以使用逆概率加權(quán)(IPW)來校正偏差。這種方法通常用于醫(yī)學(xué)研究或社會科學(xué)中的縱向研究以解釋參與者的退出,為DV的每個值分配一個權(quán)重。較大的權(quán)重分配給丟失概率較大的觀測值,較小的權(quán)重分配給丟失機(jī)會較低的觀測值。一旦為每個可用的觀測值計算出權(quán)重,就可以運(yùn)行加權(quán)多元線性回歸而不是常規(guī)的多元線性回歸。以下是 R 中關(guān)于缺失處理的詳細(xì)步驟。


步驟 1 :創(chuàng)建響應(yīng)虛擬變量


步驟 2:預(yù)測樣本中每個員工的響應(yīng)概率

(a) 對于一個變量的缺失,例如前測值:


(b) 對于多個變量的缺失,例如前測、種族、性別和教育:


步驟 3 :響應(yīng)概率


步驟 4:生成權(quán)重


步驟 5:加權(quán)線性回歸

這種加權(quán)多元線性回歸能夠恢復(fù)樣本的真實ATE。


場景 4:結(jié)果數(shù)據(jù)非隨機(jī)缺失 (MNAR)

結(jié)合雙重抽樣和邊界法,該方法由 Coppock 等人開發(fā)。這種方法通常因產(chǎn)生的界限太寬而無法提供足夠的信息,研究人員也因此不太愿意使用該方法。但Coppock 等人(2017)提出了一種策略,通過結(jié)合雙重抽樣來彌補(bǔ)這一不足。雙重抽樣方法要求研究人員從結(jié)果值缺失的被試那里獲取更多數(shù)據(jù)。假設(shè)通過雙重隨機(jī)抽樣,能夠獲得一些結(jié)果缺失被試的數(shù)據(jù),可以使用 Coppock等(2017)開發(fā)的 R 包“attrition”中的以下代碼。


結(jié)論

實驗研究中數(shù)據(jù)的缺失對因果推理具有重要影響。作者主張研究人員對他們的數(shù)據(jù)中的缺失做出現(xiàn)實的假設(shè),并且本文提供了兩種方法的具體指南,這些方法可以做出更切實際的假設(shè)來處理實驗數(shù)據(jù)集中的缺失。在使用均值替代解決其分析中包含的所有協(xié)變量的缺失后,研究人員可以使用逆概率加權(quán)或雙重抽樣和邊界來校正因變量中的缺失。逆概率加權(quán)是純統(tǒng)計學(xué)方法,研究人員在完成數(shù)據(jù)收集后可以立即執(zhí)行此步驟。雙重抽樣和邊界需要研究人員收集額外的數(shù)據(jù)。關(guān)于使用哪種方法的假設(shè)和決定是基于人的判斷,研究人員應(yīng)該在他們的文章中進(jìn)行有關(guān)證明。最后,作者強(qiáng)烈建議研究人員不要假設(shè)缺失是完全隨機(jī)產(chǎn)生的。這意味著研究人員不應(yīng)該將他們的分析局限在可用數(shù)據(jù)上而不去校正缺失值。


原文:Missing Data in Experiments: Challenges and Solutions.

http://dx.doi.org/10.1037/met0000361

模擬數(shù)據(jù)和R代碼網(wǎng)址:https://osf.io/9sva5

【茗創(chuàng)科技】如何看待心理學(xué)實驗中的數(shù)據(jù)缺失?的評論 (共 條)

分享到微博請遵守國家法律
崇义县| 郯城县| 青田县| 静海县| 广宁县| 永修县| 榆社县| 宿迁市| 苍溪县| 辉县市| 蓬溪县| 乌什县| 遂溪县| 汉源县| 夹江县| 曲沃县| 商都县| 秦皇岛市| 杭锦旗| 东港市| 乌拉特后旗| 从化市| 芮城县| 浑源县| 车致| 冷水江市| 江津市| 高唐县| 六盘水市| 深圳市| 广昌县| 苍溪县| 竹山县| 泸西县| 南乐县| 大渡口区| 金山区| 屏东市| 巴彦淖尔市| 北流市| 广元市|