散文網(wǎng) » 生活 »日常 » R語(yǔ)言回歸、anova方差分析、相關(guān)性分析《精品購(gòu)物指南》調(diào)研數(shù)據(jù)可視化|附代碼數(shù)據(jù)

R語(yǔ)言回歸、anova方差分析、相關(guān)性分析《精品購(gòu)物指南》調(diào)研數(shù)據(jù)可視化|附代碼數(shù)據(jù)

2023-03-03 21:20 作者:拓端tecdat 0人讀過(guò) | 我要投稿

全文鏈接：http://tecdat.cn/?p=30990

最近我們被客戶(hù)要求撰寫(xiě)關(guān)于回歸、anova方差分析、相關(guān)性分析的研究報(bào)告，包括一些圖形和統(tǒng)計(jì)輸出。

在分析時(shí)，我們向客戶(hù)演示了用R語(yǔ)言回歸、anova方差分析、相關(guān)性分析可以提供的內(nèi)容

第一節(jié) 研究背景與目的

《精品購(gòu)物指南》是中國(guó)本土經(jīng)營(yíng)規(guī)模最大、最具影響力的時(shí)尚媒體品牌，1999年《精品購(gòu)物指南》即進(jìn)入全國(guó)報(bào)業(yè)廣告十強(qiáng)，2005～2007連續(xù)三年獲得國(guó)家新聞出版總署頒布的“全國(guó)生活服務(wù)類(lèi)報(bào)紙競(jìng)爭(zhēng)力10強(qiáng)”，并蟬聯(lián)第一。2013年，《精品購(gòu)物指南》被國(guó)家新聞出版廣電總局評(píng)為“全國(guó)百?gòu)?qiáng)報(bào)紙”。

本研究使用對(duì)《精品購(gòu)物指南》所做的一次調(diào)查結(jié)果作為本次案例分析的數(shù)據(jù)。試圖分析目前閱讀《精品購(gòu)物指南》的群體特征，以及影響閱讀《精品購(gòu)物指南》的時(shí)間的因素,從而更好地對(duì)受眾群體和市場(chǎng)做出分析。

第二節(jié)描述性統(tǒng)計(jì)

1. 數(shù)據(jù)預(yù)處理

##變量賦值colnames(data)=c( ?"編號(hào)", ?"性別", ?"年齡", ?"婚姻狀況", ?"受教育程度", ?"職業(yè)或身份", ?"個(gè)人月平均收入", ?"報(bào)攤購(gòu)買(mǎi)", ?"個(gè)人訂閱", ?"單位訂閱", ?"贈(zèng)閱", ?"借閱他人", ?"其他", ?"上班途中", ?"下班途中", ?"午休時(shí)間", ?"逛銜購(gòu)物時(shí)", ?"不定時(shí)", ?"對(duì)《精品購(gòu)物指南》的零購(gòu)情況", ?"家人是否會(huì)提醒購(gòu)買(mǎi)《精品》", ?"是第幾選擇", ?"家人是否閱讀《精品》", ?"", ?"", ?"一直購(gòu)買(mǎi)(或訂閱)本報(bào)(習(xí)慣)", ?"豪華版內(nèi)容吸引人", ?"普通版文章吸引人", ?"查找廣告信息", ?"參加讀者樂(lè)園版的活動(dòng)", ?"逛商場(chǎng)購(gòu)物需要", ?"價(jià)格便宜", ?"沒(méi)有什么原因想起來(lái)就買(mǎi)", ?"其他", ?"住所", ?"工作場(chǎng)所", ?"車(chē)站或乘車(chē)路途", ?"娛樂(lè)場(chǎng)所", ?"其他場(chǎng)所", ?"多少人閱讀同一份報(bào)紙", ?"閱讀《精品》的時(shí)間", ?"每天讀報(bào)時(shí)間", ?"對(duì)我消費(fèi)有指導(dǎo)", ?"提高我的生活品位和檔次", ?"信息實(shí)用性強(qiáng)", ?"關(guān)注社會(huì)新聞", ?"信息量大", ?"信息質(zhì)量高", ?"報(bào)道領(lǐng)域全面", ?"內(nèi)容貼近市場(chǎng)", ?"尋找有用的信息和廣告", ?"放松自我", ?"通俗易懂", ?"廣告信息豐富", ?"版面編排合理", ?"售價(jià)合理", ?"訂閱或零購(gòu)方便", ?"其他", ?"平均每月閱讀幾期《精品》", ?"首先欣賞豪華版", ?"先看標(biāo)題，再揀有意思的看", ?"我只看自己喜歡的固定欄目", ?"看完喜歡的文章，再瀏覽其他內(nèi)容", ?"只查找對(duì)自己有用的信息", ?"無(wú)目的地翻閱報(bào)紙", ?"如果未能看到某一期《精品》", ?"能夠閱讀完《精品》內(nèi)容", ?"封面要聞", ?"百姓生活新聞", ?"北京都市新聞", ?"消費(fèi)新聞", ?"讀者樂(lè)園", ?"體壇新聞", ?"關(guān)注足球", ?"籃球時(shí)空", ?"綠茵評(píng)說(shuō)", ?"精品回顧", ?"文化資訊", ?"影視介紹", ?"讀書(shū)生活", ?"音樂(lè)欣賞", ?"外企專(zhuān)遞", ?"留學(xué)必備", ?"充電課堂", ?"人才聚焦", ?"處世情感", ?"健康", ?"美食", ?"休閑旅游", ?"保險(xiǎn)", ?"律師", ?"百貨新品", ?"休閑寵物", ?"戶(hù)外休閑", ?"美食", ?"家庭保健", ?"超市SHOPPER" ?,"新品試驗(yàn)" ?,"樣品透視" ?,"汽車(chē)時(shí)代" ?,"電腦" ?,"市場(chǎng)行情" ?,"通訊網(wǎng)絡(luò)" ?,"樓市了望" ?,"房產(chǎn)金融" ?,"政策掃描" ?,"家具世界" ?,"家裝熱點(diǎn)" ?,"選材指南" ?,"飾品快遞" ?,"非常男人" ?,"特別女人" ?,"新新人類(lèi)" ?,"網(wǎng)絡(luò)家庭" ?,"扮美家居" ?,"今日媽咪" ?,"選題大眾化" ?,"信息實(shí)用性強(qiáng)" ?,"可讀性強(qiáng)" ?,"幫助我消費(fèi)選擇" ?,"趣味性強(qiáng)" ?,"報(bào)道領(lǐng)域全面" ?,"幫助我了解市場(chǎng)行情" ?,"放松自我" ?,"文字優(yōu)美" ?,"觀點(diǎn)新穎" ?,"版式活潑" ?,"品位高雅" ?,"風(fēng)格突出" ?,"廣告內(nèi)容豐富" ?,"其他" ?,"招商展覽" ?,"電腦" ?,"通訊" ?,"汽車(chē)" ?,"房地產(chǎn)" ?,"家電" ?,"食品酒類(lèi)" ?,"旅游娛樂(lè)" ?,"商場(chǎng)飯店" ?,"服裝服飾" ?,"美容用品" ?,"保健品" ?,"醫(yī)療器械" ?,"家居用品" ?,"航空訂票" ?,"招生" ?,"人才招聘" ?,"公益廣告" ?,"文化用品" ?,"房屋祖賃" ?,"金融證券" ?,"發(fā)行廣告" ?,"其他" ?,"廣告對(duì)于消費(fèi)是否有幫助" ?,"廣告數(shù)量適中" ?,"廣告信息豐富" ?,"廣告信息及時(shí)" ?,"廣告設(shè)計(jì)新穎" ?,

刪除缺失

data=complete.cases(data)

2.繪制不同變量之間的關(guān)系

?geom_point() + ? ?geom_smooth(method=method, ...)

從每個(gè)變量的直方圖可以看到變量的大概分布情況。繪制各個(gè)變量的餅圖可以看到基本人口信息的各個(gè)取值的所占的百分比。

點(diǎn)擊標(biāo)題查閱往期內(nèi)容

PYTHON鏈家租房數(shù)據(jù)分析：嶺回歸、LASSO、隨機(jī)森林、XGBOOST、KERAS神經(jīng)網(wǎng)絡(luò)、KMEANS聚類(lèi)、地理可視化

左右滑動(dòng)查看更多

01

02

03

04

第三節(jié) 回歸，方差分析與模型比較

1.相關(guān)性分析

for(i in 1:ncol(data))datacor[,i]=as.numeric(data[,i]) #數(shù)據(jù)歸一化 data=scale(datacor)

查看性別和閱讀《精品》的時(shí)間之間是否有相關(guān)關(guān)系

cor.test(datacor$"性別", ? ???????? datacor$"閱讀《精品》的時(shí)間")## ?##? Pearson's product-moment correlation ?## ?## data:? datacor$性別 and datacor$"閱讀《精品》的時(shí)間" ?## t = 0.63616, df = 1995, p-value = 0.5247 ?## alternative hypothesis: true correlation is not equal to 0 ?## 95 percent confidence interval: ?##? -0.02964101? 0.05806894 ?## sample estimates: ?##??????? cor ?## 0.01424136

檢驗(yàn)的結(jié)果是，由于P =0.5247> 0.05，因此在0.05的顯署性水平下，接受原假設(shè)，認(rèn)為兩者之間不具有相關(guān)關(guān)系。

查看婚姻狀況和閱讀《精品》的時(shí)間之間是否具有相關(guān)關(guān)系

cor.test(datacor$"婚姻狀況", ? ???????? datacor$"閱讀《精品》的時(shí)間")## ?##? Pearson's product-moment correlation ?## ?## data:? datacor$婚姻狀況 and datacor$"閱讀《精品》的時(shí)間" ?## t = -1.7215, df = 1995, p-value = 0.08531 ?## alternative hypothesis: true correlation is not equal to 0 ?## 95 percent confidence interval: ?##? -0.082238962? 0.005358859 ?## sample estimates: ?##???????? cor ?## -0.03851404

檢驗(yàn)的結(jié)果是，由于P =0.08531> 0.05，因此在0.05的顯署性水平下，所以接受原假設(shè)，認(rèn)為兩者之間不具有相關(guān)關(guān)系

查看受教育程度和閱讀《精品》的時(shí)間之間是否具有相關(guān)關(guān)系

cor.test(datacor$"受教育程度", ? ???????? datacor$"閱讀《精品》的時(shí)間")## ?##? Pearson's product-moment correlation ?## ?## data:? datacor$受教育程度 and datacor$"閱讀《精品》的時(shí)間" ?## t = -0.71111, df = 1995, p-value = 0.4771 ?## alternative hypothesis: true correlation is not equal to 0 ?## 95 percent confidence interval: ?##? -0.05974084? 0.02796468 ?## sample estimates: ?##??????? cor ?## -0.0159187

檢驗(yàn)的結(jié)果是，由于P =0.4771>0.05，因此在0.05的顯著性水平下，接受原假設(shè)，認(rèn)為兩者之間不具有相關(guān)關(guān)系。

2.回歸分析

查看共線(xiàn)性關(guān)系

which(abs(cormatrix)>0.6,arr.ind = T)##????????????????????????????? row col ?## 編號(hào)?????????????????????????? 1?? 1 ?## 性別?????????????????????????? 2?? 2 ?## 年齡?????????????????????????? 3?? 3

從結(jié)果看，沒(méi)有相關(guān)系數(shù)大于0.6的不同變量。因此，變量間不存在共線(xiàn)性問(wèn)題。

回歸分析

summary(model)

從回歸模型的結(jié)果來(lái)看，可以看被調(diào)查者的職業(yè)或身份,家人是否閱讀《精品》`,以及豪華版內(nèi)容是否吸引人等因素對(duì)被調(diào)查對(duì)象否閱讀《精品》的時(shí)間有比較大的影響，p值小于0.05，因此該變量對(duì)被調(diào)查者選擇去看報(bào)紙有顯著的影響。

3.模型篩選與比較

無(wú)常數(shù)項(xiàng)模型擬合

回歸模型校正

利用qqPlot()函數(shù)提供的正態(tài)假設(shè)檢驗(yàn)方法，它畫(huà)出了在n-p-1個(gè)自由度的t分布下的學(xué)生化殘差圖形，再配合Shapiro檢驗(yàn)得出檢測(cè)結(jié)果，而Shapiro樣本量的大小范圍配合下圖可以發(fā)現(xiàn)除了Providence，所有的點(diǎn)都離直線(xiàn)很近，都落在置信區(qū)間內(nèi)，這表明與正態(tài)性假相符。

library(car) ?qqPlot(model2,labels = row.names(datacor))

方差齊性

利用殘差繪制曲線(xiàn)圖并配合Durbin-Watson檢驗(yàn)，此檢驗(yàn)方法能夠檢測(cè)誤差的序列相關(guān)性，再配合下表檢驗(yàn)結(jié)果顯著性為0.7604表示接受原假設(shè)，因此誤差項(xiàng)獨(dú)立性檢驗(yàn)通過(guò)。

dwtest(model2)## ?##? Durbin-Watson test ?## ?## data:? model2 ?## DW = 2.0242, p-value = 0.7604 ?## alternative hypothesis: true autocorrelation is greater than 0

方差分析

所有變量的p值都小于0.05，說(shuō)明在0.05的顯著水平上，不同特征的被調(diào)查對(duì)象的閱讀精品時(shí)間之間有明顯差別。

點(diǎn)擊文末?“閱讀原文”

獲取全文完整代碼數(shù)據(jù)資料。

本文選自《R語(yǔ)言回歸、anova方差分析、相關(guān)性分析《精品購(gòu)物指南》調(diào)研數(shù)據(jù)可視化》。

點(diǎn)擊標(biāo)題查閱往期內(nèi)容

PYTHON鏈家租房數(shù)據(jù)分析：嶺回歸、LASSO、隨機(jī)森林、XGBOOST、KERAS神經(jīng)網(wǎng)絡(luò)、KMEANS聚類(lèi)、地理可視化
R語(yǔ)言廣義線(xiàn)性模型(GLM)、全子集回歸模型選擇、檢驗(yàn)分析全國(guó)風(fēng)向氣候數(shù)據(jù)
R語(yǔ)言用Rshiny探索lme4廣義線(xiàn)性混合模型（GLMM）和線(xiàn)性混合模型（LMM）
R語(yǔ)言用潛類(lèi)別混合效應(yīng)模型(Latent Class Mixed Model ,LCMM)分析老年癡呆年齡數(shù)據(jù)
R語(yǔ)言貝葉斯廣義線(xiàn)性混合（多層次/水平/嵌套）模型GLMM、邏輯回歸分析教育留級(jí)影響因素?cái)?shù)據(jù)R語(yǔ)言估計(jì)多元標(biāo)記的潛過(guò)程混合效應(yīng)模型（lcmm）分析心理測(cè)試的認(rèn)知過(guò)程
R語(yǔ)言因子實(shí)驗(yàn)設(shè)計(jì)nlme擬合非線(xiàn)性混合模型分析有機(jī)農(nóng)業(yè)施氮水平
R語(yǔ)言非線(xiàn)性混合效應(yīng) NLME模型(固定效應(yīng)&隨機(jī)效應(yīng))對(duì)抗哮喘藥物茶堿動(dòng)力學(xué)研究
R語(yǔ)言用線(xiàn)性混合效應(yīng)（多水平/層次/嵌套）模型分析聲調(diào)高低與禮貌態(tài)度的關(guān)系
R語(yǔ)言L(fǎng)ME4混合效應(yīng)模型研究教師的受歡迎程度R語(yǔ)言nlme、nlmer、lme4用（非）線(xiàn)性混合模型non-linear mixed model分析藻類(lèi)數(shù)據(jù)實(shí)例
R語(yǔ)言混合線(xiàn)性模型、多層次模型、回歸模型分析學(xué)生平均成績(jī)GPA和可視化
R語(yǔ)言線(xiàn)性混合效應(yīng)模型（固定效應(yīng)&隨機(jī)效應(yīng)）和交互可視化3案例
R語(yǔ)言用lme4多層次（混合效應(yīng)）廣義線(xiàn)性模型（GLM），邏輯回歸分析教育留級(jí)調(diào)查數(shù)據(jù)R語(yǔ)言線(xiàn)性混合效應(yīng)模型實(shí)戰(zhàn)案例
R語(yǔ)言混合效應(yīng)邏輯回歸（mixed effects logistic）模型分析肺癌數(shù)據(jù)
R語(yǔ)言如何用潛類(lèi)別混合效應(yīng)模型（LCMM）分析抑郁癥狀
R語(yǔ)言基于copula的貝葉斯分層混合模型的診斷準(zhǔn)確性研究
R語(yǔ)言建立和可視化混合效應(yīng)模型mixed effect model
R語(yǔ)言L(fǎng)ME4混合效應(yīng)模型研究教師的受歡迎程度
R語(yǔ)言線(xiàn)性混合效應(yīng)模型實(shí)戰(zhàn)案例
R語(yǔ)言用Rshiny探索lme4廣義線(xiàn)性混合模型（GLMM）和線(xiàn)性混合模型（LMM）
R語(yǔ)言基于copula的貝葉斯分層混合模型的診斷準(zhǔn)確性研究
R語(yǔ)言如何解決線(xiàn)性混合模型中畸形擬合(Singular fit)的問(wèn)題
基于R語(yǔ)言的lmer混合線(xiàn)性回歸模型
R語(yǔ)言用WinBUGS 軟件對(duì)學(xué)術(shù)能力測(cè)驗(yàn)建立層次（分層）貝葉斯模型
R語(yǔ)言分層線(xiàn)性模型案例
R語(yǔ)言用WinBUGS 軟件對(duì)學(xué)術(shù)能力測(cè)驗(yàn)（SAT）建立分層模型
使用SAS，Stata，HLM，R，SPSS和Mplus的分層線(xiàn)性模型HLM
R語(yǔ)言用WinBUGS 軟件對(duì)學(xué)術(shù)能力測(cè)驗(yàn)建立層次（分層）貝葉斯模型
SPSS中的多層（等級(jí)）線(xiàn)性模型Multilevel linear models研究整容手術(shù)數(shù)據(jù)
用SPSS估計(jì)HLM多層（層次）線(xiàn)性模型模型

標(biāo)簽：