R語(yǔ)言回歸、anova方差分析、相關(guān)性分析 《精品購(gòu)物指南》調(diào)研數(shù)據(jù)可視化|附代碼數(shù)據(jù)
全文鏈接:http://tecdat.cn/?p=30990
最近我們被客戶(hù)要求撰寫(xiě)關(guān)于回歸、anova方差分析、相關(guān)性分析的研究報(bào)告,包括一些圖形和統(tǒng)計(jì)輸出。
在分析時(shí),我們向客戶(hù)演示了用R語(yǔ)言回歸、anova方差分析、相關(guān)性分析可以提供的內(nèi)容
第一節(jié) 研究背景與目的
《精品購(gòu)物指南》是中國(guó)本土經(jīng)營(yíng)規(guī)模最大、最具影響力的時(shí)尚媒體品牌,1999年《精品購(gòu)物指南》即進(jìn)入全國(guó)報(bào)業(yè)廣告十強(qiáng),2005~2007連續(xù)三年獲得國(guó)家新聞出版總署頒布的“全國(guó)生活服務(wù)類(lèi)報(bào)紙競(jìng)爭(zhēng)力10強(qiáng)”,并蟬聯(lián)第一。2013年,《精品購(gòu)物指南》被國(guó)家新聞出版廣電總局評(píng)為“全國(guó)百?gòu)?qiáng)報(bào)紙”。
本研究使用對(duì)《精品購(gòu)物指南》所做的一次調(diào)查結(jié)果作為本次案例分析的數(shù)據(jù)。試圖分析目前閱讀《精品購(gòu)物指南》的群體特征,以及影響閱讀《精品購(gòu)物指南》的時(shí)間的因素,從而更好地對(duì)受眾群體和市場(chǎng)做出分析。
第二節(jié)描述性統(tǒng)計(jì)
1. 數(shù)據(jù)預(yù)處理
##變量賦值colnames(data)=c( ?"編號(hào)", ?"性別", ?"年齡", ?"婚姻狀況", ?"受教育程度", ?"職業(yè)或身份", ?"個(gè)人月平均收入", ?"報(bào)攤購(gòu)買(mǎi)", ?"個(gè)人訂閱", ?"單位訂閱", ?"贈(zèng)閱", ?"借閱他人", ?"其他", ?"上班途中", ?"下班途中", ?"午休時(shí)間", ?"逛銜購(gòu)物時(shí)", ?"不定時(shí)", ?"對(duì)《精品購(gòu)物指南》的零購(gòu)情況", ?"家人是否會(huì)提醒購(gòu)買(mǎi)《精品》", ?"是第幾選擇", ?"家人是否閱讀《精品》", ?"", ?"", ?"一直購(gòu)買(mǎi)(或訂閱)本報(bào)(習(xí)慣)", ?"豪華版內(nèi)容吸引人", ?"普通版文章吸引人", ?"查找廣告信息", ?"參加讀者樂(lè)園版的活動(dòng)", ?"逛商場(chǎng)購(gòu)物需要", ?"價(jià)格便宜", ?"沒(méi)有什么原因想起來(lái)就買(mǎi)", ?"其他", ?"住所", ?"工作場(chǎng)所", ?"車(chē)站或乘車(chē)路途", ?"娛樂(lè)場(chǎng)所", ?"其他場(chǎng)所", ?"多少人閱讀同一份報(bào)紙", ?"閱讀《精品》的時(shí)間", ?"每天讀報(bào)時(shí)間", ?"對(duì)我消費(fèi)有指導(dǎo)", ?"提高我的生活品位和檔次", ?"信息實(shí)用性強(qiáng)", ?"關(guān)注社會(huì)新聞", ?"信息量大", ?"信息質(zhì)量高", ?"報(bào)道領(lǐng)域全面", ?"內(nèi)容貼近市場(chǎng)", ?"尋找有用的信息和廣告", ?"放松自我", ?"通俗易懂", ?"廣告信息豐富", ?"版面編排合理", ?"售價(jià)合理", ?"訂閱或零購(gòu)方便", ?"其他", ?"平均每月閱讀幾期《精品》", ?"首先欣賞豪華版", ?"先看標(biāo)題,再揀有意思的看", ?"我只看自己喜歡的固定欄目", ?"看完喜歡的文章,再瀏覽其他內(nèi)容", ?"只查找對(duì)自己有用的信息", ?"無(wú)目的地翻閱報(bào)紙", ?"如果未能看到某一期《精品》", ?"能夠閱讀完《精品》內(nèi)容", ?"封面要聞", ?"百姓生活新聞", ?"北京都市新聞", ?"消費(fèi)新聞", ?"讀者樂(lè)園", ?"體壇新聞", ?"關(guān)注足球", ?"籃球時(shí)空", ?"綠茵評(píng)說(shuō)", ?"精品回顧", ?"文化資訊", ?"影視介紹", ?"讀書(shū)生活", ?"音樂(lè)欣賞", ?"外企專(zhuān)遞", ?"留學(xué)必備", ?"充電課堂", ?"人才聚焦", ?"處世情感", ?"健康", ?"美食", ?"休閑旅游", ?"保險(xiǎn)", ?"律師", ?"百貨新品", ?"休閑寵物", ?"戶(hù)外休閑", ?"美食", ?"家庭保健", ?"超市SHOPPER"
?,"新品試驗(yàn)"
?,"樣品透視"
?,"汽車(chē)時(shí)代"
?,"電腦"
?,"市場(chǎng)行情"
?,"通訊網(wǎng)絡(luò)"
?,"樓市了望"
?,"房產(chǎn)金融"
?,"政策掃描"
?,"家具世界"
?,"家裝熱點(diǎn)"
?,"選材指南"
?,"飾品快遞"
?,"非常男人"
?,"特別女人"
?,"新新人類(lèi)"
?,"網(wǎng)絡(luò)家庭"
?,"扮美家居"
?,"今日媽咪"
?,"選題大眾化"
?,"信息實(shí)用性強(qiáng)"
?,"可讀性強(qiáng)"
?,"幫助我消費(fèi)選擇"
?,"趣味性強(qiáng)"
?,"報(bào)道領(lǐng)域全面"
?,"幫助我了解市場(chǎng)行情"
?,"放松自我"
?,"文字優(yōu)美"
?,"觀點(diǎn)新穎"
?,"版式活潑"
?,"品位高雅"
?,"風(fēng)格突出"
?,"廣告內(nèi)容豐富"
?,"其他"
?,"招商展覽"
?,"電腦"
?,"通訊"
?,"汽車(chē)"
?,"房地產(chǎn)"
?,"家電"
?,"食品酒類(lèi)"
?,"旅游娛樂(lè)"
?,"商場(chǎng)飯店"
?,"服裝服飾"
?,"美容用品"
?,"保健品"
?,"醫(yī)療器械"
?,"家居用品"
?,"航空訂票"
?,"招生"
?,"人才招聘"
?,"公益廣告"
?,"文化用品"
?,"房屋祖賃"
?,"金融證券"
?,"發(fā)行廣告"
?,"其他"
?,"廣告對(duì)于消費(fèi)是否有幫助"
?,"廣告數(shù)量適中"
?,"廣告信息豐富"
?,"廣告信息及時(shí)"
?,"廣告設(shè)計(jì)新穎"
?,
刪除缺失
data=complete.cases(data)
2.繪制不同變量之間的關(guān)系
?geom_point() +
? ?geom_smooth(method=method, ...)
從每個(gè)變量的直方圖可以看到變量的大概分布情況。繪制各個(gè)變量的餅圖可以看到基本人口信息的各個(gè)取值的所占的百分比。
點(diǎn)擊標(biāo)題查閱往期內(nèi)容
PYTHON鏈家租房數(shù)據(jù)分析:嶺回歸、LASSO、隨機(jī)森林、XGBOOST、KERAS神經(jīng)網(wǎng)絡(luò)、KMEANS聚類(lèi)、地理可視化
左右滑動(dòng)查看更多
01
02
03
04
第三節(jié) 回歸,方差分析與模型比較
1.相關(guān)性分析
for(i in 1:ncol(data))datacor[,i]=as.numeric(data[,i])
#數(shù)據(jù)歸一化
data=scale(datacor)
查看性別和閱讀《精品》的時(shí)間之間是否有相關(guān)關(guān)系
cor.test(datacor$"性別", ?
???????? datacor$"閱讀《精品》的時(shí)間")## ?##? Pearson's product-moment correlation ?## ?## data:? datacor$性別 and datacor$"閱讀《精品》的時(shí)間" ?## t = 0.63616, df = 1995, p-value = 0.5247 ?## alternative hypothesis: true correlation is not equal to 0 ?## 95 percent confidence interval: ?##? -0.02964101? 0.05806894 ?## sample estimates: ?##??????? cor ?## 0.01424136
檢驗(yàn)的結(jié)果是,由于P =0.5247> 0.05,因此在0.05的顯署性水平下,接受原假設(shè),認(rèn)為兩者之間不具有相關(guān)關(guān)系。
查看婚姻狀況和閱讀《精品》的時(shí)間之間是否具有相關(guān)關(guān)系
cor.test(datacor$"婚姻狀況", ?
???????? datacor$"閱讀《精品》的時(shí)間")## ?##? Pearson's product-moment correlation ?## ?## data:? datacor$婚姻狀況 and datacor$"閱讀《精品》的時(shí)間" ?## t = -1.7215, df = 1995, p-value = 0.08531 ?## alternative hypothesis: true correlation is not equal to 0 ?## 95 percent confidence interval: ?##? -0.082238962? 0.005358859 ?## sample estimates: ?##???????? cor ?## -0.03851404
檢驗(yàn)的結(jié)果是,由于P =0.08531> 0.05,因此在0.05的顯署性水平下,所以接受原假設(shè),認(rèn)為兩者之間不具有相關(guān)關(guān)系
查看受教育程度和閱讀《精品》的時(shí)間之間是否具有相關(guān)關(guān)系
cor.test(datacor$"受教育程度", ?
???????? datacor$"閱讀《精品》的時(shí)間")## ?##? Pearson's product-moment correlation ?## ?## data:? datacor$受教育程度 and datacor$"閱讀《精品》的時(shí)間" ?## t = -0.71111, df = 1995, p-value = 0.4771 ?## alternative hypothesis: true correlation is not equal to 0 ?## 95 percent confidence interval: ?##? -0.05974084? 0.02796468 ?## sample estimates: ?##??????? cor ?## -0.0159187
檢驗(yàn)的結(jié)果是,由于P =0.4771>0.05,因此在0.05的顯著性水平下,接受原假設(shè),認(rèn)為兩者之間不具有相關(guān)關(guān)系。
2.回歸分析
查看共線(xiàn)性關(guān)系
which(abs(cormatrix)>0.6,arr.ind = T)##????????????????????????????? row col ?## 編號(hào)?????????????????????????? 1?? 1 ?## 性別?????????????????????????? 2?? 2 ?## 年齡?????????????????????????? 3?? 3
從結(jié)果看,沒(méi)有相關(guān)系數(shù)大于0.6的不同變量。因此,變量間不存在共線(xiàn)性問(wèn)題。
回歸分析
summary(model)
從回歸模型的結(jié)果來(lái)看,可以看被調(diào)查者的職業(yè)或身份,家人是否閱讀《精品》`,以及豪華版內(nèi)容是否吸引人等因素對(duì)被調(diào)查對(duì)象否閱讀《精品》的時(shí)間有比較大的影響,p值小于0.05,因此該變量對(duì)被調(diào)查者選擇去看報(bào)紙有顯著的影響 。
3.模型篩選與比較
無(wú)常數(shù)項(xiàng)模型擬合
回歸模型校正
利用qqPlot()函數(shù)提供的正態(tài)假設(shè)檢驗(yàn)方法,它畫(huà)出了在n-p-1個(gè)自由度的t分布下的學(xué)生化殘差圖形,再配合Shapiro檢驗(yàn)得出檢測(cè)結(jié)果,而Shapiro樣本量的大小范圍 配合下圖可以發(fā)現(xiàn)除了Providence,所有的點(diǎn)都離直線(xiàn)很近,都落在置信區(qū)間內(nèi),這表明與正態(tài)性假相符。
library(car) ?qqPlot(model2,labels = row.names(datacor))
方差齊性
利用殘差繪制曲線(xiàn)圖并配合Durbin-Watson檢驗(yàn),此檢驗(yàn)方法能夠檢測(cè)誤差的序列相關(guān)性,再配合下表檢驗(yàn)結(jié)果顯著性為0.7604表示接受原假設(shè),因此誤差項(xiàng)獨(dú)立性檢驗(yàn)通過(guò)。
dwtest(model2)## ?##? Durbin-Watson test ?## ?## data:? model2 ?## DW = 2.0242, p-value = 0.7604 ?## alternative hypothesis: true autocorrelation is greater than 0
方差分析
所有變量的p值都小于0.05,說(shuō)明在0.05的顯著水平上,不同特征的被調(diào)查對(duì)象的閱讀精品時(shí)間之間有明顯差別。
點(diǎn)擊文末?“閱讀原文”
獲取全文完整代碼數(shù)據(jù)資料。
本文選自《R語(yǔ)言回歸、anova方差分析、相關(guān)性分析 《精品購(gòu)物指南》調(diào)研數(shù)據(jù)可視化》。
點(diǎn)擊標(biāo)題查閱往期內(nèi)容
PYTHON鏈家租房數(shù)據(jù)分析:嶺回歸、LASSO、隨機(jī)森林、XGBOOST、KERAS神經(jīng)網(wǎng)絡(luò)、KMEANS聚類(lèi)、地理可視化
R語(yǔ)言廣義線(xiàn)性模型(GLM)、全子集回歸模型選擇、檢驗(yàn)分析全國(guó)風(fēng)向氣候數(shù)據(jù)
R語(yǔ)言用Rshiny探索lme4廣義線(xiàn)性混合模型(GLMM)和線(xiàn)性混合模型(LMM)
R語(yǔ)言用潛類(lèi)別混合效應(yīng)模型(Latent Class Mixed Model ,LCMM)分析老年癡呆年齡數(shù)據(jù)
R語(yǔ)言貝葉斯廣義線(xiàn)性混合(多層次/水平/嵌套)模型GLMM、邏輯回歸分析教育留級(jí)影響因素?cái)?shù)據(jù)R語(yǔ)言估計(jì)多元標(biāo)記的潛過(guò)程混合效應(yīng)模型(lcmm)分析心理測(cè)試的認(rèn)知過(guò)程
R語(yǔ)言因子實(shí)驗(yàn)設(shè)計(jì)nlme擬合非線(xiàn)性混合模型分析有機(jī)農(nóng)業(yè)施氮水平
R語(yǔ)言非線(xiàn)性混合效應(yīng) NLME模型(固定效應(yīng)&隨機(jī)效應(yīng))對(duì)抗哮喘藥物茶堿動(dòng)力學(xué)研究
R語(yǔ)言用線(xiàn)性混合效應(yīng)(多水平/層次/嵌套)模型分析聲調(diào)高低與禮貌態(tài)度的關(guān)系
R語(yǔ)言L(fǎng)ME4混合效應(yīng)模型研究教師的受歡迎程度R語(yǔ)言nlme、nlmer、lme4用(非)線(xiàn)性混合模型non-linear mixed model分析藻類(lèi)數(shù)據(jù)實(shí)例
R語(yǔ)言混合線(xiàn)性模型、多層次模型、回歸模型分析學(xué)生平均成績(jī)GPA和可視化
R語(yǔ)言線(xiàn)性混合效應(yīng)模型(固定效應(yīng)&隨機(jī)效應(yīng))和交互可視化3案例
R語(yǔ)言用lme4多層次(混合效應(yīng))廣義線(xiàn)性模型(GLM),邏輯回歸分析教育留級(jí)調(diào)查數(shù)據(jù)R語(yǔ)言 線(xiàn)性混合效應(yīng)模型實(shí)戰(zhàn)案例
R語(yǔ)言混合效應(yīng)邏輯回歸(mixed effects logistic)模型分析肺癌數(shù)據(jù)
R語(yǔ)言如何用潛類(lèi)別混合效應(yīng)模型(LCMM)分析抑郁癥狀
R語(yǔ)言基于copula的貝葉斯分層混合模型的診斷準(zhǔn)確性研究
R語(yǔ)言建立和可視化混合效應(yīng)模型mixed effect model
R語(yǔ)言L(fǎng)ME4混合效應(yīng)模型研究教師的受歡迎程度
R語(yǔ)言 線(xiàn)性混合效應(yīng)模型實(shí)戰(zhàn)案例
R語(yǔ)言用Rshiny探索lme4廣義線(xiàn)性混合模型(GLMM)和線(xiàn)性混合模型(LMM)
R語(yǔ)言基于copula的貝葉斯分層混合模型的診斷準(zhǔn)確性研究
R語(yǔ)言如何解決線(xiàn)性混合模型中畸形擬合(Singular fit)的問(wèn)題
基于R語(yǔ)言的lmer混合線(xiàn)性回歸模型
R語(yǔ)言用WinBUGS 軟件對(duì)學(xué)術(shù)能力測(cè)驗(yàn)建立層次(分層)貝葉斯模型
R語(yǔ)言分層線(xiàn)性模型案例
R語(yǔ)言用WinBUGS 軟件對(duì)學(xué)術(shù)能力測(cè)驗(yàn)(SAT)建立分層模型
使用SAS,Stata,HLM,R,SPSS和Mplus的分層線(xiàn)性模型HLM
R語(yǔ)言用WinBUGS 軟件對(duì)學(xué)術(shù)能力測(cè)驗(yàn)建立層次(分層)貝葉斯模型
SPSS中的多層(等級(jí))線(xiàn)性模型Multilevel linear models研究整容手術(shù)數(shù)據(jù)
用SPSS估計(jì)HLM多層(層次)線(xiàn)性模型模型