python機器學習-糖尿病數(shù)據(jù)挖掘

微信公眾號:pythonEducation
作者Toby,曾在國內(nèi)最大醫(yī)藥數(shù)據(jù)中心擔任數(shù)據(jù)挖掘部門負責人,管理二十個醫(yī)藥數(shù)據(jù)庫。現(xiàn)任持牌照金融公司模型專家。
?
有人說21世紀,我們的生活越來越便捷,電子通訊越來越發(fā)達,美食越來越多。這一點也不假。但現(xiàn)代生活方式也有不利一面,工作越來越忙,身體鍛煉越來越少,體重一天一天增加。有一種疾病叫做糖尿病,你們聽說過嗎?
餐飲行業(yè)為了增加銷售量,會增加食物食鹽量。這樣可以滿足顧客重口味。

飲料廠商為了增加銷售量,在飲料里添加不少糖分(碳水化合物)。糖可以刺激大腦,形成正反饋,越喝越想喝,形成對糖依耐性。

996對程序員并不陌生,一天工作太忙,下班后就葛優(yōu)躺,拿著手機或看電視。體重一天天增加,我想說的是糖尿病離你還遠嗎?
?

真相是中國糖尿病數(shù)據(jù)觸目驚心!下圖顯示2019年估算中國糖尿病患病率排名世界第二,我們不是世界第一,是不是很高興?

不幸的是,中國人口基數(shù)是美國4倍多,因此中國糖尿病患者數(shù)量位居世界第一。中國是糖尿病最大藥物研發(fā)市場。越來越多年輕人也加入糖尿病市場,成為藥企搖錢樹。

中國糖尿病患者數(shù)量逐年上升,呈現(xiàn)明顯上漲態(tài)勢。近年來糖尿病藥物是藥企一塊大蛋糕。糖尿病相關食品
也非常昂貴,很多不懂醫(yī)學常識的患者付出了巨大代價。
?

糖尿病是一種富貴病,患上后無法徹底根治,只能每日用藥控制。且糖尿病相關并發(fā)癥多。每8秒就有1人死于糖尿病及其并發(fā)癥。如果未經(jīng)治療,糖尿病可能引發(fā)許多并發(fā)癥。急性并發(fā)癥包括糖尿病酮酸血癥與高滲透壓高血糖非酮酸性昏迷;嚴重的長程并發(fā)癥則包括心血管疾病、中風、慢性腎臟病、糖尿病足、以及視網(wǎng)膜病變等。

醫(yī)生對于糖尿病患者的建議比較多,少吃含糖高食物,多鍛煉,多休息。。。。但哪一條建議特別重要,能否量化分析么?答案是肯定的,你給我數(shù)據(jù),我給你答案。
博主用python建立糖尿病血糖指標預測模型,根據(jù)用戶提供的年齡,性別,血壓,BMI等指標,可以預測你是否患有糖尿病。建模數(shù)據(jù)來自美國真實糖尿病臨床數(shù)據(jù),總計442條。對于模型來說,442條數(shù)據(jù)量有些偏少,如果能有1000條以上,就比較nice了。

研究此項目的美國團隊(Bradley Efron, Trevor Hastie, Iain Johnstone and Robert Tibshirani)模型性能一般,MAE約為41.9,r2為0.477。而博主建立模型MAE為13.82,r2為0.9388,遠遠高于美國團隊,模型性能非常優(yōu)秀,預測數(shù)據(jù)誤差小,更準確。

博主運用python語言建立糖尿病預測模型部分代碼截圖,代碼量少,效率高快速建模和量化分析致病因子。

?
程序對變量相關性分析后,自動把結果保存到excel,方便日后查閱數(shù)據(jù),我們發(fā)現(xiàn)S1和S2血清指標相關性非常高,模型僅選用s1或s2變量,性能下降不會太大。

好消息是絕大多數(shù)糖尿病屬于二類,是可防可控的。我們只要熟悉致病因子,建立良好生活習慣就可以顯著降低糖尿病患病概率。此課程對糖尿病致病因子一一分析,并量化排序,是價值含量非常高課程。
?

機器學習是一門充滿魅力學科,讓我們像甘道夫魔法師,可以預知未來。希望我的課程能夠幫助到糖尿病患者,相關研發(fā)機構,或正在寫此題材論文的學生。希望你們分享此課程到朋友圈,讓大家重視糖尿病防控,減少政府醫(yī)藥預算開支,讓更多人受益。

歡迎大家訪問博主網(wǎng)校主頁,學習更多課程
https://study.163.com/provider/400000000398149/index.htm?share=2&shareId=400000000398149
