又來!公共數(shù)據(jù)集+分型分析+多種機器學習算法挖掘生物標志物,分析簡單好復(fù)現(xiàn)
現(xiàn)在被預(yù)警的文章越來越多,只靠簡單的分析很難發(fā)不錯的期刊,今天給大家?guī)碛枚喾N方法來挖掘信息的思路。
布小谷今天又找到到了一篇的使用多種機器學習算法挖掘生物標志物的論文,6分+。
這篇文章和之前推薦的一篇文章很像,對數(shù)據(jù)的挖掘非常充分,用的數(shù)據(jù)集也不算多,作者結(jié)合了生信方法和多種機器學習算法對數(shù)據(jù)分析,挖掘出關(guān)鍵基因,結(jié)果具有較高的可靠性和準確性,為臨床治療方案提供了重要的參考。

題目:慢性髓細胞白血病的機器學習預(yù)測治療反應(yīng)及診斷標志物的確定與驗證
雜志:Cancer Cell International
影響因子:IF=6.429
發(fā)表時間:2023年4月
研究背景
慢性粒細胞白血?。–hronic myeloid leukemia,CML)是一種造血細胞惡性增生的血液腫瘤。CML 患者會產(chǎn)生耐藥性,其中包括原發(fā)性耐藥性和治療反應(yīng)后的復(fù)發(fā)。所以深入探討CML的發(fā)病機制并確定新的診斷生物標志物或治療靶點非常重要。
數(shù)據(jù)來源

? ? ? ? ?
研究思路
本研究使用了兩組測序數(shù)據(jù)的共表達譜分析,鑒定了CML和正常樣本之間的基因表達差異,得出共210個差異表達基因。使用共識聚類算法鑒定了兩種分子亞型,并使用評價指標評估它們的性能。使用三種機器學習方法(SVM-RFE,LASSO和RF)識別了四個CML診斷基因,在臨床隊列中進一步驗證了4個基因和風險評分模型的診斷價值,風險評分可用于CML和其他血液惡性腫瘤的鑒別診斷。風險評分還可用于識別分子亞型和預(yù)測對伊馬替尼治療的反應(yīng)。分子亞型和生物標志物的識別為臨床診斷和治療提供了新的思路。
? ? ? ? ?
主要結(jié)果
1.鑒定?CML 和正常樣本之間的DEG
作者對分析了兩組CML測序數(shù)據(jù)。GSE13159 隊列中確定了總共 378 個 DEG,在 GSE144119 隊列中確定了 3937 個(圖 1A-B),在兩個隊列中共有 210 個相同表達趨勢的 DEG(圖 1C),使用這些基因后續(xù)分析。在兩個隊列中都觀察到,與正常樣本相比,CML樣本中表達上調(diào)的基因更少,表達下調(diào)的基因更多。進一步對這些共享的 DEG進行了功能分析,KEGG 分析的結(jié)果表明,大多數(shù) 的下調(diào)基因主要富集于免疫相關(guān)信號通路,如Th1和Th2細胞分化、原發(fā)性免疫缺陷、T 細胞受體信號通路(圖1D)。GO注釋表明,這些基因的分子功能和生物學過程集中在炎癥和免疫特征上(圖1E)。

2.CML的腫瘤免疫特征分析與DEGs的上游調(diào)控網(wǎng)絡(luò)構(gòu)建
作者進一步挖掘了CML與正常樣本之間生物學特性的差異。GSEA富集分析結(jié)果再次證實CML免疫相關(guān)信號通路活性顯著降低,而α-亞麻酸代謝、花生四烯酸代謝、組氨酸代謝等被顯著激活(圖2A-B)。除中性粒細胞外,CML樣品中顯著富集(圖2C)。在CML樣本中觀察到 PD-L1、PD-1和CTLA4的表達增加(圖2D)。結(jié)果表明,CML患者在抗腫瘤免疫方面表現(xiàn)出惰性,這可能是 CML 進展的重要因素。之后作者對這些 DEGs進行了PPI網(wǎng)絡(luò)構(gòu)建(圖2E)。提取了連接性最高的前20個基因,這些基因如 CD8A、CD3D、CD3E、CD3G、GZM與免疫細胞的功能密切相關(guān)(圖2F)。進一步使用 DEGs 來預(yù)測 CML 發(fā)病機制的上游調(diào)控網(wǎng)絡(luò),包括轉(zhuǎn)錄因子、激酶和中間蛋白。最顯著相關(guān)的激酶包括 HIPK2、CSNK2A1、CDK1等(圖2G)。最顯著相關(guān)的轉(zhuǎn)錄因子包括 IRF8、TRIM28、SUZ12等(圖2H-?2I)。

3.?鑒定CML中不同分子亞型
作者根據(jù)DEG的表達對CML患者進行了共識聚類,并確定了兩種分子亞型(Cluster A 和 Cluster B)(圖3A)。使用PCA算法進一步驗證了分類的可靠性(圖3B)。與Cluster A相比,大多數(shù)DEGs在Cluster B中上調(diào)(圖3C)。此外,免疫浸潤分析表明,CD8 + T細胞等在B組中顯著富集,而單核細胞和中性粒細胞在A組中浸潤程度更高(圖3D)?

4.預(yù)測不同分子亞型的治療反應(yīng)
作者預(yù)測了不同分子亞型的治療反應(yīng)。TIDE評分反映了腫瘤細胞的免疫逃逸能力,觀察到Cluster B的TIDE評分高于Cluster A(圖3F),表明B簇具有更高的免疫逃逸能力,暗示該亞型患者可能從免疫治療中獲益更多。用另一個數(shù)據(jù)集繪制了CML患者的表達譜,該數(shù)據(jù)集包含47名對免疫療法有反應(yīng)的黑色素瘤患者。結(jié)果顯示,Cluster B患者更有可能對抗CTLA4和抗PD-1療法產(chǎn)生反應(yīng)(圖 3G)。然后,預(yù)測了不同分子亞型對常用于CML治療的TKI的反應(yīng),結(jié)果顯示Cluster B患者對伊馬替尼等具有更高的治療敏感性(圖 3H-J)。兩組之間對伯舒替尼的治療敏感性沒有顯著差異(圖3K)。

5.診斷生物標志物的鑒定和驗證
作者進一步挖掘DEGs在CML中的診斷價值。使用LASSO、RF和SVM-RFE算法分別從DEG中識別出與CML相關(guān)的13、30和110個基因(圖4A-E)。最后,從三種算法中取交集得到HDC、SMPDL3A、IRF4和AQP3。與正常組相比,HDC的表達在CML樣本中顯著上調(diào),而SMPDL3A、IRF4和AQP3顯著下調(diào)(圖4G)。在驗證集GSE144119中,觀察到一致的表達差異,四種診斷基因在緩解患者中表現(xiàn)出恢復(fù)到正常表達水平,表明了這些生物標志物的治療評估價值(圖4H)。然后,使用LASSO回歸分析構(gòu)建了基于四種診斷的風險評分模型來探索結(jié)合這些生物標志物的診斷價值。圖4I展示了診斷基因的模型系數(shù)。CML患者的風險評分明顯高于正常組(圖4J-K),緩解期患者的風險評分降低至正常組水平(圖4K)。通過ROC曲線分析,證實了四個診斷基因在兩個CML隊列中的高診斷效率,而風險評分模型進一步提高了診斷能力(圖5A-B)。ClusterA的風險評分明顯高于ClusterB,后者在兩個分析隊列中觀察到一致的分布特征(圖5C-D)。在GSE2535隊列中,12名對伊馬替尼無反應(yīng)的患者的風險評分顯著高于16名對治療有反應(yīng)的患者(圖5E)。結(jié)果表明風險評分不僅可以用于CML的診斷,還可以用于分子亞型的評價和耐藥性的預(yù)測。


6.診斷生物標志物與生物學特性的相關(guān)性分析
作者挖掘了診斷性生物標志物與CML生物學特性的關(guān)系,分別分析了它們在CML樣本中的表達與免疫細胞浸潤水平和癌癥相關(guān)信號通路活性的相關(guān)性。IRF和SMPDL3A與CD8+T細胞和靜息NK細胞呈正相關(guān),與單核細胞呈負相關(guān);HDC與靜息肥大細胞呈正相關(guān),與單核細胞呈負相關(guān)(圖6A)。診斷標志物與癌癥相關(guān)信號通路之間存在更強的相關(guān)性。SMPDL3A、IRF4表達越高,VEGF、Toll樣受體等信號通路活性越強(圖6B)。而AQP3則表現(xiàn)出相反的相關(guān)性。上述結(jié)果為探索這些生物標志物與CML生物學特性之間的關(guān)系提供了線索。首先在ENCORI數(shù)據(jù)庫中獲得了具有與診斷基因結(jié)合位點的miRNA,并檢索到三個診斷基因(AQP3、SMPDL3A和IRF4)。從GSE90773數(shù)據(jù)集中獲得了CML樣本和正常樣本之間差異表達的miRNA?;谶@些數(shù)據(jù),進行了miRNA調(diào)控網(wǎng)絡(luò)的構(gòu)建(圖6C)。在DGIdb數(shù)據(jù)庫中預(yù)測與HDC相互作用的藥物,以改善相關(guān)研究的線索(圖6D)。

文章小結(jié)
這個文章內(nèi)容比較豐富,亮點還是用多種機器學習算法挖掘生物標志,但是光用機器學習算法是不行的,生物學家感興趣是為什么是這個基因,需要再深度的分析,大家可以挖掘到這個基因之后更深的去挖掘為什么是這個基因,例如單基因分析就可以彌補這個缺點。多種機器學習算法找生物標志物這種操作現(xiàn)在越來越普遍了,這個操作也越來越常規(guī)。