BMC Biology | 基于序列理化模式和分布式表示信息的蛋白質(zhì)溶解度預(yù)測(cè)
今天給大家講一篇2023年1月在BMC Biology上發(fā)表的一篇關(guān)于預(yù)測(cè)蛋白溶解度的文章,作者提出了一種名為DeepSoluE的模型用于預(yù)測(cè)蛋白質(zhì)溶解度。該模型將物理化學(xué)特征和氨基酸上下文信息結(jié)合在一起以發(fā)現(xiàn)蛋白序列的功能,并使用遺傳算法來(lái)選擇最佳特征子集,最后用LSTM網(wǎng)絡(luò)提取特征信息并進(jìn)行分類(lèi)任務(wù)。研究結(jié)果表明,所提出的算法在蛋白質(zhì)溶解度預(yù)測(cè)方面表現(xiàn)優(yōu)于現(xiàn)有方法,可以用于預(yù)篩選潛在的可溶性靶點(diǎn),以降低濕實(shí)驗(yàn)研究的成本。

蛋白溶解度預(yù)測(cè)研究背景
蛋白質(zhì)的溶解度是判斷其在工業(yè)應(yīng)用和基礎(chǔ)研究中是否有功能價(jià)值的關(guān)鍵因素。然而,蛋白質(zhì)的聚集現(xiàn)象仍然是蛋白質(zhì)科學(xué)和工業(yè)中不可避免的問(wèn)題。目前,僅有大約四分之一的蛋白質(zhì)能夠以可溶性形式成功表達(dá)。雖然已經(jīng)開(kāi)發(fā)出許多溶解度預(yù)測(cè)模型,但隨著可用的蛋白質(zhì)序列數(shù)量的增加,這些模型的性能仍然有限。因此,研發(fā)新穎且高度準(zhǔn)確的預(yù)測(cè)模型,以便通過(guò)對(duì)高溶解性蛋白質(zhì)的優(yōu)先排序來(lái)降低實(shí)驗(yàn)成本是很有必要的。
DeepSoluE模型介紹
2.1 DeepSoluE設(shè)計(jì)流程
在本文中,圖1A所示,采用兩組特征編碼算法來(lái)表示蛋白質(zhì)序列,其一是物理化學(xué)特征,其二是基于單詞嵌入的特征。物理特征包括氨基酸組成(AAC)、兩親性假氨基酸組成(APAAC)、二肽組成(DPC)、組成(CTDC)和準(zhǔn)序列順序(QSOrder)。AAC計(jì)算了蛋白質(zhì)序列中所有20個(gè)氨基酸的頻率,DPC計(jì)算所有二肽的頻率,CTDC計(jì)算了三種殘基對(duì)的過(guò)渡頻率。QSOrder是基于Schneider Wrede理化距離矩陣來(lái)對(duì)序列順序進(jìn)行編碼。對(duì)于嵌入特征而言,先將含有n個(gè)氨基酸的蛋白質(zhì)序列視為一個(gè)句子,再將序列以移動(dòng)大小為k的窗口進(jìn)行滑動(dòng)。至此,每個(gè)單詞都被嵌入到一個(gè)固定的n維向量中,并利用word2vec框架根據(jù)給定的焦點(diǎn)詞來(lái)預(yù)測(cè)上下文。然后將優(yōu)化后的物理化學(xué)特征和詞嵌入特征拼接成一個(gè)向量,然后輸入到LSTM網(wǎng)絡(luò)中以提取潛在的特征表示,并捕獲特征之間的依賴(lài)性。最后一個(gè)LSTM單元的輸出是兩個(gè)全連接層的輸入。對(duì)于二分類(lèi)問(wèn)題,只需要考慮兩個(gè)類(lèi)別,因此最后SoftMax函數(shù)輸出的結(jié)果只包含兩個(gè)結(jié)果(正例或者負(fù)例)。(圖1B)

實(shí)驗(yàn)結(jié)果
3.1 特征選擇
如圖2所示,為了減少計(jì)算復(fù)雜度并避免模型產(chǎn)生過(guò)擬合,作者采用遺傳算法從組合特征中選擇最優(yōu)特征子集。為了評(píng)估遺傳算法在信息特征識(shí)別方面的有效性,將其與其他四種特征選擇策略進(jìn)行比較(隨機(jī)森林、梯度提升、F-score以及MRMD)。對(duì)于每個(gè)特征都采用順序前向搜索(SFS)方法選擇最優(yōu)特征子集。最后,保留導(dǎo)致AUC值最高的模型的特征子集作為最優(yōu)特征子集。在第117輪時(shí)AUC的值達(dá)到0.6949,因此保留在第117輪次的基因的5個(gè)理化描述符作為最優(yōu)特征子集,可以看出基于遺傳算法的特征選擇策略?xún)?yōu)于其他四種方法。

3.2 基準(zhǔn)方法比較
如圖3所示,作者提出集成學(xué)習(xí)的方法,即采用十折交叉驗(yàn)證并對(duì)十個(gè)模型進(jìn)行投票的方法來(lái)有效的改進(jìn)模型的預(yù)測(cè)性能。此外,為了進(jìn)一步比較DeepSoluE的有效性,還與主流的機(jī)器學(xué)習(xí)方法進(jìn)行了比較。文章選用兩個(gè)指標(biāo)的差值,即敏感性(Sensitivity,真正類(lèi)(TP)預(yù)測(cè)占實(shí)際正樣本(TP+FN)的比例)和特異性(Specificity,即真負(fù)類(lèi)(TN)預(yù)測(cè)占實(shí)際負(fù)樣本(TN+FP)的比例)。DeepSoluE模型中SN和SP的差值是最低的。因此DeepSoluE模型在敏感性和特異性方面均優(yōu)于傳統(tǒng)分類(lèi)器,并且具有更好的魯棒性,并在分類(lèi)指標(biāo)AUC上具有顯著優(yōu)勢(shì)。

3.3 特征貢獻(xiàn)
作者用SHapley加性解釋(SHAP)值來(lái)分析特征貢獻(xiàn)。圖4A描述了蛋白質(zhì)的物理化學(xué)性質(zhì)對(duì)其溶解度起著至關(guān)重要的作用。其中,蛋白質(zhì)的等電點(diǎn)可以影響其在不同 pH 值下的溶解度,而肉汁和芳香性則與蛋白質(zhì)的氨基酸成分有關(guān),會(huì)直接影響其水溶性和揮發(fā)性。此外,柔韌性和不穩(wěn)定性指數(shù)也是影響蛋白質(zhì)折疊和穩(wěn)定性的重要因素。分子量和分?jǐn)?shù)電荷也會(huì)影響蛋白質(zhì)的溶解度和穩(wěn)定性,因?yàn)樗鼈儧Q定了蛋白質(zhì)的空間結(jié)構(gòu)和電荷狀態(tài),是影響蛋白質(zhì)溶解度的關(guān)鍵因素。圖4B顯示了前20個(gè)最重要特征與模型輸出之間的關(guān)系。其中,等電點(diǎn)的高值對(duì)蛋白質(zhì)溶液具有積極影響,而低值則具有消極影響。此外,在另外12個(gè)特征中,也觀察到了類(lèi)似的特征值影響。然而,在其他7個(gè)特征中,作者觀察到了相反的變化趨勢(shì)。因此根據(jù)SHAP分析可以幫助了解特定特征值的影響以及如何優(yōu)化蛋白質(zhì)溶液的性質(zhì)。

結(jié)論
作者研發(fā)了一種名為DeepSolue的深度學(xué)習(xí)預(yù)測(cè)模型用于準(zhǔn)確預(yù)測(cè)大腸桿菌中的蛋白質(zhì)溶解度。此預(yù)測(cè)模型由物理化學(xué)模式和語(yǔ)義信息進(jìn)行組合作為序列的表征,實(shí)現(xiàn)了更加平衡的性能,相較于現(xiàn)有的溶解度預(yù)測(cè)模型有競(jìng)爭(zhēng)性的優(yōu)勢(shì)。此外,還采用了SHAP值來(lái)解釋和研究特征對(duì)模型預(yù)測(cè)及其相互作用效果的影響。
然而,雖然所提出的模型可以提高性能,但當(dāng)前可用的預(yù)測(cè)變量的準(zhǔn)確性仍未達(dá)到60%,因此,仍需要使用算法模型并結(jié)合更多信息來(lái)進(jìn)一步改進(jìn)它??傊?,DeepSolue的開(kāi)發(fā)為蛋白質(zhì)溶解度預(yù)測(cè)領(lǐng)域帶來(lái)了新的突破,同時(shí)也展示了深度學(xué)習(xí)在生物學(xué)研究中的廣泛應(yīng)用。
參考文獻(xiàn)
Wang C, Zhang Y, Han S. Its2vec: fungal species identification using sequence embedding and random forest classification. Biomed Res Int. 2020;2020:article ID: 2468789.
版權(quán)信息
本文系A(chǔ)IDD Pro接受的外部投稿,文中所述觀點(diǎn)僅代表作者本人觀點(diǎn),不代表AIDD Pro平臺(tái),如您發(fā)現(xiàn)發(fā)布內(nèi)容有任何版權(quán)侵?jǐn)_或者其他信息錯(cuò)誤解讀,請(qǐng)及時(shí)聯(lián)系A(chǔ)IDD Pro (請(qǐng)?zhí)砑游⑿盘?hào)sixiali_fox59)進(jìn)行刪改處理。
原創(chuàng)內(nèi)容未經(jīng)授權(quán),禁止轉(zhuǎn)載至其他平臺(tái)。有問(wèn)題可發(fā)郵件至sixiali@stonewise.cn