如何得到PAM打分矩陣——PAM打分矩陣原理與Dayhoff模型【生物信息學】
如何的到PAM打分矩陣?PAM打分矩陣原理與Dayhoff模型
B站輸不了公式,請移步知乎?。?!
B站輸不了公式,請移步知乎?。?!
B站輸不了公式,請移步知乎?。?!
知乎文章鏈接:https://zhuanlan.zhihu.com/p/643775292
B站的版本缺少一些必要的公式
知乎:不學無術瀏覽者
B站:游子桀
2023年7月15日17:12:24發(fā)布于知乎
2023年7月15日17:16:08發(fā)表于B站
引言 Introduction
如果兩個蛋白質或DNA的序列相似性較高,這一方面說明這兩個蛋白質或DNA的同源的可能性較高,一方面說明二者擁有相同/相似功能的可能性較高。
雙序列比對正是用于比較兩蛋白質相似性的工具
雙序列比對中又包含許多方法:
1.全局雙序列比對算法
2.局部雙序列比對算法
3.BLAST等
雖然名稱不同,但三者的思路存在相似之處,總而言之可以簡要分為
1.比對(Alignment)
2.打分(Scoring)
所謂比對,就是將兩條蛋白質/DNA序列按序排開,依次比較互相的氨基酸殘基/核苷酸的過程。
同時,比對過程中,不一定每一個氨基酸殘疾/核苷酸都能找到相同的氨基酸殘基/核苷酸與之匹配,同時,性質相似氨基酸的氨基酸之間的匹配又比性質有較大差異氨基酸之間的匹配對蛋白質性質的影響要小。這就需要對氨基酸之間的匹配進行打分,相同氨基酸殘基的匹配自然能拿到最高分,不同氨基酸之間,性質相似的氨基酸拿到的分數(shù)又要比性質相差較大的氨基酸拿到的分數(shù)要高。同時,我們可以使用這個分數(shù),衡量兩蛋白質的相似性。
Margaret Dayhoff 提供了一個打分方法——PAM打分矩陣,而得出這個矩陣的模型,也被稱作Dayhoff模型。
接下來,我們將介紹如何基于Dayhoff模型的到PAM打分矩陣。
Dayhoff模型 Dayhoff Model
第一步:可接受點突變(PAM)
如前所述,同一位置上性質相似的氨基酸之間的改變,比起在這個位置上發(fā)生性質截然不同的氨基酸的改變,引起整個蛋白質的功能的改變,概率上會更小,程度上通常也更小。而一個蛋白質如果能在自然界中保持存在,就需要讓能產(chǎn)生這個蛋白質的種群能夠存續(xù)。也就是說,如果蛋白質某個位點的氨基酸的改變使這個蛋白質功能發(fā)生較大改變,使這個蛋白質原本應該在生物體內發(fā)揮的功能不能實現(xiàn),導致發(fā)生這個改變的生物不能存貨,從而不能將發(fā)生改變保留在種群中,那么這個蛋白質也就不能繼續(xù)保留到今天。相反的,氨基酸不發(fā)生改變或氨基酸變?yōu)樾再|相似的氨基酸,引起的蛋白質的功能的改變較小,發(fā)生改變后的蛋白質仍然能發(fā)揮該蛋白質原本應該發(fā)揮的功能,發(fā)生改變的生物能夠通過繁衍下一代將該改變保留在種群中,從而使得發(fā)生改變的蛋白質留存到今天。
而又因為氨基酸變?yōu)樾再|相似的改變(保守型替換)引起的蛋白質的改變較?。ㄒ簿褪乔昂蟮牡鞍踪|相似性高),蛋白質保留下來的概率更高。因此,我們可以通過觀察目前自然界存在的同源蛋白質上,氨基酸A改變?yōu)榱硪环N氨基酸B的頻率,來反向推斷氨基酸A與氨基酸B之間的相似性。
Dayhoff基于這點假設:提出了可接受點突變(Accepted Point Mutation,PAM)這一定義。PAM要符合以下兩點要求:
一、基因發(fā)生突變,從而使得DNA編碼的氨基酸發(fā)生改變。
二、該突變被整個種群所接受,成為種群該蛋白質的主要形式。(這個定義或許令人費解,意思其實就是這個突變不會因自然選擇而被淘汰,換句話說,就是被“接受”了)
氨基酸突變的統(tǒng)計
Dayhoff及其同事首先考研究了71組進化高度相關的蛋白質中的1572種變化。統(tǒng)計了其中氨基酸的突變數(shù)據(jù)。
具體如何統(tǒng)計的?
如下:
結合我們之前所說的,在蛋白質的某位點的氨基酸發(fā)生突變后,新的蛋白質從中產(chǎn)生,為了得到正確的符合實際的氨基酸突變頻率,我們需要從同源蛋白質中氨基酸不同的區(qū)域對氨基酸突變進行統(tǒng)計,Dayhoff所選用的蛋白質同一顆樹內的蛋白質氨基酸一致性有85
以圖1為例,對同源序列ACGH與DBGH進行比對,這兩條的祖先序列是XYGH,其中X是A或D,Y是C或G,因為我們不能判斷在X(Y)位點究竟是A(C)還是D(G)發(fā)生了突變,也就是說祖先序列可以是ACGH,ABGH,DCGH,DBGH中的任意一條,但是沒有關系,因為無論哪條是祖先序列,他們所包含的氨基酸突變信息是一致,在這個例子中,氨基酸突變信息是,B與C互相突變,A與D互相突變。

但是還有一個問題,在這幅圖中,左邊的祖先序列有ACGH,ABGH,DCGH,DBGH四種可能性,右邊的祖先序列有ADIJ,ABIJ,CDIJ,CBIJ四種可能性,如何比對這兩個祖先序列的氨基酸突變呢?在這里,我們只對之前未發(fā)生突變位點進行比對。,在本例子中,就是ABGH與ABIJ的比較,得到I-G互相突變,H-J互相突變的數(shù)據(jù)。值得一提的是,存在ACGH或者DBGH就是最久遠祖先序列的可能性,但同時我們又不能確定他就是,所以,這里選擇保守的計數(shù)策略,也就是只記錄在之前未發(fā)生突變位點的比對。
最終得到的數(shù)據(jù)如圖2所示,其中紅色標注的項目表示該類氨基酸突變較少,綠色標注項目表示該類氨基酸突變較多。
PS:圖2使用的數(shù)據(jù)是Dayhoff在1978年的論文中提出的,目前有了更多的數(shù)據(jù),發(fā)現(xiàn)了Dayhoff當年沒有發(fā)現(xiàn)的氨基酸突變情況。

氨基酸的相對突變率
Dayhoff與其同事還計算了不同氨基酸的相對突變率。
具體方法如圖三:

有兩條序列ADA與ADB進行比對,其中A出現(xiàn)三次,突變一次,那么在這里A的突變率就是1/3,而B得相對突變率為1,D為0. 對于實驗中涉及到得所有的蛋白質,計算原理也是一樣的,突變率=(突變的該氨基酸)/(所有該氨基酸)=(突變的氨基酸)/(該氨基酸在肽鏈中出現(xiàn)的概率*肽鏈長度),
其中: 是突變的該氨基酸的數(shù)目, 是所有該氨基酸的數(shù)目。
我們將突變率Mutablity記為 .
因此,我們得到了某氨基酸的突變率。
接下來我們考慮另一個問題,在已經(jīng)存在一些突變的情況下,出現(xiàn)某氨基酸的突變的條件概率是?
根據(jù)貝葉斯公式:
其中 是氨基酸j在肽鏈中出現(xiàn)的頻率;R是一個校正因子,其作用只是為了放大相對突變率,使人們可以通過相對突變率( 后記為 )直觀的看出不同氨基酸突變概率的大小關系
所以,為了計算氨基酸的相對突變率,還需要知道氨基酸在肽鏈中出現(xiàn)的頻率,這個相當容易統(tǒng)計,這里不做贅述。(統(tǒng)計結果如圖4)

編輯切換為居中
以此方法進行統(tǒng)計,Dayhoff得到了20種氨基酸的相對突變率(圖五,其中丙氨酸的相對突變率通過改變調節(jié)因子,被人為設定為100)。

編輯切換為居中
進化距離為1PAM的突變概率矩陣
“進化距離為1PAM”是什么意思呢?
意思就是一條序列1%的氨基酸的氨基酸發(fā)生突變,這一過程發(fā)生1次。
后面將要提到的PAM1矩陣,意思就是一條序列1%的氨基酸的氨基酸發(fā)生突變,這一過程發(fā)生1次后,氨基酸的變化情況。
PAM250矩陣則是一條序列1%的氨基酸的氨基酸發(fā)生突變,這一過程發(fā)生250次后,氨基酸的變化情況。
那么PAM1矩陣是如何得出的呢?
計算方法如下: 如果一條序列長度為L的蛋白質有1%的氨基酸發(fā)生突變,這1%發(fā)生突變的氨基酸中有 ( 是也是一個校正因子,他和我們先前提到的校正因子R互為倒數(shù))屬于氨基酸j,氨基酸j中又有 突變?yōu)榘被醝。
所以在突變的序列中,氨基酸j突變?yōu)榘被醝的概率 為:
但這些都是氨基酸j突變?yōu)槠渌被醝的概率,在突變過程中,一條肽鏈仍然有99%的氨基酸殘基保持不變,所以需要計算氨基酸保持不變的概率 ,計算方法是:
計算,得出所有數(shù)據(jù),作圖,得到PAM1矩陣(圖6):
但是如你所見,PAM1矩陣中的數(shù)據(jù)存在大于1(作為概率來說,這是不合理的),這是因為這是經(jīng)過調整的PAM1矩陣,矩陣中每個數(shù)字均乘以了一個放大因子(在這里是100),要得到原始的PAM1矩陣,必須去掉放大因子(也就是除以100)。

PAM1矩陣
PAM250以及其他PAM矩陣的計算
如前所述,PAM250矩陣則是一條序列1%的氨基酸的氨基酸發(fā)生突變,這一過程發(fā)生250次后,氨基酸的變化情況。
下面,我們舉例說明如何得到PAM250矩陣。
對于一條蛋白質序列,我們知道其氨基酸組成,設其組成矩陣 (ProteinMatrix)為
其中, 表示氨基酸i在肽鏈中出現(xiàn)的頻率,當1%的氨基酸的氨基酸發(fā)生突變,這一過程發(fā)生第一次時,其氨基酸變化情況實際上符合PAM1矩陣描述的變化,
所以,經(jīng)過一次1%的氨基酸發(fā)生改變的蛋白質的氨基酸組成矩陣 :
得到的蛋白質繼續(xù)進行1%的氨基酸發(fā)生突變這一過程,得到 :
以此類推,進行250次此過程的蛋白質 :
同時PAM250意思也是蛋白進行250次此情況的變化,所以:
PAM250矩陣,就是PAM1矩陣自乘250次。
其他PAMn矩陣,也是PAM1矩陣自稱n次。

PAM250矩陣
從突變概率矩陣到相關優(yōu)勢值矩陣
首先考慮一個問題,一個蛋白質通過可接受點突變形成的同源蛋白質,與一群氨基酸(氨基酸的比例符合圖4所說的氨基酸在肽鏈中出現(xiàn)的概率)隨機組合形成的蛋白質,這兩種蛋白質之間,氨基酸序列,可能存一致性,這是由于氨基酸的隨機排列,為了減小隨機性對蛋白質相似性判斷與打分的影響,Dayhoff引入了相關優(yōu)勢值矩陣,這是將概率矩陣轉化為打分矩陣的重要一步。
在本文中所說的優(yōu)勢值,定義相當簡單,優(yōu)勢值 :
優(yōu)勢值描述了在同源序列中氨基酸j變?yōu)榘被醝的指向性,R越偏離1,表明氨基酸j變?yōu)榘被醝的傾向性的強度,R=1,則表明氨基酸j變?yōu)榘被醝接近與隨機。
如此,可以從PAM矩陣得到一個相關優(yōu)勢值矩陣(暫無圖)
對數(shù)優(yōu)勢值打分矩陣
得到相關優(yōu)勢值矩陣后,所剩的就是將其轉化為打分矩陣,方法也很簡單:
即對優(yōu)勢值矩陣的每一個元素取對數(shù)
這里對取了對數(shù)的優(yōu)勢值再乘以10只是為了使最后分數(shù)的絕對值大致在1-10的范圍,目的是為了便于使用。
圖8是PAM250矩陣的對數(shù)優(yōu)勢值打分矩陣.

PAM250矩陣的對數(shù)優(yōu)勢值打分矩陣
引用
[1]: Dayhoff, M.O. (ed.) 1966. Atlas of Protein Sequence and Structure. National Biomedical Research Foundation, Silver Spring, MD.
[2]: Dayhoff, M. O. (ed.) 1978. Atlas of Protein Sequence and Structure. National Biomedical Research Foundation, Silver Spring, MD.
[3] Jonathan P. 1991. Bioinformatics and Functional Genomics,3rd Edition,66-76,Wiley-Blackwell,ISBN:9780470085851.