使用ETE包讓系統(tǒng)發(fā)育樹(進(jìn)化樹)和多重序列比對(duì)(MSA)“同框”
盛世華誕 國(guó)之大慶 不忘初心 砥礪前行
借著這偉大而美麗的日子,祝祖國(guó)繁榮富強(qiáng),朋友們節(jié)日快樂,感謝大家對(duì)微生信的支持!
我們可以從不同物種的蛋白質(zhì)、DNA或者RNA序列的多重序列比對(duì)(Multiple sequence alignment,MSA)結(jié)果中推斷出序列的同源關(guān)系,然后以系統(tǒng)發(fā)育樹(進(jìn)化樹)的方式展示物種進(jìn)化關(guān)系。
1)序列的數(shù)量不能太多。一般10-15條
2)序列的親緣關(guān)系不能太遠(yuǎn)。兩兩之間序列相似度低于30%的一組序列,獲得的多重序列比對(duì)結(jié)果無意義,甚至無法進(jìn)行比對(duì)。
3)序列的親緣關(guān)系也不能太近。兩兩之間序列相似度高于90%的一組序列,進(jìn)行再多的比對(duì)也是等于比對(duì)一條。
通常我們要么單獨(dú)展示系統(tǒng)發(fā)育樹,要么單獨(dú)展示多重序列比對(duì),那么能不能將兩者“同框”呢?
今天,跟隨小編來繪制一張“系統(tǒng)發(fā)育樹”和“多重序列比對(duì)”同框圖吧!
圖1.系統(tǒng)發(fā)育樹+多重比對(duì)可視化
1,準(zhǔn)備fasta格式的序列
一般情況下我們可以使用某個(gè)蛋白或者基因在不同物種中的序列,通常序列長(zhǎng)短不完全一樣,但是長(zhǎng)度相差不大。例如我們現(xiàn)在有如下8條序列。
圖2. 8條相關(guān)序列
2,打開系統(tǒng)發(fā)育樹分析頁(yè)面
多重序列比對(duì)和系統(tǒng)發(fā)育樹構(gòu)建軟件非常多,這里我們使用在線工具ETE3進(jìn)行處理。首先打開ETE3系統(tǒng)發(fā)生分析流程網(wǎng)頁(yè)(https://www.genome.jp/tools-bin/ete)
圖3. ETE3系統(tǒng)發(fā)育分析流程頁(yè)面
3,粘貼或者上傳序列
因?yàn)槲覀兊氖纠龜?shù)據(jù)是未比對(duì)(未對(duì)齊)的核苷酸序列,因此,這里我們選擇“Nucleotide”和“Unaligned”按鈕,其他參數(shù)均默認(rèn)。然后點(diǎn)擊“Compute”按鈕提交計(jì)算。
圖4. 粘貼序列并提交計(jì)算
4.系統(tǒng)發(fā)育樹(進(jìn)化樹)
經(jīng)過約10秒后(根據(jù)提交的序列的條數(shù)和長(zhǎng)度),會(huì)返回系統(tǒng)發(fā)育樹結(jié)果頁(yè)面。
圖5. 系統(tǒng)發(fā)育樹
結(jié)果包括:fa比對(duì)文件和nwk樹文件,并且可以直接下載svg或者png格式的系統(tǒng)發(fā)育樹圖片。
這里我們需要下載outTree_unrooted.nw和input.fa.final_tree.used_alg.fa 兩個(gè)文件備用。
5,系統(tǒng)發(fā)育樹和多重序列比對(duì)同框
本文的重點(diǎn)來了。小編發(fā)現(xiàn)了一款將兩者“同框”的ETE python工具http://etetoolkit.org/treeview/ 。找了好久,看來還得多讀文獻(xiàn)??!
圖6. 在線同框工具
我們將上一步下載的兩個(gè)文件上傳上去。
圖7. 上傳數(shù)據(jù)
然后選擇aligned blocks選項(xiàng),并點(diǎn)擊“View tree”按鈕,即可查看系統(tǒng)發(fā)育樹和比對(duì)信息。
圖8. 系統(tǒng)發(fā)育樹和block比對(duì)
6,本地版系統(tǒng)發(fā)育樹和多重序列比對(duì)同框
由于網(wǎng)絡(luò)工具的限制,僅提供了blocks模式和condensed模式。如果要顯示具體的堿基比對(duì)信息,還得使用本地版。
http://etetoolkit.org/documentation/ete-view/
使用conda進(jìn)行安裝:
$ conda create -n ete3 python=3
$ conda activate ete3
$ conda install -c etetoolkit ete3 ete_toolchain
$ ete3 build check
使用
圖10. 繪圖代碼
輸出的系統(tǒng)發(fā)生樹和比對(duì)圖
圖12. 系統(tǒng)發(fā)育樹和多重序列比對(duì)
簡(jiǎn)單的系統(tǒng)發(fā)育樹和多重序列比對(duì)圖就繪制完了,當(dāng)然還有更多的參數(shù)和設(shè)置,感興趣的小伙伴快來試試吧!
微生信助力發(fā)文章,谷歌引用660+,知網(wǎng)引用500+