GMAP一款比對(duì)工具用于ALLHiC構(gòu)建等位基因表
在ALLHiC使用過程中需要構(gòu)建Allele.ctg.table,用于過濾多倍體基因組中因等位序列相似引起的HiC噪音的必要輸入。官網(wǎng)提供了兩種辦法,一種是blastn,需要對(duì)草圖基因組進(jìn)行注釋,這個(gè)過程挺麻煩的,在最下邊看到了也可以使用GMAP。我的目錄下之前已經(jīng)安裝了GMAP, 可我對(duì)這個(gè)軟件已經(jīng)一點(diǎn)印象也沒有了,再學(xué)習(xí)一下。
GMAP的方法不需要提供目標(biāo)基因組的注釋文件,只需要提供多倍體基因組的基因組序列和近緣物種的cds序列即可,github上的方法介紹鏈接:
https://github.com/tangerzhang/ALLHiC/issues/16
一.GMAP簡(jiǎn)介
GMAP是一款比對(duì)軟件,與bowie和bwa類似,能夠?qū)NA片段mapping到基因組上的軟件,最早用于將EST/cDNA序列比對(duì)到參考基因組上,可以用于基因組結(jié)構(gòu)注釋。后來又開發(fā)了GSNAP支持高通量數(shù)據(jù)比對(duì)。PacBio測(cè)序技術(shù)出現(xiàn)后,GMAP常用于Iso-Seq全長(zhǎng)轉(zhuǎn)錄本的比對(duì)。
二.GMAP構(gòu)建Allele.ctg.table
1. 準(zhǔn)備近源物種的cds序列和自己的草圖基因組序列。
2. GMAP對(duì)草圖基因組建立索引
gmap_build -D path -d dbname draft.genome.fasta
參數(shù)說明:
-D 創(chuàng)建索引的存放路徑(默認(rèn)存放在安裝路徑下的share文件夾);
-d 創(chuàng)建索引的名字;
3. GMAP生成gff3文件
gmap -D path -d dbname -t 12 -f 2 -n $N reference.cds.fasta > gmap.gff3
參數(shù)說明:
-t 表示使用多少條線程進(jìn)行計(jì)算,默認(rèn)是1;
-D 參考序列索引的位置;
-d 參考序列索引的名字;
-n 草圖基因組來源物種的染色體倍性;
-f 輸出格式,輸出的gff3格式,-f 有1-9個(gè)選擇;

4.? 生成allelic.ctg.table
gmap2AlleleTable.pl ref.gff3
注意:是ref.gff3文件,這一步要把gmap.gff3文件和ref.gff3文件和Perl腳本放到同一目錄下。
5. 結(jié)果allelic.ctg.table
注意:gmap.gff3文件和ref.gff3文件里面對(duì)于基因的Name或者ID編號(hào),格式要一致,否則生成的等位基因表會(huì)是一個(gè)空表,我就遇到這個(gè)問題了,正在解決這個(gè)問題,我會(huì)再單獨(dú)寫一篇文章記錄一下自己的解決過程。
參考:
ALLHiC續(xù): 如何構(gòu)建Allele.ctg.table_徐洲更hoptop的博客-CSDN博客
https://blog.csdn.net/u012110870/article/details/102943821
本文使用 文章同步助手 同步