国产精品天干天干,亚洲毛片在线,日韩gay小鲜肉啪啪18禁,女同Gay自慰喷水

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

和小果學習如何一鍵轉換gtf和gff3文件

2022-12-30 11:39 作者:小云愛生信  | 我要投稿

爾云間? 一個專門做科研的團隊

原創(chuàng)?小果?生信果

接觸過基因組和轉錄組的小伙伴肯定對這兩個格式不陌生吧,這是基因組的注釋文件,但比較煩人的是有些時候需要gtf格式,有時候需要gff3格式,所以需要一個方法,可以在這兩種格式之間相互轉換。


先來了解一下這兩種格式


Gff3全稱General Feature Format Version 3

存儲序列結構信息的一種數(shù)據(jù)格式。序列結構就是一個scaffold或者染色體上面每個位置都是什么序列元件。


GFF每一行代表一個序列元件(以#為開頭的注釋行除外),一行9列9個屬性,必須tab分割,屬性為空用“.”代替。


關于gtf文件

當前所廣泛使用的GTF格式為第二版(GTF2),它主要是用來描述基因的注釋。GTF格式有兩個硬標準:


根據(jù)所使用的軟件的不同,feature types是必須注明的。


第9列必須以gene_id以及transcript_id開頭。GTF文件的第9列同GFF文件不同,雖然同樣是標簽與值配對的情況,但標簽與值之間以空格分開,且每個特征之后都要有分號;(包括最后一個特征)


轉換的話需要在linux下進行,Cufflinks里面的工具gffread


#gff2gtf
gffread my.gff3 -T -o my.gtf
#gtf2gff
gffread merged.gtf -o- > merged.gff3

上面這兩步是對gff3和gtf格式的文件進行相互轉換。

gffread genome.gff3 -g genome.fa -x? cds.fa
gffread genome.gff3 -g genome.fa -y? protein.fa
gffread genome.gff3 -g genome.fa -w? transcripts.fa

這幾步就是可以根據(jù)基因組序列文件和基因組注釋文件得到cds文件,蛋白序列和轉錄本序列。


最后提醒一下大家,在linux系統(tǒng)下運行軟件,要么前面加上路徑,要么把軟件寫進環(huán)境變量,否則是運行不了的喲。


好了,這就是今天的主要內(nèi)容了,其實挺簡單的,小伙伴們有什么問題就和小果討論吧。

推薦閱讀



shengxinguoer

生信果


生信硬核知識解答

和小果一起學生信


和小果學習如何一鍵轉換gtf和gff3文件的評論 (共 條)

分享到微博請遵守國家法律
沙田区| 房产| 庆阳市| 水城县| 罗江县| 勐海县| 屯门区| 电白县| 绥阳县| 加查县| 米脂县| 乌拉特后旗| 马山县| 西平县| 南康市| 灵山县| 明溪县| 喀喇沁旗| 宜州市| 蓬溪县| 康乐县| 梓潼县| 张家川| 临沧市| 通城县| 绥中县| 萨嘎县| 乐都县| 咸宁市| 文水县| 钦州市| 盐津县| 楚雄市| 德江县| 万州区| 醴陵市| 托克逊县| 石首市| 固原市| 淳安县| 平南县|