Multi-omics Hammer軟件之fasta格式整理和保守結(jié)構(gòu)域查找

上一篇推文主要介紹了一下Multi-omics Hammer軟件的Aligment功能,本篇就接著上一篇推文繼續(xù)介紹如何使用該軟件進(jìn)行fasta格式的整理和保守結(jié)構(gòu)域(或可變剪切位點(diǎn))的查找。
一?功能開發(fā)
與上一篇推文一樣,本推文也先介紹一下開發(fā)這些功能的初衷吧。遙想當(dāng)年剛接觸fasta文件時(shí),對(duì)這些格式懵懵懂懂。殊不知,這些文件所包含的信息貫穿整個(gè)學(xué)生生涯(也可能在以后的科研生涯)。然后,在使用這些文件進(jìn)行數(shù)據(jù)分析的時(shí)候卻發(fā)現(xiàn)諸多不便,因此想要開發(fā)一些簡(jiǎn)單的功能來(lái)解決這些問(wèn)題。下面將依次介紹各個(gè)功能希望解決的痛點(diǎn)。
1.1 對(duì)于一個(gè)位于fasta文件中的A基因而言,如果它的序列片段有幾千bp,那么這些序列以fasta文件保存的時(shí)候就會(huì)被切分為許多行。這時(shí)如果需要檢索這個(gè)A基因是否包含幾百個(gè)bp的片段part1時(shí),就需要人工將A基因被fasta格式切分成幾十段的序列拼接成一段。只是,這種操作繁瑣又無(wú)任何意義,因此就想是否能夠通過(guò)代碼實(shí)現(xiàn)這一簡(jiǎn)單的不能再簡(jiǎn)單的功能呢。于是就有了fa_to_primer_format功能的開發(fā)。
1.2 當(dāng)然,許多軟件需要的文件格式為fasta格式。因此,同一遇到A基因,但是它的序列按照不同的長(zhǎng)度被分割為數(shù)行,這時(shí)如何整理文件??咳斯た梢酝瓿蓭讉€(gè)基因的操作,但是成千上萬(wàn)的基因就無(wú)法實(shí)現(xiàn)了。這里提供一個(gè)小技巧,可以通過(guò)兩步實(shí)現(xiàn)fasta格式的整理。首先,將序列文件通過(guò)fa_to_primer_format功能整理成單行基因名單行序列的形式。隨后,通過(guò)primer_to_fa_format功能將文件格式整理成fasta格式。最后,該文件就可以用做其他軟件的輸入文件。
1.3 對(duì)于一個(gè)基因組文件而言,或許用戶需要查找其中的可變剪切位點(diǎn)或保守結(jié)構(gòu)域part1(特定序列)。那么逐個(gè)基因依次查找會(huì)是一個(gè)方法,只是明顯不夠高效,于是便有sequence_verified功能的提出。
1.4 對(duì)于這個(gè)功能,可能是基于在之前實(shí)驗(yàn)室的習(xí)慣吧。因?yàn)楫?dāng)時(shí)保存單個(gè)引物序列時(shí)通過(guò)下面這種格式(行數(shù)據(jù):基因名{制表符}上游基因{制表符}下游基因)進(jìn)行保存。只是這種保存方式,不利于后續(xù)對(duì)單個(gè)序列的特異性(Blast)進(jìn)行檢測(cè),因此便有了sangon功能,但是這一功能不具有普適性。
二?軟件調(diào)用
介紹完上述功能需要解決的問(wèn)題,下面便介紹如何通過(guò)軟件完成相關(guān)分析。
2.1 我們需要先打開‘Primer’選項(xiàng),如圖1所示。

那么,我們就可以看見我們的Primer對(duì)話框了(圖2)。這一對(duì)話框運(yùn)算部分提供了三個(gè)選項(xiàng)。首先是‘is save’選項(xiàng),這個(gè)選項(xiàng)是用來(lái)表明是否保存數(shù)據(jù);其次是‘simple alig?’選項(xiàng),這一選項(xiàng)則表明是否僅用對(duì)話框中呈現(xiàn)的數(shù)據(jù)進(jìn)行運(yùn)算(如果不勾選,則使用拖入到比對(duì)文件對(duì)話框的文件內(nèi)容進(jìn)行運(yùn)算)。需要注意的是對(duì)于一些童鞋而言,可能只是簡(jiǎn)單看一下結(jié)果,沒有必要特意生成兩個(gè)文件(比對(duì)文件和背景文件)。因此,僅使用這個(gè)‘simple alig?’選項(xiàng),我們可以將數(shù)據(jù)直接輸入到比對(duì)文件對(duì)話框和背景文件對(duì)話框中即可。注意:這兩個(gè)對(duì)話框如果直接將文件拖入,則會(huì)直接讀取文件的內(nèi)容,并展示前100行的數(shù)據(jù)。而結(jié)果文件對(duì)話框則只會(huì)顯示文件的路徑。因?yàn)?,已?jīng)提供了結(jié)果預(yù)覽部分。最后,最重要的選項(xiàng)就是‘start’選項(xiàng)了,點(diǎn)擊后即可直接進(jìn)行運(yùn)算。除了上述選項(xiàng)外,本軟件的其他界面部分也將以行為主進(jìn)行逐一介紹。
Conversion方法:可以選擇fasta轉(zhuǎn)為primer格式(fa_to_primer_format)、primer轉(zhuǎn)為fasta格式(primer_to_fa_format)、生工引物轉(zhuǎn)換(sangon)和序列驗(yàn)證(sequence_verified)。
輸入文件:需要統(tǒng)計(jì)的文件。
結(jié)果預(yù)覽:預(yù)覽輸出結(jié)果。
結(jié)果文件輸出:輸出結(jié)果的文件。
因?yàn)楣δ茌^為簡(jiǎn)單,所以可選的選項(xiàng)也不多。

2.2 為了方便用戶了解這一功能,本軟件也提供了示例文件,通過(guò)點(diǎn)擊圖3的方框3的‘load test’選項(xiàng)即可加載示例數(shù)據(jù),如方框4和方框5,均為加載示例文件的數(shù)據(jù)。隨后,點(diǎn)擊‘start’即可得出結(jié)果。

當(dāng)然,用戶也可以直接將文件拖入進(jìn)入相應(yīng)的為對(duì)話框(輸入文件對(duì)話框)。如圖4所示,用戶可以直接將文件分別拖入到對(duì)話框中,軟件會(huì)自動(dòng)識(shí)別并加載數(shù)據(jù)。

如果用戶想要切換方法,可以在Conversion方法部分下拉菜單中重新選擇。

2.3為方便用戶了解產(chǎn)生的結(jié)果文件,下面將以功能為單位,從輸入數(shù)據(jù)和結(jié)果數(shù)據(jù)兩個(gè)方面去展示各個(gè)功能。部分功能過(guò)于簡(jiǎn)單,相信讀者可以直接從這兩組數(shù)據(jù)中得出結(jié)論,便不再贅述。
2.3.1 fasta轉(zhuǎn)為primer格式(fa_to_primer_format)
輸入數(shù)據(jù)為:
結(jié)果數(shù)據(jù)為:
2.3.2 primer轉(zhuǎn)為fasta格式(primer_to_fasta_format)
輸入數(shù)據(jù)為:
結(jié)果數(shù)據(jù)為:
2.3.3生工引物轉(zhuǎn)換(sangon)
輸入數(shù)據(jù)為:
結(jié)果數(shù)據(jù)為:
2.3.4 序列驗(yàn)證(sequence_verified)
輸入數(shù)據(jù)為:
結(jié)果數(shù)據(jù)為
這里需要簡(jiǎn)單介紹一下這個(gè)功能的使用介紹。其中輸入數(shù)據(jù)的首行為需要進(jìn)行檢索的可變剪切位點(diǎn)或者保守結(jié)構(gòu)域,隨后的數(shù)據(jù)為單行基因名,單行基因序列的格式依次展現(xiàn)。結(jié)果數(shù)據(jù)為三列,第一列為基因名,第二列為邏輯值(T表示該基因有可變剪切位點(diǎn)或者保守結(jié)構(gòu)域,F(xiàn)則表示無(wú)),第三列為檢索到的可變剪切位點(diǎn)或者保守結(jié)構(gòu)域數(shù)量。
三 日常小結(jié)
通過(guò)上述步驟,即可實(shí)現(xiàn)通過(guò)fasta格式的文件進(jìn)行一些簡(jiǎn)單的操作。如果讀者覺得還有什么功能需要實(shí)現(xiàn),也可直接通過(guò)公眾號(hào)留言。不過(guò)還是那句話,改進(jìn)的進(jìn)度可能要全憑本人時(shí)間安排,無(wú)法強(qiáng)求(因?yàn)橹鳂I(yè)更重要)。
本公眾號(hào)開發(fā)的相關(guān)軟件,Multi-omics Hammer軟件和Multi-omics Visual軟件歡迎大家使用。文末是本公眾號(hào)在其他平臺(tái)的賬戶,也歡迎大家關(guān)注并多提意見。
簡(jiǎn)書:WJ的生信小院
公眾號(hào):生信小院
博客園:生信小院?
最后,也歡迎各位大佬能夠在本平臺(tái)上:1傳播和講解自己發(fā)表的論文;2:發(fā)表對(duì)某一科研領(lǐng)域的看法;3:想要達(dá)成的合作或者相應(yīng)的招聘信息;4:展示自己以尋找博后工作或者博士就讀的機(jī)會(huì);5:博導(dǎo)提供博后工作或者博士攻讀機(jī)會(huì),都可以后臺(tái)給筆者留言。希望本平臺(tái)在進(jìn)行生信知識(shí)分享的同時(shí),能夠成為生信分析者的交流平臺(tái),能夠?qū)崿F(xiàn)相應(yīng)的利益互補(bǔ)和雙贏(不一定能實(shí)現(xiàn),但是夢(mèng)想總得是有的吧)。
另外,怎么說(shuō)呢,投幣也可,不強(qiáng)求,但奢求?


