散文網(wǎng) » 筆記 »全部筆記 » 教你利用clustalw和blat解決接頭問題問題

教你利用clustalw和blat解決接頭問題問題

2022-09-15 15:28 作者:微生信課堂 0人讀過 | 我要投稿

miRNA是一類長約22 nt的非編碼小RNA。miRNA通過堿基互補配對結(jié)合到靶mRNAs 3’UTRs以調(diào)控數(shù)百個基因的表達。因此，miRNA參與幾乎所有生命活動，與生物體的生長、發(fā)育、疾病、衰老和死亡息息相關(guān)，可以作為疾病診斷和檢測的生物標志物。

日常數(shù)據(jù)分析中，我們經(jīng)常會遇到各種來源的miRNA測序原始數(shù)據(jù)，有些測36 bp，有些測50 bp，有些測75 bp或者更長的。形形色色的reads長度，adaptor接頭序列，眾多測序公司來源的數(shù)據(jù)，給數(shù)據(jù)分析帶來了諸多不便。其中比較常見的問題就是：接頭序列是什么？

小編就曾經(jīng)遇到過這個問題，問某公司：“你們測序的接頭序列是什么”？答復(fù)：“保密”！小編當時就想懟他：不知道接頭序列，就沒法把接頭去掉，不去掉接頭怎么往下分析？都是一個圈子混的，保不保密我不知道嗎？

今天小編就教你如何在不知道接頭序列的情況下，把接頭序列從原始fastq文件中扒出來，同時把read的組成結(jié)構(gòu)也分析一下。

1，fastq數(shù)據(jù)格式

圖1. fastq格式

Fastq格式是測序原始數(shù)據(jù)存儲標準格式，存儲了每條read的序列及堿基質(zhì)量分數(shù)。如圖1所示，每4行代表一條read。

以Read1為例：

第1行代表序列的編號，以@開頭；一般包括：機器編碼（A00212），run id（123），flowcell編號（H3TTTDSX3），lane號（4），flowcell上的tile編號（1101），X坐標（8919）和Y坐標（1000），其后是barcode信息，用于將多個樣品拆開（demultiplex）。

第2行是read序列，一般ATCG，有時候有N。N表示熒光信號干擾無法判斷到底是什么堿基。

第3行是識別碼，以+開頭；后邊接序列標示符、描述信息等，或者干脆就是+

第4行是堿基質(zhì)量分數(shù)，與read序列一一對應(yīng)，即每個堿基有一個分數(shù)，表明該堿基的可信程度。由于不同型號機器出來的值不太一樣，因此可以根據(jù)這些值大概判斷測序儀型號。

2，miRNA read構(gòu)成

通常，miRNA read有三種構(gòu)成方式（如圖2所示）：

A：miRNA序列后邊直接連接adaptor接頭序列

B：miRNA序列前面加幾個堿基，后邊接miRNA序列，然后連接adaptor接頭序列

C：miRNA序列后邊加幾個堿基，然后連接adaptor接頭序列

圖2. miRNA read構(gòu)成

3，miRNA常見接頭序列

通常illumina測序的小RNA接頭序列有：TGGAATTCTCGGGTGCCAAGGAACTCC、AACTGTAGGCACCATCAAT、AGATCGGAAGAGCACACGTCT等，拿到原始數(shù)據(jù)后，首先可以先用這3種序列去搜下。搜到了就可以先用這些接頭去預(yù)分析下，拿到去接頭后的miRNA長度分布圖，如果長度分布正常（在22nt）附近有峰，則表示接頭序列正常去掉，這種一般是圖2中的A情況。對于B和C就無能為力了。

4，Clustalw檢測接頭序列

4.1 fastq collapse

在完全未知的情況下，我們可以這樣操作。首先，將fastq格式轉(zhuǎn)成fa格式，并且對每條不同的read序列進行計數(shù)，所謂的collapse步驟。

可以使用Galaxy在線工具進行操作。https://usegalaxy.org/，搜索collapse，上傳fa或者fastq文件即可，其功能是統(tǒng)計每條unique序列的個數(shù)

圖3. read序列collapse

以小編手里的fastq文件為例，經(jīng)過collapse后，前10條序列為：

圖4.top 10 read

肉眼可見，中間的部分序列在每條read中都存在，可能是潛在的接頭序列。

4.2 clustalw多重序列比對

使用在線clustalw多重序列比對軟件來檢查下我們的top10序列。一般情況下，如果實驗做的沒問題，個別miRNA的表達量會很高，它們可能占據(jù)了絕大部分的reads，因此我們可以利用這個大概率來進行校驗。

圖5. Clustalw輸入top10序列

圖6. 多重序列比對結(jié)果

其中星號為所有序列中都一樣的堿基?？梢钥闯?，后邊的星號連續(xù)排列，因此初步判斷為接頭序列，而星號前面一個堿基僅在test_8里邊與其他的9條不一樣，因此，我們也把T作為接頭的一部分，于是預(yù)測的接頭序列就是TGGAATTCTCGGGTGCCAAGGAACTCC……，經(jīng)過比較，發(fā)現(xiàn)與我們上面提到的接頭序列一樣，因此，可以完全確定接頭序列是正確的。

5，blat比對驗證read組成

在找到接頭序列后，我們可以將接頭序列及以后的堿基全去掉，這樣我們就得到了可能包含miRNA的reads。