bioinformation
核酸、蛋白質(zhì)數(shù)據(jù)庫
數(shù)據(jù)庫介紹:https://zhuanlan.zhihu.com/p/386807269
一些名詞:一級數(shù)據(jù)庫 二級數(shù)據(jù)庫 參考序列數(shù)據(jù)庫RefSeq
常用基因組數(shù)據(jù)庫????https://www.jianshu.com/p/49f67a413b11
主要用到:
www.ncbi.nlm.nih.gov
https://www.uniprot.org
https://asia.ensembl.org/index.html
http://cbcb.cdutcm.edu.cn/TCMPG
*傳統(tǒng)中藥植物基因組數(shù)據(jù)庫。*UniProt主要由SIB的Swiss-prot和EBI的TrEMBL兩部分構(gòu)成,兩者最大的區(qū)別是:UniProtKB/ SWISS-PROT是Reviewed的,而UniProtKB/TrEMBL則是UnReviewed的數(shù)據(jù)。
數(shù)據(jù)庫格式
常用:Fasta;GBFF(GenBank格式);EMBL格式(百度Fasta條目有說明)

文獻檢索
常用網(wǎng)站:
http://www.ncbi.nlm.nih.gov/
PubMed
www.webofscience.com
https://www.cnki.net/
sci-hub.wf
字段介紹 https://zhuanlan.zhihu.com/p/597890355
常用字段:Affiliation(可以限定國家、機構(gòu))
'[journal']: 限定文獻類型,或者其它附加條件(中括號)
bacter*:檢索bacter開頭的單詞
"single cell":只檢索這個短語,不會聯(lián)想
rice AND(OR) grain:邏輯運算符,必須大寫
例子:(xxx[Author)) AND (xxx[Text Word]) AND (xxxx[Text Word])(Artemisia annua[Title/Abstract]) AND (development[Title/Abstract])
序列比對
相似性(similarity);同源性(homology):是否具有共同祖先,0/1;一致性(identity)
相關(guān)文章
https://zhuanlan.zhihu.com/p/389535844
https://zhuanlan.zhihu.com/p/388632043

http://www.ncbi.nlm.nih.gov/BLAST
結(jié)果參數(shù):E值表示隨機誤差,越小越好(E值,描述給定大小的數(shù)據(jù)庫隨機情況下期望得到的匹配數(shù)目。是衡量比對結(jié)果顯著性的一個尺度);Per.Ident即序列一致性;Acc.Len即比對上的序列長度
一些問題:
對于查詢同源性較遠的相似序列,為什么蛋白質(zhì)查詢比核酸查詢要好?由于密碼子的簡并性,發(fā)生同義突變后蛋白質(zhì)序列并不會改變;在真核生物中還存在斷裂基因,內(nèi)含子的變異對蛋白質(zhì)的影響較小。故同源性較遠的相似序列,因為經(jīng)過了長時間的變異,可能存在DNA序列差異較大,而蛋白質(zhì)較為相似的情況。在這種情況下,使用蛋白質(zhì)查詢便能更好的找到相似序列。具體表現(xiàn)為蛋白質(zhì)查詢能找到更高得分,更高覆蓋度且E值更小的結(jié)果
blastP中可以勾選PSI-BLAST,尋找遠緣相關(guān)蛋白
引物設計
https://www.ncbi.nlm.nih.gov/tools/primer-blast/index.cgi
qPCR 定義 用途-> 今天學習設計其引物-> ?引物設計要求:特異性、保守(這個是拿a的序列在b物種里克?。?/p>
引物設計原則:Tm(退火溫度,兩個引物間不能差太大)、堿基組成(4種分布均勻,GC40-60)、小于3bp的自生互補(self complementarity)等
退火溫度不超過72-> 退火時間相對比較久,這個溫度對酶的活性不大好
今天查序列,原來gene和nucleotide是兩種。之前查的都是后者
primerParameters里的use my own引物,主要是拿來作為設計好引物之后的校驗
進化樹
相關(guān)概念 ????https://zhuanlan.zhihu.com/p/411238939
????????????? ? ????https://zhuanlan.zhihu.com/p/141835886
構(gòu)建方法???? https://zhuanlan.zhihu.com/p/4713095171)
序列間相似性程度比較低時,使用距離法(UPGMA和NJ);近緣序列,使用最大簡約法(MP);有合適的模型,可以選擇最大似然法(ML)
名詞:【自展檢驗】(>70)【p-距離】
蛋白質(zhì)序列分析與結(jié)構(gòu)預測
https://www.rcsb.org 感受高級檢索,id、氨基酸殘基序列等 (這個是PDB數(shù)據(jù)庫,蛋白質(zhì)(三維)結(jié)構(gòu)數(shù)據(jù)庫)
數(shù)據(jù)庫里面具體的信息。以及蛋白質(zhì)3d結(jié)構(gòu)預測工具(visualize里)、序列比對工具 (analyze里)
可以用uniprotein的id來這里搜索相關(guān)蛋白
結(jié)構(gòu)比序列保守,反應出的同源關(guān)系更可靠。結(jié)構(gòu)家族分類數(shù)據(jù)庫:SCOP(人工分類,分類級別,類中蛋白的同源關(guān)系;前兩類結(jié)構(gòu)相似,后兩類序列相似)、CATH(ai分類)CATH,可以直接搜索,進行匹配,有點像blast相關(guān)文章(https://wenku.baidu.com/view/1bbca7f925fff705cc1755270722192e45365897.html)
https://www.umass.edu/microbio/rasmol/ --> http://polyview.cchmc.org/polyview3d.html
蛋白結(jié)構(gòu)預測【基于序列預測結(jié)構(gòu)】(一級(https://www.expasy.org/)(可以看等電點protprama之類的信息)、跨膜結(jié)構(gòu)(tmhmm:https://services.healthtech.dtu.dk/service.php?TMHMM-2.0)等
基于蛋白質(zhì)序列特征的功能預測(亞細胞定位預測 https://wolfpsort.hgc.jp/ )
https://www.ebi.ac.uk/interpro/ 蛋白質(zhì)分類家族數(shù)據(jù)庫、基于蛋白質(zhì)信號的功能預測(信號:序列中的功能位點,像是一些組件以及模塊,比如motif、domain等)。所以可以看這個蛋白有哪些結(jié)構(gòu)域還有一個embl下屬的smart數(shù)據(jù)庫--還可以分析蛋白質(zhì)翻譯后修飾(糖基化、泛素化等位點)http://smart.embl-heidelberg.de????????http://pfam.xfam.org
低復雜度區(qū)域:常見的,沒信息量的區(qū)域
P167 二級結(jié)構(gòu)預測 http://www.compbio.dundee.ac.uk/jpred/
三級結(jié)構(gòu)預測 https://swissmodel.expasy.org/
基于序列相似性的功能預測:搜尋ORF https://www.ncbi.nlm.nih.gov/orffinder/
uniprot包括swiss-prot和trEMBL。trEMBL是前者的先行版,質(zhì)量不如前者
信號肽預測 https://services.healthtech.dtu.dk/service.php?SignalP-5.0
一般分析,信號肽和跨膜結(jié)構(gòu)只考有無
?