小云來揭秘:為什么我做生信分析能出好結(jié)果
粉絲大人在找小云做定制化生信數(shù)據(jù)分析的時(shí)候,有一個(gè)疑問,你做的這個(gè)數(shù)據(jù)分析的方案的確不錯(cuò),創(chuàng)新性不錯(cuò),但是你能保證做出好的預(yù)期結(jié)果嗎?
直接上干貨:第一個(gè)就是閾值;第二個(gè)是算法;第三個(gè)就是結(jié)果展示;第四個(gè)上帝法則。

1、閾值選擇
我們做數(shù)據(jù)分析會(huì)根據(jù)實(shí)際情況進(jìn)行閾值調(diào)整,有時(shí)候要放寬一點(diǎn),有時(shí)要嚴(yán)格一點(diǎn),目的是要為了下游的分析能夠進(jìn)行下去。如果自己并不懂得去寫代碼,作為一個(gè)學(xué)生物信息學(xué)的人只用一些在線工具,并不一定能得到一些好的結(jié)果而已,你會(huì)發(fā)現(xiàn)經(jīng)常做著做著就做不下去了。
2、算法選擇
也就是方法選擇。比如同樣做免疫浸潤(rùn),cibersort出不來好結(jié)果,但是用ssGSEA,MCPCounter就有可能出來好多差異的,因?yàn)檫@兩種算法更接近基因的表達(dá)譜分布模式。
3、結(jié)果展示
要有取舍的做一些結(jié)果展示,比如在功能富集的時(shí)候,假如做的一個(gè)骨科類的數(shù)據(jù),卻富集到癌癥或者其它一點(diǎn)不相關(guān)的通路上,別人假如了解這個(gè)疾病背景的話,就會(huì)將這些結(jié)果不予展示,而我們往往會(huì)按照p.value值去展示TOP10,而不會(huì)取舍一些結(jié)果。有的新手可能不懂,會(huì)給你當(dāng)當(dāng)當(dāng)展示一大堆結(jié)果,覺得自己做了很多東西,不放上去很可惜,但是可能其實(shí)會(huì)引起一些前后矛盾,甚至引起審稿人的質(zhì)疑,質(zhì)疑你的結(jié)果前后矛盾。
4、上帝法則
小云深刻意識(shí)到客戶就是上帝,很多老師雖然不是很懂生信,但是有極強(qiáng)的學(xué)術(shù)背景,樂意和我們溝通,我們也非常樂意溝通,這樣就能夠在方案的前期其實(shí)就達(dá)到了老師的滿意,方案后期能夠給粉絲大人說的清清楚楚,讓粉絲大人了解這個(gè)分析報(bào)告的價(jià)值。據(jù)說,在我們團(tuán)隊(duì)早期(十年前),年輕的云生信學(xué)生物信息學(xué)團(tuán)隊(duì)為了秀技,花里胡哨的圖一大堆,給粉絲做報(bào)告解讀的時(shí)候,我們雖然能夠講清每個(gè)圖的意義,但是也無法講述一個(gè)好的故事,最后客戶從里邊選了2個(gè)圖草草了事。有時(shí)候做的多并不一定好。做到上帝心里想要的,才是最重要的。
“為什么在做一個(gè)生物信息學(xué)分析的時(shí)候,有的人能夠做出來好的結(jié)果,是順利利就發(fā)表了文章,有的人就出來一堆爛結(jié)果,甚至做著做著就做不下去了”,這個(gè)問題,到這就是初步的答案了。但是意猶未盡,因?yàn)檫€有很多點(diǎn)沒講到,大家動(dòng)動(dòng)手指支持下,小云看看后續(xù)是不是還繼續(xù)更新這個(gè)話題。
