More  

小編的世界 優質文選 生物

我能不能做生信?生信難嗎?


2021年1月14日 - 生物小編  
   

Ms六先生

教育達人

圖片來源:文獻截圖

但實際上不用怕的,阿 Q 一點你甚至可以這麼想「如果我學會了,是不是很牛逼?」

生信表面上看起來難,但我自己學習時的理念一直都是:生信是生物學和計算機的交叉學科,計算機大神多,很多技術上的難題都已經幫我們解決,跟著大神的腳步走就可以了。

今天,想跟大家簡單介紹下生信的前世今生,並通過一個小例子告訴大家,生信並不可怕,生信可以學!

個人十分推薦學新東西的時候花點時間了解它的歷史,了解它在什麼背景下為解決什麼問題而出現,目前進展到什麼程度,將來又將去往何方。

如果你想了解一個疾病或一個分子,一份高質量的 Review 是很不錯的選擇。但對於一項新技術,百度百科或維基百科就夠了。

圖片來源:文獻截圖

如維基百科百度百科的介紹:「Bioinformatics」是 Biology(生物學)+information(信息學)+omics(組學)以及數學和統計學組成的新興交叉學科。

它伴隨著上個世紀八九十年代人類基因組計劃的誕生而出現。

「人類基因組計劃其宗旨在於測定組成人類染色體(指單倍體)中所包含的 30 億個堿基對組成的核苷酸序列,從而繪制人類基因組圖譜,並且辨識其載有的基因及其序列,達到破譯人類遺傳信息的最終目的(百度百科)」。

30 億個堿基對這麼龐大的數據,做過實驗的大家都知道這個叫「原始數據」,本身並沒有什麼意義,就是些數值而已。得到這些數據後如何處理、分析,以解決現實生活中的問題,是科學家們進一步思考的問題。

由於傳統的生物學方法無法處理這麼龐大的數據量,利用計算機強大的計算能力,生物信息學運應而生。

這就是生物信息學誕生最初的背景。

近年來的蓬勃發展,主要歸功於測序技術的飛速迭代。早期人類基因組計劃 1 個堿基對測序的價格在 1 美元,全基因組測下來 30 億美元。

而如今,基因組已經進入了千元時代,人人都可以想做就做,因而產生了大量的有待分析數據。

生物信息學的基本功能

了解了什麼是生物信息學,下一步就是要知道怎麼利用它來解決實際問題,包括指導基礎實驗方向或結合臨床數據解決實際問題等。

這裏就回到一開始的問題:

「用生信手段輔助自己課題進展,一定要會寫代碼,會複雜的 R 語言並掌握大量的數學、統計知識才能開始嗎?」

答案是否定的。

上面提到的知識都懂當然最好,但作為一個臨床醫生或醫學生,顯然是不現實的,不然計算機或統計學專業的人早該下崗了。

幸運的是,計算機高手們理解我們的需求並已經幫我們解決了相當一部分問題。諸多在線工具,簡單幾步操作便能高效產出自己想要的效果。

不信我們來試一試。

現在,就讓我們看看如何用在線工具——「GEO2R」畫一張漂亮又高大上的差異基因表達 Differentially Expressed Genes(DEGs)火山圖,並理解其基本含義及價值。

生信的最基本步驟是對從數據庫檢索出的數據進行 「差異基因篩選」。

我們就以此為例,看看統計學家和計算機學家有多貼心。

圖片來源:網頁截圖

這裏我們選用 GEO 數據庫,GEO 數據庫全稱為(GENE EXPRESSION OMNIBUS),感興趣的可以去了解下,儲存了大量腫瘤跟非腫瘤的數據。

首先進入 PubMed,選擇 GEO DateSets,在此以「lung cancer」檢索出的第一個數據為例。

點擊打開後,我們會看到對這個數據集的簡單介紹,類似文章的摘要,介紹作者用的什麼芯片,有多少例病人,以及如何分組等。

我們直接點擊「Analyze with GEO2R」試試。

圖片來源:網頁截圖

根據作者定義的「Source name」我們可以點擊「Define groups」進行待分析組別的定義。然後,左鍵點擊勾選,得到如下圖。

圖片來源:網頁截圖

這時候我們把需要分析的數據都選上了,直接拉到底部點擊「Analyze」開始分析。

圖片來源:網頁截圖

短暫的等待,神奇的事情就發生啦,我們會得到如下界面,圖可以直接保存,數據可以下載!

圖片來源:網頁截圖

有沒有上面覺得很漂亮,很棒!我們暫時不展開解釋這些圖的意義,而是來看看統計學家和計算機大神們有多貼心。

剛剛我們直接選擇了「Analyze」,會用鼠標,一鍵點擊就能出圖。

我們再回過頭來「GEO2R」旁邊的「Options」,你會看到這個在線工具選用了什麼統計方法。

比如這裏用的「Benjamini & Hochberg」以及後面幾欄內容,相信大多數臨床醫生是看不懂的。但沒關系,工具就是這麼傻瓜式,選默認值就可以!

圖片來源:網頁截圖

這些漂亮的圖通過 R 語言進行可視化的,不知不覺中你已經用到 R 語言了,是不是自己都沒注意到?

點擊第四欄「R script」,鼠標滾動一下就能看到密密麻麻的代碼。學過編程的都知道,一個空格敲錯電腦都會報錯,代碼別人已經幫你寫好了,很幸福有沒有!

圖片來源:網頁截圖

怎麼樣,到這裏學生信是不是有點信心了?

今天,我們只展示了差異基因篩選的在線插件使用。生信後續的數據處理其實類似,你懂 R 語言最好,但很多時候是可以借助一些公認可以使用的工具跳過的。

具體如何使用有機會後續再交流,總之,生信可以學,要有信心!