More  

小編的世界 優質文選 生物

AI再發力,解決困擾生物學家近50年的一個基本問題


2021年1月17日 - 生物小編  
   

科學辟謠

中國科協科學辟謠平台

蛋白質的折疊,好似折紙,不同結構決定

作者|陸修遠

我們的生命離不開蛋白質。蛋白質是一切生命活動的基礎物質,它是運輸氧氣的載體,是幫助抵禦病毒的抗體,也是消化食物的酶。蛋白質之所以能夠承擔多種多樣的功能,很大程度上是因為它們具有豐富而複雜的空間結構。

可是,蛋白質如何折疊成這些獨特的形狀呢?這是生物學領域的一個重大挑戰,已經困擾科學家們近50年時間。而就在最近,谷歌開發的人工智能系統 AlphaFold 將蛋白質結構預測的准確度提高到了原子水平,可以說基本解決了這個“蛋白質折疊問題”。
這比許多科學家的預期還要早幾十年,顯示出 AI 對解決重大科學問題的潛力。

 01.

困擾科學家近50年的難題

蛋白質占據我們每個人體重的大約20%,是除水分(60%)以外第二多的物質種類,其它的脂質、碳水化合物、核酸以及各種無機物加起來,也僅僅占到20%。蛋白質在人體中含量如此之高並不奇怪,因為蛋白質是生命活動的主要承擔者,沒有蛋白質就沒有生命。

人類的生命活動須臾都離不開蛋白質的參與。無論是身體收縮肌肉、眼睛感知光亮,還是消化系統將將食物轉化為能量,我們身體的每一項功能之所以能夠正常行使,幾乎都依賴於蛋白質。

生命的每一項活動都依賴於蛋白質。左下為紅細胞,右下為抗體蛋白。|圖蟲創意

目前地球上已知的蛋白質大約有兩億種,每一種蛋白質都有獨特的空間結構。蛋白質在生物體中能夠發揮多種多樣的功能,很大程度上取決於它們的三維結構。

例如,我們免疫系統中的抗體蛋白是“Y形”的,並且會形成獨特的鉤狀,這使得它們能夠附著在病毒和細菌上,檢測和標記致病微生物,將其徹底消滅。膠原蛋白的形狀像擰起來的繩索,因而能夠在軟骨、韌帶、骨骼和皮膚之間傳遞張力。還有在被稱為“基因魔剪”的 CRISPR-Cas9 基因編輯技術中,Cas9 蛋白質利用 CRISPR 基因序列作為向導,像剪刀一樣靈巧地剪切和粘貼 DNA 片段。

然而,確定蛋白質的空間結構一直是生物學中的巨大挑戰。1972年,也就是將近50年前,諾貝爾化學學獎得主 Christian Anfinsen 就猜測,蛋白質的氨基酸序列應該可以完全決定其空間結構。可是要如何根據蛋白質的氨基酸序列來確定它的空間結構呢?這就是困擾科學家們近50年的“蛋白質折疊問題”。

02.

蛋白質如何將自己折疊起來?

蛋白質就像是一台精心組裝的機器,它的零件是我們身體內的20種氨基酸。在基因編碼合成氨基酸序列的過程中,一個個氨基酸分子遵照基因序列中蘊含的遺傳信息指令,像珠子一樣有序綴連起來,形成多肽鏈,構成蛋白質的一級結構。

然而,通常的機器只要按照設計圖將零件組裝起來就可以運轉,而氨基酸分子連接成多肽鏈後,蛋白質分子的建造還沒有結束,它還需要進一步折疊出空間結構才能發揮功能。可是基因序列只決定氨基酸序列的合成,並不包含更多信息指導它如何折疊成獨特的三維結構。

事實上,氨基酸序列的折疊方式蘊含在自身之中,它們自己設計自己如何折疊。一維多肽鏈中的氨基酸分子像是懂得彼此溝通一樣,它們有些相互排斥,有些彼此吸引,形成螺旋、折疊成褶皺,構成蛋白質的二級結構。接著,它還會進一步折疊成獨特的空間結構,像一根毛線繞成線團那樣,構成蛋白質的三級結構。

氨基酸連接形成一維的多肽鏈,然後進一步折疊形成具有獨特三維結構的蛋白質。有些時候,還會形成更複雜的四級結構。|DeepMind

整個蛋白質折疊的過程看似隨機,卻又仿佛遵循著一張設計藍圖,一旦組成蛋白質的氨基酸序列確定下來,它的折疊方式也就完全確定了。這實際上很符合直覺,我們可以想象,如果同樣的氨基酸序列可以折疊成不同結構的蛋白質,發揮不同的功能,我們的身體內部會陷入怎樣的混亂狀態。

自然界經過漫長的生命進化過程,蛋白質分子在一眨眼之間就能夠自發地完成整個折疊過程。但科學家們發現,如果想要通過計算氨基酸分子間的相互作用來預測它們如何折疊,那麼要窮盡所有可能的蛋白質構型,需要的時間將比整個宇宙年齡還要長。

這個問題困擾了科學家們很長時間。但是在人工智能進入這個領域後,預測蛋白質折疊的准確性很快獲得提升。

03.

AI出手!精確預測蛋白質結構

人工智能(AI)的一種實現手段是時下流行的機器學習。2016年打敗人類圍棋冠軍的AlphaGo和此次預測蛋白質結構的AlphaFold,利用的都是機器學習算法。它的大致思路是,先將大量已有的數據——包括結果(比如圍棋棋譜、貓狗圖片等)輸入計算機,然後計算機對這些數據進行分析,利用它驚人的計算能力從這些數據中尋找特征或規律 。這樣,對於以後輸入的新數據,它就能作出“富有經驗”的高明反應了。

2016年,人工智能阿爾法狗(AlphaGo)打敗圍棋九段李世石。2017年,進化的阿爾法狗又讓天才圍棋少年柯潔碰了壁。圖為李世石。|來自網絡

更為先進的人工智能算法甚至允許只輸入很少量的學習樣本,就能掌握相關技能。比如AlphaGo的升級版本根本不需要輸入棋譜,只要知道圍棋的規則,就能根據算法對規則進行自我摸索和訓練,通過自己跟自己對弈,最終獲得超越人類頂級圍棋高手的能力。

AlphaFold解決蛋白質折疊問題的過程與AlphaGo學習下圍棋的過程類似,只不過輸入的是大量蛋白質的序列和結構數據——這些數據來自實驗室中實際測得的數據。AlphaFold從中找尋氨基酸分子之間的相互作用、蛋白質片段之間的演化關系,從而獲得了預測蛋白質結構的強大能力。最終,只要知道蛋白質的氨基酸序列,就能迅速而准確地預測出它的結構,相當於通過精妙的算法,將蛋白質的一級結構和三級結構准確地聯系了起來。

AI 通過精妙的算法,由氨基酸序列(最左)即可預測出蛋白質結構(最右)。|thenewstack

在2018年的蛋白質結構預測競賽 (CASP)中,AlphaFold 在所有參賽團隊中排名第一,准確地從43種蛋白質中預測出了24種蛋白質的結構,取得了前所未有的進步。

到了2020年,AlphaFold的升級版本從生物學、物理學和機器學習領域的最新進展中汲取靈感,升級算法,再次以壓倒性的優異成績奪冠。這一次,AlphaFold預測的多種蛋白質結構與實驗結果僅僅存在原子尺度的細微差異,達到了與傳統的試驗方法相媲美的程度,可以說AlphaFold基本解決了蛋白質折疊問題。

 04.

生物學家要失業了嗎?並未!

AlphaFold取得里程碑性質的進展,讓人類有望在諸多領域得到來自AI的切實助力。例如在醫藥領域,阿爾茨海默症、帕金森綜合征、亨廷頓綜合征等神經系統病變都與蛋白質的錯誤折疊有關,這直接導致蛋白質結構和功能出現異常。而AI的介入將讓人類更有效地了解這些錯誤折疊背後的機理,從而提出更加有效的治療方案。

還有這次疫情。新冠病毒大約由 30 種蛋白質組成,在 CASP14 競賽中,AlphaFold 精確預測了其中一種蛋白質(ORF8)的結構。|Fusion Medical Animation

工業領域同樣會受到這一成就的積極影響。以酶化工為例,多種蛋白酶已經作為反應催化劑獲得了廣泛應用。其中很多種都是人類近年才發現的新型蛋白質,它們個個身懷絕技,有些能夠分解原油、有些能夠降解塑料。對於這些蛋白質的結構和催化機理,我們目前都只有非常初步的認識,AI無疑將大大加速相關研究的進展。

有趣的是,在聽聞AlphaFold解決了蛋白質折疊問題的消息後,很多人調侃說,結構生物學家以後要失業了。不過事實上,AlphaFold只是為結構生物學家們提供了獲得蛋白質結構的一種手段,正如傳統的核磁共振、X射線衍射和冷凍電鏡方法一樣。這些特定結構在生命體中如何發揮功能,才是更需要結構生物學家們回答的問題。

如著名結構生物學家顏寧所言,結構只是用來做出生物學發現的手段。比如弄清楚剪切體這個龐然大物的結構之後,由此揭示出“幾百個蛋白質如眾星捧月般簇擁著RNA,一剪子一鉤針地剪接 DNA 序列中的內含子和外顯子”,這個過程才是真正的神奇。

除了預測蛋白質結構,AlphaFold 也將促進蛋白質設計的發展。在未來,AI或許可以幫助人類根據自身獨特需要,創造出自然界中原本不存在的蛋白質。屆時,必將是生命科學的一次飛躍。

作者|陸修遠 大阪大學免疫前沿中心

審稿|李劍南 大阪大學蛋白質研究所

編輯 | 陳天真

責編 | 高佩雯

參考鏈接:

https://www.deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology

https://www.deepmind.com/blog/article/AlphaFold-Using-AI-for-scientific-discovery