朗讀人類生物學的大突破，就這樣被 AI 做到了第人類生物學的大突破，就這樣被 AI 做到了

《人類生物學的大突破，就這樣被 AI 做到了》
極客公園鯤鵬計劃獲獎作者,北京傳奇極客管理咨詢有限公司,優質科技領域創作者多年之後，當人們總結這些年的 AI 浪潮，最具應用價值突破的會是什麼？不會是 2016 年 AlphaGo 下棋超過人類最強棋手李世石，而會是 AlphaFold2 准確預測了「蛋白質折疊」。 2020 年 12 月的「蛋白質結構預測比賽（CASP）」上，DeepMind 的 AlphaFold2 算法預測取得第一名，達到了實驗解析的精度。DeepMind 的 CEO 德米斯·哈薩比斯（Demis Hassabis) 說：「這是迄今為止 AI 在推動科學上作出的最大貢獻，我覺得這一點不誇張。」AI 在下棋上超過人類，沒有解決任何應用問題，AlphaFold2 能夠准確預測「蛋白質折疊」，則是把生物學的進程向前推動了一步。
AlphaFold2 預測出的蛋白質三維結構「沒有折疊」的蛋白質，是一條氨基酸鏈，當它折疊成三維結構，才擁有了功能。弄清楚蛋白質怎樣折疊，是生物學研究了 50 多年的難題。CASP 的比賽規則是，告訴你蛋白質氨基酸的序列，你來預測它會折疊成什麼結構。只有通過結構理解功能，很多難題才有可能進一步被解答。像阿爾茲海默症、老年帕金森等疾病都是由於蛋白質錯誤折疊導致的。通過解析癌細胞的蛋白質，研究治療靶點，也是更好治療癌症的希望所在。在賽後的會議上，面對 AlphaFold2 的得分，一位年近 70 的比賽組織者感歎，「不敢相信，我竟然活了這麼久看到了這個結果。」不久前，DeepMind 團隊在 Nature 上發布論文闡釋了算法原理，並將源代碼和預測的蛋白質數據庫公開。算法開源後，人們看見這項突破背後的奧秘：它沒有太多新思想，而是將已有的思想用算法落地。這不是單點創新，而是工程式的綜合性創新。集前人思想之精華，團隊作戰，多點創新。把科學家一直在做的事情，完成得前所未有得漂亮，這就是 AlphaFold2 了不起的地方。臨門一腳：算法預測終於媲美實驗解析計算生物學界一直試圖用算法來解決「蛋白質折疊」的預測問題。蛋白質通常是一串 300 個以上氨基酸次第相連的鏈條。氨基酸之間通過肽鍵連接，因此，折疊未發生時，這是一條多肽鏈。神奇之處，也正是預測「蛋白質折疊」的難處，氨基酸鏈天生懂得自己存在的「姿勢」——該折疊成怎樣的三維結構。這個三維結構，決定了蛋白質功能。科學家很早就知道，多肽鏈會趨向選擇能量最低的結構，並且能在天文數量級的可能性中快速選擇。擁有 300 個氨基酸的蛋白質，理論上可以擁有 10 的 300 次方種可能構象。而折疊自己，形成三維精准構象，只需要幾微米。人類怎樣在無數可能性中鎖定一種？如果通過枚舉計算，即使以最快的速度依次搜索，需要的時間也會超過宇宙年齡。科學家當然不是無能為力。隨著實驗方法解析出的蛋白質結構越來越多，科學家建立起已知的蛋白質結構庫，能夠通過同源序列對比、已知蛋白質的拓撲結構模板來進行對比建模計算。
多序列對比示意圖在實際研究中，經常是算法和實驗雙管齊下。比如先用算法預測出一個大致不那麼准的結構，有個輪廓，再用冷凍電鏡這樣的儀器進行准確的結構解析。冷凍電鏡是目前最先進的解析蛋白質結構工具。在新冠疫情期間，西湖大學就用它解析出新冠病毒的受體 ACE2 膜蛋白。弄清病毒受體結構，也為接下來疫苗研發打下了基礎。一串氨基酸鏈上的每個珠子不是獨立的，它們之間會互相作用，「珠子」和「珠子」之間的互相影響和微環境，決定了氨基酸鏈如何折疊。因此，氨基酸次序、氨基酸殘基之間的距離和殘基間的互相作用，都是進行計算的基礎信息。AphaFold2 和之前的算法一樣，也是利用這些信息計算來預測。它的成功還告訴我們：當計算機技術、工程技術、大數據、神經網絡等方式應用到生物學領域，將帶來前所未有的成果。這正是「合成生物學」正在做的事。合成生物學至今僅有二十年歷史，目前甚至沒有完全劃定研究對象的範圍。但在研究方法上，合成生物學有共識，就是將工程性技術和傳統生物技術結合。比如，解析蛋白質結構一直是結構生物學家的研究課題，DeepMind 方法中的工程學思維就是充分挖掘數據，結合不同的分析模塊，流程上反複優化以取得最優解。令人驚歎的工程創新人們常常說 AI 的特長在於暴力計算，但 AlphaFold2 是暴力計算和人類聰明才智的結晶。發表在Nature的論文有 19 位並列的第一作者，其中有分子動力學、人工智能、量子化學、自然語言處理、醫療影像等各種專業的科學家。更令人意外的是，甚至還有一位擁有十年以上管理經驗的資深產品經理。但是轉念一想，這樣一個匯集多領域知識的複雜項目，有一位項目經理，也是情理之中。從公布的算法而言，AlphaFold2 模型的獨特性在於兩點：引入雙注意力機制、實現端到端模型。前者是更加有效提取和加工數據，後者是取消了作為過渡的編碼/解碼過程，就減少了信息的損耗。這兩個想法本身並非 DeepMind 原創。
注意力機制源於自然語言處理（NLP）模型，其中的關鍵結構是特征提取器 Transformer，作用是讓模型有選擇地注意關鍵信息。在 2020 年 2 月份，Facebook 最早將 Transformer 引入蛋白質序列對比，讓神經網絡更好地對蛋白質序列建模。在 AlphaFold2 中則使用了兩個 Transformer，因此稱為雙注意力機制。這兩個 Transformer 負責提取不同的數據，一個在已知的蛋白質庫裏進行同源序列對比，也就是用已知的蛋白質結構做參考；另一個關注氨基酸殘基對，也就是微觀上，兩個氨基酸之間會發生怎樣的相互作用。關鍵在於，這兩個信息路徑不是彼此獨立的，而是持續交流，這就實現了 1+1＞2 的效果。經過 48 次迭代，算法最終建立出氨基酸相互作用的模型。這就反映出整個模型設計的重要思想：信息在整個神經網絡中來回流動。換句話說，這部分算法是為了充分在數據庫裏榨出信息。端到端模型也是一個重要的創新之處。也就是說，輸入一個蛋白質信息，就可以輸出三維空間的預測結果，中間沒有其他編碼和解碼環節。信息在不同的形式間轉手一次，就會帶來一次損耗。那麼更直接處理上一環節的數據，計算的結果就更准確。此前的算法模型（包括上一版本的 AlphaFold）都會有中間環節，計算完氨基酸之間的距離後，用數據建立能量函數，然後再進行三維結構預測。整個過程，數據先被函數處理，再變成坐標軸信息。AlphaFold2 則是直接建立每個氨基酸局部的坐標系統，由此計算蛋白質的三維結構。也就是將第一階段處理的數據直接映射到三維空間。整個模型還用了許多其它技術來提升預測的准確性，比如創新的 Loss Fuction（損失函數），三維模型計算結果的反複優化（Recycling）……所有的技術綜合在一起，才能夠實現如此好的預測效果。這無疑是一個大型且複雜的工程。前台展現出的是計算機技術，但是要完成這些算法設計，必須要有對生物現象的深刻理解。比如，在第一個處理信息的階段，兩個 Transformer 如何互相配合，將氨基酸殘基對的微觀信息整合進整個氨基酸序列的信息中，在寫算法時就要對折疊過程有准確的領悟。合成生物學帶來的想象對於合成生物學而言，工程技術不僅僅是方法，更是一種系統性思維。合成生物學家希望通過「類似於工程師建造橋梁和將人送上月球的方法，理性地設計生物系統。」「工程科學技術不只是工具，也不僅僅是基礎研究成果的應用，而是在基礎研究中可以發揮巨大作用的重要組成部分。」中國工程院院士，計算機專家李國傑評論 AlphaFold2 突破時說。科技發展中很重要的一部分是工具的不斷進化。結構生物學家顏寧在微博說：「在 X-射線晶體學為主要手段的時代，獲得大多數研究對象的結構本身太難了，於是很多研究者把『獲得結構』本身作為了目標，讓外行誤以為結構生物學就是解結構。」
     蛋白質遵循能量最低原則，從一維結構折疊成三維結構，並形成功能。所以預測折疊，只是理解蛋白質功能的起點。蛋白質不是一個靜態的結構，在行使功能的過程中，它都會發生精細的構象變化，比如病毒蛋白和受體結合、靶蛋白和小分子藥物結合。理解結構和功能之間的互動關系，都是對付病毒，研發藥物的關鍵。比如，冷凍電鏡解析出的新冠病毒的受體 ACE2 膜蛋白，就可以作為疫苗研發的靶點。有了一個靜態結構，科學家就可以在此基礎上做更多研究。比如可以從 AlphaFold2 預測的單幀靜態結構出發，來模擬蛋白質結構的動態變化。除此之外，有些蛋白質獨自並不形成穩定的結構，而是和其他蛋白質結合後，才形成結構和相應的功能，這樣更加複雜的結構預測，也是 AI 預測接下來努力的目標之一。當人們對蛋白質的結構和功能足夠了解，甚至可以按需設計想要的蛋白質。有了這個技術，科學家就可以開發精准治療的靶向藥、節能環保的新材料、或者是有特殊能量轉化功能的催化劑……「我認為這會真正改變一百年來科學家處理生物學問題的方式。研究人員不需要再耗費大量的時間和精力在解析蛋白結構上，而是可以專注於功能研究。」AlphaFold 首席研究員 John Jumper 對外媒說。新的研究手段和方式正在改變生物學。2020 年的諾貝爾獎化學獎就頒發給了發明「Crispr」基因編輯技術的兩位科學家，這項技術帶來了一批基因編輯的生物公司，開啟了新的「基因編輯」時代。或許，人工智能驅動的生物研究也同樣會開啟新的「蛋白質編輯」時代。責任編輯：靖宇頭圖來源：DeepMind本文由極客公園 GeekPark 原創發布，轉載請添加極客君（ID: geekparker）
《人類生物學的大突破，就這樣被 AI 做到了》完，請繼續朗讀精采文章。
喜歡 小編的世界 e4to.com，請記得按讚、收藏及分享！