生命科學領域的研究中有很多方向,比如研究微觀層面的細胞生物學與分子生物學,研究生物與環境關系的生態學等。而與生命活動規律、發育機制、生命本質的研究最接近的是有關生物大分子,比如蛋白質、核酸結構的研究。
對蛋白質進行系統深入的研究,能讓我們從更深層次詮釋生命體的構成和運作變化規律,進而全面揭示生命運行、發展的機制,激發生物科學、藥物研發、合成生物學方面的發展。因此蛋白質研究、預測蛋白質結構等是學術與產業界深度參與的領域。在AI時代,得益于算力和算法模型的極大提升,我們也見證了蛋白質結構預測的歷史時刻。
每兩年舉辦一次的CASP比賽被譽為“蛋白質結構預測領域的奧林匹克競賽”,在基于CASP14(2020年第14屆國際蛋白質結構預測競賽)的蛋白質測試集評估中,天壤TRFold獲得了國內所有公開蛋白質結構預測模型中最好成績,僅次于DeepMind公司AlphaFold2 全球第一的成績。CASP競賽是含金量非常高的比賽,能在這樣的國際大賽中贏得優異的成績,也意味著國內計算生物學的表現突圍進入了世界第一梯隊。
無論是享譽世界的AlphaFold2 模型,還是國內新晉的TRFold模型,這些前沿的AI模型都在生命科學領域中賦予研究如催化劑般的效率,沿著蛋白質研究的價值探索過程,我們一起看看這場重構生命科學與醫藥領域的旅程。
打開科研思路與研究空間
在中學的時候我們已經簡單了解過蛋白質,我們知道蛋白質是細胞中的主要功能分子,參與行使幾乎所有的細胞功能:比如在食物的消化過程中可以發揮催化作用的各種酶;血液中的血紅蛋白運輸養料與代謝廢物;參與生物體內的新陳代謝的調劑作用,如胰島素;肌球蛋白用于細胞骨架的形成,還有免疫、細胞分化、細胞凋亡等過程都有蛋白質的身影參與。
在蛋白質參與行使細胞功能的過程中,必須折疊成特定的結構。但其排列的方式和位置的差異使得種類極其繁多,蛋白質在三維空間的折疊方向有10^300種方式,結構非常復雜。不同的折疊方式使得蛋白質具有的活性和生物性能不定,而這個復雜的特性也就注定了研究蛋白質的路徑困難重重。
傳統觀測蛋白質結構的方法主要有三種,包括核磁共振、X 射線、冷凍電鏡,但這些方法往往依賴昂貴的設備和大量的試錯過程,每種結構的研究都要花數年時間。歷史上有科學家耗費幾十年時間才能得到一個清晰的蛋白質三維結構,蛋白質三維結構的測定成了生物學領域非常困難的研究。至今為止沒有AI技術的協助,三維結構被看清的量也僅僅只有17萬個,這跟蛋白質的總量相比差距巨大。
而AI應用于蛋白質結構的最新進展,即AlphaFold2模型、TRFold模型等,能在幾天、甚至以分鐘級預測出具有高置信度的蛋白質結構,這在以前甚至要花費數十年時間。相對于傳統的測定方式來說速度不僅快而且成本低廉,非常適合高通量的蛋白質結構獲取。研究表示,如果照此速度,到今年年底將能完成對 1.3 億個蛋白結構的預測,這有可能徹底改變生命科學的研究進程。
而這也意味著這種AI主導下的大規模的蛋白質結構預測將成為一種重要工具,對于科研工作者來說,能從結構的角度解答新的科學問題,打開科研的思路。比如科研人員可以對未知功能或者新發現的蛋白質分子,通過結構分析,進行功能注釋,指導設計進行功能確認的生物學實驗。也可以通過分析蛋白質的結構,確認功能單位或者結構域,為遺傳操作提供目標,為設計新的蛋白質或改造已有蛋白質提供可靠的依據等。天壤團隊研發的TRFold這類AI模型對于生物科學領域的深研來說,圍繞蛋白質結構功能問題,可以進一步打開對生物計算領域創新性研究的發現與探索空間,促進這個領域以更快的速度發展。而除了生物結構學方面的支持以外,在醫學、藥物學的研究過程中,AI模型也具有發揮的空間。
快速解析病毒結構,折疊藥物研發時間
新藥研發是人類發展中極具風險和復雜度、耗時最漫長的技術研究領域之一。據Tufts Center的統計報告,開發一款成功上市的新藥平均需要投入26億美元,耗時約10年。居高不下的成本,與藥物研發的巨大失敗率有關。過去十年,藥物開發項目從1期臨床到獲得FDA批準上市的成功率平均為7.9%。
隨著人工智能技術的發展,部分應用了AI的新藥研發減少了35%的成本,研發周期也從5-10年縮短為1-3年。事實上,藥物研發是一個系統性工程,AI技術在這個系統中能夠針對藥物研發過程的篩選及設計優化等核心痛點問題,減少大量的試錯和返工時間,節省藥物研發的成本。
TRFold 模型能低成本地預測一些與疾病相關的蛋白質結構,進而通過藥物重定位、虛擬篩選等方法尋找這些疾病的潛在藥物。比如在一些白化病、成骨不全癥等罕見病中,由于回報率低、患者多為貧困人口等原因,這些疾病無法得到醫藥公司的重視。僅在中國,這類疾病的患者就達2000萬以上。盡管這類被忽視疾病占了全球總疾病里的12%,但只有僅僅1.1%的新研發藥物,適用于被忽視的疾病。如今,AlphaFold2、TRFold 等AI模型為這類疾病的藥物開發帶來了希望,通過快速準確地預測蛋白質結構,為新的藥物分子設計提供合理的靶分子及結構,使幾乎只集中在貧困人口中的疾病的藥物研發成為可能。
在新藥的臨床試驗中,TRFold 模型也能作為“毒性預警系統”發揮效用。在測試藥物毒性的過程中,動物模型非常有價值,但我們在進入高風險的人體臨床試驗中,需要降低風險,否則意外的毒副作用,會讓新藥退出臨床研究,前功盡棄。一般的解決方案是開發高度模仿的人類生物系統,但現在來說仍難以實現。TRFold這類AI模型讓我們對人類蛋白有了3D模型,這也許可以幫助我們建立更好的人類生物模擬系統。
當然在一些細菌以及病毒相關的蛋白質結構研究中,TRFold模型也會拓展對蛋白質類型的功能分析以及下游應用的范圍,比如一些病毒類感染的疾病研究,抗生素、靶向藥的開發,研發新效率的酶等為藥研與健康作出貢獻。
但是,還有很多研究工作對于蛋白質結構的準確度要求極高。比如血紅蛋白中鐵離子的位移,是在零點幾埃的尺度上進行討論的。對于這類結構細節的精細分析,預測結構無法作為討論的基礎,因為其中一絲一毫的不確定性都可能導致完全不同的結論。AI模型的算法普適性和準確度仍有提高空間,對蛋白質與其配體的復合結構、蛋白質的動態分析等領域算法需要完善。
AI預測模型駛入生命信息深處
用AI模型預測單蛋白的結構模擬只是開始,結構的預測只是指明了研究的方向,后續的進展還得需要試驗與頭腦的風暴。還有一些無法被AI模型預測與發現的結構,其研究仍然是謎一般的存在,這也給科研人員、企業與研究機構留下了很大的空間。
國內外不同的蛋白質結構預測模型在廣闊的生命科學與生物科技領域會各自占領擅長的領域,發揮效用。結構生物學家,中國科學院院士施一公曾表示對AI預測模型的看法,“人類蛋白質組里能夠被預測的蛋白質三維結構,已經基本被 AlphaFold 預測了??傮w而言,預測結果可信、也比較準確。這是人類在認識自然界的科學探索征程中一個非常了不起的歷史性成就,也是人類在 21 世紀取得的最重要的科學突破之一”。
毋庸置疑的是AlphaFold2是蛋白質結構預測方向的重大突破,這類AI模型預測的高質量蛋白質結構,會促進高效篩選化合物的新技術發展,以及藥物研發的全生命流程等。
或許有人會有疑惑,AlphaFold 2模型性能足夠強大了,為何我們自己還要花費精力、腦力去打造算法?事實上雖然Deepmind開源了AlphaFold 2模型,但開源的是推理代碼,并沒有訓練代碼,所以在github下載的代碼實際上只能運行AF2的模型算法,直接對蛋白質結構進行預測。如果想要圍繞蛋白質結構功能問題,或者是能夠達到實際落地應用準確度要求的AI算法,沒有訓練模型經驗,或者沒有具備能夠訓練出AlphaFold 2模型結果的能力是無法把該技術推進解決更深層次問題的。
與芯片一樣,對于做蛋白質結構預測來說,沒有核心的技術能力,對于深層次的生命科學領域的探索就會受到限制。天壤團隊打造的TRFold這套算法平臺完全是國產自研,從底層代碼慢慢搭建起來的,并且在國際賽事中取得了僅次于AlphaFold 2模型的好成績。
在兩年半的研發時間里,TRFold經歷了幾十個版本的迭代,當前的訓練架構是從今年初就開始設計,處理數據、訓練數據并不停迭代優化,耗費10個月時間。其最新版本的預測精度接近AlphaFold2,并突破AlphaFold2需要超大算力的瓶頸。區別于AlphaFold2模型,TRFold有自己的思考與設計。TRFold采取權重共享的方式節約算力,在訓練資源與算力有限的情況下,天壤團隊從數據和網絡設計上做出改進,僅采用少量的真實數據訓練,使模型在訓練過程中能夠獲得對真實共進化信息更好地識別能力,從而取得對氨基酸殘基距離和坐標更準確的預測結果。
其算力消耗約AlphaFold2的1/32,預測大多數蛋白質鏈所需時間不超過16秒,相較于AlphaFold2預測約400個氨基酸的蛋白鏈所需70多秒的時間,具有明顯的小樣本數據訓練生成優勢。在后續構建蛋白質相互作用網絡的過程中,計算量指數級別增長的情形下,對蛋白質的結構預測的研究具有深遠意義,也為后續的研究比如結構生物科學、藥物研究等領域打開了國產深研的大門,我們不會因為技術的限制而仰人鼻息。
天壤團隊的TRFold模型也有自己的發展方向:圍繞蛋白質結構功能問題并且能夠達到實際落地應用準確度要求,進而推進解決更深層次的問題。比如研究蛋白質間相互作用的問題,利用目前的全蛋白質組協同進化分析,建立起蛋白質與蛋白質之間的相互作用的精準鏈路。通過研究蛋白質之間的相互作用,幫助科研人員構建大規模的相互作用網絡圖、尋找藥物結合靶點的新思路以及精準疾病治療的新方法。在新藥研發、抗體模擬等疫苗研發中,提高蛋白質設計的精度和成功率,為各類疫苗比如新冠疫苗等的蛋白設計的驗證助益等。
縱觀科學史,每次科研領域取得重大的進步,都離不開當時技術的支持。無論是在蛋白質提純的困難年代,還是電眼觀察蛋白質的冷電鏡技術時代,科學家研究的工具都依賴于當時的最高科技水平。隨著AI技術的不斷突破,走在前沿生命科技領域的深水區與無人區的領路者DeepMind、天壤等公司,不斷用AI技術賦能,助力研究人員的科研工作,讓科研人員告別依賴人類先驗知識去做蛋白質結構預測的方式。
可預測的未來,站在AI巨人的肩膀上,這個領域的發展一定會有質的飛躍。而蛋白質這個能夠影響生命進程的大分子,AI算法模型為我們打開了生命科學領域的新世界,這些海量的蛋白質結構會被技術釋放,背后的解讀與分析蘊含著生命信息的“富礦”,等待我們去探索與挖掘。
-
AI
+關注
關注
87文章
30117瀏覽量
268406 -
人工智能
+關注
關注
1791文章
46853瀏覽量
237539 -
生物學
+關注
關注
0文章
26瀏覽量
12966 -
算力
+關注
關注
1文章
927瀏覽量
14742
發布評論請先 登錄
相關推薦
評論