今天,我們很高興與大家分享 DeepMind 在論證人工智能研究如何推動并加速科學新發現方面的首個重要里程碑。由于我們的研究涉及大量學科領域,DeepMind 匯集了結構生物學、物理學和機器學習領域的多方專家,以應用前沿技術單獨根據蛋白質的基因序列預測其 3D 結構。
在過去兩年中,我們一直在研究 AlphaFold 系統,該系統基于之前使用海量基因組數據預測蛋白質結構的多年研究構建。AlphaFold 生成的蛋白質 3D 模型遠比過去的任何模型都要精確,也因此在某個生物學核心挑戰方面取得了重大進展。
什么是蛋白質折疊問題?
蛋白質是維持生命所必需的復雜大分子。人體的每項功能幾乎都可以追溯至一種或多種蛋白質,以及這些蛋白質的移動和變化過程,例如收縮肌肉、感知光線或將食物轉化為能量。這些蛋白質的配方(即基因)則以編碼形式留在我們的 DNA 中。
任何一種蛋白質的功能,都取決于其獨一無二的 3D 結構。例如,構成人體免疫系統的抗體蛋白呈 “Y 字形”,類似于形狀獨特的鉤子。通過黏附在病毒和細菌上,抗體蛋白能夠檢測并標記致病微生物,從而將其消滅。與之類似,膠原蛋白的形狀像繩子,可在軟骨、韌帶、骨骼和皮膚之間傳遞張力。Cas9 等其他類型的蛋白質以 CRISPR 序列為導向,像剪刀一樣剪切并粘貼 DNA 片段;抗凍蛋白的 3D 結構使其能夠與冰晶結合,并防止有機體凍結;核糖體的行動如同程序化的裝配線一般,幫助蛋白質實現自身構建。
然而,僅依靠蛋白質的基因序列來找出其 3D 形狀是一項非常復雜的任務。幾十年來,這項難題一直困擾著科學家。這項任務的難點在于,DNA 僅包含關于氨基酸殘基(可形成長鏈)這一蛋白質組成塊的信息。所謂的 “蛋白質折疊問題” 便是預測這些鏈如何折疊成錯綜復雜的 3D 蛋白質結構。
蛋白質越大,需要考慮的氨基酸相互作用就越多,進行建模的復雜性和難度也就越高。正如利文索爾佯謬中所述,在我們獲得正確的 3D 結構之前,我們枚舉所有可能的典型蛋白質構型所需的時間可能比宇宙的年齡還要久遠。
為什么蛋白質折疊很重要?
預測蛋白質形狀的能力對科學家而言非常實用,因為這種能力對理解蛋白質在人體內的作用,以及診斷和治療業界認為是由錯誤折疊的蛋白質所引起的疾病(例如阿爾茨海默癥、帕金森癥、亨廷頓舞蹈癥和囊腫性纖維化)至關重要。
尤其令我們興奮的是了解到蛋白質折疊可能會如何增強我們對人體及其工作原理的理解,進而幫助科學家更高效地設計出能夠有效治愈疾病的新療法。隨著我們通過模擬和模型深入了解蛋白質形狀及其工作原理,它不僅在藥物發現領域展現出新潛力,同時還降低了實驗的相關成本。最終,這會改善全世界數百萬患者的生活質量。
此外,對蛋白質折疊的理解還將助力蛋白質設計,這將為我們不可勝數的益處。例如,生物可降解酶(可通過蛋白質設計實現)領域的進展有助于管理塑料和石油等污染物,進而幫助我們以更環保的方式分解廢物。事實上,研究人員已經開始對細菌進行工程改造,令其分泌出使廢物可經過生物降解并更易處理的蛋白質。
為了促進研究和衡量用于提高預測準確度的最新方法取得的進步,業界于 1994 年成立了名為蛋白質結構預測技術關鍵評估 (CASP) 的社區范圍實驗,該全球競賽每兩年舉行一次,現已成為評估此類技術的黃金標準。
AI 如何大顯身手?
在過去 50 年間,科學家已經能夠在實驗室中使用低溫電子顯微技術、核磁共振或 X 射線晶體學等實驗性技術確定蛋白質的形狀。但每種方法都要經過大量嘗試與失敗,每個結構都需耗時數年,且成本高達數萬美元。這正是為什么生物學家將目光轉向 AI 方法,希望用其取代這種漫長而艱苦的復雜蛋白質處理過程。
幸運的是,得益于基因測序成本的迅速降低,基因組學領域的數據相當豐富。因此在過去幾年里,越來越多的研究人員利用深度學習方法來處理依賴于基因組數據的預測問題。在 DeepMind 對此類問題的研究中,AlphaFold 應運而生。今年,我們已向 CASP 提交了該作品。令我們引以為傲的是,CASP 的組織方評價 AlphaFold 是 “在預測蛋白質結構的計算方法能力方面取得的空前進展”,并在入圍的眾多參賽團隊中,將第一名的桂冠頒發給我們(我們的參賽名稱是 A7D)。
我們的團隊特別關注從零開始對目標形狀進行建模這一難題,而且并未使用此前已經解決的蛋白質結構作為模板。我們在預測蛋白質結構的物理屬性時實現了高準確度,然后使用兩種截然不同的方法來構建對蛋白質完整結構的預測。
利用神經網絡預測物理屬性
上述兩種方法均依賴深度神經網絡,這些經過訓練的神經網絡可以從其基因序列中預測蛋白質屬性。該網絡預測的屬性包括:(a) 氨基酸對的間距和 (b) 連接這些氨基酸的化學鍵之間的角度。此方法的首要進步是改進了常用技術,這些技術可以估算氨基酸對是否彼此接近。
我們訓練了一個神經網絡,以預測蛋白質中每個殘基對之間的單獨距離分布。然后,我們將這些概率合并為分數,以估計所提出的蛋白質結構的精確程度。我們還訓練了一個單獨的神經網絡,其綜合使用所有距離來估算所提出的結構與正確答案的接近程度。
構建蛋白質結構預測的新方法
使用這些評分功能,我們能夠搜索蛋白質結構,以找到符合預測的結構。第一種方法基于結構生物學的常用技術構建,并使用新的蛋白質片段反復替換蛋白質片段。我們訓練了一個生成式神經網絡來創建新片段,并針對所提出的蛋白質結構,利用這些片段不斷提高其分數。
第二種方法通過梯度下降(機器學習領域常用的一種數學技術,能夠不斷產生微小的改進)來優化分數,進而生成高度精確的結構。此技術應用于整條蛋白質鏈,而非在組裝前須分開折疊的片段,因而可簡化預測過程。
未來如何發展?
我們首次涉足蛋白質折疊領域便取得成功,展示了機器學習系統如何整合各類信息來源,幫助科學家快速提出解決復雜問題的創造性解決方案。正如我們所見,AI 可通過 AlphaGo 和 AlphaZero 等系統幫助人們掌握復雜的游戲。同樣地,我們希望某一天 AI 技術的突破也能幫助我們處理基本的科學問題。
我們很高興看到蛋白質折疊領域的早期發展跡象,這證明了 AI 在科學發現中的作用。盡管該技術在對治療疾病、管理環境等方面產生可量化影響之前仍需深入研究,但我們明白,AI 的潛力不可限量。在擁有重點研究機器學習如何推動科學世界進步的專門團隊后,我們期待自己的技術能夠在眾多領域大展身手。
在我們發表關于此項研究的論文之前,請將其引用為:《通過基于評分的深度學習進行從頭結構預測》(De novo structure prediction with deep-learning based scoring)R.Evans、J.Jumper、J.Kirkpatrick、L.Sifre、T.F.G.Green、C.Qin、A.Zidek、A.Nelson、A.Bridgland、H.Penedones、S.Petersen、K.Simonyan、S.Crossan、D.T.Jones、D.Silver、K.Kavukcuoglu、D.Hassabis、A.W.Senior發表于 2018 年 12 月 1 日至 4 日舉行的第 13 屆蛋白質結構預測技術關鍵評估(摘要)。如需查看摘要,請點擊 此處(https://deepmind.com/documents/262/A7D_AlphaFold.pdf)。
此項研究是與以下人員協作完成:Richard Evans、John Jumper、James Kirkpatrick、Laurent Sifre、Tim Green、Chongli Qin、Augustin Zidek、Sandy Nelson、Alex Bridgland、Hugo Penedones、Stig Petersen、Karen Simonyan、Steve Crossan、David Jones、David Silver、Koray Kavukcuoglu、Demis Hassabis 和 Andrew Senior
-
AI
+關注
關注
87文章
30122瀏覽量
268407 -
模型
+關注
關注
1文章
3171瀏覽量
48711 -
光線
+關注
關注
0文章
67瀏覽量
10523
原文標題:AlphaFold:利用 AI 獲得科學發現
文章出處:【微信號:tensorflowers,微信公眾號:Tensorflowers】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論