任何人工智能的成功實施都依賴于以正確的方式提出正確的問題。這就是英國人工智能公司DeepMind(Alphabet的子公司)在利用其神經網絡解決生物學的重大挑戰之一蛋白質折疊(protein-folding)問題時所取得的成就。它的神經網絡被稱為AlphaFold,能夠根據蛋白質的氨基酸序列以前所未有的準確度預測蛋白質的三維結構。
AlphaFold在蛋白質結構預測的第14個臨界評估(14th Critical Assessment of protein Structure Prediction,CASP14)中的預測對于大多數蛋白質來說都精確到一個原子的寬度之內。競爭包括盲目地預測蛋白質的結構,這些蛋白質是最近才被實驗確定的,還有一些尚待確定。
蛋白質被稱為生命的組成部分,由20種不同的氨基酸以不同的組合和序列組成。蛋白質的生物學功能與其三維結構密切相關。因此,對最終折疊形狀的了解對于理解特定蛋白質是如何工作的至關重要,例如它們如何與其他生物分子相互作用,如何控制或調整,等等。歐洲生物信息學研究所(European Bioinformatics Institute)榮譽主任Janet M. Thornton說:“能夠根據序列預測結構是蛋白質設計真正邁出的第一步。”它在了解致病病原體方面也有巨大的益處。
預測蛋白質的三維結構是一場計算噩夢(computational nightmare)。1969年,Cyrus Levinthal估計,一種蛋白質有10300種可能的構象組合,這將需要比已知宇宙的年齡更長的時間來用蠻力計算進行評估。而AlphaFold則可以在幾天內就完成。
隨著科學的發展進步,AlphaFold的發現與James Watson和Francis Crick的DNA雙螺旋模型(DNA double helix model),或者最近Jennifer Doudna和Emmanuelle Charpentier的CRISPR-Cas9基因組編輯技術一樣,在科學上取得了突破。
幾年前,曾有一個團隊試圖教人工智能去掌握一個有3000年歷史的游戲,但最終如何訓練人工智能來回答困擾生物學家50年的問題呢?數據科學家、人工智能公司PureStrategy的創始人Briana Brownell說,這就是人工智能的妙處:同樣的算法可以用于非常不同的事情。
“每當你遇到問題,你想用人工智能來解決時,”她說,“你需要弄清楚如何將正確的數據輸入模型,然后將正確的輸出類型轉換回現實世界。”
她說,DeepMind的成功與其說是挑選正確的神經網絡的功能,不如說是“它們選擇了如何以足夠復雜的方式設置問題,以神經網絡為基礎的建模能夠真正回答問題。”
2018年,當DeepMind在CASP13上發現了他們的人工智能的一次迭代時 -- AlphaFold顯示出了希望 -- 在所有參與者中實現了最高的精確度。該團隊訓練它從頭開始模擬目標形狀,而不使用先前已解決的蛋白質作為模板。
到2020年,他們在人工智能中部署了新的深度學習架構,使用了一種經過端到端培訓的注意力模型。深度學習網絡中的注意力指的是管理和量化輸入和輸出元素之間以及輸入元素之間相互依賴關系的組件。
除了具有未知結構的蛋白質序列的數據庫外,該系統還接受了大約170000個已知實驗蛋白質結構的公共數據集的訓練。
Brownell說:“如果你看看他們兩年前,和這次不同的是,人工智能系統的結構是不同的。這一次,他們發現了如何將真實世界轉化為數據……并創建了一個可以轉換回現實世界的輸出。”
像任何人工智能系統一樣,AlphaFold可能需要處理訓練數據中的偏差。例如,Brownell說,AlphaFold使用的是蛋白質結構的可用信息,這些信息已經通過其他方式進行了測量。然而,也有許多蛋白質具有未知的三維結構。因此,她說,可以想象,一種偏見可能會蔓延到那些我們有更多結構數據的蛋白質。
Thornton說,很難預測AlphaFold的突破要花多長時間才能轉化為實際應用。她說:“我們只有人體20000種蛋白質中約10%的實驗結構。一個強大的人工智能模型可以揭示其他90%的結構。”
除了增加我們對人類生物學和健康的了解,她補充道:“這是朝著……構建實現特定功能的蛋白質邁出的真正的第一步。從蛋白質療法到生物燃料或食用塑料的酶,可能性是無窮的。”
責任編輯:haq
-
AI
+關注
關注
87文章
30146瀏覽量
268414 -
人工智能
+關注
關注
1791文章
46859瀏覽量
237567
發布評論請先 登錄
相關推薦
評論