科學家使用 NVIDIA BioNeMo 創建出能夠生成高質量蛋白質的大型語言模型,以此加快藥物研發并助力創造更具可持續性的環境。
初創企業 Evozyne 使用 NVIDIA 提供的預訓練 AI 模型,創造了兩種在醫療和清潔能源領域具有重大潛力的蛋白質。
今日發布的一篇聯合論文描述了這一過程及產出的蛋白質氨基酸序列。其中一種蛋白質用于治療一種先天性疾病,另一種用于消耗二氧化碳以減少全球變暖。
初步研究結果展示了一種加速藥物研發的新方法。
Evozyne 聯合創始人、論文共同作者 Andrew Ferguson 表示:“令人欣喜的是,這個 AI 模型第一輪產出的合成蛋白質就像自然生成的蛋白質一樣,表示該模型已經學會了自然界的設計規則。”
革命性的 AI 模型
Evozyne 使用了 NVIDIA 的 ProtT5。ProtT5 是一個 Transformer 模型,是用于創建醫療AI模型的軟件框架和服務——NVIDIA BioNeMo 的一部分。
分子工程師 Ferguson 的研究領域涵蓋化學和機器學習領域,他表示:“BioNeMo 非常強大,讓我們能夠訓練模型,然后以非常低的成本使用該模型來運行工作任務,在幾秒鐘內就能生成數百萬個序列?!?/p>
該模型是 Evovyne ProT-VAE 流程的核心。ProT-VAE 是一個工作流,其將 BioNeMo 與作為過濾器的變分自編碼器(VAE)相結合。
他表示:“幾年前,還沒有人注意到可以使用大型語言模型與變分自編碼器相結合的方式來設計蛋白質?!?/p>
讓模型向大自然學習
就如同人讀萬卷書,NVIDIA 的 Transformer 模型會讀取數百萬種蛋白質中的氨基酸序列。該模型運用神經網絡用來理解文本的技術,學會了大自然如何構建蛋白質氨基酸序列。
然后,該模型預測了如何組裝出能夠滿足 Evozyne 需求的新蛋白質。
他表示:“這項技術正在助力我們開展工作,以實現十年前無法實現的夢想。”
無限的可能性
機器學習有助于研究海量可能的氨基酸組合,然后有效地識別最有用的序列。
傳統的蛋白質工程設計方法,即定向進化,采用的是一種緩慢、無計劃的方法,通常一次只改變幾個氨基酸的序列。
vozyne 的 ProT-VAE 流程采用了 NVIDIA BioNeMo 中強大的 Transformer 模型,生成有用的蛋白質,進而助力藥物研發和能源領域實現可持續性。
相比之下,Evozyne 的方法只通過一輪,就能改變一個蛋白質中半數乃至以上的氨基酸。這相當于進行了數百次的突變。
他表示:“我們正在實現技術上的飛躍,這使我們能夠探索以前從未見過的、具有有用的新功能的蛋白質?!?/p>
Evozyne 計劃使用新的工藝來構建各種能夠對抗疾病和氣候變化的蛋白質。
縮短訓練時間,擴大模型規模
Ferguson 表示:“NVIDIA 在此方面是一家非常出色的合作伙伴。”
Evozyne 數據科學家 Joshua Moller 表示:“他們通過將工作擴展到多個 GPU 來加快訓練速度。
這將訓練大型 AI 模型的時間從幾個月縮短到一個星期。Ferguson 表示:“所以我們能夠訓練出原本不可能訓練出的模型,比如一些有數十億可訓練參數的模型?!?/p>
未來將更加令人期待
使用 AI 加速蛋白質工程的前景十分廣闊。
Ferguson 注意到了擴散模型近期的發展:“這個領域的發展速度快得令人難以置信,我真的很期待日后的進一步發展?!?/p>
“沒人知道我們五年后將能夠走多遠?!?/p>
原文標題:NVIDIA 和 Evozyne 創建用于生成蛋白質的生成式 AI 模型
文章出處:【微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。
-
英偉達
+關注
關注
22文章
3747瀏覽量
90833
原文標題:NVIDIA 和 Evozyne 創建用于生成蛋白質的生成式 AI 模型
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論