21世紀以來,生物大數據在量(多數據種類,海量樣本數,多時間點采樣等)、質(高時空精度,單細胞測序等)兩方面快速發展,大大推動了生命科學的進步,也為生物醫學問題的模型建立、數據分析,以及預測和控制,帶來了巨大的機遇和挑戰。
傳統的生物學數據研究方法大多基于數據的靜態統計信息,即“基于統計學的數據科學”(statistics-based data science),其缺點是,在很多場景下不能準確地解釋和預測系統的復雜動態行為。數據分類、數據降維、變量聚類、變量相關性分析等方法都是如此。
然而,即使是靜態的數據,往往也蘊含著系統的動力學特征。我們需要通過“基于動力學的數據科學”(dynamics-based data science),充分建立和利用動力系統的普遍性質(如,穩定平衡點的臨界性質、中心流型的低維性、單變量的吸引子的重構性等),對蘊含在數據中的動力學信息進行挖掘和分析。
“基于動力學的數據科學”將動力系統理論、統計學理論,和數據的實際背景結合在一起,為處理和解釋動態生物大數據提供了一種基礎堅實、計算高效的理論和方法。
在最近發表于《國家科學評論》(National Science Review,NSR)的觀點文章中,中科院生化細胞所的陳洛南研究員(通訊作者)、東京大學的史際帆博士(第一作者)和Aihara教授通過3個具體實例,揭示了如何利用動力系統的普遍性質,由觀測的數據對生物學現象進行動力學分析,并解決生命科學的實際問題。1.利用微分方程的分岔理論,由測量的高維數據,進行健康臨界預警和疾病預測。DNB理論利用了系統在臨界點附近,復雜網絡將表現出有別于非臨界點的網絡特性,量化臨界狀態并發現疾病的關鍵因子,實現疾病預警“防病于未然”。
2.利用偏微分方程和diffusion map理論,量化細胞的多潛能性或距離干細胞的遠近。LDD方法是,通過建立隨機生滅過程的偏微分方程模型,對細胞的分化過程進行了多潛能性量化。利用單細胞測序數據和相關數學方法,可以對每類細胞多潛能性進行估計和分化程度排序,實現量化細胞的多潛能性,并構建多潛能性勢能景觀。
3.利用神經網絡工具,對基因表達量等的時間序列進行預測。ARNN方法是,利用最新的reservior神經網絡工具,通過“空間-時間信息變換方程”STI,即變換高維數據的信息為時間的動態信息,對短序列高維度數據(如基因表達數據)進行學習,可實現復雜系統的短時間序列或動態演化的預測。
“基于動力學的數據科學”是一個全新交叉領域,相比傳統靜態的“基于統計學的數據科學”方法,具有“可解釋性”、“可量化性”和“可拓展性”,在今后的生物醫學等領域的研究舞臺,將扮演不可或缺的重要角色。
編輯:jq
-
神經網絡
+關注
關注
42文章
4764瀏覽量
100542 -
數據
+關注
關注
8文章
6898瀏覽量
88836 -
微分
+關注
關注
0文章
31瀏覽量
14087
原文標題:3個實例:“基于動力學的數據科學”在生命科學中的應用 | NSR
文章出處:【微信號:zhishexueshuquan,微信公眾號:知社學術圈】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論