你可能聽說過圖卷積,因為它在當時是一個非常熱門的話題。雖然不太為人所知,但網絡傳播是計算生物學中用于網絡學習的主要方法。在這篇文章中,我們將深入研究網絡傳播背后的理論和直覺,并將看到網絡傳播是圖卷積的一種特殊情況。
網絡傳播是計算生物學中基于內疚關聯原理的一種流行方法。
兩種不同的網絡傳播觀點:隨機游走和擴散,以HotNet2為例。
網絡傳播是圖卷積的一種特例。
1計算生物學中的網絡傳播
網絡自然產生于許多真實世界的數據,如社交網絡,交通網絡,生物網絡,僅舉幾個例子。網絡結構編碼了關于網絡中每個個體角色的豐富信息。
在計算生物學中,像蛋白質相互作用(PPI)這樣的生物網絡,節點是蛋白質,邊緣代表兩個蛋白質相互作用的可能性,在重建生物過程,甚至揭示疾病基因方面非常有用[1,2]。這種重建可以簡單地通過直接觀察目標蛋白的鄰近蛋白是否是生物過程或疾病的一部分來完成。這種通過鄰近蛋白質來推斷蛋白質隸屬度的過程稱為網絡傳播。我們將在下一節中更仔細地研究精確的數學公式,但是現在讓我們想想為什么這樣一個簡單的方法有效。
這一切都歸結為內疚關聯(GBA)原則,即通過物理交互作用或其他相似度量(如基因共同表達),蛋白質彼此緊密相關,可能參與相同的生物過程或途徑。GBA原理來自于觀察到許多蛋白質復合物(如酵母[3]中的SAGA/TFIID復合物)定位于一個內聚網絡模塊。同樣,在人類疾病基因網絡[4]中,我們可以看到,例如,與耳、鼻、喉疾病或血液病相關的疾病基因都局限在網絡模塊中。作為旁注,在這篇文章中,蛋白質和基因這兩個詞將互換使用。
2網絡傳播的數學公式——兩種不同的觀點
符號
給定一個(無向)圖G=(V, E, w),有n個頂點的頂點集V,邊集E,權函數w,設A為相應的n × n維鄰接矩陣:
利用對角度矩陣D,它的對角項是相應節點的度,我們可以將A按行或按列規格化,得到兩個新的矩陣P和W。
最后,設p0為°熱編碼的標簽向量,其中p0對應的正標簽節點的項為1,其余均為0。
隨機游走
我們可以在網絡上以隨機游走的方式進行網絡傳播。在這種情況下,我們要問的關鍵問題如下。
通過一跳傳播,從目標節點開始并最終到達任何一個具有正標簽的節點的概率是多少?
在數學上,該操作對應于P和p0之間的矩陣向量乘法,得到預測得分向量y
讓我們看一個例子??紤]基因g1、g2、g3和g4的以下子網。假設g2和g3被注釋到一種疾病中,這意味著已知這兩個基因與此處研究的疾病有關。另一方面,g1和g4沒有對該疾病進行注釋(注意:這并不意味著它們對該疾病沒有影響,而是目前還不知道它們與該疾病有關)。
為了確定g1是否與疾病相關,我們可以簡單地設計一個從g1開始的單跳隨機行走,看看它落在疾病基因(g2或g3)上的概率是多少。經過簡單的計算,我們看到預測得分是2/3,這是相當高的。這是有道理的,因為g1的三個鄰近基因中有兩個與疾病相關,而根據GBA原理,g1很可能與這種疾病相關。
擴散
網絡傳播的另一種觀點是通過網絡進行擴散。在這種情況下,我們要問的關鍵問題如下。
有多少“熱度”被擴散到目標節點?或者換句話說,從帶有正標簽的節點開始,通過一跳傳播最終到達目標節點的概率是多少?
數學上,該操作對應于波浪號P和p0 (p0的標準化版本)之間的矩陣向量乘法,產生預測得分向量y波浪號。
注:p0歸一化保證了從一個概率分布映射到一個概率分布,即y波浪號等于1。
讓我們回到上面的例子,通過網絡傳播疾病基因預測。這一次,我們想將標簽傳播作為擴散來執行。結果,兩個注釋疾病基因產生的總“熱”中有很大一部分(5/12)被g1收集。因此g1很可能與本病相關。
3超越了單跳傳播
單跳傳播方法簡單有效。然而,當標記數據稀缺時(這是計算生物學中典型的情況),單跳傳播方法只能計算疾病基因直接鄰居的非平凡預測分數??紤]到人類基因組中有超過2萬個基因,這顯然導致了次優預測。因此,我們可以擴展到2-hop, 3-hop,甚至更多,而不是局限于1-hop社區。圖中顯示了k-hop從k = 1到k = 2的傳播過程。
HotNet2擴散
有許多不同的變體來執行多跳擴散或隨機游走。我們將以HotNet2為例。與上面介紹的擴散類似,HotNet2算法迭代更新初始“heat”分布p0波浪線如下。
其中beta值從0到1,是將“熱量”帶回其源頭的“重啟概率”。包含這個重啟概率的原因有幾個(有些相關)。首先,之前定義的擴散算子給出了當前節點擁有的所有“熱量”,因此在第t步,之前所有的擴散信息都丟失了。添加beta有效地在每一步中保留了一些熱量,因此在第t步,分布包含了之前步驟的所有信息。其次,(非零)beta參數保證了t趨近于無窮時熱分布的收斂性,從而給出了t=∞時熱分布的封閉形式解
最后,在[1]中已經證明,在生物通路重建、疾病基因預測等方面,這種HotNet2擴散方法比上一節定義的單跳網絡傳播能夠產生持續更好的預測。
4與圖卷積的關系
回想一下,圖卷積網絡遵循如下的分層傳播規則。
其中H(l)是第l層的隱藏特征,W(l)是可學習參數,非線性σ (DAD)內部的主導部分是具有自連接的譜歸一化鄰接矩陣。自連接的作用類似于重新啟動概率,以保留當前迭代的一些信息。
通過下面的替換,我們可以完全重建標簽傳播作為圖卷積的一種特殊情況。
用行歸一化§或列歸一化(W)版本替換譜歸一化自連接鄰接矩陣
用p(l)代替H(l)
用恒等式代替非線性和W(l)(或者干脆忽略這些變換)
注意,第一次替換不會改變圖的頻譜,因此仍然會執行相同的卷積操作。
現在你知道了,網絡傳播是圖卷積的一種特殊情況!
5總結
基于關聯原理,網絡傳播由于細胞組織的模塊化,在計算生物學中被廣泛應用于疾病基因預測等各種任務。我們已經深入研究了網絡傳播的兩個觀點及其與圖卷積的聯系。
編輯:jq
-
GBA
+關注
關注
0文章
10瀏覽量
8682 -
圖卷積網絡
+關注
關注
0文章
8瀏覽量
1501
原文標題:神經網絡的學習方式網絡傳播和圖卷積,兩者到底什么關系?
文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論