神經網絡開發到 100% 會發生什么?神經網絡的究極形態又是什么?何為網絡超體?上述問題的答案可能可以在電影超體(Lucy)中找到。
在電影中,隨著女主角 Lucy 腦力的逐漸開發,她獲得了以下能力:
10%:能夠控制身體的自主神經系統,提高身體協調能力和反應速度。
30%:能夠預測未來并預測人們的行動,提高洞察力和判斷力。
50%:能夠通過感知周圍環境的微小變化來預測未來的變化。
70%:能夠控制身體和物體的運動,擁有超凡的運動和戰斗技能。
90%:能夠與宇宙和時間相連,擁有靈感和直覺的力量。
100%:能夠實現超自然的力量,超越了人類的認知極限。
在電影的結尾,女主逐漸消失并變成了一種純粹的能量形態,最終消失在宇宙中,與宇宙和時間融為一體。人類超體的實現即為連通外界,以獲取無限值的能力。將此思想遷移到神經網絡域,若能建立與整個網絡的連通,即也可實現網絡超體, 理論上將獲得無邊界的預測能力。
即實體化的網絡必然會限制網絡性能的增長,而將目標網絡與 Model Zoo 進行連通,此時網絡不再具備實體,而是一種建立起網絡之間的連通超體形態。
圖上:超體網絡和實體網絡的區別。超體網絡無實體,是一種網絡之間的連通形式
該網絡超體的思想在本文分享 CVPR 2023 論文《Partial Network Cloning》,中得以探索。在該論文中,新加坡國立大學LV lab提出一種全新的網絡克隆技術。
鏈接:https://arxiv.org/abs/2303.10597
01 問題定義
在該文中,作者提到利用該網絡克隆技術實現網絡去實體化可以帶來以下優勢:
弱數據依賴:只需要部分修正數據對一些連接模塊進行修改
低訓練復雜度:僅需 fine-tune 一些連接模塊和任務預測模塊
低存儲需求:僅需存儲網絡的連通路徑,無需存儲整個網絡
可持續可恢復:連通路徑可增可減,不對 Model Zoo 進行任何修改
傳輸友好:在網絡傳輸時僅需傳輸連通路徑信息,無需對整個網絡傳輸
超體網絡的實現基礎為迅速擴張的 Model Zoo,海量預訓練模型可供使用。因此對于任意任務 T,我們總能找到一個或多個模型,使得這些已有模型的任務能組成成所需求任務。即:(選擇了三個網絡進行連通)。
如上圖所示,對于任務 T,為了構建對應的超體網絡 M_c , 本文提出以下的構建框架:
步驟一:定位最合適的本體網絡 M_t ,使得本體網絡 M_t 的任務集 T_t 與所需任務集 T 的交集 T?T_t 最大,此時本體網絡被設定為主網絡;
步驟二:選擇修正網絡 M_s^1 和 M_s^2,對本體網絡中缺失的部分任務進行補充;
步驟三:利用網絡克隆技術定位和連通部分修正網絡 M_s^1 和 M_s^2 至本體網絡 M_t;
步驟四:利用部分修正數據對網絡的連通模塊和預測模塊進行 fine-tune。
綜上所述,本文提出的構建網絡超體所需的網絡克隆技術可以被表示為:
其中 M_s 表示修正網絡集合,因此網絡超體的連通形式為一個本體網絡加上一個或若干個修正網絡,網絡克隆技術就是克隆所需要的部分修正網絡,嵌入至本體網絡中。
具體來說,本文提出的網絡克隆框架包括以下兩個技術要點:
對于包含有 P 個修正網絡的克隆,第一個技術要點為關鍵部分定位 Local (?)。由于修正網絡可能會含有與任務集 T 無關的任務信息,關鍵部分定位 Local (?) 的目標為定位修正網絡中與任務 T?T_s 相關的部位,定位參數用 M^ρ 表示,實現細節在第 2.1 小節中給出。第二個技術要點為網絡模塊嵌入 Insert (?),需選擇合適的網絡嵌入點 R^ρ 嵌入所有的修正網絡,實現細節在第 2.2 小節中給出。
02 方法總覽
在網絡克隆的方法部分,為了簡化敘述,我們設定修正網絡的數量 P=1(因此省略了修正網絡的上標 ρ),即我們連通一個本體網絡和一個修正網絡來搭建所需的超體網絡。
如上文所述,網絡克隆包含關鍵部分定位和網絡模塊嵌入。在這里,我們引入中間的可遷移模塊 M_f 用以輔助理解。即,網絡克隆技術在修正網絡中定位關鍵部位形成可遷移模塊 M_f,再將可遷移模塊通過軟連接嵌入至本體網絡 M_t。因此,網絡克隆技術的目標為定位和嵌入具有可遷移性和局部保真性的可遷移模塊。
2.1 網絡關鍵部位定位
網絡關鍵部位定位的目標是學習選擇函數 M,選擇函數 M 在這里被定義為作用于網絡每一層 filter 的 mask。此時的可遷移模塊可以被表示為:
在上式中,我們將修正網絡 M_s 表示為 L 層,每一層表示為。已知可遷移模塊的提取不對修正網絡做任何修改。
為了得到合適的可遷移模塊 M_f,我們定位修正網絡 M_s 中對最終預測結果做出最大貢獻的顯式部分。在此之前,考慮到神經網絡的黑盒特性,且我們只需要網絡的部分預測結果,因此我們利用 LIME 擬合修正網絡在所需任務的局部建模(具體細節請查看論文正文)。
局部建模結果用來表示,其中 D_t 是所需的部分預測結果對應的訓練數據集(小于原始網絡的訓練集)。
因此選擇函數 M 可以通過以下目標函數進行優化:
在該式中,定位的關鍵部分擬合局部建模的 G。
2.2 網絡模塊嵌入
在修正網絡中定位可遷移模塊 M_f 時,使用擇函數 M 直接從 M_s 中提取,無需修改其權重。下一步是決定在本體網絡 M_t 中可遷移模塊 M_f 的嵌入位置,以獲得最佳的克隆性能。
網絡模塊的嵌入由位置參數 R 控制。遵循大多數模型重用設置,網絡克隆將本體模型的前幾層保留為通用特征提取器,網絡嵌入過程被簡化為查找最佳嵌入位置(即在第 R 層嵌入可遷移模塊 M_f)。查找嵌入的過程可以表示為:
詳細的公式解釋請查詢正文。總體來說,基于搜索的嵌入包括以下要點:
最佳位置參數 R 搜索的過程從網絡的深層到淺層;
在第 R 層進行可遷移性模塊嵌入后的超體網絡后,還需額外引入嵌入位置的 Adapter A 和重新 finetune F_c 層(對于分類網絡來說),但兩者的參數量相較于整個 model zoo 可以忽略不計;
當從網絡的第 L-1 層至第 0 層建立起連接后,我們粗略的根據每一次 fine-tune 的 loss 收斂值估計嵌入的性能,選取最小收斂值點作為最終的網絡嵌入點。
03 網絡克隆技術的實際應用
本文提出的網絡克隆技術的核心為建立起預訓練網絡之間的連通路徑,不需要對預訓練網絡進行任何參數的修改,它除了可以用作搭建網絡超體的關鍵技術,也能被靈活的運用到各種實際場景中。
場景一:網絡克隆技術使得 Model Zoo 在線使用成為可能。在一些資源有限的情況下,用戶可以在不下載預訓練網絡到本地的情況下靈活地利用在線的 Model Zoo。
注意到克隆后的模型是由確定的,其中 M_t ?和M_s 在整個過程中都是固定且不變的。模型克隆對預訓練模型上沒有進行任何修改,也沒有引入新模型。模型克隆使得 Model Zoo 中任何功能組合都成為可能,這也有助于維護 Model Zoo 的良好生態環境,因為建立連接使用 M 和 R 是一種簡單的 mask 和定位操作,易于撤銷。因此,提出的網絡克隆技術支持建立一個可持續的 Model Zoo 在線推理平臺。
場景二:經由網絡克隆生成的網絡具備更好的信息傳輸形式。當進行網絡傳輸時,該技術可以減少傳輸延遲和損失。
在進行網絡傳輸時,我們只需要傳輸集合,結合公共 Model Zoo,接收方可以恢復出原始網絡。與整個克隆后的網絡相比,非常小,因此可以減少傳輸延遲。如若 A 和 F_c 仍然存在一些傳輸損失,接收方可以通過在數據集上進行 fine-tune 來輕松修復。因此,網絡克隆為高效傳輸提供了一種新形式的網絡。
04 實驗結果
我們在分類任務上進行了實驗驗證。為了評估可遷移模塊的局部性能表征能力,我們引入了條件相似性指標:
其中 Sim_cos (?) 表示余弦相似性。
上表中給出了在 MNIST,CIFAR-10,CIFAR-100 和 Tiny-ImageNet 上的實驗結果,可以看出網絡克隆(PNC)得到的模型的性能提升最為顯著。且若進行整個網絡的 fine-tune(PNC-F)并不會帶來網絡性能的提升,相反,它會增加模型的 bias。
除此之外,我們對可遷移模塊的質量進行了評估(如上圖)。從圖(左)可以看出,從每個子數據集中學習的每個功能或多或少是相關的,這顯示出從修正網絡中提取和定位局部功能的重要性。對于可遷移模塊,我們計算其相似度 Sim (?)。圖(右)顯示,可遷移模塊與待克隆的子數據集在相似性上很高,其與其余子數據集的關系被削弱(非對角線區域用比源網絡的矩陣圖淺的顏色標記)。因此,可以得出結論,可遷移模塊成功地模擬了要克隆的任務集上的局部性能,證明了定位策略的正確性。
05 總結
本文研究了一種新的知識轉移任務,稱為部分網絡克隆(PNC),它以復制粘貼的方式從修正網絡中克隆參數模塊并將其嵌入到本體網絡中。與以往的知識轉移設置不同(它們依賴于更新網絡的參數)我們的方法保證所有預訓練模型的參數不變。PNC 的技術核心為同時進行網絡關鍵部位定位和可遷移模塊嵌入操作,兩個步驟相互加強。
我們在多個數據集上展示了我們的方法在準確性和可遷移性指標的突出結果。
審核編輯 :李倩
-
神經網絡
+關注
關注
42文章
4764瀏覽量
100542 -
網絡
+關注
關注
14文章
7519瀏覽量
88634 -
數據集
+關注
關注
4文章
1205瀏覽量
24644
原文標題:CVPR 2023 | 神經網絡超體?新國立LV lab提出全新網絡克隆技術
文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論