精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于深度學習下的穩定學習究竟是什么?因果學習?遷移學習?

GPU視覺識別 ? 來源: GPU視覺識別 ? 作者: GPU視覺識別 ? 2022-12-29 13:30 ? 次閱讀

機器學習 | 穩定學習| DGBR

深度學習 | 遷移學習| 因果學習

眾所周知,深度學習研究是機器學習領域中一個重要研究方向,主要采用數據分析、數據挖掘、高性能計算等技術,其對服務器的要求極其嚴格,傳統的風冷散熱方式已經不足以滿足散熱需要,這就需要新興的液冷散熱技術以此滿足節能減排、靜音高效的需求。機器學習除了在深度學習研究領域有其很大的發展,在因果學習、虛擬仿真、醫藥研發等領域也有很大的提高。盡管機器學習在很多領域都取得了成功,但是虛假相關帶來的潛在風險還是限制了這些模型在不少風險敏感領域的應用。這時穩定學習被提出來應對這個挑戰,它試圖在不影響模型性能的情況下構建更加可信的機器學習模型。

今年2月23日,清華大學計算機系崔鵬副教授與斯坦福大學Susan Athey(美國科學院院士,因果領域國際權威)合作,在世界頂級期刊Nature Machine Intelligence(影響因子IF=15.51,2020)上發表了一篇題為“Stable Learning Establishes Some Common Ground Between Causal Inference and Machine Learning”(穩定學習:建立因果推理和機器學習的共識)的觀點論文,深入探討和總結了因果推理在機器學習和人工智能領域的關注,提出機器學習和因果推理之間應該形成共識,穩定學習正在向這個目標邁進。基于上述學術觀點,本文總結了穩定學習的一系列進展。

人工智能當前面臨的挑戰

縱觀人工智能(AI)技術的發展史,在過去的20年中,人工智能的進步緊密伴隨著互聯網經濟的發展,在諸如網上搜索、推薦商品等眾多場景中都有人工智能技術的運用。在這些場景中,AI做出錯誤決策的危害較小(比如推薦了用戶不感興趣的商品),使用者對AI模型算法的穩定性和可靠性要求相對較低。如今,AI技術逐漸滲透進了包括醫療、司法、運輸等與民眾生活緊密相關,對人類的生存和發展有重大影響的領域中。在這樣的背景下,AI模型的可靠性和穩定性問題變得日益重要,也很大程度上決定了我們能在多大程度上利用和依賴人工智能技術幫助決策。

我們認為,當前人工智能模型在實踐利用中存在兩個重要問題。一是模型缺乏可解釋性;也即人們無法理解模型做出判斷的邏輯和原因。這就導致人們面對模型的決策時,只能無條件地完全肯定或否定其提供的答案,我們認為可以通過建立人機協作(human in the loop)的機制合作決策解決這個問題。第二個問題則是模型缺乏在位置環境下性能的穩定性;目前大多數人工智能模型依賴于iid假設(Independent and identically distributed), 即訓練數據集和測試數據集的數據分布是相似的;而在實際運用中,無法完全預見可能出現的數據分布(無法了解測試數據集的分布),此時模型的性能無法保證。本文將重點解決模型在未知環境下的性能穩定性問題。

以識別圖片中是否存在狗的人工智能應用為例。圖中的左圖是訓練集中包含狗的圖片集,其中大多數圖片的背景是草地。而在測試集中,模型對同樣為草地背景的圖片有良好的判斷力(右圖上);對非草地背景的圖片判斷準確度下降(右圖中、下)。

因果學習新進展深度穩定學習

目前深度學習在很多研究領域特別是計算機視覺領域(如圖像識別、物體檢測等技術領域)取得了前所未有的進展,而深度模型性能依賴于模型對訓練數據的擬合。當訓練數據(應用前可獲取的數據)與測試數據(實際應用中遇到的實例)分布不同時,傳統深度模型對訓練數據的充分擬合會造成其在測試數據上的預測失敗,進而導致模型應用于不同環境時的可信度降低。為了解決模型在分布遷移下的泛化問題,崔鵬老師團隊提出深度穩定學習,提高模型在任意未知應用環境中的準確率和穩定性。

mQUD8cTu_tvzh.jpg?auth_key=1672588799-0-0-02c49054d50eeff9514602efd17ce81d

獨立同分布學習、遷移學習和穩定學習

上圖給出了常見的獨立同分布模型、遷移學習模型和穩定學習模型的異同。獨立同分布模型的訓練和測試都在相同分布的數據下完成,測試目標是提升模型在測試集上的準確度,對測試集環境有較高的要求;遷移學習同樣期望提升模型在測試集上的準確度,但是允許測試集的樣本分布與訓練集不同。獨立同分布學習和遷移學習都要求測試集樣本分布已知。而穩定學習則希望在保證模型平均準確度的前提下,降低模型性能在各種不同樣本分布下的準確率方差。理論上穩定學習可以在不同分布的測試集下都有較好的性能表現。

一、基于本質特征的穩定學習

現有深度學習模型試圖利用所有可觀測到的特征與數據標簽的相關性進行學習和預測,而在訓練數據中與標簽相關的特征并不一定是其對應類別的本質特征。深度穩定學習的基本思路是提取不同類別的本質特征,去除無關特征與虛假關聯,并僅基于本質特征(與標簽存在因果關聯的特征)作出預測。如下圖所示,當訓練數據的環境較為復雜且與樣本標簽存在強關聯時,ResNet等傳統卷積網絡無法將本質特征與環境特征區分開來,所以同時利用所有特征進行預測,而StbleNet則可將本質特征與環境特征區分開來,并僅關注本質特征而忽略環境特征,從而無論環境(域)如何變化,StableNet均能做出穩定的預測。

jaLI6zN6_GHjJ.jpg?auth_key=1672588799-0-0-ef739f1fd8a27031f64a2b3524e68acc

傳統深度模型與深度穩定學習模型的saliency map,其中亮度越高的點對預測結果的貢獻越大,可以看到兩者特征的顯著不同,StableNet更關注與物體本身而傳統深度模型也會關注環境特征

目前已有的穩定學習方法多針對線性模型,通過干擾變量平衡(Confounder Balancing)的方法來使得神經網絡模型能夠推測因果關系。具體而言,如果要推斷變量A對變量B的因果關系(存在干擾變量C),以變量A是離散的二元變量(取值為0或1)為例,根據A的值將總體樣本分為兩組(A=0或A=1),并給每個樣本賦予不同的權重,使得在A=0和A=1時干擾變量C的分布相同(即D(C|A=0) = D(C|A=1),其中D代表變量分布),此時判斷D(B|A=0) 和D(B|A=1)是否相同可以得出A是否與B有因果關系。

而在計算機視覺相關的場景中,由于經卷積網絡后的各維特征為連續值且存在復雜的非線性依賴關系,無法通過直接應用上述干擾變量平衡方法來消除特征間的相關性;另外由于用于深度學習的訓練數據集通常尺寸較大,深度特征的維度也較大,所以無法直接計算出全局的樣本權重。本文要解決的問題,就是如何在深度學習網絡中找到一組樣本權重,使得所有變量之間都可以做到互相獨立,即任意選取一個變量為目標變量,目標變量的分布不隨其它變量的值的改變而改變。

二、基于隨機傅立葉特征的深度特征去相關

去除特征間相關性的基本思路是干擾變量平衡,其基本原理如下圖所示:

NXmf5hMK_HJ9z.jpg?auth_key=1672588799-0-0-2f7994dfe16d93e3572e89ce90e1ee5c

樣本變量之間獨立性函數(圖左);神經網絡優化公式(圖右)

而深度網絡的各維特征間存在復雜的依賴關系,僅去除變量間的線形相關性并不足以完全消除無關特征與標簽之間的虛假關聯,所以一個直接的想法就是通過kernel(核方法)將映射到高維空間,但是經過kernel映射后原始特征的特征圖維度被擴大到無窮維,使得各維變量間的相關性無法計算。鑒于隨機傅立葉特征(Random Fourier Feature, RFF)在近似核函數以及衡量特征獨立性方面的優良性質,本文采用RFF將原始特征映射到高維空間中(可以理解為在樣本維度進行擴充),消除新特征間的線形相關性即可保證原始特征嚴格獨立,如下圖所示。

SBQAEcNm_sn4n.jpg?auth_key=1672588799-0-0-79288d4b88f5ac58af1a3cd44a6be30f

用于獨立性檢測的隨機傅立葉特征(圖左);StableNet網絡與樣本權重更新(圖右)

三、全局優化樣本權重

上述公式要求在訓練過程中為每個訓練樣本都學習一個特定的權重,但在實踐中,尤其對于深度學習任務,要想利用全部樣本全局地學習樣本權重需要巨大的計算和存儲開銷。此外,使用SGD對網絡進行優化時,每輪迭代中僅有部分樣本對模型可見,因此無法獲取全部樣本的特征向量。本文提出了一種存儲、重加載樣本特征與樣本權重的方法,在每個訓練迭代的結束融合并保存當前的樣本特征與權重,在下一個訓練迭代開始時重加載,作為訓練數據的全局先驗知識優化新一輪的樣本權重,如下圖所示。

23uFYCHN_RxqT.jpg?auth_key=1672588799-0-0-077b4230d4f7dff1bfd8d4a81ccb1846

全局先驗知識(圖左);先驗知識更新(圖右)

StableNet的結構圖如下圖所示,輸入圖片經過卷積網絡后提取得視覺特征,后經過兩個分支。其中上方分支為樣本權重學習子網絡,下方分支為常規分類網絡。最終訓練損失為分類網絡預測損失與樣本權重的加權求和。其中LSWD為去相關樣本權重學習模塊(Learning Sample Weights for Decorrelation),利用RFF學習使特征各維獨立的樣本權重。

R9XgzPFO_eZm9.jpg?auth_key=1672588799-0-0-96faf9a3210db2a1a220d26e510016ed

StbelNet結構圖

以識別狗的應用為例,如果訓練樣本中大部分的狗在草地上,少部分的狗在沙灘上,圖片相應的視覺特征經樣本重加權后各維獨立,即狗對應的特征與草地、沙灘對應的特征在統計上不相關,所以分類器在預測狗是否存在時更容易關注與狗相關的特征(若關注草地、沙灘等特征會造成預測損失激增),所以測試時無論狗在草地上或沙灘上與否,StableNet均能依據本質特征給出較準確的預測,實現模型在OOD數據上的泛化。

RUR3vxFV_3dAt.jpg?auth_key=1672588799-0-0-b772a2ff2cb50c7dfe0c8ecb4a1b79f7

StbelNet訓練流程

四、含義更廣泛的域泛化任務

在常規的域泛化(DG)任務中,訓練集的不同源域容量相近且異質性清晰,然而在實際應用中,絕大部分數據集都是若干潛在源域的組合,當源域異質性不清晰或未被顯式標注時,我們很難假定來自于各源域的數據數量大致相同。為了更加全面地驗證StableNet的泛化性能,本文提出三種新的域泛化任務來仿真更加普適且挑戰性更強的分布遷移泛化場景。

1、不均衡的域泛化

對于源域不明確的域泛化問題,假定源域容量相近過于理想化,一個更普適的假設為來自不同源域的數據量可能不同且可能差異巨大。在這種情況下,模型對于未知目標域的泛化能力更滿足實際應用的需求。例如在識別狗的例子中,我們很難假定背景為草地、沙灘或水里的圖片數量相同,實際情況下狗較多地出現在草地上而較少出現在水里。這就要求模型的預測不能被經常與狗一起出現的背景草地誤導,所以本任務的普適性和難度顯著高于均衡的域泛化。

使用ResNet18作為特征提取網絡的實驗結果如下表,在PACS和VLCS數據集上StableNet取得了最優性能。

jKIU64jp_jy9C.jpg?auth_key=1672588799-0-0-1014501a0d4ab82af4673f82ef83190d

不均衡的域泛化實驗結果

2、部分類別缺失的域泛化

我們考慮一種挑戰性更大且在現實場景中經常存在的情況,某些源域中有部分類別的數據缺失,而在測試集中模型需要識別所有類別。例如,鳥經常出現在樹上而幾乎不會出現在水里,魚經常出現魚缸里而幾乎不會出現在樹上,所以并不是所有源域都一定包含全部類別。這種場景要求更高的模型泛化能力,由于每個源域中僅有部分類別,所以域相關的特征與標簽間的虛假關聯更強且更易誤導分類器。

下表為實驗結果,由于對域異質性及類別完整性的要求,很多現有域泛化方法無法顯著優于ResNet,而StableNet在PCAS,VLCS及NICO上均取得了最優結果。

SgaRj8Rj_cFnY.jpg?auth_key=1672588799-0-0-e05fc00c550857a1220a55aba5122617

部分類別缺失的域泛化實驗結果

3、存在對抗的域泛化

一種難度更大的場景是任一給定類別的主導源域與主導目標域不同。例如,訓練數據中的狗大多在草地上而貓大多在室內,而測試數據中的狗大多在室內而貓大多在草地上,這就導致如果模型不能區分本質特征與域相關特征,就會被域信息所誤導而做出錯誤預測。下表為在MNIST-M數據集上的實驗結果,StableNet仍顯著優于其他方法,且可見隨主導域比例升高,ResNet的表現顯著下降,StableNet的優勢也越發明顯。

aaE3Y5tW_Tax3.jpg?auth_key=1672588799-0-0-66db35dffa69c891762675d4a3526bb0

存在對抗的域泛化實驗結果

穩定學習的主要方法

DGBR算法首次解決了二元預測變量(特征)和二元離散響應變量設定下的穩定預測問題。此后,人們提出一系列穩定學習方法以解決不同設置下更穩定的預測問題。但后續設計的穩定學習方法不僅僅局限于因果推理的角度,包括統計學習、優化過程等不同視角,本部分將一一介紹。

一、基于樣本加權的變量去相關

崔鵬團隊進一步探討了模型錯估(即模型與數據生成機制不一致)的穩定預測問題。Zheyan Shen等人研究了線性模型中變量間的共線性如何影響預測穩定性,提出了一種通用的數據預處理方法,通過對訓練集樣本重新加權來去除預測變量(特征)間的相關性,以減少共線性影響。況琨等人的工作進一步改進了DGBR算法,提出了去相關加權回歸(DWR),將變量去相關正則化與加權回歸模型相結合,解決了連續預測變量(特征)設置下模型的穩定預測問題。

去除所有變量之間的相關性固然是找到因果相關,平衡協變量并實現穩定預測的好主意,它的代價是大大降低了有效樣本量,而這在機器學習訓練中是災難性的。Zheyan Shen等人通過使用來自不同環境的未標注數據,提出了一種基于變量聚類的變量分解的算法,稱為區分性變量去相關(Differentiated Variable Decorrelation, DVD)。這個方法是注意到保留因果性變量之間的相關性未必會導致模型在未知環境中的性能不穩定。以特征間相關性的在訓練集數據和未標注之間的數據穩定性作為聚類的指標,可以將預測變量(特征)進行聚類并為不同的聚類簇,其中一些聚類簇代表了對相應變量具有因果效應的特征集合。在平衡混淆變量時只需要隔離這些聚類簇即可。由于聚類簇的數量遠低于特征的維度,因此DVD與樣本加權方法DWR相比,保持了更高的有效樣本量。

Om92UN3F_RmxO.jpg?auth_key=1672588799-0-0-f3f94697ec30ed796f01a4a5f2582d95

與不加區分地去除所有變量的相關性的方法(DWR)相比,區分性變量去相關方法(DVD)在相同設定下具有更大的有效樣本量

二、對抗穩定學習

由于人們總是想最大化地利用訓練數據中發現的所有相關性,具有經驗風險最小化的機器學習算法在分布變化下很容易受到攻擊。崔鵬老師團隊提出了穩定對抗學習 (Stable Adversarial Learning, SAL) 算法,以一種更有原則和統一的方式來解決這個問題,該算法利用異構數據源構建更實用的不確定性集并進行差異化魯棒性優化,其中協變量根據其與目標相關性的穩定性進行區分。

具體來說,該方法就是采用了Wasserstein分布式魯棒學習(Wasserstein distributionally robust learning, WDRL)的框架。根據協變量在多個環境中的穩定性,進一步將不確定性集表征為各向異性,這會給不穩定協變量帶來比穩定協變量更強的對抗性擾動。并且設計了一種協同算法來聯合優化協變量的微分過程以及模型參數的對抗訓練過程。

在實驗中,將SAL算法與經驗風險最小化 (Empirical Risk Minimization, ERM) 框架、Wasserstein分布式魯棒學習 (Wasserstein distributionally robust learning, WDRL) 框架、不變風險最小化 (Invariant Risk Minimization, IRM) 框架進行比較:

fLq36LaF_ET6v.jpg?auth_key=1672588799-0-0-31c5d048aee1b73ff0871223057b9dda

(a)各環境下的測試性能(b) 關于半徑的測試性能(c) S和V相對于半徑的學習系數值

實驗結果表明,SAL算法各向異性地考慮每個協變量以獲得更真實的魯棒性。此外,構造了一個更好的不確定集,在不同的分布的數據上取得了一致更好的表現,驗證了算法的有效性。

三、異質性風險最小化

同樣,如果要充分利用訓練數據中發現的所有相關性,經驗風險最小化的機器學習算法通常泛化性能很差,而且這些相關性在分布的變化下是不穩定的。崔鵬老師的團隊提出了異質性風險最小化(HRM)的框架,以實現對數據之間潛在的異質性和不變關系的聯合學習,從而實現在分布變化的情況下的穩定預測。

XtfwEL2g_TmSV.jpg?auth_key=1672588799-0-0-31e282612b26cd3d9d514be37a1db13f

HRM框架

整體框架如圖所示。該框架包含兩個模塊,用于異質性識別的前端和用于不變預測的后端Mp。給定異質性數據,從異質性識別模塊Mc出發,用學習變量ψ (x)表示異質性環境εlearn。然后,分布外一般化預測模塊Mp使用所學習的環境來學習MIP φ (x)和不變預測模型F (φ (x))。之后,我們推導出變型ψ (x)來進一步增強模Mc。至于“轉換”步驟,基于我們的設置,我們在這項工作中采用了特征選擇,通過它可以在學習更多不變特征時獲得更多的變異特征。

HRM是一種優化框架,可實現數據和不變預測器之間潛在異質性的聯合學習。盡管分布發生變化,在該框架下仍具有更好的泛化能力。

為了驗證該框架的有效性,崔鵬老師團隊將HRM框架與經驗風險最小化 (Empirical Risk Minimization, ERM) 框架、分布魯棒優化 (Distributionally Robust Optimization, DRO) 框架、不變學習的環境推理 (Environment Inference for Invariant Learning, EIIL) 框架、具有環境εtr標簽的不變風險最小化 (IRM) 框架進行比較。

實驗表明,與基線方法相比,HRM在平均性能和穩定性方面取得了近乎完美的表現,尤其是跨環境損失的方差接近于0。此外,HRM不需要環境標簽,這驗證了我們的聚類算法可以挖掘數據內部潛在的異質性。

繼續進行了三個真實場景的預測,包括汽車保險預測、人們收入預測和房價預測。

x6uuppsk_4JkB.jpg?auth_key=1672588799-0-0-f7b538c5e06508b72c77b6c60b2809df

真實場景的預測結果(a) 汽車保險預測的訓練和測試準確性。左子圖顯示了5種設置的訓練結果,右子圖顯示了它們對應的測試結果。(b) 收入預測的誤分類率。(c) 房價預測的預測誤差。

從實驗結果可以看出,在所有任務和幾乎所有測試環境中,HRM始終保持最佳性能。HRM可以有效地揭示和充分利用訓練數據的內在異質性進行不變學習。HRM放寬了對環境標簽的要求,為不變學習開辟了新的方向。它能夠涵蓋廣泛的應用,例如醫療保健、金融、營銷等。

四、穩定學習的理論解釋

協變量偏移泛化是分布外泛化 (OOD) 中的典型案例,它要求在未知測試分布上具有良好的性能,并且該測試分布與訓練分布差距體現在協變量遷移上。在涉及回歸算法和深度神經網絡的幾種學習模型上,穩定的學習算法在處理協變量移位泛化方面已經顯示出一定的有效性。崔鵬老師團隊通過將穩定學習算法解釋為特征選擇的過程,向理論分析邁進了一步。

具體是這樣的,首先定義一組變量,稱為最小穩定變量集(minimal stable variable set),它是處理常見損失函數(包括均方損失和二元交叉熵損失)下的協變量遷移泛化的最小且最優的變量集合。然后證明了在理想條件下,穩定的學習算法可以識別出這個集合中的變量。這些理論闡明了為什么穩定學習適用于協變量遷移泛化。

CxdRr54J_2AmW.jpg?auth_key=1672588799-0-0-9233ab278f25187c200ab67f04527032

典型穩定學習算法的框架如圖所示。該算法通常包括兩個步驟,分別是重要性采樣和加權最小二乘。在理想條件下,穩定學習算法可以識別最小穩定變量集,這是可以在協變量偏移下提供良好預測的最小變量集。

最小穩定變量集與馬爾可夫邊界密切相關,穩定學習在一定程度上有助于識別馬爾可夫邊界。此外,如果以協變量移位泛化為目標,馬爾可夫邊界不是必需的,而最小穩定變量集是充分且最優的。

與馬爾可夫邊界相比,最小穩定變量集可以帶來兩個優勢:

① 條件獨立性檢驗是精確發現馬爾可夫邊界的關鍵。

② 在幾個常見的機器學習任務中,包括回歸和二元分類,并不是所有的變量都在馬爾可夫邊界。最小穩定變量集被證明是馬爾可夫邊界的子集,它排除了馬爾可夫邊界中無用的變量,用于協變量移位泛化。

穩定學習的應用

一、圖上的穩定學習

1、具有選擇性偏差的多個環境中學習穩定圖

如今,圖已成為一種通用且強大的表示,通過其結構中編碼的底層模式來描述不同類型實體之間的豐富關系。然而,圖生成的數據收集過程充滿了已知或未知的樣本選擇性偏差,尤其是在非平穩和異構的環境中,實體之間會存在虛假關聯。針對從具有選擇性偏差的多個環境中學習穩定圖的問題,崔鵬老師團隊設計了一個無監督的穩定圖學習 (Stable Graph Learning, SGL) 框架,用于從集合數據中學習穩定圖,該框架由GCN (Graph Convolutional Networks) 模塊和針對高維稀疏集合數據的E-VAE (element-wise VAE) 模塊組成。

穩定圖學習的任務是學習一個表示無偏連接結構的圖Gs,因為環境中的圖是從數據生成的,如果數據的收集過程來自具有選擇性偏差的環境,則元素之間的虛假相關性會導致圖在其他環境中表現不佳。SGL框架能很好地解決這個問題,SGL框架可以分解為兩個步驟,包括基于圖的集合生成和穩定圖學習。穩定圖學習過程圖解如下圖所示。

tBS9Qvk9_kdkm.jpg?auth_key=1672588799-0-0-3596b475cdd0cd4b7bd1f3ee0c876446

穩定圖學習的過程圖解

模擬實驗中,如圖所示,在幾乎所有的實驗中,SGL框架的性能要穩定得多,特別是當兩個環境之間的差異更顯著時,它比所有基線方法都達到更高的平均準確度。

8dZdUG9z_dXq3.jpg?auth_key=1672588799-0-0-87fb75cc1be19c53733b811212da739f

模擬實驗結果。每個子圖對應一個實驗,紫色曲線表示SGL框架生成的圖Gs的實驗表現

而相應地,在真實實驗里,崔鵬老師團隊研究了商品推薦的常見實際應用中的穩定圖結構問題。

從下表可以看出,SGL框架生成的圖Gs可以平衡兩種環境下的相關性,更穩定地達到最高平均預測率。

qzIskuXH_JrCM.jpg?auth_key=1672588799-0-0-dfa2e320311ff7384d165a9b537fd3c3

使用從商品網絡中學習的項目嵌入進行帶有曝光偏差的購買行為預測

如下表所示。SGL框架可以很好地彌補單一環境下的信息損失,通過學習商品之間的本質關系,生成整體性能最佳的圖Gs。

2GgcCCYR_4eee.jpg?auth_key=1672588799-0-0-4c8e4b23f5d98cd4301b1bc7c1056b8a

使用從商品網絡中學習到的項目嵌入來預測不同性別群體的購買行為

圖生成的數據選擇性偏差可能導致有偏差的圖結構在Non-I.I.D.場景中性能不佳。針對該問題提出的SGL框架可以提高學習圖的泛化能力,并能很好地適應不同類型的圖表和收集的數據。

2、具有不可知分布偏移的圖的穩定預測

圖神經網絡 (Graph Neural Networks, GNNs) 已被證明在具有隨機分離的訓練和測試數據的各種圖任務上是有效的。然而,在實際應用中,訓練圖的分布可能與測試圖的分布不同。此外,在訓練GNNs時,測試數據的分布始終是不可知的。因此,大家面臨著圖學習訓練和測試之間的不可知分布轉變,這將導致傳統GNNs在不同測試環境中的推理不穩定。

為了解決這個問題,浙江大學況琨老師團隊提出了一種新的GNNs穩定預測框架,它允許在圖上進行局部和全局穩定的學習和預測,可以減少異構環境中的訓練損失,從而使GNNs能夠很好地泛化。換句話說,是為GNNs設計了一種新的穩定預測框架,該框架能捕獲每個節點的穩定屬性,在此基礎上學習節點表示并進行預測(局部穩定),并規范GNNs在異構環境中的訓練(全局穩定)。該方法的本質如圖所示。

rRx8SLs5_6TkG.jpg?auth_key=1672588799-0-0-f192adef2b8e373984a1391afecf575f

整體架構

由兩個基本組成部分組成,即在每個目標節點的表示學習中捕獲跨環境穩定的屬性的局部穩定學習,以及顯式平衡不同訓練的全局穩定學習環境。

在圖基準實驗中,浙江大學況琨老師團隊使用OGB數據集和傳統基準Citeseer數據集,構建兩層GCN和GAT。所有其他方法(包括我們的方法)也包含兩個圖形層以進行公平比較。OGBarxiv的所有方法的隱藏層神經節點個數為250,Citeseer的隱藏層神經節點個數為64,學習率為0.002。

穩定預測框架有著更穩定的實驗結果。當測試分布與訓練分布的差異更大時,大多數GNNs會遭受分布變化并且產生較差的性能(例如,圖a的右側)。盡管穩定預測框架在分布更接近訓練的測試環境中犧牲了一些性能(例如,圖a的左側),但獲得了顯著更高的 Average_Score 和更低的 Stability_Error。

SAxQBQEB_yf3A.jpg?auth_key=1672588799-0-0-fc2cfb1baf7081053e244277ce505fd2

在OGB-Arxiv數據集上的測試結果

e2hCBB4q_LKJ7.jpg?auth_key=1672588799-0-0-2c3cd7749462be4307e1a937ab537fe6

在Citeseer數據集上的測試結果

為了證明穩定預測框架在實際應用中的有效性,浙江大學況琨老師團隊收集真實世界的嘈雜數據集,對推薦系統的用戶-項目二分圖進行了實驗。實驗結果表明,穩定預測框架比其他基線方法取得了明顯更穩定的結果。

DXkRI7sW_ILAf.jpg?auth_key=1672588799-0-0-d476dfcf2129937e8298853c7c021a7b

具有由節點屬性引起的分布偏移的真實世界推薦數據集的結果

EpkAOx8s_tOBn.jpg?auth_key=1672588799-0-0-3b6e30feee3b932ae52f43619c396778

具有真實世界環境的推薦數據集的結果(每天作為一個單獨的環境)

二、深度神經網絡中的穩定學習

基于深度神經網絡的方法在測試數據和訓練數據共享相似分布時取得了驚人的性能,但有時可能會失敗。因此,消除訓練和測試數據之間分布變化的影響對于構建性能有希望的深度模型至關重要。崔鵬老師團隊建議通過學習訓練樣本的權重來消除特征之間的依賴關系來解決這個問題,這有助于深度模型擺脫虛假關聯,進而更多地關注判別特征和標簽之間的真正聯系。

崔鵬老師團隊提出了一種稱為StableNet的方法。該方法通過全局加權樣本來解決分布偏移問題,以直接對每個輸入樣本的所有特征進行去相關,從而消除相關和不相關特征之間的統計相關性。這是一種基于隨機傅立葉特征 (Random Fourier Features, RFF) 的新型非線性特征去相關方法,具有線性計算復雜度。同時,它也是有效的優化機制,通過迭代保存和重新加載模型的特征和權重來全局感知和消除相關性,還能在訓練數據量大時減少存儲的使用和計算成本。此外,如圖16所示,StableNet可以有效地剔除不相關的特征(例如,水)并利用真正相關的特征進行預測,從而在野外非平穩環境中獲得更穩定的性能。

v72YRnb2_79eX.jpg?auth_key=1672588799-0-0-ea38d7200ae4180e878631ae0da9da15

當識別狗的訓練圖像包含很多水時,StableNet模型主要關注于狗

Ev8NtxuV_ARZK.jpg?auth_key=1672588799-0-0-e65261d1cf02eb8e1d3b7a1ff4e764c6

StableNet的整體架構

為了涵蓋更普遍和更具挑戰性的分布變化案例,崔鵬老師團隊在實驗中采用如下四種設置:非平衡、靈活、對抗、經典。在不同的實驗設置下,StableNet都能不同程度得優于其他方法。

在消融研究中,通過隨機選擇用于計算具有不同比率的依賴關系的特征來進一步降低特征維度。下圖顯示了具有不同維度隨機傅里葉特征的實驗結果。

UR7Gc7qm_5TIs.jpg?auth_key=1672588799-0-0-334a14a9406f93ce468e5c522bce82ca

消融研究的結果

圖像分類模型的一種直觀解釋是識別對最終決策有很大影響的像素。所以,在顯著性圖像上,為了演示模型在進行預測時是關注對象還是上下文(域),對類別得分函數相對于輸入像素的梯度進行了可視化。可視化結果如圖所示。

wIG6vYNN_OxZc.jpg?auth_key=1672588799-0-0-af9c900ea9585ac789251c9dc47886b8

StableNet的顯著性圖像。像素越亮,它對預測的貢獻就越大

各種實驗結果表明,StableNet方法可以通過樣本加權消除相關和不相關特征之間的統計相關性,進而有效剔除不相關的特征并利用真正相關的特征進行預測。

三、穩定學習與公平性

如今,公平問題已經成為了決策系統中的重要問題。已經有很多學者提出了各種公平的概念來衡量算法的不公平程度。珀爾研究了伯克利大學研究生入學性別偏見的案例。數據顯示,總體而言,男性申請人的入學率較高,但在研究院系選擇時,結果有所不同。由院系選擇引起的偏差應該被認為是公平的,但傳統的群體公平觀念由于沒有考慮院系選擇而無法判斷公平。受此啟發,基于因果關系的公平理念應運而生。在這些論文中,作者首先假設了特征之間的因果圖,然后,他們可以將敏感屬性對結果的不公平因果效應定義為一個度量。然而,這些公平性概念需要非常有力的假設,而且它們不可擴展。在實踐中,經常存在一組我們稱之為公平變量的變量,它們是決策前的協變量,例如用戶的選擇。

公平變量并不會影響評估決策支持算法的公平性。因此,崔鵬老師團隊通過設置公平變量將條件公平定義為更合理的公平度量。通過選取不同的公平變量,崔鵬老師團隊證明了傳統的公平概念,例如統計公平和機會均等,是條件公平符號的特例。并且提出了一種可求導的條件公平正則化器(Derivable Conditional Fairness Regularizer, DCFR),它可以集成到任何決策模型中,以跟蹤算法決策的精度和公平性之間的權衡。

LqO7FdaI_OCjH.jpg?auth_key=1672588799-0-0-63679bae18399967bca342cae88015d2

DCFR的框架

為了公平比較,在實驗中,選擇也使用對抗性表示學習的方法來解決問題的公平優化算法作對照。有UNFAIR、ALFR、CFAIR和LAFTR,以及它的變體LAFTR-DP和LAFTR-EO。

TPwXvRFT_mJrm.jpg?auth_key=1672588799-0-0-35794aeb17d651acc98e6c5efedd76ad

各種數據集(從上到下依次為收入數據集、荷蘭人口普查數據集、COMPAS數據集)上不同公平性指標(從左到右依次為Δ 、Δ 、Δ )的準確性-公平性權衡曲線。DCFR以粗線顯示。

很明顯,在實驗中DCFR更有優勢,在準確性和公平性上達到更好的權衡效果。對于統計公平和機會均等任務,DCFR的退化變體能有與專為這些任務設計的最先進基線方法相當的性能,有時甚至還能有更好的結果。綜上所述,DCFR在真實數據集上非常有效,并在條件公平目標上取得了良好的性能。并且隨著公平變量的數量增加,其表現會更好。

四、穩定學習與領域自適應

穩定學習最初的定義是不需要目標域信息的,這里的領域自適應是一種利用了目標域信息的做法,可以理解為拓展了最初的穩定學習的含義。

研究表明,深度神經網絡學習到的表征可以轉移到我們沒有充足標記數據的其他領域中,并進行類似的預測任務。然而,當我們過渡到模型中的更高神經層時,表征變得更加適用于特定任務而不通用。關于這個問題,深度域適應的研究提出通過強制深度模型學習更多跨域可遷移的表征來緩解。這其實是通過將域適應方法整合到深度學習管道中來實現的。然而,相關性并不總是可轉移的。亞利桑那州立大學(Arizona State University,ASU)劉歡老師團隊提出了一個用于無監督域適應 (Deep Causal Representation learning framework for unsupervised Domain Adaptation, DCDAN) 的深度因果表示學習框架,以學習用于目標域預測的可遷移特征表示,如圖22所示。其實就是使用來自源域的重新加權樣本來模擬虛擬目標域,并估計特征對結果的因果影響。

6Caew2RU_SYj4.jpg?auth_key=1672588799-0-0-6d5bd24919110ef7d507c887592e63a3

DCDAN概述

DCDAN由一個正則化項組成,該正則化項通過平衡從數據中學習到的特征表示的分布來學習源數據的平衡權重。這些權重的設計有助于模型捕捉特征對目標變量的因果影響,而不是它們的相關性。此外,我們的模型包括深度神經網絡的加權損失函數,其中每個樣本的權重來自正則化項,損失函數負責學習預測域不變特征,以及將學習到的表征映射到輸出的分類器或因果機制。將學習組件的樣本權重嵌入到模型的管道中,并將這些權重與表征聯合學習,這樣不僅可以從深度模型中受益,還能學習對目標具有可轉移性和良好預測效果的因果特征。

7vk2OHeu_k6Rz.jpg?auth_key=1672588799-0-0-357e629161573588ddfca793e67174c5

DCDAN生成的數據集中樣本示例(EQ2)和熱圖。(a)顯示了來自數據的示例圖像,圖23(b)顯示了從VQA-X數據集中提取的圖23(a)的因果特征的基本事實,圖23(c) 顯示了DCDAN為因果表征生成的熱圖

為了驗證該框架的有效性,亞利桑那州立大學(Arizona State University,ASU)劉歡老師團隊將ResNet-50、DDC、DAN、Deep CORAL、DANN、HAFN設置為對照方法來進行實驗。

jeng2wsw_Md4r.jpg?auth_key=1672588799-0-0-d1b5dc63bf65a396e168abd264642d3e

DCDAN和Resnet-50 在VQA-X數據子集上生成的熱圖

在實驗中,DCDAN在許多情況下優于基線方法,結果表明DCDAN可以執行無監督的域自適應,顯示了它在學習因果表示方面的有效性。而且這還驗證了因果特征表示有助于學習跨域的可遷移特征,進一步證實了因果損失和分類損失之間的良好權衡可以導致學習更多可轉移的特征。

因果啟發的穩定學習研究進展

一、清華大學崔鵬:關于分部外泛化和穩定學習的一些思考

近年來,分布外(OOD)泛化問題廣泛引起了機器學習和計算機視覺等領域研究者的興趣。以監督學習為例,我們希望找到一個模型 f 以及其參數 θ,使得我們能夠在測試數據分布上最小化和y之間損失的期望。

sMdVjz5p_uYaV.jpg?auth_key=1672588799-0-0-52a00264c679b7d34d9a9c3eb833b38e

原則上說,我們測試時的數據分布是未知的,為了對其進行優化,傳統的機器學習方法認為訓練數據和測試數據滿足獨立同分布假設,從而對問題進行簡化,使我們可以在訓練數據分布下搜索帶有參數 θ 的函數 f。

然而,這種簡化的問題設定無法滿足許多實際應用場景的要求,我們往往很難保證測試時和訓練時的數據分布一致。通過上述方式學習到的

640?wx_fmt=png

缺乏理論保障,模型在真實的測試環境下的性能與實驗室中訓練時的性能可能相差甚遠。為此,一些研究人員開始研究分布外場景下的學習問題。

根據測試時數據分布的不同,分布外學習問題衍生出了兩條技術路徑:

(1)分布外域自適應:測試數據(目標域)部分已知,基于域自適應/遷移學習技術,將利用訓練數據(源域)得到的模型適配到不同的數據分布(目標域)下

(2)分布外泛化:測試數據分布完全未知。

dYnfYSUR_2uIw.jpg?auth_key=1672588799-0-0-d18088efcd7816374fbf7451b2a1336b

在傳統的獨立同分布學習場景下,模型泛化是一種內插(Interpolation)泛化,在分布外學習場景下,模型泛化則指的是外推(Extrapolation)。

如上圖所示,在獨立同分布場景下,如果 參數量太少,則模型對數據欠擬合;若參數量過多,則模型可能對數據過擬合。論文「Direct Fit to Nature:An EvolutionaryPerspective on Biological and Artificial Neural Networks」的作者認為,過參數化的深度學習網絡之所以具有較好的泛化能力,可能是由于模型用類似折線的形式直接對數據點進行了擬合。

如果我們直觀測到整體中很小的一部分數據,就需要對未觀測到的數據進行外推。傳統上,我們需要進行精巧的實驗設計,基于小量的觀測數據推理出分布外的情況。在這一過程中,我們會引入大量人類總結出的一些通用規律,從而實現數據的外推。

qTQ2yfpd_n3fk.jpg?auth_key=1672588799-0-0-8fbb2f0e46715599ac8d6ac148902291

正所謂「以不變應萬變」,「不變性」(invariance)是實現外推的基礎。例如:牛頓觀察到蘋果從樹上落下,從而推導出萬有引力定律,進而可以將這一規律外推到其它物體的運動上。

在獨立同分布場景下,由于我們認為訓練數據和測試數據分布相同,我們的目標是數據擬合,此時「相關性」自然成為了一個很好的統計指標。在 OOD 場景下,我們旨在通過以下兩條路徑尋找「不變性」:

(1)因果推理

(2)從變化中尋找不變性

1、因果推理

MVG2RLbb_vjAD.jpg?auth_key=1672588799-0-0-036a3d00f04b8cf39df7feee936196b7

因果推理是一種與不變性相關的科學。在經典的因果模型中,我們試圖控制X,尋找 T 的變化對 Y 的影響。具體而言,利用觀測數據,我們會通過樣本重加權(Sample Reweighting)將 T=1 和 T=0 時的樣本具有相似的 X 分布,如果這兩種情況下的 Y 有顯著變化,則 T 對 Y 有因果效應。此時,我們估計出的 T 對 Y 的因果效應平均而言對于 X的變化是具有不變性的。

為了將不變性適配到學習框架中,我們要研究多個輸入變量對輸出變量預測性的影響。在穩定學習框架下,我們試圖找到一組合適的樣本權重,進行樣本重加權后再通過輸入變量對輸出變量進行回歸,此時的回歸系數即為滿足因果關系的回歸系數。通過上述方式訓練出的模型具有 OOD 的泛化能力。

2、從變化中尋找不變性

JVJWzDxO_DAne.jpg?auth_key=1672588799-0-0-5af7c4a204fa1965b932a098c59a0501

變化與不變性是對立統一的。在機器學習場景下,數據中的「變化」指的是訓練數據中存在的異質性(例如,圖像背景的不同、物體品類的不同)。然而,我們無法手動定義這種數據的異質性,因為我們無法保證數據在所有的特征維度上都滿足不變性約束。

因此,一種可行的方式是從潛在的異質性中尋找不變性。我們假設環境是未知的,存在一定的異質性。在這種情況下,我們首先需要發現數據中的異質性,再根據數據的異質性發現其中的不變性,接著我們還可以反過來利用不變性提升對變化部分(異質性)的學習效果,這一過程將一直迭代下去。

3、穩定學習的定位

afRP5zyJ_Tnnc.jpg?auth_key=1672588799-0-0-39daaf8a3ec29de1d9fb621920746c2f

在穩定學習框架下,我們利用一個異質的數據分布學習模型,希望將學習到的模型應用到一系列未知數據集上時具有一定的性能保證。除了通過實驗證明此類模型的有效性,我們還希望為其發展出理論的支撐。

二、清華大學張興璇:StableNet——用于分布外泛化的深度穩定學習

我們具體來討論深度穩定學習,比如我的訓練圖片中是很多狗都在草地上,然后少量的狗在其他背景上時,那么它需要能及及時分辨出草地上的狗,通常這個模型可以給出比較準確的預測。但是當給到一個他建的比較少的背景,他可能就會不一定給出一個準確的預測,但大部分可能還可以給出類似的預測,但是當它出現了一個他完全沒有見過的背景的時候,這個模型很有可能就給出一個錯誤的預測。所以說這種分布偏移的問題,會給現在的深度網絡帶來很大的挑戰。

IIxEsvfZ_K5Kg.jpg?auth_key=1672588799-0-0-2f6ae8c42bf7a1cd29b9e751a2e3c658

對于當下基于獨立同分布假設開發的深度學習網絡而言,若訓練數據和測試數據分布不一致時,模型的泛化性能將會較差。如上圖所示,假設訓練集包含大量背景為草地的狗,如果在測試時面對一張站在草地上的狗的圖片,網絡一般可以準確地對圖片進行預測;然而,如果測試圖片中的背景在訓練集中出現地較少或從未出現,則網絡的預測效果很可能較差。這種分布偏移問題是當前的深度學習網絡面臨的重大挑戰之一。

之所以會出現上述問題,是因為網絡學習到的很可能是數據之間的相關性。在上圖中,由于訓練集中大量存在「狗站在草地上」的樣本,因此草地的特征和狗的圖像特征之間建立了關聯,進而在草地的特征和狗的標簽之間建立了關聯,導致在測試集上對其它背景圖片的預測性能有所下降。

InXKHeIX_7F4g.jpg?auth_key=1672588799-0-0-94c12d2b19484fda32e1c08311eb8031

為了解決上述問題,我們試圖轉而抽取因果特征(例如,部分和整體的因果關系)。在穩定學習框架下,我們重點關注的是物體本身的因果特征,而非環境的特征。

如上圖所示,ResNet18(第二行)網絡不僅關注狗的特征,也關注到了背景的無關特征,而 Stable Net 則主要關注狗本身的特征。

OKkEVmtX_6BXU.jpg?auth_key=1672588799-0-0-72831757c5d6e75ef17a2a5da37c9d7e

具體而言,我們采用全局平衡(Global Balancing)方法提取因果特征。給定任意的干預(treatment),我們對訓練樣本進行加權,從而消除各類特征之間的統計關聯性,斷開背景與因果特征之間的關聯,最終找到更加具有因果關系的特征,實現更加穩定的預測。

IZYQvgBz_U9wI.jpg?auth_key=1672588799-0-0-a2138f78bff7517f5eadd6a07173a541

先前的穩定學習方法主要針對較簡單的模型(例如,線性模型)開發,考慮的問題主要是消除特征之間的線性相關性。然而,在深度網絡中,各類特征之間的相關性通常是非常復雜的非線性相關性。因此,StableNet 首先將所有的特征映射到其隨機傅里葉特征的空間中,該步驟將較低維度空間中的特征映射到較高維度的空間中;接著,我們在較高維度的空間中去掉各類特征的線性相關性;這樣以來,我們就可以去掉原始的特征空間中特征之間的線性相關性以及非線性相關性,保證特征的嚴格獨立。

9pEgGmSJ_CXcS.jpg?auth_key=1672588799-0-0-1bf662759b0ce2208dfffd34abc95b3c

此外,原始的全局重加權方法需要對所有的樣本進行操作。然而,在深度學習場景下,訓練樣本量一般非常大,我們無法對全局樣本進行加權。為此,我們提出了一種預存儲的方式,將網絡之前見過的特征和樣本權重存儲下來,進而在新的一輪訓練中結合當前的特征進行重加權。

WILxYcP8_mExj.jpg?auth_key=1672588799-0-0-8cab644fe19c672e7e1a467538559df8

StableNet 的網絡架構如上圖如所示。網絡架構有兩個分支,下面的分支為基本的圖像分類網絡,上面的分支是對樣本進行 RFF 映射后再進行重加權的過程。我們可以將兩個分支分離開來,從而將StableNet 插入到任何深度學習架構中。

目前,在計算機視覺領域的域泛化任務中,我們往往假設訓練數據中的異質性十分顯著,且各個域的樣本容量相當。這在一定程度上限制了在 CV 領域中對 OOD 泛化方法進行驗證。

cvxvTr7Y_8rFh.jpg?auth_key=1672588799-0-0-f2bc3e8e410909b44905c37382e59c31

本文作者基于 PACS 和 VLCS 兩個數據集構建了各個圖片域數量不平衡的實驗環境,有一些圖片域占據主導地位,具有更強的虛假關聯。在該設定下,StableNet 相較于對比基線具有最佳的泛化性能。

cDddhhba_hUPW.jpg?auth_key=1672588799-0-0-6aa344f2e5fc4fedba6a19580039687f

在更加靈活的 OOD 泛化場景下,不同類別的圖像所處的域可能不同。在該場景下,StableNet 的性能仍優于所有的對比基線。

Cn8XCbLk_YdHq.jpg?auth_key=1672588799-0-0-05b0fefc92f08be05a611f5f17833b0e

在對抗性 OOD 泛化場景下,域和標簽的虛假關聯很強(例如,訓練集中的大部分數字 1 的顏色為綠色,數字 2 為黃色;在測試時兩種數字的顏色與訓練集中相反)。StableNet 在幾乎所有的實驗設定下都超過了現有的方法。

三、浙江大學況琨:通過工具變量回歸實現因果泛化

1、因果關系與穩定學習

如前文所述,現有的基于關聯關系的機器學習算法存在一定的不穩定性。為此,研究者們提出了穩定預測/學習的框架,重點關注對未知的測試數據進行準確、穩定的預測。

Y8Tq7Zta_5AVp.jpg?auth_key=1672588799-0-0-c7a780ce11d3b27ce5af08b9d5d642a2

現有的機器學習算法之所以不穩定,是因為這些算法是關聯驅動的,而數據中存在大量的偏差,可能會導致模型提取出一些非因果關系的特征(虛假關聯),從而導致模型不可解釋、不穩定。為此,我們試圖恢復出每個特征變量和標簽 Y 之間的因果關系,從而找出因果特征。

IMC5q36J_TD9b.jpg?auth_key=1672588799-0-0-2c2b146537a4d802a586fd693f217458

2018 年,崔鵬老師、況琨老師等人提出了因果正則化技術,通過學習到全局權重使得變量之間相互獨立,通過將該技術應用到邏輯回歸、淺層深度網絡等模型上,可以取得一定的性能提升。這種尋找因果關系的過程要求我們能夠觀測到所有的特征,然而有時一些因果特征是我們無法觀測到的。

2、工具變量回歸

Ma4Sc7z4_whrC.jpg?auth_key=1672588799-0-0-13becd8c919a21c8afda53d6ebdc4b5a

在因果科學領域,研究者們以往通過工具變量(InstrumentalVariable)處理未觀測到的變量。如上圖所示,假設我們需要估計 T(干預)和 Y(結果)之間的因果效應,U 為未觀測到的變量。工具變量 Z 必須滿足以下三個條件:(1)Z 與 T 相關(2)Z 與 U 相互獨立(3)Z 需要通過 T 影響 Y。

找到合適的工具變量 Z 后,我們可以通過二階段最小二乘方法估計 T 與 Y 之間的因果效應。在第一階段,我們根據 Z 回歸 T,從而得到

640?wx_fmt=png

;在第二階段,我們根據

640?wx_fmt=png

回歸 Y,從而估計出T 與 Y 之間的因果函數。在上圖左下角的例子中,黃色的曲線代表直接用神經網絡回歸的結果,紅色的曲線代表引入工具變量后通過二階段最小二乘回歸得到的結果。實驗結果表明,紅色的曲線對原函數的擬合程度更好。

baeRGyDs_QBJt.jpg?auth_key=1672588799-0-0-5a5b21e51b80dc5c723e8227a7c712b8

640?wx_fmt=png

回歸 Y。

在使用原始的工具變量回歸方法時,我們往往需要預先定義一個工具變量。在論文「Auto IV:Counterfactual Prediction viaAutomatic Instrumental Variable Decomposition」中,況琨博士等人在給定干預 T,輸出結果 Y,觀測到的混淆因子 X,未觀測到的混淆因子 U 的情況下,從觀測到的混淆因子 X 中解耦出工具變量。盡管分理出的工具變量可能不具備明確的物理意義,但是它滿足前文提到的工具變量所需要滿足的三個屬性。這樣生成的工具變量可以幫助我們估計 T 和 Y 之間的關系。具體而言,我們通過互信息判斷特征之間的條件獨立性,以及表征學習實現解耦操作。

3、通過工具變量回歸實現因果泛化

HBWUdYft_hwQu.jpg?auth_key=1672588799-0-0-727f496e33ecbfcd88116210b7344b97

工具變量回歸可以被用于域泛化、不變因果預測、因果遷移學習等任務中。以域泛化為例,給定來自不同觀測環境中的數據,該任務旨在利用給定的 X 預測 Y。我們希望從多個數據域(環境)中學習不變性,使得預測模型對于所有可能的環境都魯棒。

xZj8dxqc_aCMt.jpg?auth_key=1672588799-0-0-08831d382d8cddf216ee67416136dc2b

在通過工具變量回歸解決域泛化問題時,首先,我們通過因果圖刻畫各個域中數據的生成過程(DGP)。對于域 m,在生成樣本數據 X時,除了樣本的域不變性特征之外,還可能受到域特定特征(例如,光照、天氣)的影響;在為樣本打標簽時,標注者除了會考慮圖片樣本特征,也會受到域特定特征的影響。

在具體的求解過程中,我們首先通過工具變量回歸,即估計。接著,我們利用近似出的和學習不變性函數。值得注意的是,在通過工具變量進行域泛化時,我們只需要一個域中的標簽Y,以及其它域中的無標簽數據 X。

四、清華大學劉家碩:從異質性數據到分布外泛化

1、分布外泛化的背景

x3dY92zA_QSbO.png?auth_key=1672588799-0-0-2eb0123c3dbb1bacdc44d4dc66e7c2bf

經驗損失風險最小化(ERM)是目前最常用的優化算法,該算法優化的是所有數據點的平均損失,所有樣本的權重都是1/N。如上圖所示,當數據中存在異質性時,數據集中的樣本分布并不均衡。因此,通過 ERM 算法進行優化可能會更加關注出現較多的群體,而忽視出現較少的群體對損失的影響。

Y9HTaUvz_8BGD.png?auth_key=1672588799-0-0-795fc0eb804ddd04f8e4eb2a57c2f238

具體而言,在真實場景中,我們采集到的不同來源的數據分布可能不均衡,存在一定的異質性。通過 ERM 對模型進行優化時,盡管可以在整體上獲得較高的準確率,但這可能是由于模型對數據集中多數群體的預測性能很完美,而在少數群體上的預測效果并不一定很好。

如上圖所示,當訓練數據分布與測試數據分布一致時,若使用 ERM 算法進行優化,模型的泛化性能是有理論保證的。然而,如果數據的分布出現了偏移,則 ERM 算法的得到的模型的泛化性能可能較差。

因此,我們應該充分考慮數據的異質性,設計更加合理的風險最小化方法,為不同的樣本點施加合適的權重,使得模型對多數群體和少數群體都有較好的預測能力,從而提升模型的泛化性能。

qfhPWQNg_HKkP.png?auth_key=1672588799-0-0-73a23e22ecf06b918a1ef6fbf143ee4a

如上圖所示,OOD 泛化問題旨在保證模型在發生分布偏移時的泛化能力,即通過「min-max」優化找到一組參數

640?wx_fmt=png

,使得模型在最差的環境下的表現性能能夠接受。考慮到分布偏移的情況,在不同環境下采集到的數據的 X 和 Y 的聯合分布也有所區別。

2、異質性風險最小化

FQwwKmNy_pJsC.png?auth_key=1672588799-0-0-491687425fde8972ada897b2704df5e9

要想找到上述不變特征,我們需要對環境有很強的約束。現有的許多不變性學習方法都會針對從多個環境中尋找符合上述性質的特征。然而,在真實情況下,許多數據集是收集自多個不同數據源的混合數據,我們往往很難為環境保留明確且對模型學習真正有效的標簽。

zeaE5KP6_xtIb.png?auth_key=1672588799-0-0-1b511a9be304c1aa2a8bc6e884604c6c

接著,我們將異質性風險最小化問題定義為:給定存在異質性的混合數據集D,在缺乏環境標簽的條件下,旨在學習到不變性特征的集合,使模型具有更好的 OOD 泛化能力。

CXnv4hzG_tKSk.png?auth_key=1672588799-0-0-24cd9f325114f0001bca1cc2a9bc19db

3、核異質風險最小化

4wLAeENa_TDTt.png?auth_key=1672588799-0-0-31ad7657454915fe5ee0f5d0f16ffa84

HRM 算法無法處理復雜的數據(例如,圖片、文本)。在 KerHRM 中,劉家碩博士等人將 HRM 算法拓展至更加復雜的數據類型上。

在 HRM 算法流程的基礎之上,劉家碩博士等人在 KerHRM 中引入了神經正切核(NTK)。根據 NTK 理論,神經網絡(例如,MLP)的操作等價于在復雜的特征空間中進行線性回歸。

4、仿真實驗:Colored MNIST

jYXMyU6k_MnQa.png?auth_key=1672588799-0-0-8971c2c6f873ec2dd7f054a2285a1731

本文作者采用與論文「Invariant RiskMinimization」中相同的實驗設定,測試了 KerHRM 方法在 Colored MNIST 數據集上的性能。在該實驗環境下,作者將 MNIST 中 0-4 的數字標記為「0」類,將「5-9」的數字標記為「1」類,從而將十分類問題改造為了二分類問題。接著,作者將「0」類中大部分的圖片染成某種顏色,將「1」類中大部分的圖片染成另一種顏色,從而構建了數字標簽和顏色之間的虛假關聯。在測試時,我們將圖片的染色情況翻轉過來,此時傳統的機器學習模型的性能往往會大幅下降。

aw9xTHUT_YJFh.png?auth_key=1672588799-0-0-004f04523cfd3675a98de993dbe9d0cc

實驗結果如上圖所示,隨著迭代輪數的增加,KerHRM 框架學習到的環境的異質性逐漸變大,測試時的預測準確率也遞增。同時,訓練時和測試時準確率的差距在逐漸縮小。可見,OOD 泛化的性能和我們構造的環境的異質性程度呈十分強的正相關,異質性對于 OOD 泛化性能十分重要。因此,環境標簽的質量(異質性)對于泛化性能也會有很大的影響。

五、清華大學何玥:分布外泛化圖像數據集——NICO

1、非獨立同分布圖像分類

AhBtHjRx_vJsH.png?auth_key=1672588799-0-0-9066f1a223ce78ce4621fb899320f195

圖像分類是計算機視覺領域中最基礎、最重要的任務之一。在傳統的獨立同分布假設下,通過最小化訓練集上的經驗損失,現有的深度學習模型已經可以在測試時達到很好的預測性能。然而,在真實情況下采集到的數據集很難滿足獨立同分布假設,訓練集幾乎不可能覆蓋所有的測試樣本中的數據分布情況。此時,如果我們依然通過最小化模型在訓練集上的經驗損失來優化模型,往往會導致模型在測試時的性能嚴重下降。

如上圖所示,訓練數據和測試數據中貓和狗所處的背景差異很大,并不滿足獨立同分布假設,深度學習模型可能會錯誤地將背景當做對圖片進行分類的標準。而人類對此類分類問題則天然地具有很強的泛化能力,好的分類模型也應該對這種背景分布的變化不敏感。

我們將該問題稱為非獨立同分布的圖像分類問題,其中訓練集和測試集中的數據分布不同。此類問題包含兩種子任務:

(1)Targeted Non-I.I.D 圖像分類:測試集中的部分信息已知,我們可以借助遷移學習等方法將當前訓練好的模型遷移到目標域的數據分布上,實現較好的預測性能

(2)General Non-I.I.D 圖像分類:利用不變性等機制,將學習到的模型以較高準確率泛化到任意未知數據分布上。

實際上,非獨立同分布場景下的學習問題對計算機視覺任務十分重要。在自動駕駛、自動救援等場景下,我們希望模型能夠迅速識別不常見但非常危險的情況。

2、衡量數據分布差異

為了刻畫分布之間的差異,我們定義了一種名為「NI」的指標。在計算 NI 的過程中,我們利用預訓練好的通用視覺模型提取圖像特征,然后在特征層面上計算兩個分布之間的一階矩距離,并采用分布的方差進行歸一化。大量實驗證明,NI 對圖像分布差異的描述是較為魯棒的。此外,在有限采樣的情況下,數據分布偏差無處不在,隨著數據分布偏差變強,分類模型的錯誤率也不斷提升。

實際上,分布偏移現象廣泛的存在PASCAL VOC、ImageNet、MSCOCO 等標桿數據集中。以 ImageNet 為例,我們首先選取了 10 個常見的動物類別,然后針對每類動物選取不同的子類,形成了不同的三個數據集 A、B、C。

接著,我們采集了一些固定的測試樣本。通過測量 NI,我們發現不同的數據集存在數據分布偏差,但是這種偏差較弱,且這種數據偏差不可控,分布偏差的大小隨機。為了推動 OOD 泛化在視覺領域的研究,我們構建了存在明顯的數據分布偏差,且偏差可調節的視覺數據集——NICO。

3、NICO數據集

JDIwbu82_IPYn.png?auth_key=1672588799-0-0-eecbbb055446364148a9ac54c92a6e2f

首先,我們考慮從圖片中分解出主體和上下文的視覺概念。如上圖所示,主體可能為貓或狗,上下文可能為主體的姿態、背景、顏色等概念。通過在訓練和測試中組合不同的主體和上下文,我們可以形成數據分布的差異。

7mUy3BNA_a7s9.png?auth_key=1672588799-0-0-bd437451abe9cd60516adc3bc5cb2258

上下文概念來自于真實世界,我們可以從很多角度描述上下文,進而描述一種有偏的數據分布。當上下文和主體的組合有意義時,我們可以很容易地收集到足夠多的圖像。

目前公開的 NICO 數據集具有如上圖所示的層次結構。動物和交通工具兩個超類包含 9-10 個主體類別,每個主體類別擁有一系列上下文概念。我們希望上下文盡可能多樣,且主體與上下文的組合有意義,各個上下文之間有一定的重疊。此外,我們要求每類主體和上下文組合的樣本數量盡可能均衡,不同上下文之間的差異盡可能大。

和獨立同分布的經典數據集相比,由于 NICO 引入了上下文概念,且圖像是非中心化、非規則的,所以 NICO 數據集上的圖像分類任務更加具有挑戰性。

p6UREqHU_Cjxk.png?auth_key=1672588799-0-0-060854cbf22f4e2dd86a678ba14b8578

面對有限樣本,無論如何采樣都會產生一定程度的數據分布偏差,這是由圖像本身的性質,以及采樣規模的差異造成的。在 NICO 數據集中,我們通過隨機采樣的方式模擬近似獨立同分布的場景。與ImageNet 數據集相比,確實 NICO 引入了非中心化性質/上下文概念,其識別任務更加困難。

4、OOD 泛化——比例偏差

6pMuDS4p_aLIO.png?auth_key=1672588799-0-0-a210fd83f40a3e4b27ddc57fb6510aee

當測試數據和訓練數據分布存在「比例偏差」時,我們要求訓練集和測試集數據都包含所有類別上下文,但是我們在訓練和測試中選擇不同的上下文作為主導上下文(在整采集的圖像中占比較高)。通過在訓練和測試中設置不同的主導上下文,我們可以自然地形成數據分布的差異。

在這里,我們還定義了「主導率」(Dominant Ratio)指標來刻畫具有主導上下文的樣本量具有其它上下文的樣本量的比例。如上圖所示,隨著主導率的提升,訓練和測試數據之間的分布差異越來越大,對模型準確率的影響也越來越大,

5、OOD 泛化——成分偏差

hnqvUNEB_RVSf.png?auth_key=1672588799-0-0-553348cc370fb6c3e16f9dba2c5234d8

「成分偏差」模擬了我們在訓練數據、測試數據采樣時的時空限制。在該設定下,訓練集并不包含所有類別的上下文,有一些測試集中的上下文是訓練中未曾見過的。隨著訓練集包含上下文的種類減少,測試集和訓練集的數據分布差異遞增,模型學習的效果也越來越差。

為了實現更大的數據分布偏差,我們還可以組合成分偏差和比例偏差。我們可以要求某些類別上下文在訓練集包含的上下文中占據主導地位,即通過同時調節訓練集可見上下文的數量和主導率控制數據分布偏差的程度,進而觀察模型在不同數據偏差場景下表現出的性能。

6、OOD 泛化——對抗攻擊

JLM8FKmH_XVUF.png?auth_key=1672588799-0-0-5c7a0b2b3ef299df23d6894289006588

在「對抗偏差」場景下,我們選擇某些類樣本作為正類,其它類別的樣本作為負類。接著,我們定義某種上下文只出現在訓練集的正類中,以及測試集的負類中。此時,模型就會錯誤地將該上下文與正類聯系到一起,從而在測試時取得較差的性能。我們將這種上下文稱為混淆上下文,隨著混淆上下文比例的增加,模型對正類的學習越來越容易受到虛假關聯的影響。

藍海大腦深度學習解決方案

機器學習模型已經在許多面向互聯網的場景取得成功。在諸如預測點擊量或對圖像進行分類等應用場景中,模型做出錯誤決策的代價似乎并不高,因此從業者采用“性能驅動”的模式優化人工智能技術,即只關注該模型在完成目標任務時體現出的性能而不太關注技術發生錯誤時的風險。當任務環境發生變化,預測出現錯誤的時候,人們通過頻繁地更新黑盒模型以保證預測的性能。

然而,在諸如醫療保健、工業制造、金融和司法等與社會生活息息相關的領域,機器學習模型做出的錯誤預測的后果往往是難以接受的,這些場景也因此被稱為風險敏感的場景。由于數據獲取困難以及倫理問題,在風險敏感的場景中因為環境變化而重新訓練機器學習模型的代價會比較昂貴,因此模型的短期預測性能之外的特性也十分重要。為了促進機器學習模型在更多風險敏感場景的應用,我們需要仔細分析機器學習模型面臨的技術性風險,并采取辦法克服這些風險。

藍海大腦面向廣大深度學習、機器學習、因果學習研究者、AI開發者和數據科學家提出穩定學習液冷解決方案,通過軟硬件一體式交付,提供數據標注、模型生成、模型訓練、模型推理服務部署的端到端能力,降低使用AI的技術門檻,讓客戶更聚焦業務本身,使AI業務能快速開發與上線。

該方案提供一站式深度學習平臺服務,內置大量優化的網絡模型算法,以便捷、高效的方式幫助用戶輕松使用深度學習技術,通過靈活調度按需服務化方式提供模型訓練、評估與預測。

一、優勢特點

1、節能性更優

整體機房空調系統能耗降低70%;服務器風扇功耗降低70%~80%;液冷系統可實現全年自然冷卻,PUE<1.1,整體機房風液混合冷卻系統PUE<1.2

2、器件可靠性更高

CPU滿載運行核溫約40-50℃,比風冷降低約 30℃;服務器系統溫度比風冷降低約 20℃

3、性能更優

CPU和內存工作溫度大幅降低,可實現超頻運行,計算集群性能可提高5%

4、噪聲更低

液冷散熱部分水循環噪音極低,風冷部分風扇轉速降低,噪音減小,降低約30dB,滿載運行噪音<60dB

5、率密度提升

單機柜功率密度可達25kW以上,相比風冷散熱方式大幅提升

二、液冷服務器架構

mIQeLw5Z_E7r5.png?auth_key=1672588799-0-0-a30f2df9b287b85d3ac5e52b2226806b

超融合架構承擔著計算資源池和分布式存儲資源池的作用,極大地簡化了數據中心的基礎架構,通過軟件定義的計算資源虛擬化和分布式存儲架構實現無單點故障、無單點瓶頸、彈性擴展、性能線性增長等能力。通過簡單方便的統一管理界面,實現對數據中心計算、存儲、網絡、虛擬化等資源的統一監控、管理和運維。

超融合基礎架構形成的計算資源池和存儲資源池直接可以被云計算平臺進行調配,服務于OpenStack、EDP、Docker、Hadoop、HPC等IaaS、PaaS、SaaS平臺,對上層的應用系統或應用集群等進行支撐。同時,分布式存儲架構簡化容災方式,實現同城數據雙活和異地容災。現有的超融合基礎架構可以延伸到公有云,可以輕松將私有云業務遷到公有云服務。

三、客戶收益

1、節約能源

原有數電力使用成本在總體擁有成本TCO中占比最大。實現IT設備按需供電與制冷,讓供電和制冷系統的容量與負載需求更為匹配,從而提高了工作效率并減少過度配置。

2、運維監管

幫助客戶實現數據中心多層級、精細化能耗管理,通過多種報表確定能源額外損耗點,實現節能降耗。資產管理幫助用戶制定資產維護計劃,實現主動預警,動態調整維護計劃,按照實際情況輸出優化方案,構建最佳資產管理功能。

審核編輯黃昊宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器學習
    +關注

    關注

    66

    文章

    8381

    瀏覽量

    132428
  • 深度學習
    +關注

    關注

    73

    文章

    5493

    瀏覽量

    120987
收藏 人收藏

    評論

    相關推薦

    NPU在深度學習中的應用

    隨著人工智能技術的飛速發展,深度學習作為其核心驅動力之一,已經在眾多領域展現出了巨大的潛力和價值。NPU(Neural Processing Unit,神經網絡處理單元)是專門為深度學習
    的頭像 發表于 11-14 15:17 ?318次閱讀

    GPU深度學習應用案例

    GPU在深度學習中的應用廣泛且重要,以下是一些GPU深度學習應用案例: 一、圖像識別 圖像識別是深度學習
    的頭像 發表于 10-27 11:13 ?331次閱讀

    AI大模型與深度學習的關系

    AI大模型與深度學習之間存在著密不可分的關系,它們互為促進,相輔相成。以下是對兩者關系的介紹: 一、深度學習是AI大模型的基礎 技術支撐 :深度
    的頭像 發表于 10-23 15:25 ?384次閱讀

    預訓練和遷移學習的區別和聯系

    預訓練和遷移學習深度學習和機器學習領域中的兩個重要概念,它們在提高模型性能、減少訓練時間和降低對數據量的需求方面發揮著關鍵作用。本文將從定
    的頭像 發表于 07-11 10:12 ?847次閱讀

    深度學習中的時間序列分類方法

    時間序列分類(Time Series Classification, TSC)是機器學習深度學習領域的重要任務之一,廣泛應用于人體活動識別、系統監測、金融預測、醫療診斷等多個領域。隨著深度
    的頭像 發表于 07-09 15:54 ?713次閱讀

    深度學習中的無監督學習方法綜述

    深度學習作為機器學習領域的一個重要分支,近年來在多個領域取得了顯著的成果,特別是在圖像識別、語音識別、自然語言處理等領域。然而,深度學習模型
    的頭像 發表于 07-09 10:50 ?519次閱讀

    深度學習與nlp的區別在哪

    深度學習和自然語言處理(NLP)是計算機科學領域中兩個非常重要的研究方向。它們之間既有聯系,也有區別。本文將介紹深度學習與NLP的區別。 深度
    的頭像 發表于 07-05 09:47 ?821次閱讀

    遷移學習的基本概念和實現方法

    遷移學習(Transfer Learning)是機器學習領域中的一個重要概念,其核心思想是利用在一個任務或領域中學到的知識來加速或改進另一個相關任務或領域的學習過程。這種方法在數據稀缺
    的頭像 發表于 07-04 17:30 ?1368次閱讀

    深度學習中的模型權重

    深度學習這一充滿無限可能性的領域中,模型權重(Weights)作為其核心組成部分,扮演著至關重要的角色。它們不僅是模型學習的基石,更是模型智能的源泉。本文將從模型權重的定義、作用、優化、管理以及應用等多個方面,深入探討
    的頭像 發表于 07-04 11:49 ?963次閱讀

    人工智能、機器學習深度學習是什么

    在科技日新月異的今天,人工智能(Artificial Intelligence, AI)、機器學習(Machine Learning, ML)和深度學習(Deep Learning, DL)已成為
    的頭像 發表于 07-03 18:22 ?1118次閱讀

    深度學習與傳統機器學習的對比

    在人工智能的浪潮中,機器學習深度學習無疑是兩大核心驅動力。它們各自以其獨特的方式推動著技術的進步,為眾多領域帶來了革命性的變化。然而,盡管它們都屬于機器學習的范疇,但
    的頭像 發表于 07-01 11:40 ?1201次閱讀

    深度解析深度學習的語義SLAM

    隨著深度學習技術的興起,計算機視覺的許多傳統領域都取得了突破性進展,例如目標的檢測、識別和分類等領域。近年來,研究人員開始在視覺SLAM算法中引入深度學習技術,使得
    發表于 04-23 17:18 ?1245次閱讀
    <b class='flag-5'>深度</b>解析<b class='flag-5'>深度</b><b class='flag-5'>學習</b><b class='flag-5'>下</b>的語義SLAM

    為什么深度學習的效果更好?

    ,這些原則和進步協同作用使這些模型異常強大。本文探討了深度學習成功背后的核心原因,包括其學習層次表示的能力、大型數據集的影響、計算能力的進步、算法創新、遷移
    的頭像 發表于 03-09 08:26 ?596次閱讀
    為什么<b class='flag-5'>深度</b><b class='flag-5'>學習</b>的效果更好?

    什么是深度學習?機器學習深度學習的主要差異

    2016年AlphaGo 擊敗韓國圍棋冠軍李世石,在媒體報道中,曾多次提及“深度學習”這個概念。
    的頭像 發表于 01-15 10:31 ?1025次閱讀
    什么是<b class='flag-5'>深度</b><b class='flag-5'>學習</b>?機器<b class='flag-5'>學習</b>和<b class='flag-5'>深度</b><b class='flag-5'>學習</b>的主要差異

    GPU在深度學習中的應用與優勢

    學習究竟擔當了什么樣的角色?又有哪些優勢呢?一、GPU加速深度學習訓練并行處理GPU的核心理念在于并行處理。在深度
    的頭像 發表于 12-06 08:27 ?1216次閱讀
    GPU在<b class='flag-5'>深度</b><b class='flag-5'>學習</b>中的應用與優勢