本文依托于綜述性文章,首先回顧了可解釋性方法的主要分類以及可解釋深度學習在醫療圖像診斷領域中應用的主要方法。然后,結合三篇文章具體分析了可解釋深度學習模型在醫療圖像分析中的應用。
作為一種領先的人工智能方法,深度學習應用于各種醫學診斷任務都是非常有效的,在某些方面甚至超過了人類專家。其中,一些計算機視覺方面的最新技術已經應用于醫學成像任務中,如阿爾茨海默病的分類、肺癌檢測、視網膜疾病檢測等。但是,這些方法都沒有在醫學領域中得以廣泛推廣,除了計算成本高、訓練樣本數據缺乏等因素外,深度學習方法本身的黑盒特性是阻礙其應用的主要原因。
盡管深度學習方法有著比較完備的數學統計原理,但對于給定任務的知識表征學習尚缺乏明確解釋。深度學習的黑盒特性以及檢查黑盒模型行為工具的缺乏影響了其在眾多領域中的應用,比如醫學領域以及金融領域、自動駕駛領域等。在這些領域中,所使用模型的可解釋性和可靠性是影響最終用戶信任的關鍵因素。由于深度學習模型不可解釋,研究人員無法將模型中的神經元權重直接理解 / 解釋為知識。此外,一些文章的研究結果表明,無論是激活的幅度或選擇性,還是對網絡決策的影響,都不足以決定一個神經元對給定任務的重要性[2] ,即,現有的深度學習模型中的主要參數和結構都不能直接解釋模型。因此,在醫學、金融、自動駕駛等領域中深度學習方法尚未實現廣泛的推廣應用。
可解釋性是指當人們在了解或解決一件事情的過程中,能夠獲得所需要的足夠的可以理解的信息。深度學習方法的可解釋性則是指能夠理解深度學習模型內部機制以及能夠理解深度學習模型的結果。關于 “可解釋性” 英文有兩個對應的單詞,分別是 “Explainability” 和“Interpretability”。這兩個單詞在文獻中經常是互換使用的。一般來說,“Interpretability”主要是指將一個抽象概念(如輸出類別)映射到一個域示例(Domain Example),而 “Explainability” 則是指能夠生成一組域特征(Domain Features),例如圖像的像素,這些特征有助于模型的輸出決策。本文聚焦的是醫學影像學背景下深度學習模型的可解釋性(Explainability)研究。
可解釋性在醫學領域中是非常重要的。一個醫療診斷系統必須是透明的(transparent)、可理解的(understandable)、可解釋的(explainable),以獲得醫生、監管者和病人的信任。理想情況下,它應該能夠向所有相關方解釋做出某個決定的完整邏輯。公平、可信地使用人工智能,是在現實世界中部署人工智能方法或模型的關鍵因素。本文重點關注可解釋深度學習方法在醫療圖像診斷中的應用。由于醫學圖像自有的特點,構建用于醫療圖像分析的可解釋深度學習模型與其它領域中的應用是不同的。本文依托于綜述性文章[1],首先回顧了可解釋性方法的主要分類以及可解釋深度學習在醫療圖像診斷領域中應用的主要方法。然后,結合三篇文章具體分析了可解釋深度學習模型在醫療圖像分析中的應用。
一、可解釋深度學習模型在醫療圖像分析中的應用綜述[1]
1.1 可解釋性方法分類
首先,我們來了解一下可解釋性方法的分類。針對可解釋性方法的分類問題研究人員提出了多種分類方式,但是這些方式都不是絕對的,即這些方法都是非排他性的,不同的分類方法之間存在重疊。圖 1 給出可解釋性分類方法的示例(可解釋性人工智能工具(Explainable AI ,XAI)):
圖 1. XAI 主要分類方法示例
1.1.1 模型特定的方法 vs 模型無關方法(Model Specific vs Model Agnostic)
模型特定的方法基于單個模型的參數進行解釋。例如,基于圖神經網絡的可解釋方法(Graph neural network explainer,GNNExplainer)主要針對 GNN 的參數進行解釋。模型無關方法并不局限于特定的模型體系結構。這些方法不能直接訪問內部模型權重或結構參數,主要適用于事后分析。
1.1.2 全局方法 vs 局部方法(Global Methods vs Local Methods)
局部可解釋性方法主要聚焦于模型的單個輸出結果,一般通過設計能夠解釋特定預測或輸出結果的原因的方法來實現。相反,全局方法通過利用關于模型、訓練和相關數據的整體知識聚焦于模型本身,它試圖從總體上解釋模型的行為。特征重要性是全局方法的一個很好的例子,它試圖找出在所有不同的特征中對模型性能有更好影響的特征。
1.1.3 模型前 vs 模型中 vs 模型后方法(Pre-model vs in-model vs post-model)
模型前方法是一類獨立的、不依賴于任何深度學習模型結構的可解釋性方法,主成分分析(PCA)、流形學習中的 t-SNE 都屬于這一類方法。集成在深度學習模型本身中的可解釋性方法稱為模型中方法。模型后方法則是在建立深度學習模型之后實施的,這一類方法主要聚焦于找出模型在訓練過程中究竟學到了什么。
1.1.4 替代方法 vs 可視化方法(Surrogate Methods vs Visualization Methods)
替代方法由不同的模型組成一個整體,用于分析其他黑盒模型。通過比較黑盒模型和替代模型來解釋替代模型的決策,從而輔助理解黑盒模型。決策樹(Decision tree)就是替代方法的一個例子。可視化方法并不是構建一個新的不同的模型,而是通過可視化的方法,例如激活圖(Activation Maps),幫助解釋模型的某些部分。
1.2 可解釋深度學習模型在醫療圖像分析中的應用分類
具體到醫療圖像分析領域,引入可解釋性方法的可解釋深度學習模型主要有兩類:屬性方法(attribution based)和非屬性方法(non-attribution based)。兩類方法的主要區別在于是否已經確定了輸入特征對目標神經元的聯系。屬性方法的目標是直接確認輸入特征對于深度學習網絡中目標神經元的貢獻程度。而非屬性方法則是針對給定的專門問題開發并驗證一種可解釋性方法,例如生成專門的注意力、知識或解釋性去輔助實現專門問題的可解釋深度學習。
1.2.1 屬性方法
屬性方法的目標是確定輸入特征對目標神經元的貢獻,通常將分類問題正確類別的輸出神經元確定為目標神經元。所有輸入特征的屬性在輸入樣本形狀中的排列形成熱圖(heatmaps),稱為屬性映射(Attribution Maps)。圖 2 給出了不同圖像的屬性映射示例[3]。對目標神經元激活有積極貢獻的特征用紅色標記,而對激活有負面影響的特征則用藍色標記。
圖 2. 基于 Imagenet 圖像的對 VGG-16 屬性的研究示例[3]
擾動(Pertubation)是分析輸入特征的改變對深度學習模型輸出的影響的最簡單方法,一般可以通過移除、屏蔽或修改某些輸入特征、運行正向過程(輸出計算)并測量與原始輸出的差異來實現。這一過程類似于在參數控制系統模型中進行的靈敏度分析。將對輸出影響最大的輸入特征確定為最重要的特征。對于圖像數據來說,實現擾動的一種方法是用灰色斑塊覆蓋掉圖像中的一部分進而將它們從系統視圖中遮擋去除掉。以此來突出有效特征,從而提供正向和負向證據。另一種基于擾動的方法是 Shapley 值采樣(Shapley Value sampling),它通過對每個輸入特征進行多次采樣來計算近似 Shapely 值,這也是聯合博弈論中描述收益和損失在輸入特征之間公平分配的一種常用方法。
基于反向傳播的方法(Backpropagation based methods)是另外一種有效的屬性方法。基于反向傳播的方法會通過一次前向和后向網絡傳播過程來計算所有輸入特征的屬性。一些方法會多次執行這些步驟,這種方法與輸入特征的數量無關,并且計算速度比基于擾動的方法要慢得多。
由于具有良好的易用性,大多數研究可解釋深度學習方法的醫學影像學文獻都使用的是屬性方法。研究人員可以直接使用已有的屬性模型訓練得到一個合適的神經網絡結構,這一過程不會增加計算復雜度。這使得人們可以直接使用預先得到的深度學習模型或具有定制體系結構的模型,以在給定任務上獲得最佳性能。前者使這種實現過程更容易,并可以方便的引入諸如轉移學習之類的技術,而后者可用于專門處理特定數據,并通過使用較少的參數避免過度擬合。引入屬性方法可以有效展示出原有的深度學習模型是否能夠學習相關有意義的特征,或者是否是通過學習偽特征來過度適應輸入的。這使得研究人員可以調整模型結構和超參數,從而在測試數據上獲得更好的結果,進而得到潛在的真實場景中的設置。
1.2.2 非屬性方法
非屬性方法是指針對給定的專門問題開發并驗證一種可解釋性方法,而不是像屬性方法那樣進行單獨的分析。非屬性方法包括注意力圖(Attention maps)、概念向量(Concept vectors)、相似圖像(Similar image)、文本證明(text justification)、專家知識(expert knowledge)、內在解釋性(Intrinsic explainability)等。
注意力是深度學習中一個非常有用的概念,是由人類對圖像的不同部分或其它類型數據源的注意方式的不同所啟發產生的。非屬性方法中用到的注意力的主要是作為可解釋的醫學圖像分析的深度學習工具。如文獻 [4] 提出了一種新的測試概念激活向量(Testing Concept Activation Vectors,TCAV)方法,用人類可理解的概念向領域專家解釋不同層次學習的特征。TCVA 把網絡在概念空間中的方向導數作為顯著圖(Saliency Maps)。使用顯著圖來解釋糖尿病性視網膜病變(diabetic retinopathy,DR)水平的預測,能夠成功檢測到視網膜中存在的微動脈瘤和動脈瘤。這就為醫生提供了一個可解釋的理由,即圖像中是否存在給定的概念或物理結構。然而,許多醫學中的臨床概念(Clinical Concept),如結構紋理或組織形狀等,并不能直接使用 TCAV 進行充分描述以證明其存在或不存在,此時就需要引入連續的測量指標進行輔助判斷。
基于專家知識的非屬性方法主要有兩種:一是,使用不同的方法將模型特征與專家知識關聯起來;二是,使用特定領域的知識來制定用于預測和解釋的規則。基于相似圖像的非屬性方法為用戶提供了類似標簽的圖像作為對給定測試圖像進行預測的原因解釋。文本證明方法使用一個給定推理后能夠根據句子或短語來解釋其決策的模型,該模型可以直接與專家和一般用戶進行交流。例如,從分類器的視覺特征以及嵌入預測中獲取輸入的證明模型可以被用于生成乳腺腫塊分類的診斷語句和可視化熱圖[5]。內在解釋性是指模型具有根據人類可觀察到的決策邊界或特征來解釋其決策的能力。一些相對簡單的模型,如回歸模型、決策樹和支持向量機等,都是可以觀察到決策邊界的,因此是具備內在解釋性的。最近的關于內在解釋性的研究使用不同的方法使深度學習模型本質上可解釋,例如混合使用機器學習分類器和在分割空間中的可視化特征等。
二、屬性方法在醫療圖像分析中的應用
2.1、可視化卷積神經網絡改善皮膚病變分類的決策支持[6]
本文提出了一種屬性方法用于實現可解釋 CNN 在醫療圖像診斷中的應用。該方法訓練得到了一個 CNN 用于在皮膚損傷數據庫上進行二元分類,并通過可視化其特征圖來檢驗 CNN 學習的特征。作者通過對不同特征圖的可視化對比分析,確定輸入特征對最終 CNN 目標神經元的貢獻。
2.1.1 方法介紹
本文應用的 CNN 由 4 個卷積塊組成,每個卷積塊由 2 個卷積層組成,然后進行最大池化操作。卷積層的核大小為 3x3,分別有 8、16、32 和 64 個濾波器。接下來是 3 個全連接層,分別有 2056、1024 和 64 個隱藏單元。所有層都引入了校正的線性單位(ReLU)以滿足非線性處理要求。
對于 CNN 的每個特征映射,通過將特征映射重新縮放到輸入大小并將激活映射到透明綠色的部分(深綠色 = 更高激活度)創建了一個可視化效果。接下來,作者檢查了所有的視覺效果,并將這些與皮膚科醫生提供的典型特征對應起來。特別是 CNN(6,7)的最后兩層卷積層,能夠幫助深入了解哪些圖像區域更能吸引 CNN 的注意力。作者使用公開的 ISIC 檔案的數據(https://isic-archive.com/),組成一個包括 12838 張皮膚鏡圖像的訓練庫,分為兩類(11910 個良性病變,928 個惡性病變)。在預處理步驟中,圖像被縮小到 300x300 像素的分辨率,并將 RGB 值在標準化處理到 0 和 1 之間。通過選取 224x224 像素的隨機裁剪來增強訓練集中的圖像,并通過旋轉(角度在 0 和 2π之間均勻采樣)、隨機水平和 / 或垂直翻轉、調整亮度(在 - 0.5 和 0.5 之間均勻采樣的因子)、對比度(在 - 0.7 和 0.7 之間均勻采樣的因子)、色調(在 - 0.02 和 0.02 之間均勻采樣的因子)和飽和度(在 0.7 和 1.5 之間均勻采樣的因子)進一步增強每個裁剪后的圖像。作者使用 96 個小批量訓練了 192 個 epoch 的網絡,并用 Adam 算法更新了網絡的參數,初始學習率為 10±4,一階和二階動量的指數衰減率分別為 0.9 和 0.999。
根據醫生的診斷經驗判斷,邊界不規則的皮膚病變邊界可能表明存在惡性病變。圖 1 所示的特征圖在皮膚病變的邊界上都有很高的激活率,但都處于邊界的不同部位。第一張(a)檢測的是病變的底部邊界,而第二張(b)檢測的是左側邊界。
圖 1. 病變邊界上具有高激活度的特征圖。過濾器(a)在底部邊界激活,而過濾器(b)在左側邊界激活
同樣的推理也適用于病變內部的顏色。顏色均勻的病變通常是良性的,而嚴重的顏色不規則可能是惡性病變的征兆。圖 2 所示的特征圖在病變處有較暗的區域時具有較高的激活度,這意味著顏色不均勻。
圖 2. 病灶內較暗區域高激活的特征圖,表明病灶顏色不均勻
此外,醫生一般認為皮膚顏色淺的人更容易曬傷,這會增加皮膚惡性病變的發生。因此,皮膚科醫生在檢查患者的皮損時會考慮到患者的皮膚類型。圖 3 所示的特征圖用于驗證此特性。特征圖(a)在白皙的皮膚中具有較高激活度,而特征圖(b)在具有血管樣結構的粉紅色皮膚上具有高激活度。
圖 3. 對皮膚類型具有高激活度的特征圖
從皮膚科醫生的角度考慮,頭發對于最終的診斷沒有影響。如圖 4 所示,毛發狀的結構區域具有較高激活度。
圖 4. 特征圖(7,8),在毛發狀結構上具有高激活度
此外,作者還注意到一些特征映射對圖像中的各種偽造影有很高的激活率。例如,如圖 5 所示,一些特征圖在鏡面反射(specular reflections)、凝膠涂抹應用(gel application)或標尺(rulers)上具有高激活度。這突出了使用機器學習技術時的一些風險,即當這些偽造影在特定類的訓練圖像中顯著存在時可能會對網絡的輸出產生潛在的偏差。
圖 5. 各種圖像偽造影的高激活特征圖,從左到右,鏡面反射、凝膠處理和標尺,這些偽造影可能會對 CNN 的輸出造成偏差
最后,通過特征圖,圖 6 給出了對不同圖像上激活的全面概述。
圖 6. 特征圖總覽
2.1.2 文章小結
本文分析了由 CNN 學習到的皮膚病醫學圖像中的特征,該 CNN 是為皮膚病變分類而訓練得到的。通過可視化 CNN 的特征圖可以看到,高級卷積層在與皮膚科醫生所使用的類似的概念中具有較高激活度,例如病變邊界、病變內的暗區、周圍皮膚等。此外,作者還發現,一些特征圖在各種圖像偽造影區域具有較高激活度,如鏡面反射、凝膠涂抹應用和標尺。
盡管本文對 CNN 學習到的特征給出了一些分析和評論,但并不能解釋 CNN 檢測到的特征與其輸出之間的任何因果關系。此外,通過特征圖,并沒有發現任何能精確突出皮膚科醫生掃描過程中重點關注的其他結構,如球狀體、圓點、血管結構等。作者認為,為了使 CNN 能夠成為皮膚科醫生更好的決策支持工具,還需要在這一領域進行更多的研究。
三、非屬性方法在醫療圖像分析中的應用
3.1、通過深度生成模型學習可解釋的解剖學特征:在心臟重構中的應用[7]
心臟幾何結構和功能的改變是引發心血管疾病的常見原因。然而,目前的心血管疾病診斷方法往往依賴于人的主觀評估以及醫學圖像的人工分析。近年來,深度學習方法在醫學圖像的分類或分割等任務中應用取得了成功,但在特征提取和決策過程中仍然缺乏可解釋性,這就限制了深度學習方法在臨床診斷中的價值。
本文提出了一個三維卷積變分自動編碼器(VAE)模型用于心臟病患者的醫療圖像分類。該模型利用了從 3D 分割中學習到的可解釋的任務相關解剖學模式(Anatomic Pattern),此外,還允許在圖像的原始輸入空間中可視化和量化所學習到的病理學特定重構模式。
3.1.1 模型分析
本文所提出模型的示意圖如圖 1 所示。輸入 X 為雙通道輸入的受試者在舒張末期(End-diastolic,ED)和收縮末期(end-systolic,ES)的三維左室心肌節段(3D left ventricular myocardial segmentations)。利用三維卷積 VAE,通過編碼器網絡學習潛在空間中代表輸入分段 X 的 d 維概率分布,并將該潛在分布參數化為 d 維正態分布 N(μ_i, σ_i),其中,μ_ i 表示平均值,σ_i 為標準差。在訓練過程中,解碼器網絡通過從學習到的潛在 d 維流形中采樣向量 z 來學習重建輸入 X 的近似值。同時,一個由多層感知器(MLP)構成的判別網絡(在本文中稱為預測網絡 prediction)被連接到平均向量μ上,并被訓練用于區分健康志愿者(healthy volunteers,HVols)和肥厚型心肌病(hypertrophic cardiomyopathy,HCM)受試者。使用下述損失函數進行端到端訓練:
其中,L_rec 表示重建損失,可以通過輸入 X 和重建之間的 Sorensen Dice 損失來計算得到 L_rec。L_KL 是 Kullback-Leibler 散度損失,其目的是使 N(μ, σ)盡可能接近其先前的分布 N(0, 1)。L_MLP 是 MLP 分類任務的交叉熵損失。潛在空間維數為 d=64。
在測試階段,通過將預測得到的μ傳遞到 z(不從潛在空間采樣)來重建每個輸入分段,最后,在訓練階段完成分類任務。
圖 1. 模型結構
本文提出的模型架構允許在原始分割空間中可視化網絡學習的特征。利用 MLP 學習到的權值,通過使用鏈式規則將梯度從分類標簽 C 反向傳播到μ_i 來計算疾病分類標簽 C(y_C)的偏導數。給定一個隨機選擇的健康組織形狀,可以使用導出的梯度沿著潛在編碼可變性的方向移動受試者的潛在表示,使用迭代算法將該可變性分類到 C 類的概率最大化。從健康形狀的平均潛在表示開始,在每個步驟 t 利用下式迭代更新μ_i:
本文選擇λ=0.1。最后,每一個步驟 t 的每一個潛在表示μ_t 都可以通過傳遞給 z 的方式來解碼得到分割空間,從而實現相應重建片段的可視化處理。
3.1.2 實驗分析
本文實驗使用了一個由 686 名 HCMs 患者(57±14 歲,27% 為女性,77% 為白種人,采用標準臨床診斷的 HCM)和 679 名健康志愿者(40.6 ±12.8 歲,55% 為女性,69% 為白人)組成的數據庫進行研究。參與者接受了 1.5T 的心血管磁共振(Cardiovascular magnetic resonance,CMR),采用的是西門子(德國埃爾蘭根)或飛利浦(荷蘭貝斯特)設備。采用平衡的穩態自由進動序列獲得電影圖像,包括左心室短軸平面上的一組圖像(體素大小為 2.1x1.3x7mm^3,重復時間 / 回波時間為 3.2/1.6ms,翻轉角度為 60°)。使用一個先前發表并得到廣泛驗證的心臟多圖譜分割框架進行舒張末期(ED)和收縮期(ES)的分割。
作為預處理的第一步,采用多圖譜輔助上采樣方案提高了二維疊加分割的圖像質量。對于每個分割片段,將基于 landmark 的 20 個 ED 和 ES 的人工標注的高分辨率圖扭曲映射到它的空間中。然后應用一個稀疏控制點集的自由形式非剛性配準(最近鄰插值)并與多數投票一致性進行融合。第二步,通過基于 landmark 和強度的剛性配準將所有增強處理后的片段對齊到相同的參考空間中,以消除姿勢的變化影響。在提取左心室心肌標簽后,使用一個以左心室 ED 心肌為中心的邊界框,裁剪每個片段并將其填充到 [x=80, y=80, z=80, t=1] 維。最后,對所有的片段進行人工質量控制,以排除包含層間強烈運動或左心室覆蓋不足的掃描。作為附加測試數據庫,作者選擇了 ACDC MICCAI17 挑戰訓練數據庫中的 20 個 HVOL 和 20 個 HCM,使用上述相同的方法進行預處理。將數據庫劃分成訓練集、評估集和測試集,分別由 537 名(276 名 HVOL,261 名 HCM)、150 名(75 名 HVols,75 名 HCM)和 200 名(100 名 HVols,100 名 HCM)受試者組成。
為了使潛在空間有可解釋性,作者利用了一種潛在空間導航 (latent space navigation) 的方法: 從訓練集中隨機選擇一個健康分割片段,使其分類為 HCM 的概率最大化。圖 2 中右側圖中給出了在 ED 和 ES 階段所選對象的原始片段、對應 VAE 重建結果,以及在潛在空間導航方法的四個不同迭代下重建的片段。圖 2 中左側圖所示,為了進行可視化展示,使用拉普拉斯特征映射(Laplacian Eigenmaps,LE)將訓練集片段的潛在 64 維表示μ與在每次迭代 t 中獲得的潛在表示μ_t 一起縮減為二維空間。該技術允許建立一個潛在表示的鄰域圖,可用于監控所研究的從 HVol 簇到 HCM 簇的轉換(淺藍色點)。在右側圖示給出的每個步驟中,通過計算心肌體素的體積來計算每個片段的左心室心肌質量(LV mass,LVM)。此外,還將具有左心室腔標簽的 LV 圖譜分割非剛性地注冊到每個分割片段中,通過計算血量體素(blood pool voxels)的體積來計算左心室壓腔容積(LV cavity volume,LVCV)。最后,對于每個迭代,作者還報告了由預測網絡計算得到的成為 HVol 或 HCM 的概率。從 HVol 到 HCM 的幾何轉換過程中,LVM 增高,LVCV 降低,室間隔壁厚度不對稱增加,這也是這種病典型的重塑模式。
圖 2. 左側,訓練集中每個受試者潛在表示μ的 LE 二維表示(紅色和綠色圓點),通過潛在空間導航方法得到的隨機健康形狀的潛在表示μ_t 的 LE 二維表示(淺藍色圓點);右側,通過潛在空間導航方法得到的隨機健康形狀的潛在表示μ_t 的 LE 二維表示,以及對應于在 4 次示例性迭代時μ_t 的解碼片段,同時還給出了 HVOls 和 HCM 的概率,以及計算出的 LVM 和 LVCV
3.1.3 文章小結
本文提出了一個深度生成模型用于自動分類與心臟重構(cardiac remodeling)相關的心臟病,該模型利用的是直接從三維分割中學習的可解釋任務特定解剖特征。本文所提出的模型的體系結構經過特殊設計,能夠在原始分割空間中可視化和量化所學特征,使分類決策過程具有可解釋性,并有可能實現對疾病嚴重程度的量化分析。此外,作者還提出了一種簡單的方法能夠在網絡學習的低維流形中導航,作者給出的實驗結果表明所得到的潛在表示能夠用于監控患者的潛在臨床效用。
本文提出的方法是可解釋深度學習分類方法在醫療圖像診斷中的一個有效應用,它可以幫助臨床醫生改進診斷,并為患者分層處理提供參考。這種方法并不局限于心臟領域,后續可以將其擴展到其他與病理形態變化相關的圖像分析任務中。
3.2、MDNet:一個語義和視覺可解釋的醫學圖像診斷網絡[8]
近年來,深度學習技術的迅速發展對生物醫學圖像領域產生了顯著的影響。例如,經典圖像分析任務,如分割和檢測等,支持從醫學元數據中快速發現知識,幫助專家進行人工診斷和決策。再比如,醫學中的自動決策任務(例如診斷),通常可被視為標準的深度學習分類問題。不過,現有的分類模型隱藏了其結論的基本原理,缺乏可解釋的理由來支持其決策過程,通常不能直接作為輔助診斷的最佳方案。
在臨床實踐中,醫學專家通常會撰寫診斷報告,記錄圖像中的顯微發現,以便輔助醫生診斷病情和選擇治療方案。教會深度學習技術 / 模型自動模仿這一過程是可解釋深度學習在醫療圖像診斷領域中的有效應用。一個模型如果能夠從視覺和語義上給出其診斷結果的基本原因解釋,那么這個模型就具有重要的應用價值。
本文提出了一個統一的網絡(medical image diagnosis network,MDNet),它可以讀取圖像,生成診斷報告,通過癥狀描述檢索圖像,并將網絡注意力可視化,通過建立醫學圖像與診斷報告之間的直接多模態映射為網絡診斷過程提供依據。MDNet 的完整應用過程見圖 1。
圖 1. 用于可解釋性診斷過程的 MDNet
為了驗證 MDNet 的有效性,本文將 MDNet 應用于膀胱癌病理圖像數據庫的診斷報告中。在膀胱病理圖像中,膀胱組織尿道細胞核大小和密度的變化或尿道腫瘤增厚,均提示癌變。對于這些特征的準確描述有利于診斷病情,對早期膀胱癌的鑒別至關重要。為了訓練 MDNet,作者重點解決了從報告中直接挖掘判別性圖像特征信息的問題,并學習了直接從報告句子詞到圖像像素的多模態映射。這個問題在醫療圖像診斷中是非常重要的,因為支持診斷結論推理的判別性圖像特征在報告中是 "潛伏" 的,而不是由特定的圖像 / 對象標簽明確提供的。有效利用報告中的這些語義信息,是進行圖像語言建模的必要條件。
作者提出,本文是第一個研究開發可解釋的基于注意力的深度學習模型,該模型可以明確地模擬醫學(病理)圖像診斷過程。對于圖像建模部分,利用 CNN 實現了基于大小變化的圖像特征進行圖像表示。對于語言建模部分,利用 LSTM 從報告中挖掘判別信息,計算有效梯度來指導圖像模型訓練。作者使用端到端的訓練方式,將注意力機制整合到語言模型中,并提出增強其與句子中詞(Sentence Words)的視覺特征一致性,以獲得更清晰的注意力圖。
3.2.1 圖像模型
殘差網絡 ResNet 能夠實現網絡內部的信息流動。每一個跳連接(Skip-connected)的計算單元稱為剩余塊。在一個有 L 個殘差塊的 ResNet 中,第 l 個殘差塊的前向輸出 y_L 和損失 L 的梯度即其輸入 y_l 的定義分別為:
(1)
(2)
其中,F_m 由連續批歸一化、整流線性單元(ReLU)和卷積模塊組成。
殘差塊中的一個跳轉連接提供了兩條信息流路徑,因此隨著網絡的深入,網絡中總的路徑數目呈指數級增長。這種指數集成(Exponential Ensembles)提高了網絡性能。ResNet 中連接卷積層的分類模塊包括全局平均池化層(a Global Average Pooling Layer)和全連接層。這兩個層的數學描述如下:
(3)
其中,p^c 表示類別 c 的概率輸出,(i, j)表示空間坐標,w^c 表示應用到 p^c 上的全連接層權重矩陣的第 c 列。將公式(1)插入到公式(3)中,p^c 為加和集成輸入的加權平均:
(4)
作者認為,在這種情況下,在分類模塊中使用單一的加權函數不是最優的。這是因為所有合集的輸出都共享分類器,以至于其單個特征的重要性被削弱。為了解決這個問題,作者建議將集合輸出解耦,并對它們分別應用分類器:
(5)
與公式 (4) 相比,公式(5)為每個集合輸出分配了單獨的權重(w_1)^c 和(w_L)^c,這使得分類模塊能夠獨立決定來自不同殘差塊的信息重要性。作者對 ResNet 架構進行 "重新設計" 來實現上述思想,即采用一種新的方式來跳轉連接殘差塊,定義如下。
(6)
其中,?為連接操作。將這種跳轉連接方案定義為集合連接(Ensemble Connection)。它允許殘差塊的輸出直接并行地流經并聯的特征圖到分類層,這樣分類模塊給所有網絡集合輸出分配權重,并將它們映射到標簽空間。由圖 2 可以看出,這種設計也保證了信息流的暢通無阻,克服了梯度消失效應。
圖 2. MDNet 的整體說明,以膀胱圖像及其診斷報告為例。圖像模型生成一個圖像特征,以任務元組和由輔助注意力銳化(Auxiliary Attention Sharpening,AAS)模塊計算的 Conv 特征嵌入(用于注意力模型)的形式傳遞給 LSTM。LSTM 根據指定的圖像特征類型執行預測任務
3.2.2 語言模型
在語言建模方面,使用 LSTM 通過最大化句子上的聯合概率來建模診斷報告:
(7)
其中,{x0,......,xT }是句子詞(編碼為獨熱向量)。LSTM 參數θ_L 用于計算幾種 LSTM 內部狀態。通過上下文向量 z_t 將 "軟" 注意力機制整合到 LSTM 中,以捕捉局部的視覺信息。為了進行預測,LSTM 將上一時間步 x_(t-1)的輸出以及隱藏狀態 h_(t-1)和 z_t 作為輸入,并計算下一個詞 x_t 的概率,如下所示:
(8)
其中,E 為字嵌入矩陣。G_h 將 h_t 解碼到輸出空間。
注意力機制動態計算一個權重向量來提取支持單詞預測的部分圖像特征,該特征被解釋為一個明確網絡捕捉視覺信息位置的注意力圖。注意力是支持網絡視覺解釋能力的主要部分。作者提出了輔助注意力銳化(Auxiliary Attention Sharpening,AAS)模塊,以提高注意力機制的學習效果(見圖 2 描述)。與將直接監督放在權重向量 a_t 上的處理方式不同,作者提出利用全局平均池化的隱含類特異性本地化屬性來解決這個問題,以支持圖像 - 語言的對齊處理。利用下式計算 z_t:
(9)
其中,W_att 和 W_h 為學習嵌入矩陣。C(I)表示由圖像模型生成的維度為 512×(14·14)的卷積特征圖。c 表示通過 w^c 嵌入得到的 196 維的卷積特征。
經典注意力機制在 LSTM 里面隱性地學習 w^c。而 AAS 增加了一個額外的監督來顯式學習,以提供更有效的注意力模型訓練,具體可見圖 2。圖 3 給出了經典方法和本文所提出方法的定性對比結果。
圖 3. 經典方法(中間)和本文方法(右邊)生成的注意力圖。本文方法能夠在關鍵信息區域(尿道)中產生更多的焦點注意力
3.2.3 網絡訓練
CNN 提供一個編碼的圖像特征 F(I)作為 LSTM 輸入 x_0,然后用一個特殊的 START token 作為 x_1 來告知預測過程開始。生成有效的梯度 F(I)是圖像模型優化的關鍵。
一份完整的醫學診斷報告會對圖像中的多種癥狀進行全面的描述,然后會具體針對一種或多種類型疾病的給出專門的診斷結論。例如,放射學圖像包括多個疾病標簽,每個癥狀具體描述一種類型的圖像(癥狀)特征。有效地利用不同描述中的語義信息對通過 LSTM 生成有效的梯度 F(I)至關重要。
在本文方法中,專門令一個 LSTM 從特定的描述中鑒別信息。所有的描述模型都共享 LSTM。這樣一來,每個圖像特征描述模型就成為了一個生成完整報告的函數,將該函數定義為 K。在訓練階段,給定一個包含 B 對圖像和報告的小批量,將小批量發送到圖像模型后對每個樣本進行內部復制,得到一個 K×B 大小的小批量作為 LSTM 的輸入。LSTM 的輸入和輸出分別定義為:
(10)
其中,W_F 表示學習的圖像特征嵌入矩陣,S(e)表示第 e 個圖像特征類型的獨熱表示。使用 (x_1)^e 通知 LSTM 目標任務的開始。在后向傳播階段,將全部復制的梯度 F(I) 融合起來。
整個模型包含了三組參數:圖像模型 D 的參數θ_D、語言模型 L 的參數θ_L 和 AAS 模塊 M 的參數θ_M。MDNet 的完整優化問題如下:
(11)
其中,{I,l_c,l_s}表示訓練三元組。可以直接使用梯度下降算法求解θ_M 和θ_L。但更新θ_D 需要同時依賴于兩個模塊的梯度。本文提出一種反向傳播機制,允許兩個模塊的復合梯度相互適應。基于遞歸生成網絡和多層感知器的混合體來計算梯度,θ_D 的更新如下:
(12)
3.2.4 實驗分析
本文實驗使用的數據庫為膀胱癌影像診斷報告數據庫(The bladder cancer image and diagnostic report dataset,BCIDR)。該數據庫中的圖像采用 20 倍物鏡獲取,從 32 例有乳頭狀尿路上皮腫瘤風險的患者的膀胱組織中提取蘇木精和伊紅(H&E)染色切片,拍攝全幻燈片圖像。從這些載玻片中,隨機抽取 1000 張靠近尿路上皮腫瘤的 500x500 RGB 圖像(每張幻燈片生成的圖像數量略有不同)。使用一個網絡界面來顯示每個圖像(沒有病人的診斷信息),然后請病理學家為每個圖像提供了一段描述觀察結果的文字,以明確五種類型的細胞外觀特征,即核多形性狀態(the state of nuclear pleomorphism)、細胞擁擠狀態(cell crowding)、細胞極性(cell polarity)、有絲分裂(mitosis),突出核(prominence of nucleoli)。病理學家給出的診斷結論分為四類:即正常、低惡性潛能乳頭狀尿路上皮腫瘤(papillary urothelial neoplasm of low malignant potential,PUNLMP)/ 低度惡性腫瘤、高度惡性腫瘤和信息不足。在這個過程之后,四個醫生(非膀胱癌專家)用他們自己的語言撰寫了另外四個文字描述,但是他們在撰寫過程中參考了病理學家的描述以保證準確性。因此,每幅圖像中總共有五篇描述報告。每份報告的長度在 30 到 59 個字之間。隨機選取 20%(6/32)的患者數據(包括 200 張圖像)作為測試數據,其余 80% 的患者數據(包括 800 張圖像)用于訓練和交叉驗證。
作者選擇經典的圖像字幕方案(image captioning scheme)作為基線對比方法[9],該方法首先訓練 CNN 來表示圖像,然后訓練 LSTM 生成描述。此外,實驗中使用 GoogLeNet 而不是它最初使用的 VGG,因為前者在 BCIDR 上的性能更好。作者單獨訓練了 MDNet 中的圖像模型,記做 EcNet,且訓練了一個小型的 EcNet 用于實驗(深度 38,寬 8,包括 2.3M 參數)。實驗中用于對比的全部模型共享預訓練 GoogleNet 和 EcNet。在訓練 LSTM 時,作者測試了使用和未使用微調 CNNs 的情況。
MDNet 本身是基于端到端的訓練方式得到的,不過為了與基線方法進行對比,作者在消融實驗中測試了兩種使用基線策略訓練 MDNet 的情況。在這兩種情況下沒有應用優化處理,因此與基線方法的差異是任務分離的 LSTM 和整合注意力模型。
圖 4 給出了生成報告的實驗結果示例。使用本文提出的注意力模型計算得到了句子引導的注意力,其中每個注意力圖對應一個預測單詞。參考病理學家的觀察結果,本文方法計算得到的注意力圖能夠集中關注于有效信息區域而避免引入更多的無效信息區域。
圖 4. 圖像模型預測診斷報告(左上角)。語言模型關注每個預測單詞的特定區域,最受關注的是尿路上皮腫瘤,它被用來診斷癌癥的類型
表 1 給出了一個診斷報告生成實驗示例。實驗結果給出了常用的圖像字幕評價指標得分,包括 BLEU(B)、METEOR(M)、Rouge-L(R)和 CIDEr(C)。診斷報告的語言結構比自然圖像標題更具規則性。實驗結果表明,標準 LSTM 可以捕捉到總體結構,從而得到與 MDNet 相似的度量分數。本文實驗更關注的是訓練得到的模型是否準確地表達了病理意義上的關鍵詞。實驗結果中還給出了從生成的報告句子中提取的預測診斷結論準確性(diagnostic conclusion accuracy,DCA)。由實驗結果可知,MDNet 效果遠優于其它基線方法。此外,實驗結果還表明采用微調預訓練方法,例如 EcNet 和 GoogleNet,能夠獲得更好的效果,但同時會提升模型的不穩定性(標準差較大)。
表 1. 生成描述質量和 DCA 評分的定量評價。P、 F 和 J 分別表示是否使用預先訓練的 CNN、在訓練 LSTM 時是否微調預訓練 CNN,以及是否使用 MDNet。第 5 行和第 6 行為消融實驗結果,GN 和 EN 表示 GoolgeNet 和 EcNet
3.2.5 文章小結
本文提出了一種非屬性深度學習模型:MDNet,用以建立醫學圖像和醫學診斷報告之間的多模態映射關系。MDNet 為可解釋深度學習技術在醫療圖像診斷中應用提供了一個新的視角:生成診斷報告和與報告對應的網絡關注(Network Attention),借助于注意力機制使得網絡診斷和決策過程具有語義和視覺上的可解釋性。
基于本文的工作,作者提出了如下的研究方向:建立大規模病理圖像報告數據庫、實現對小生物標記物定位的精細關注、將改進后的 MDNet 應用于全幻燈片診斷等。
四、小結
本文關注的是可解釋深度學習技術在醫療圖像診斷中的應用。很多深度學習技術在實際應用中都獲得了較好的效果,例如圖像識別、文本識別、語音識別等。這些技術得以推廣應用的領域主要是智能客服、翻譯、視頻監控、搜索、推薦系統等等,這些領域共通的特點是 “對模型 / 算法的可解釋性要求不高” 并且“容錯率高”。以智能客服應用為例,可以利用深度學習技術提高所生成問答語句的準確度,且生成錯誤的回答語句并不會對用戶有直接的危險。但是如何生成的這些文本、不同參數與文本 / 語句 / 字符的關系究竟是什么,這些問題并沒有答案,在實際應用即使沒有明確這些答案也不影響利用深度學習技術改進智能客服的水平,人們也不會因為沒有明確答案就否定智能客服給出的結論。但是在醫學領域,模型 / 算法的可解釋性要求就非常高了。試想,你會根據一條不知道什么原因、不知道根據什么判斷得出的結論去治療疾病么?你會相信一條不知道如何解釋的病情診斷意見么?
結合目前應用于醫療圖像診斷中的兩類可解釋深度學習方法:屬性方法和非屬性方法,本文具體分析了幾篇文章如何根據 CNN 特征、利用生成模型或注意力機制實現或分析醫療圖像診斷的可解釋性。從幾篇文章的分析結果可以看出,每篇文章提出的方法針對的都是不同疾病圖像、不同成像種類的圖像,這也是深度學習 / 機器學習方法應用于醫學領域的一個顯著特點:方法是疾病 / 成像模式相關的。不同疾病的圖像區別太大,目前的研究主要局限在針對具體疾病圖像具體分析適用的可解釋模型 / 方法。不過,這些方法都是可解釋深度學習技術在醫療圖像診斷領域中應用的有益探索,隨著越來越多的研究人員關注可解釋性,期望能推動深度學習技術在醫學領域中的規模化推廣應用。
編輯:hfy
-
深度學習
+關注
關注
73文章
5493瀏覽量
121001
發布評論請先 登錄
相關推薦
評論