如今,深度學習已經貫穿于我們的生活,無論是汽車自動駕駛、AI 醫學診斷,還是面部、聲音識別技術,無一沒有 AI 的參與。然而,盡管人們早已明了深度學習的輸入和輸出,卻對其具體的學習過程一無所知。
近日,針對這一問題,奧本大學(Auburn university)計算機科學和軟件工程副教授 Anh Nguyen 對圖像識別的深度學習算法進行了逐點剖析;無獨有偶,加州大學歐文分校(UC Irine) 計算機科學副教授 Sameer Singh 正在制作歸因圖(attribution maps),以幫助理解為何自然語言算法懂得與你交談,并說出一些涉及種族主義的話。
機器學習(machine learning)是人工智能的一種形式,它使用大量的數據來訓練自己對某些問題形成算法。例如,向機器提供成千上萬張標有“貓”的照片,它就能學會識別“貓”這一生物。
Nguyen 說,機器學習的想法可以追溯到 20 世紀 50 年代,但直到最近,計算機才能夠有效地處理大量數據,并得出精確結果。到 20 世紀 90 年代,機器學習算法僅使用簡單的概念,但很明顯,現實生活中存在各種復雜的問題,從而需要更復雜的算法,這就是深度學習的意義所在。
與機器學習不同,深度學習(deep learning)不需要結構化數據作為基礎,利用人工神經網絡(artificial neural net),即多個神經元一起工作,通過這些“神經元”來考慮數據并對數據進行分類。
神經網絡非常擅長圖像識別,當向它們提供足夠的數據后,他們可以挑出人眼看不見的圖案或差異。利用這一點,深度學習可以實現自動駕駛汽車的行人偵查或腫瘤篩查。
但是, 當出現超出其參數范圍的輸入時,神經網絡也會崩潰。在特定的,狹窄定義的任務中,深度學習通常優于人類,但是一旦神經網絡失效時,往往會導致嚴重的后果。如果錯誤識別的圖像發生在腫瘤患者身上或自動駕駛車上時,后果可能是致命的。
但問題是這些系統是如此的密集和復雜,人類無法理解它們,對人類來說,深度學習如同一個科技黑箱。除了令人不安之外,我們無法理解的計算機程序還可以做出一些不可預測的事情,并且當它們出錯時,很難對其進行反向工程或糾正。
正如 Nguyen 所說, “歸根結底,我們要搞清楚為什么神經網絡的行為是這樣,而不是相反。”
揭示神經網絡的想法
能徹底搞亂人工智能的數據被稱為“對抗性數據”,它會導致一個通常可靠的神經網絡犯下奇怪的錯誤。靜態的、波浪狀的人字紋,以及五顏六色的條紋,可能被 AI 自信地識別為“蜈蚣”或“熊貓”。
不僅如此,一些常見的圖像也會讓深度學習人工智能崩潰。把消防車圖片倒過來,AI 就會看到一個大雪橇;放大一輛公共汽車的窗戶,它在 AI 眼中就變成了一個出氣筒。
“令人震驚的是,我們發現這些網絡會在某種程度上被這些奇怪的圖案所愚弄,這是我們從未想象過的。”Nguyen 表示。
為了找出原因,Nguyen 創建了一個叫做 DeepVis 的工具來分析神經網絡算法。該工具能夠將深入學習 AI 的完整程序分離開來,并顯示出單個神經元正在識別的內容。從這里開始,Nguyen 能夠打破深入學習AI的連續工作進程,從而理解它是如何一步步達到最終檢測結果的。
將識別對象簡單的隨機旋轉幾次,就足以將 AI 的分類精度從 77.5% 降到3%
由于神經網絡這種復雜性,對其所做的“解剖”對于人工智能開發人員最有用,提供的大量細節可以幫助科學家們更深入地理解破解黑箱所需的神經網絡訓練,就好比醫生對于腫瘤的研究一樣。
但是,即使使用 DeepVis,黑箱的秘密可能也不會完全打開。神經元群的絕對復雜性可能讓人類難以理解,畢竟它是一個黑箱。
2016 年,來自波士頓大學和微軟研究院的研究人員為一種算法提供了 300 多萬英文單詞的數據集,數據從谷歌新聞文章中提齲研究人員重點關注那些最常用的英文單詞,然后讓算法做完形填空。
“男人(Man)之于程序員(computer programmer),那么女人(woman)之于什么”,機器通過算法“思考”后,得出答案:“家庭主婦(homemaker)”。
很明顯, AI也會發出類似于人類社會的性別歧視和種族主義言論。為了找出其中的原因,專注于破解自然語言處理(NLP)算法黑箱并提出深度學習思維(deep learning thinking)這一概念的 Sameer Singh,使用了一種叫做歸因圖(attribution map)的工具:將語言插入到文本生成 NLP 算法中,歸因圖將突出顯示某些部分,展示什么在神經網絡內部“發光”也許是一個特定的字母組合。
Singh 的團隊首先使用某些單詞,開發出特殊的觸發器,然后,他們按照歸因圖所說的算法最“感興趣”的模板來修改這些單詞,最終的結果是一連串的文字和半拼寫錯誤,從而引發了某些看起來像“種族主義”的言論。
“突出顯示的內容對模型的預測或輸出有很大的影響,”Singh 說,利用這些信息,可以使用故意的對抗觸發器來嘗試發現問題,并理解深度學習算法中的聯系。這足以讓人們了解人工智能的想法。
雖然歸因圖也有缺點,不同的地圖生成器可能彼此不一致,但是大概的理解可能是我們所能獲得的最好的理解。
AI 黑箱 VS 人類黑箱
事實上,隨著算法變得更加復雜、更加強大和不透明化,圍繞黑箱的問題也進一步深入到哲學上:當我們人類自己的神經網絡仍然神秘時,要求 AI 神經網絡完全透明是公平的嗎?
不得不承認,人類本身的神經網絡也是一個黑箱。我們雖然知道一些物理結構,知道它們是如何工作,但對“思想”和“意識”的確切含義仍不清楚。
接下來我們是否應該思考,機器模仿人腦并繼承其精確、靈活等優點的同時,是否也繼承了人性中的偏見?
當然,隨著未來科學家們在深度學習領域中不斷取得的突破,由人類創造的 AI 黑箱終將變成“灰色”。
-
圖像識別
+關注
關注
9文章
519瀏覽量
38239 -
機器學習
+關注
關注
66文章
8378瀏覽量
132411 -
深度學習
+關注
關注
73文章
5493瀏覽量
120979
發布評論請先 登錄
相關推薦
評論