OpenAI 近日的一篇新文章簡述了如何通過辯論使 AI 系統矯正自身的問題來保證系統的安全,人類是辯論的最終評價者。由于人類直接決定辯論勝負,所以人類可以讓 AI 系統的價值取向始終與人類保持一致,作者認為這種方法可以保證 AI 系統的安全。
AI Safety via Debate通過辯論達成AI安全。
我們提出了一項新的人工智能安全技術,該方法先訓練智能體對話題進行辯論,然后由人判斷輸贏。我們認為這種或類似的方法最終可以幫助我們訓練 AI 系統去執行超過人類認知能力的任務,同時這些任務的執行結果仍然與人的價值觀是一致的。我們將通過初步的概念驗證實驗來概括這種方法,同時我們還會發布了一個 Web 網頁,讓人們可以體驗這項技術。
辯論方法可視為圍棋中使用的游戲樹,只不過把走子換成了辯論的句子,然后在最終的葉子節點由人類的判斷決定輸贏。在辯論和圍棋中,真正的答案要從整個樹進行全局考慮,但是強大的智能體選擇的某條單一路徑可以是最終答案。 例如,雖然業余的圍棋手不能直接評估職業選手某一步下法的好壞,但他們可以通過評估游戲結果來判斷職業玩家的實力。
想要讓 AI 智能體符合人類目標和偏好,有一種方法是人類在訓練期間先規定好哪些行為是安全和有用的。雖然這種思路看似不錯,但這種方法要求人類判斷AI智能體表現出的行為的好壞,然而在很多情況下,智能體的行為可能太復雜,以至于人們無法理解,或者任務本身可能就難以判斷或評價。例如,在計算機安全相關環境中運行的代理程序或協調大量工業機器人的代理程序,這些都是人類無法直接觀察進行評價的場景。
我們如何使人類能夠有效地監督先進的 AI 系統呢?一種方法是利用 AI 自身來輔助監督,即要求 AI 系統指出所有自身行為中存在的缺陷。為了達到這個目的,我們將學習過程重新定義為兩個智能體之間進行辯論,然后人類對辯論過程進行評判。即使智能體對問題有比人類更深層次的理解,人類也可以去判斷哪個智能體有更好的論點(類似于專家和證人爭辯說服陪審團)。
我們的方法為兩個對抗的 AI 智能體之間的辯論游戲提供了一個特定的辯論格式。這兩個智能體可以進行自我訓練,類似于 AlphaGo Zero 或 Dota 2AI。我們希望經過適當培訓的智能體能夠擁有遠超人類價值判斷能力。如果兩個智能體對現狀持不同意見,但它們各自完整的推理過程太繁瑣而無法向人展示,那么辯論就可以集中在更簡單的事實爭議上,最終向人類呈現一個簡單可判斷的選擇。
上面講的不直觀,下面舉個例子,我們現在考慮一下這個問題:「哪里是度假的最佳去處?」。如果一個智能體 Alice 從主人翁的角度考慮后說「阿拉斯加」,其實很難判斷這是否是最好的選擇。如果第二個智能體 Bob 說「不,應該是巴厘島」,這聽起來可能令人信服,因為巴厘島更加暖和。Alice 回復說:「你不能去巴厘島,因為你的護照來不及辦了」,這表明巴厘島這個選項存在缺陷,而這一缺陷我們可能沒意識到。然后鮑勃反擊「加急護照服務只需兩周」。辯論一直持續到人類可以正確選擇為止,也就是直到另一方的智能體知道再辯論下去也無法再改變人類的決定為止。
說服一個稀疏 MNIST 分類器
雖然我們認為這種方法在智能體長期使用自然語言與對方進行對話時最為有效,但我們需要在更簡單的領域進行測試,因為今天的自然語言建模能力不足以完成此任務。另一方面因為對于未超出人類能力的任務,測試更容易。所以我們決定將測試轉到可視化領域,并將「智能體有評價者(人類)不具有的能力」的降辯論難度,降低到「智能體有評價者(人類)不具有的知識」。測試中評價者的目的是猜測圖像的內容,但評價者除了智能體篩選顯示的像素點外看不到其他內容。智能體們看到完整的圖像,然后開始游戲——它們交替顯示單個像素給評價者,這個過程會持續很多輪。這個測試中的完整圖像人類無法輕易判斷出來,每個顯示的像素都是智能體的辯論點。
描述一下實驗可能更加容易理解。我們在最簡單的 MNIST 數據集上進行了測試。測試的評價者不是人類,而是預先訓練的分類器,在預訓練分類器時每個圖片都隨機采樣,最終目的是這個分類器通過識別 6 個非黑色像素來判斷 MNIST 數字。實驗開始首先兩個智能體對交替顯示的像素的位置進行辯論,在顯示 6 個像素后停止(所以評價者總共只看到一點點信息)。測試中一個智能體是誠實的,并試圖讓評價者猜對,另一個智能體試圖讓評價者猜錯。如果兩個智能體均事先聲明他們爭論的是哪個數字,那么這場辯論會將稀疏分類器的準確率從 59.4%提升到 88.9%。也就是說,誠實的智能體在 MNIST 測試集中獲勝概率為 88.9%,在辯論過程中還提升了評價者的準確率。
MNIST 辯論游戲的結構。辯手 Alice 和 Bob 看到一個圖像,Alice 試圖欺騙評價者認為它是一個 6,Bob 試圖正確說服評價者是一個 5。他們交替向評價者展示非黑色像素,評價者在看完 6 個像素后正確地將其標識為 5。Alice 追蹤顯示底部曲線使其看起來像一個 6(紅色像素),但是 Bob 通過揭示右上角的像素(藍色像素)來有效地針對 Alice 的策略,因為這是 MNIST 中大多數 6 所沒有的部位。
直觀地說,圖像更可能包含證明圖片真實內容的像素,而不是包含混淆圖片內容的的像素,所以選擇的 6 個像素中一半誠實和一半欺騙,要比 6 個隨機像素更公平。如果評價者是一個能夠一次綜合多個參數進行推理但不能篩選所有可能參數的人類,那么我們希望獎勵機制可以獎勵辯論智能體幫我們做篩選這一行為,即便我們缺乏一個區分辯論好壞的先驗機制。
下面的圖片顯示了幾個示例游戲。因為欺騙者勝利比誠實者勝利更有趣,所以我們選擇特定樣本以便欺騙者在下面顯示的游戲中獲得 50% 的勝率(實際上,欺騙者勝率是 11.1%)。
上圖就是游戲截圖,可以看到顯示的數字已經評價者的判斷過程。有一些數字特別容易混淆,比如 8 和 9。
上圖是對角線設置為零的混淆矩陣。用作對 6 像素 MNIST 數據進行判斷,左側是隨機像素,右側是用于辯論的像素。6 個隨機像素的識別錯誤之間沒有明顯的關聯模式,而用作辯論的像素識別錯誤則集中在數字 8 和 9 上。特別容易讓評價者混淆的數字是 5 和 8,評論者還容易把 4 判斷成 9。這可能是將游戲人為限制為非黑色像素導致的:試想如果 8 是純白的,那么數字上有黑點,就證明該數字不是 8。
貓狗之爭
辯論實驗更加復雜的下一階段仍然使用圖像,但需要比數字更加精細復雜的圖片,比如貓和狗的圖片。更復雜的圖像可能要用到一些自然語言識別或常識推理,所以我們還沒有使用機器學習來做下一步研究。 但是我們已經為人類做了一個測試原型網站來進行這樣的實驗,網站中人類可以扮演法官和辯手的角色。在這里,辯論者可以用自然語言與評價者交談,但辯論者所有的陳述都可能是謊言。每個辯論者都可以在辯論過程中顯示一個像素,并且該像素絕對是真實的。
兩位人類辯手進行辯論,一位人類評價者進行判斷,只有辯手才能看到圖像。 紅色爭辯說是一只狗,藍色說是貓。
在一場典型的辯論中,愛麗絲可能會誠實地宣稱照片內容是一只貓,而鮑勃卻謊稱是一只狗。愛麗絲可以說:「這個小矩形的中心是貓的綠眼睛。」鮑勃不能承認這的確是眼睛,所以他編造了另一個謊言:「這是一只在草地上玩耍的狗,矩形中心是一片草地。」但是這個謊言描述的場景很難與周圍的真實場景保持一致,比如愛麗絲可以反駁「如果它是草,那么這個細長矩形的頂部或底部應該是綠色的」。辯論一直持續到評價者確認某個特定像素為止,這個像素的特點是兩者對于該像素有分歧,但是鮑勃再也無法圓謊,此時 Alice 在該像素的辯論中獲勝。我們曾經玩過這個游戲,盡管為了公平對待欺騙者,我們限制了評價者請求信息的速度(一個完美的謊言的確難以構造,需要時間編解釋),然而結果顯示誠實的辯論者確實更容易獲勝。
兩個辯手和一個評價者在玩「貓狗大戰」
未來工作中的限制
我們的大部分論文都是概念化的分析,上面的實驗非常初步。將來,我們希望做更多困難的視覺實驗并最終以自然語言進行實驗。我們認為最終評價者應該是人類(或者是使用人類判斷結果訓練出來的模型),而不是類人化的機器學習模型。至于智能體,它最終應該是功能強大的機器學習系統,它可以做人類無法直接理解的事情。因為人類看待事物可能帶有前提和偏見,所以我們認為讓智能體對「價值高低」這樣的問題進行辯論也很重要,這樣我們就能測試出它們是否會和有偏見的人類作出一樣的評價。
即使有了這些改進,辯論模式也存在一些根本的局限性,可能需要用其他方法來改進或增強。我們想強調,一,辯論這種方法并不會試圖解決對抗性樣本或數據分布漂變等問題,這只是一種為復雜目標獲得訓練信號的方法,并不是保證目標魯棒性的方法(這需要通過其他技術來實現)。二是這種方法也無法保證辯論會得到最佳結果或正確的表述,盡管左右互搏的方法在 AlphaGo 和其他游戲 AI 的實踐中表現良好,但我們對其最終表現的優劣并沒有理論保證。三是由于訓練辯論智能體需要用到更多的計算資源,比那些直接得出答案的多(即使是不好的或不安全的答案),所以辯論智能體這個方法可能無法與更便宜或不太安全的方法競爭。最后,我們認為人類并不一定會是高明的評價者,有時因為人類不夠聰明,即使智能體篩選出了最簡單的事實,他們也無法據此做出最好的評價;有時他們心存偏見,只會相信任何他們愿意相信的事情。雖然這都是一些經驗判斷,但也都是我們希望進一步研究的問題。
最后我們認為如果辯論或類似的方法有效,那么即使以后人類無法直接監督 AI 系統,它也會使未來的人工智能系統更安全,因為這種方法可以使 AI 系統與人類的目標和價值取向保持一致。 即使對于人類可以監督的較弱的系統,辯論的方法也可以通過降低樣本復雜度的方法來降低評價任務的難度。
-
人工智能
+關注
關注
1791文章
46859瀏覽量
237579
發布評論請先 登錄
相關推薦
評論