近日,科技公司谷歌和微軟相繼在一份權威自然語言理解榜單中超越人類的表現,微軟宣稱這“標志著邁向通用人工智能的重要里程碑。”
自然語言理解(Natural Language Understanding,簡稱NLU)任務在人工智能領域歷史悠久,被譽為“人工智能皇冠上的明珠”。由于自然語言本身存在的歧義性或多義性,實現高質量的自然語言理解有相當的難度。
為了衡量人工智能模型的自然語言理解能力,紐約大學、華盛頓大學、Facebook和DeepMind在2019年合作提出一個名為SuperGLUE的人工智能基準測試。SuperGLUE由2018年GLUE演化而來,其語言理解任務難度更大,包括問答、自然語言推理、指代消解和詞義消歧等等。
在最近更新的SuperGLUE上,微軟的DeBERTa模型和谷歌的T5+Meena模型分列第一第二,超越人類基準線(human baseline)。這是人工智能首次在SuperGLUE中表現超越人類。
盡管在SuperGLUE測試上取得令人滿意的結果,但微軟坦言,DeBERTa模型還沒有達到人類智能的自然語言理解水平。人類非常善于利用從不同任務中學到的知識來解決新的任務,這是AI模型需要學習的地方。
排名第一的微軟模型DeBERTa共有15億個參數。在SuperGLUE測試中,單個DeBERTa模型的宏觀平均分(89.9分)超過了人類的表現(89.8分);模型整體得分(90.3分)也超過人類基準線(89.8分),在SuperGLUE排名第一。排名第二的T5+Meena模型得分90.2,同樣超過人類基準線(89.8分)。
在SuperGLUE測試中,人工智能模型被要求回答類似這樣的問題:
已知“這個孩子對疾病產生了免疫力”,問“這是由什么導致的?”請選擇:A.“他避免接觸這種疾病”;或B.“他接種了這一疾病的疫苗”。
這是一個簡單的因果推理任務,人類很容易選出正確答案。但對人工智能模型而言,卻是不小的挑戰。為了得出正確答案,模型需要理解已知條件和選項之間的因果關系。
2021年1月6日,微軟在博客發文詳細介紹此次取得榜首的DeBERTa模型。
DeBERTa全稱Decoding-enhanced-BERT-with-disentangled attention,是一個基于Transformer架構的神經語言模型,采用自監督學習方法對大量原始文本語料庫進行預訓練。DeBERTa的目標是學習通用的語言表達形式,適用于各種自然語言理解任務。DeBERTa主要用到三種新技術,分別是分離注意力機制、增強的掩碼解碼器和用于微調的虛擬對抗訓練方法。
排名第二的T5+Meena技術來自谷歌。谷歌團隊尚未詳細解釋其模型在SuperGLUE創紀錄的原因。但微軟在博客文章中評價稱,谷歌的T5模型由110億個參數組成,相比之下,15億參數的DeBERTa在訓練和維護上更加節能,更容易壓縮并部署到各種程序中。
微軟正在將DeBERTa模型集成到下一代“圖靈自然語言生成模型”(Turing NLRv4)中。下一步,他們準備向公眾公開15億參數的DeBERTa模型及其源代碼。
責任編輯:tzh
-
微軟
+關注
關注
4文章
6572瀏覽量
103963 -
人工智能
+關注
關注
1791文章
46896瀏覽量
237664 -
自然語言
+關注
關注
1文章
287瀏覽量
13334
發布評論請先 登錄
相關推薦
評論