精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

微軟視覺語言模型有顯著超越人類的表現

如意 ? 來源:cnBeta.COM ? 作者:cnBeta.COM ? 2021-01-19 14:32 ? 次閱讀

視覺語言(Vision-Language,VL)系統允許為文本查詢搜索相關圖像(或反之),并使用自然語言描述圖像的內容。一般來說,一個VL系統使用一個圖像編碼模塊和一個視覺語言融合模塊。微軟研究部門最近開發了一種新的圖像編碼對象屬性檢測模型,稱為VinVL(Visual features in Vision-Language),有著顯著超越人類的表現。

當VinVL與OSCAR和vivo等VL融合模塊結合后,微軟新的VL系統能夠在競爭最激烈的VL排行榜上取得第一,包括視覺問題回答(VQA)、微軟COCO圖像字幕和新穎對象字幕(nocaps)。微軟研究團隊還強調,在nocaps排行榜上,這種新的VL系統在CIDEr(92.5對85.3)方面的表現明顯超過了人類的同形式表現。

微軟解釋道:

VinVL在改善VL理解的圖像編碼方面表現出了巨大的潛力。我們新開發的圖像編碼模型可以使廣泛的VL任務受益,正如本文中的例子所說明的那樣。盡管我們獲得了很有希望的結果,比如在圖像字幕基準上超越了人類的表現,但我們的模型絕不是達到VL理解的人類水平的智能。未來有趣的工作方向包括 (1)利用海量圖像分類/標記數據,進一步擴大對象屬性檢測預訓練的規模;(2)將跨模態VL表征學習的方法擴展到構建感知基礎的語言模型,可以像人類一樣將視覺概念建立在自然語言中,反之亦然。

微軟VinVL正在被整合到Azure認知服務中,Azure認知服務為微軟的各種服務提供支撐,如Seeing AI、Office和LinkedIn中的圖像字幕等。微軟研究團隊還將向公眾發布VinVL模型和源代碼。
責編AJX

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 微軟
    +關注

    關注

    4

    文章

    6567

    瀏覽量

    103959
  • 圖像
    +關注

    關注

    2

    文章

    1083

    瀏覽量

    40418
  • 模型
    +關注

    關注

    1

    文章

    3174

    瀏覽量

    48720
收藏 人收藏

    評論

    相關推薦

    語言模型:原理與工程實踐+初識2

    的一系列變革。 大語言模型是深度學習的應用之一,可以認為,這些模型的目標是模擬人類交流,為了理解和生成人類
    發表于 05-13 00:09

    語言模型:原理與工程時間+小白初識大語言模型

    解鎖 我理解的是基于深度學習,需要訓練各種數據知識最后生成自己的的語言理解和能力的交互模型。 對于常說的RNN是處理短序列的數據時表現出色,耳真正厲害的是Transformer,此框架被推出后直接
    發表于 05-12 23:57

    微軟準備推出全新人工智能語言模型

    微軟近期傳出消息,正在秘密研發一款全新的人工智能語言模型,這款模型在規模上預計將具備與谷歌和OpenAI等業界巨頭相抗衡的實力。據悉,這款新模型
    的頭像 發表于 05-08 09:30 ?403次閱讀

    【大語言模型:原理與工程實踐】大語言模型的應用

    類任務上表現出色,甚至在零樣本條件下也能取得良好效果。另一類則需要逐步推理才能完成的任務,類似于人類的系統2,如數字推理等。然而,隨著參數量的增加,大語言模型在這類任務上并未出現質的飛
    發表于 05-07 17:21

    【大語言模型:原理與工程實踐】大語言模型的評測

    ,還已成為知名企業辦公文檔工具的重要組成部分,助力用戶日常生活、學習和職業發展。值得注意的是,大語言模型在文案創作方面的表現存在顯著差異。因此,在評測大
    發表于 05-07 17:12

    【大語言模型:原理與工程實踐】大語言模型的預訓練

    如此卓越的性能,就是通過其核心能力對海量數據進行預訓練,再進行微調或對其什么型更好的根據人類的指令和偏好,發揮這些性能。隨著語言模型參數的不斷增加,模型完成各個任務的效果也得到了不同程
    發表于 05-07 17:10

    【大語言模型:原理與工程實踐】大語言模型的基礎技術

    處理各種自然語言任務時都表現出了驚人的能力。這促使一個新的研究方向誕生——基于Transformer 的預訓練語言模型。這類模型的核心思想是
    發表于 05-05 12:17

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    維基百科、網頁內容和書籍等,不僅掌握了語言的語法、語義和上下文信息,還能生成結構連貫、語義合理的句子和段落。大語言模型的一個顯著特點是其龐大的參數量,已達數億甚至數十億級別。這種規模賦
    發表于 05-04 23:55

    NVIDIA加速微軟最新的Phi-3 Mini開源語言模型

    NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微軟最新的 Phi-3 Mini 開源語言模型。TensorRT-LLM 是一個開源庫,用于優化從 PC 到云端的 NVIDIA GPU 上運行的大
    的頭像 發表于 04-28 10:36 ?489次閱讀

    全球最強大模型易主,GPT-4被超越

    近日,AI領域的領軍企業Anthropic宣布推出全新的Claude 3系列模型,其中包括最強版Claude 3 Opus。據該公司稱,Claude 3系列在推理、數學、編碼、多語言理解和視覺方面全面
    的頭像 發表于 03-05 09:58 ?622次閱讀

    谷歌模型軟件哪些功能

    谷歌模型軟件通常指的是谷歌推出的一系列人工智能模型和軟件工具,其中最具代表性的是Google Gemini。Google Gemini是谷歌DeepMind團隊開發的一款大型語言模型
    的頭像 發表于 03-01 16:20 ?611次閱讀

    機器人基于開源的多模態語言視覺模型

    ByteDance Research 基于開源的多模態語言視覺模型 OpenFlamingo 開發了開源、易用的 RoboFlamingo 機器人操作模型,只用單機就可以訓練。
    發表于 01-19 11:43 ?366次閱讀
    機器人基于開源的多模態<b class='flag-5'>語言</b><b class='flag-5'>視覺</b>大<b class='flag-5'>模型</b>

    模型人類的注意力視角下參數規模擴大與指令微調對模型語言理解的作用

    近期的大語言模型(LLM)在自然語言理解和生成上展現出了接近人類的強大能力,遠遠優于先前的BERT等預訓練模型(PLM)。
    的頭像 發表于 01-04 14:06 ?432次閱讀
    <b class='flag-5'>模型</b>與<b class='flag-5'>人類</b>的注意力視角下參數規模擴大與指令微調對<b class='flag-5'>模型</b><b class='flag-5'>語言</b>理解的作用

    2023年科技圈熱詞“大語言模型”,與自然語言處理何關系

    。 ? 2023年,大語言模型及其在人工智能領域的應用已然成為全球科技研究的熱點,其在規模上的增長尤為引人注目,參數量已從最初的十幾億躍升到如今的一萬億。參數量的提升使得模型能夠更加精細地捕捉
    的頭像 發表于 01-02 09:28 ?2701次閱讀

    模型與AIGC藍皮書

    模型在多領域表現卓越,在自然語言理解、學習能力、視覺聽覺識別等領域可以媲美甚至超越人類。提高大
    的頭像 發表于 12-07 10:48 ?748次閱讀
    大<b class='flag-5'>模型</b>與AIGC藍皮書