精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NüWA多模態模型支持八大視覺生成與編輯任務

微軟科技 ? 來源:微軟科技 ? 作者:微軟科技 ? 2022-03-11 09:23 ? 次閱讀

小編說:“自然語言”正在越來越經常地出現在我們的日常生活中。你有沒有想象過,我們有一天可以使用自然語言對視覺內容進行編輯?微軟亞洲研究院最新推出的多模態模型 NüWA,不僅讓視覺內容創造多了一條路,甚至還讓 Windows 經典桌面有了更多的打開方式。人類對于信息的感知有五種途徑,包括視覺、聽覺、嗅覺、觸覺和味覺,其中視覺是接受信息的最主要渠道,也是創造力的源泉。在推動人工智能發展的道路上,計算機視覺已經成為一個重要的研究領域,尤其是近幾年視覺創作類應用的頻繁涌現,讓創作變得越來越便捷,越來越多的用戶可以用這些工具制作和分享身邊的美好生活。與此同時,視覺類應用的廣泛使用也促進了計算機視覺領域的研究。

然而,盡管這些工具功能強大,但仍有不足之處:其一,它們需要創作者手動收集和處理視覺素材,導致現有的大規模視覺數據中所包含的視覺知識無法自動地有效利用。其二,這些工具往往是通過圖形界面與創作者交互,并非自然語言指令,因此對于一些用戶來說,具有一定的技術門檻,他們需要擁有豐富的使用經驗。在微軟亞洲研究院看來,下一代可視化內容創建工具應該能夠利用大數據、AI 模型幫助用戶更便捷地進行內容創作,并使用自然語言作為更加友好的交互界面。

在這樣的理念下,微軟亞洲研究院在視頻生成預訓練模型的基礎上進行再創新,開發了多模態的 NüWA(Neural visUal World creAtion)模型。通過自然語言指令,NüWA 可以實現文本、圖像、視頻之間的生成、轉換和編輯,幫助視覺內容創作者降低技術門檻,提高創造力。同時,開發者也可以利用 NüWA 構建基于 AI 的視覺內容創造平臺。

支持八大視覺生成與編輯任務

NüWA 目前支持八大視覺生成和編輯任務。其中,支持圖像的四類任務包括:文本到圖像,草圖到圖像,圖像補全,圖像編輯;支持視頻的四類任務包括:文本到視頻,視頻草圖到視頻,視頻預測,視頻編輯。下面,讓我們以 Windows 經典桌面為例,試一下 NüWA 的幾個功能。

給定一張原始圖片;

讓 NüWA 將圖片補全為256x256(圖像補全);

讓 NüWA 在圖片的紅框位置處添加“一匹在草地上行走的馬”(圖像編輯);

讓 NüWA 將這張圖片生成為一個能“動”起來的視頻(視頻預測)。

NüWA-LIP:讓視覺編輯更精細

NüWA 模型已基本包含了視覺創作的核心流程,可在一定程度上輔助創作者提升效率,但在實際創作中,創作者還有很多多樣且高質量的需求。為此,微軟亞洲研究院的研究員們在 NüWA 的基礎之上更新迭代,于近日提出了 NüWA-LIP 模型,并且在視覺領域的典型任務——缺陷圖像修復中取得了新突破。盡管此前也有方法完成了類似的圖像修復,但是模型的創作卻比較隨意,無法符合創作者的意愿,而 NüWA LIP 幾乎可以按照給定的自然語言指令修復、補全成人們肉眼可接受的圖像。下面,讓我們直觀感受一下 NüWA-LIP 神奇的圖像修復效果。圖2給出了兩個例子。第一個例子是希望模型可以按照“Racers riding four wheelers while a crowd watches”(一群人在看摩托車手騎四輪車)來補全黑色區域。已有工作 GLIDE 雖然可以補全,但是可以看到邊界處有明顯的白線,并且補全的區域比較模糊。NüWA 模型使用自回歸的方式從左到右依次掃描生成,邊界處相比于 GLIDE 更加自然。但是由于在補全黑色區域時看不到右側的車輪,因此標準的 NüWA 模型存在補全邊界銜接不對的問題。NüWA-LIP 修復了 NüWA 這一不足,它會提前預看整個圖像,并創新地使用無損編碼技術,然后再自回歸地生成,因此可以做到黑色區域邊界處銜接自然,并且補全區域也很清晰。

NüWA-Infinity:讓視覺創作趨于 “無限流”

除了圖像修復之外,微軟亞洲研究院在高分辨率、大圖像的橫向延展方面也進行了持續研究,提出了 NüWA Infinity 模型。顧名思義,NüWA Infinity 可以根據給定的圖像生成無限連續的高清“大片”。“一開始 NüWA 能夠生成、編輯的圖像和視頻的分辨率相對較低,一般是256×256分辨率的小圖。我們希望通過模型可以生成更高清的大圖,形成更大的視覺沖擊,滿足不同創作者的實際需求。簡單來說,NüWA Infinity 會根據圖像的不同層次內容掃描每一幀窗口,不斷渲染形成高像素、連續的大圖,”微軟亞洲研究院研究員吳晨飛介紹說。想知道 Windows 經典桌面的右側是什么樣么?點擊下圖,NüWA-Infinity 為你“揭開”神秘面紗。

段楠補充說,“表面看 NüWA Infinity 解決了之前 NüWA 生成圖片不高清,以及視頻幀數有限的問題。但其實 NüWA Infinity 從底層形成了一套生成機制,不僅可以對圖片進行延展式的生成,也可以應用于視頻預測創作,而這也是我們接下來要攻克的研究課題。”

自此,NüWA-LIP 讓機器接受語言指令自動修圖成為了可能,而 NüWA-Infinity 則使得圖像生成質量向高清、無限的真實世界邁進了一大步。按照這樣的迭代創新步伐,未來創作者擁有一套趨于“無限流”的視覺創作輔助工具,指日可待。

段楠補充說,“表面看 NüWA Infinity 解決了之前 NüWA 生成圖片不高清,以及視頻幀數有限的問題。但其實 NüWA Infinity 從底層形成了一套生成機制,不僅可以對圖片進行延展式的生成,也可以應用于視頻預測創作,而這也是我們接下來要攻克的研究課題。”

自此,NüWA-LIP 讓機器接受語言指令自動修圖成為了可能,而 NüWA-Infinity 則使得圖像生成質量向高清、無限的真實世界邁進了一大步。按照這樣的迭代創新步伐,未來創作者擁有一套趨于“無限流”的視覺創作輔助工具,指日可待。

NüWA 在八大任務中的效果

NüWA 多模態模型連鎖反應:或將帶來更多“殺手級”應用

微軟亞洲研究院高級研究員段楠表示,“NüWA 是第一個多模態預訓練模型。我們希望 NüWA 可以實現真實世界的視頻生成,但在訓練過程中模型會產生大量的‘中間變量’,消耗巨大的顯存、計算等資源。因此,NüWA 團隊與系統組的同事們聯手協作,為 NüWA 在系統架構上設置了多種并行機制,如張量并行、管道并行和數據并行,使得我們的跨模態訓練成為可能。”

未來,隨著人工智能技術的發展,增強現實、虛擬現實等沉浸式的人機交互界面將會得到更廣泛的應用,數字世界和物理世界的結合也將越來越緊密。而不同類型的多模態內容則是拉近虛擬空間與現實世界的強力膠,因此,虛擬內容的創建、編輯和交互將至關重要。NüWA 提供的視覺內容生成和編輯技術,為這些應用提供了無限的想象空間。當多模態技術成為未來人工智能應用發展的方向時,多模態模型將會為學習、廣告、新聞、會議、娛樂、社交網絡、數字人、腦機交互等領域帶來更多的下一代“殺手級”應用。

原文標題:用一句話,讓AI畫一匹馬是什么體驗?

文章出處:【微信公眾號:微軟科技】歡迎添加關注!文章轉載請注明出處。

審核編輯:湯梓紅

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    6892

    瀏覽量

    88828
  • AI
    AI
    +關注

    關注

    87

    文章

    30146

    瀏覽量

    268421
  • 模型
    +關注

    關注

    1

    文章

    3172

    瀏覽量

    48714

原文標題:用一句話,讓AI畫一匹馬是什么體驗?

文章出處:【微信號:mstech2014,微信公眾號:微軟科技】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    基于AX650N/AX630C部署模態模型InternVL2-1B

    InternVL2是由上海人工智能實驗室OpenGVLab發布的一款模態模型,中文名稱為“書生·萬象”。該模型在多學科問答(MMMU)等任務
    的頭像 發表于 11-18 17:32 ?462次閱讀
    基于AX650<b class='flag-5'>N</b>/AX630C部署<b class='flag-5'>多</b><b class='flag-5'>模態</b>大<b class='flag-5'>模型</b>InternVL2-1B

    高通與智譜推動模態生成式AI體驗的終端側部署

    此前,驍龍峰會首日,智譜與高通技術公司宣布合作將GLM-4V端側視覺模型,面向驍龍8至尊版進行深度適配和推理優化,支持豐富的模態交互方式
    的頭像 發表于 11-08 09:55 ?143次閱讀

    利用OpenVINO部署Qwen2模態模型

    模態模型的核心思想是將不同媒體數據(如文本、圖像、音頻和視頻等)進行融合,通過學習不同模態之間的關聯,實現更加智能化的信息處理。簡單來說,
    的頭像 發表于 10-18 09:39 ?319次閱讀

    聆思CSK6視覺語音大模型AI開發板入門資源合集(硬件資料、大模型語音/模態交互/英語評測SDK合集)

    豐富外設配件 配套模態應用示例,支持快速上手體驗大模型語音交互、智能視覺等 AI 應用 板載 DAPLINK 調試器,外接一條USB 線即
    發表于 06-18 17:33

    阿里云通義大模型助力“小愛同學”強化模態AI生成能力

    小米的人工智能助手“小愛同學”近期與阿里云通義大模型達成戰略合作,共同提升其模態AI生成能力,特別是在圖片生成與理解方面。這次合作不僅將強
    的頭像 發表于 05-13 09:19 ?741次閱讀

    李未可科技正式推出WAKE-AI模態AI大模型

    文本生成、語言理解、圖像識別及視頻生成模態交互能力。 ? 該大模型圍繞 GPS 軌跡+視覺+
    發表于 04-18 17:01 ?565次閱讀
    李未可科技正式推出WAKE-AI<b class='flag-5'>多</b><b class='flag-5'>模態</b>AI大<b class='flag-5'>模型</b>

    NVIDIA Edify模態架構升級,引領視覺生成式AI新紀元

    NVIDIA近日宣布,其用于視覺生成式AI的模態架構Edify迎來重大更新,為開發者和視覺內容提供商帶來前所未有的新功能。其中,3D資產
    的頭像 發表于 03-27 10:22 ?412次閱讀

    螞蟻集團推出20億參數模態遙感基礎模型SkySense

    近日,螞蟻集團聯合武漢大學宣布成功研發出20億參數模態遙感基礎模型SkySense。這一創新模型由螞蟻集團的AI創新研發部門NextEvo與武漢大學共同完成,是迄今為止國際上參數規模
    的頭像 發表于 03-04 11:22 ?775次閱讀

    螞蟻推出20億參數模態遙感模型SkySense

    據了解,負責開發的百靈團隊利用自身擁有的19億遙感影像數據集進行了預訓練,從而生成了具有20.6億參數的SkySense大模型。官方稱其為全球范圍內參數規模最大、任務覆蓋最全且識別精度最高的
    的頭像 發表于 02-28 15:53 ?621次閱讀

    機器人基于開源的模態語言視覺模型

    ByteDance Research 基于開源的模態語言視覺模型 OpenFlamingo 開發了開源、易用的 RoboFlamingo 機器人操作
    發表于 01-19 11:43 ?365次閱讀
    機器人基于開源的<b class='flag-5'>多</b><b class='flag-5'>模態</b>語言<b class='flag-5'>視覺</b>大<b class='flag-5'>模型</b>

    安霸發布全新N1系列生成式AI芯片

    安霸在CES 2024上發布了全新的N1系列生成式AI芯片,這是一款專門為前端設備設計的芯片,支持本地運行大型語言模型(LLM)應用。其單顆SoC能夠
    的頭像 發表于 01-09 15:32 ?1311次閱讀

    安霸發布N1系列生成式AI芯片支持前端設備運行本地LLM應用

    單顆 SoC 支持 1 至 340 億參數的模態模型(Multi-Modal LLM)推理,實現前端低功耗生成式 AI。
    的頭像 發表于 01-09 15:19 ?907次閱讀

    自動駕駛和模態大語言模型的發展歷程

    模態大語言模型(MLLM) 最近引起了廣泛的關注,其將 LLM 的推理能力與圖像、視頻和音頻數據相結合,通過多模態對齊使它們能夠更高效地執行各種
    發表于 12-28 11:45 ?492次閱讀
    自動駕駛和<b class='flag-5'>多</b><b class='flag-5'>模態</b>大語言<b class='flag-5'>模型</b>的發展歷程

    模型+模態的3種實現方法

    我們知道,預訓練LLM已經取得了諸多驚人的成就, 然而其明顯的劣勢是不支持其他模態(包括圖像、語音、視頻模態)的輸入和輸出,那么如何在預訓練LLM的基礎上引入跨模態的信息,讓其變得更強
    的頭像 發表于 12-13 13:55 ?1627次閱讀
    大<b class='flag-5'>模型</b>+<b class='flag-5'>多</b><b class='flag-5'>模態</b>的3種實現方法

    任意文本、視覺、音頻混合生成模態有了強大的基礎引擎CoDi-2

    CoDi )模型,讓一種模型統一多種模態成為可能。CoDi 不僅支持從單模態到單模態
    的頭像 發表于 12-03 20:20 ?667次閱讀
    任意文本、<b class='flag-5'>視覺</b>、音頻混合<b class='flag-5'>生成</b>,<b class='flag-5'>多</b><b class='flag-5'>模態</b>有了強大的基礎引擎CoDi-2