免费国产高清在线精品_日韩久久精品电影_成人a级视频在线观看_国产成人精品A级毛片在线看_717YY电影夜夜福利_亚洲不卡永远在线_国产精品无码无卡有毛在线播放_一级真人片私人影院_亚洲中文无码av永久不收费

ChatGPT 引發了語言大模型狂潮，AI 另一個重大領域 —— 視覺 —— 的 GPT 時刻何時到來？

前兩天，機器之心介紹了Meta 最新研究成果Segment Anything Model (SAM)。該研究引起了AI社區廣泛討論。

而據我們所知，幾乎同一時間，智源研究院視覺團隊也推出通用分割模型 SegGPT（Segment Everything In Context）—— 利用視覺提示（prompt）完成任意分割任務的通用視覺模型。

論文地址：https://arxiv.org/abs/2304.03284

代碼地址：https://github.com/baaivision/Painter

Demo：https://huggingface.co/spaces/BAAI/SegGPT

SegGPT 與 Meta AI 圖像分割基礎模型 SAM 同時發布，兩者的差異在于：

SegGPT “一通百通”：給出一個或幾個示例圖像和意圖掩碼，模型就能 get 用戶意圖，“有樣學樣” 地完成類似分割任務。用戶在畫面上標注識別一類物體，即可批量化識別分割同類物體，無論是在當前畫面還是其他畫面或視頻環境中。

SAM “一觸即通”：通過一個點或邊界框，在待預測圖片上給出交互提示，識別分割畫面上的指定物體。

無論是 “一觸即通” 還是 “一通百通”，都意味著視覺模型已經 “理解” 了圖像結構。SAM 精細標注能力與 SegGPT 的通用分割標注能力相結合，能把任意圖像從像素陣列解析為視覺結構單元，像生物視覺那樣理解任意場景，通用視覺 GPT 曙光乍現。

SegGPT 是智源通用視覺模型 Painter（CVPR 2023）的衍生模型，針對分割一切物體的目標做出優化。SegGPT 訓練完成后無需微調，只需提供示例即可自動推理并完成對應分割任務，包括圖像和視頻中的實例、類別、零部件、輪廓、文本、人臉等等。

該模型具有以下優勢能力：

1. 通用能力：SegGPT 具有上下文推理能力，模型能夠根據提供的分割示例（prompt），對預測進行自適應的調整，實現對 “everything” 的分割，包括實例、類別、零部件、輪廓、文本、人臉、醫學圖像、遙感圖像等。

2. 靈活推理能力：支持任意數量的 prompt；支持針對特定場景的 tuned prompt；可以用不同顏色的 mask 表示不同目標，實現并行分割推理。

3. 自動視頻分割和追蹤能力：以第一幀圖像和對應的物體掩碼作為上下文示例，SegGPT 能夠自動對后續視頻幀進行分割，并且可以用掩碼的顏色作為物體的 ID，實現自動追蹤。

案例展示

1. 作者在廣泛的任務上對 SegGPT 進行了評估，包括少樣本語義分割、視頻對象分割、語義分割和全景分割。下圖中具體展示了 SegGPT 在實例、類別、零部件、輪廓、文本和任意形狀物體上的分割結果。

2. 標注出一個畫面中的彩虹（上圖），可批量化分割其他畫面中的彩虹（下圖）

3. 用畫筆大致圈出行星環帶（上圖），在預測圖中準確輸出目標圖像中的行星環帶（下圖）。

4. SegGPT 能夠根據用戶提供的宇航員頭盔掩碼這一上下文（左圖），在新的圖片中預測出對應的宇航員頭盔區域（右圖）。

訓練方法

SegGPT 將不同的分割任務統一到一個通用的上下文學習框架中，通過將各類分割數據轉換為相同格式的圖像來統一各式各樣的數據形式。

具體來說，SegGPT 的訓練被定義為一個上下文著色問題，對于每個數據樣本都有隨機的顏色映射。目標是根據上下文完成各種任務，而不是依賴于特定的顏色。訓練后，SegGPT 可以通過上下文推理在圖像或視頻中執行任意分割任務，例如實例、類別、零部件、輪廓、文本等。

Test-time techniques

如何通過 test-time techniques 解鎖各種能力是通用模型的一大亮點。SegGPT 論文中提出了多個技術來解鎖和增強各類分割能力，比如下圖所示的不同的 context ensemble 方法。所提出的 Feature Ensemble 方法可以支持任意數量的 prompt 示例，實現豐儉由人的推理效果。

此外，SegGPT 還支持對特定場景優化專用 prompt 提示。對于針對性的使用場景，SegGPT 可以通過 prompt tuning 得到對應 prompt，無需更新模型參數來適用于特定場景。比如，針對某一數據集自動構建一個對應的 prompt，或者針對一個房間來構建專用 prompt。如下圖所示：

結果展示

模型只需少數 prompt 示例，在 COCO 和 PASCAL 數據集上取得最優性能。SegGPT 顯示出強大的零樣本場景遷移能力，比如在少樣本語義分割測試集 FSS-1000 上，在無需訓練的情況下取得 state-of-the-art 性能。

無需視頻訓練數據，SegGPT 可直接進行視頻物體分割，并取得和針對視頻物體分割專門優化的模型相當的性能。

以下是基于 tuned prompt 在語義分割和實例分割任務上的效果展示：

審核編輯：李倩

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

AI

AI

+關注

關注
87

文章
30239

瀏覽量
268475
GPT

GPT

+關注

關注
0

文章
352

瀏覽量
15316

原文標題：通用視覺GPT時刻來臨？智源推出通用分割模型SegGPT

文章出處：【微信號：3D視覺工坊，微信公眾號：3D視覺工坊】歡迎添加關注！文章轉載請注明出處。

通用大模型評測標準正式發布

近日，在2024中國移動全球合作伙伴大會上，一項關于大模型評測體系建設的新成果——《通用大模型評測標準》正式發布。這一標準由中國移動攜手工信部中國電子技術標準化研究院、中國電信、國家電網、中國石油以及科大訊飛等產業各方共同

發表于 10-14 15:52 ?390次閱讀

英偉達預測機器人領域或迎“GPT-3時刻”

未來2-3年內，機器人基礎模型的研究將迎來重大突破，這一時刻被形象地比喻為機器人領域的“GPT-3時刻”。

發表于 09-20 17:05 ?759次閱讀

OpenAI 推出 GPT-4o mini 取代GPT 3.5 性能超越GPT 4 而且更快 API KEY更便宜

OpenAI推出了GPT-4o mini模型，用來取代GPT-3.5.這是目前市場上最具成本效益的小模型。 ? 該

發表于 07-21 10:20 ?938次閱讀

OpenAI <b class='flag-5'>推出</b> <b class='flag-5'>GPT</b>-4o mini 取代<b class='flag-5'>GPT</b> 3.5 性能超越<b class='flag-5'>GPT</b> 4 而且更快 API KEY更便宜

圖像分割與語義分割中的CNN模型綜述

圖像分割與語義分割是計算機視覺領域的重要任務，旨在將圖像劃分為多個具有特定語義含義的區域或對象。卷積神經網絡（CNN）作為深度學習的一種核心模型，在圖像

發表于 07-09 11:51 ?697次閱讀

OpenAI推出新模型CriticGPT，用GPT-4自我糾錯

基于GPT-4的模型——CriticGPT，這款模型專為捕獲ChatGPT代碼輸出中的錯誤而設計，其獨特的作用在于，讓人們能夠用GPT-4來查找GP

發表于 06-29 09:55 ?519次閱讀

OpenAI發布全新GPT-4o模型

近日，OpenAI宣布推出全新的GPT-4o模型，標志著人工智能領域的一大技術飛躍。這款模型不僅具備強大的生成能力，還能精準理解用戶意圖，提供智能化的回答。

發表于 05-17 11:48 ?624次閱讀

OpenAI推出面向所有用戶的AI模型GPT-4o

在周一的直播盛會上，OpenAI揭開了其最新的人工智能模型GPT-4o的神秘面紗。這款新模型旨在為其著名的聊天機器人ChatGPT提供更強大、更經濟的支持。GPT-4o是此前備受矚目的

發表于 05-15 09:23 ?372次閱讀

【大語言模型：原理與工程實踐】大語言模型的基礎技術

下游任務提供豐富的文本表示,如谷歌公司推出的BERT。（2) Decoder-Only 預訓練語言模型：這類模型一般使用單向的 Decoder 結構，通常擅長生成任務，如OpenAI 推出

發表于 05-05 12:17

訊飛星火大模型V3.5春季升級，多領域知識問答超越GPT-4 Turbo?

劉慶峰指出，現如今，星火大模型在通用長文本處理能力方面已相當成熟，覆蓋長文檔信息抽取、知識問答、歸納總結、文本生成等諸多領域，整體表現已達GPT-4 Turbo今年4月最新版的97%水準；

發表于 04-26 14:26 ?896次閱讀

OpenAI推出Vision模型版GPT-4 Turbo，融合文本與圖像理解

據悉，此模型沿用GPT-4 Turbo系列特有的12.8萬token窗口規模及截至2023年12月的知識庫架構，其創新亮點則是強大的視覺理解功能。

發表于 04-10 10:49 ?380次閱讀

OpenAI有望在年中推出全新GPT-5模型

近日，人工智能領域的領軍企業OpenAI傳來了令人振奮的消息。據悉，他們有望在今年的年中，大約是夏季時分，推出全新的GPT-5模型。這一消息引發了業界的廣泛關注與期待。

發表于 03-22 11:29 ?746次閱讀

微軟Copilot全面更新為OpenAI的GPT-4 Turbo模型

起初，Copilot作為Bing Chat AI助手推出，初期采用GPT-3.5模型，隨后升級至GPT-4取得顯著進步，如今再次更新至性能卓越的GP

發表于 03-13 13:42 ?686次閱讀

全球最強大模型易主，GPT-4被超越

近日，AI領域的領軍企業Anthropic宣布推出全新的Claude 3系列模型，其中包括最強版Claude 3 Opus。據該公司稱，Claude 3系列在推理、數學、編碼、多語言理解和視覺方面全面超越了包括

發表于 03-05 09:58 ?624次閱讀

OPPO推出GPT大模型手機搭載天璣9300卷天卷地卷大模型

OPPO推出GPT大模型手機？是的，只能說生成式 AI 實在是太爆火了，智能手機市場的競爭都只能繼續卷。今天OPPO推出 GPT 大

發表于 01-08 18:52 ?982次閱讀

三項SOTA！MasQCLIP：開放詞匯通用圖像分割新網絡

MasQCLIP在開放詞匯實例分割、語義分割和全景分割三項任務上均實現了SOTA，漲點非常明顯。這里也推薦工坊推出的新課程《徹底搞懂視覺-慣

發表于 12-12 11:23 ?760次閱讀

精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

搜索歷史

通用視覺GPT時刻來臨？智源推出通用分割模型SegGPT

評論

通用大模型評測標準正式發布

英偉達預測機器人領域或迎“GPT-3時刻”

OpenAI 推出 GPT-4o mini 取代GPT 3.5 性能超越GPT 4 而且更快 API KEY更便宜

圖像分割與語義分割中的CNN模型綜述

OpenAI推出新模型CriticGPT，用GPT-4自我糾錯

OpenAI發布全新GPT-4o模型

OpenAI推出面向所有用戶的AI模型GPT-4o

【大語言模型：原理與工程實踐】大語言模型的基礎技術

訊飛星火大模型V3.5春季升級，多領域知識問答超越GPT-4 Turbo?

OpenAI推出Vision模型版GPT-4 Turbo，融合文本與圖像理解

OpenAI有望在年中推出全新GPT-5模型

微軟Copilot全面更新為OpenAI的GPT-4 Turbo模型

全球最強大模型易主，GPT-4被超越

OPPO推出GPT大模型手機搭載天璣9300卷天卷地卷大模型

三項SOTA！MasQCLIP：開放詞匯通用圖像分割新網絡