首個無需依賴SAM的高效像素級推理大模型PixelLM問世

多模態大模型爆發，準備好進入圖像編輯、自動駕駛和機器人技術等細粒度任務中實際應用了嗎？

目前大多數模型的能力還是局限于生成對整體圖像或特定區域的文本描述，在像素級理解方面的能力（例如物體分割）相對有限。

針對這個問題，一些工作開始探索借助多模態大模型來處理用戶的分割指令（例如，“請分割出圖片中富含維生素C的水果”）。

然而，市面上的方法都存在兩個主要缺點：

1)?無法處理涉及多個目標對象的任務，而這在現實世界場景中是不可或缺的；

2)?依賴于像SAM這樣的預訓練圖像分割模型，而SAM的一次前向傳播需要的計算量已經足夠 Llama-7B產生500多個token了。

為了解決此問題，字節跳動智能創作團隊聯合北京交通大學、北京科技大學的研究人員提出了首個無需依賴SAM的高效像素級推理大模型PixelLM。

相比之前的工作，PixelLM的優勢在于：

能夠熟練處理任意數量的開放域目標和多樣化的復雜推理分割任務。

避免了額外的、成本高昂的分割模型，提升了效率和對不同應用的遷移能力。

進一步，為了支持這一研究領域的模型訓練和評估，研究團隊在LVIS數據集的基礎之上，借助GPT-4V構建了一個面向多目標推理分割場景的數據集MUSE，它包含20萬個以上的問題-答案對，涉及90萬個以上的實例分割掩碼。

為了實現上述的效果，這項研究具體是如何做的呢？

背后原理

如論文中的框架圖所示，PixelLM架構十分簡潔，包括四個主要部分，后兩者是PixelLM的核心：

預訓練的CLIP-ViT視覺編碼器

大語言模型

輕量級像素解碼器

分割碼表 Seg Codebook

Seg codebook包含可學習的tokens，它們用于編碼CLIP-ViT不同尺度上的目標信息。然后，像素解碼器基于這些tokens和CLIP-ViT的圖像特征生成目標分割結果。得益于這種設計，PixelLM可以在沒有外部分割模型的情況下生成高質量的分割結果，顯著提高了模型效率。

根據研究人員的描述，Seg codebook內的tokens可分為L組，每一組包含N個token，每個組對應于來自CLIP-ViT視覺特征的一個尺度。

對于輸入的圖像，PixelLM從CLIP-ViT視覺編碼器產的圖像特征中提取出L個尺度的特征，其中最后一層涵蓋了全局圖像信息，會被LLM用作理解圖像內容。

Seg codebook的tokens將會與文本指令及最后一層圖像特征一起輸入LLM中，以自回歸的形式產生輸出。而輸出中也將包含經過LLM處理后的Seg codebook tokens，它們將與L個尺度的CLIP-ViT特征一起輸入到像素解碼器中產生最終的分割結果。

那么為什么還要設置每組包含N個token呢？研究人員結合下圖進行了解釋：

在涉及多個目標或目標所包含的語義十分復雜的情景中，盡管LLM可以提供詳細的文本響應，但僅使用單個token可能無法充分捕捉目標語義的全部內容。

為了增強模型在復雜推理情景下的能力，研究人員在每個尺度組內引入多個token，并執行一個token的線性融合操作。在token傳入解碼器之前，使用線性投影層將每個分組內的token合并。

下圖展示了每組內多個token時的效果。注意力圖是每個token經過解碼器處理后的樣子，這個可視化結果表明，多個token提供了獨特且互補的信息，從而實現了更有效的分割輸出。

此外，為了增強模型區分多個目標的能力，PixelLM還額外設計了一個Target Refinement Loss。

MUSE數據集

盡管已經提出了上述解決方案，但為了充分發揮模型的能力，模型仍然需要適當的訓練數據。回顧目前可用的公開數據集，發現現有的數據存在以下主要限制：

1) 對物體細節的描述不夠充足；
2) 缺乏具有復雜推理和多種目標數量的問題-答案對。

為了解決這些問題，研究團隊借助GPT-4V構建了一個自動化的數據標注流水線，并由此產生了MUSE數據集。下圖展示了MUSE生成時所用到的Prompt及產生的數據示例。

在MUSE中，所有實例掩碼都來自LVIS數據集，并且額外添加了根據圖像內容生成的詳細文本描述。MUSE包含了24.6萬個問題-答案對，每個問題-答案對平均涉及3.7個目標物體。此外，研究團隊對數據集進行了詳盡的統計分析：

類別統計：MUSE中有來自原始LVIS數據集的1000多個類別，以及90萬個具有獨特描述的實例，這些描述基于問題-答案對的上下文而變化。圖(a)顯示了所有問題-答案對中每個類別的實例數量。

Token數目統計：圖(b)展示了實例描述的token數目分布，其中有的實例描述包含了超過100個tokens。這些描述不僅限于簡單的類別名稱；相反，它們通過基于GPT-4V的數據生成流程，大量豐富了每個實例的詳細信息，涵蓋了外觀、屬性和與其他對象的關系等。數據集中信息的深度和多樣性增強了訓練模型的泛化能力，使其能夠有效地解決開放域問題。

目標數目統計：圖（c）展示了每個問題-答案對中目標數量的統計數據。平均目標數量為3.7，最大目標數量可達34個。這個數字可以覆蓋單個圖像的大多數目標推理場景。

算法測評

研究團隊在三個benchmark上評測了PixelLM的性能，包括MUSE benchmark, referring segmentation benchmark，以及multi-referring segmentation benchmark. 在multi-referring segmentation benchmark中，研究團隊要求模型在一個問題中連續地分割出referring segmentation benchmark中每幅圖像包含的多個目標。

同時，由于PixelLM是首個處理涉及多目標復雜像素推理任務的模型，研究團隊建立了四個baseline以對模型進行比較分析。

其中三個baseline基于與PixelLM最相關工作LISA，包括：

1）原始的LISA；

2）LISA_rec: 先將問題輸入LLAVA-13B以得到目標的文本回復，再用LISA分割這些文本；

3）LISA_aug：直接將MUSE加入LISA的訓練數據。

4) 另外一個則是不使用LLM的通用分割模型SEEM。

在三個benchmark的絕大多數指標上，PixelLM的性能均優于其他方法，且由于PixelLM不依賴于SAM，其TFLOPs遠遠低于同尺寸的模型。

審核編輯：黃飛

閱讀全文

字節(13371) 字節(13371)
GPT(14803) GPT(14803)
大模型(810) 大模型(810)

如何使用FasterTransformer進行單機及分布式模型推理

最近幾個月，隨著ChatGPT的現象級表現，大模型如雨后春筍般涌現。而模型推理是抽象的算法模型觸達具體的實際業務的最后一公里。但是在這個環節中，仍然還有很多已經是大家共識的痛點和訴求，比如：任何

2023-05-18 14:35:17

2000

如何在SAM時代下打造高效的高性能計算大模型訓練平臺

在一起，從而顯著提升模型的泛化能力。SAM 的設計初衷是簡化圖像分割的過程，減少對專業建模知識的依賴，并降低大規模訓練所需的計算資源。

2023-08-21 04:02:50

1293

AscendCL快速入門——模型推理篇（上）

一、概述本文介紹了AscendCL模型推理相關知識，介紹了AscendCL接口加載離線模型，為離線模型準備數據結構以及調用離線模型進行推理的過程。簡單來說，曻騰的AscendCL的推理工程可以問為

2023-08-24 11:04:14

Dllite_micro （輕量級的 AI 推理框架）

DLLite-Micro 是一個輕量級的 AI 推理框架，可以為 OpenHarmony OS 的輕量設備和小型設備提供深度模型的推理能力DLLite-Micro 向開發者提供清晰、易上手的北向接口

2021-08-05 11:40:11

EasyGo使用筆記丨極簡操作，無需編譯，助力高效實驗室高效發展

道。本次實驗快速圓滿完成，得益于NetBox操作簡單、無需編譯的特性，能實現快速上手且精準驗證的體驗，助力科研高效發展。 NetBox 是一款基于FPGA的電力電子實時仿真產品。FPGA無需編譯，直接

2022-12-14 10:24:50

HarmonyOS：使用MindSpore Lite引擎進行模型推理

場景介紹 MindSpore Lite 是一款 AI 引擎，它提供了面向不同硬件設備 AI 模型推理的功能，目前已經在圖像分類、目標識別、人臉識別、文字識別等應用中廣泛使用。本文介紹

2023-12-14 11:41:13

NVIDIA 在首個AI推理基準測試中大放異彩

首個獨立AI推理基準測試 ——MLPerf Inference 0.5中取得第一名。由于推理一直是AI市場中最大、同時也是最具競爭力的領域，業內此前一直希望能夠有一套客觀的推理性能測試指標。在參與

2019-11-08 19:44:51

k210可以采集傳感器的數據進行模型的推理嗎？

2023-09-14 08:52:56

pytorch模型轉為rknn后沒有推理結果

使用rknn的api讀取我的模型，進行轉換api可以成功轉換出rknn模型，但遇到的問題是：我使用測試數據調用rknn.inference進行推理，每一次的輸出結果都為[array([nan, nan

2023-01-11 18:45:48

【LuckFox Pico Plus開發板免費試用】RKNN模型推理測試

為開發者提供一個簡單且高效的開發平臺。雖然LuckFox Pico作為入門級開發板只有幾十塊錢，但是它具有人工智能協處理器NPU，也可以實現人工智能的推理工作。瑞芯微 RV1103芯片采用了和RK3568

2023-11-11 16:51:53

【先楫HPM5361EVK開發板試用體驗】：4、TinyML測試(1)

設備的資源限制。此外，TinyML還依賴于優化的推理引擎和針對嵌入式設備的硬件加速器，以實現高效的模型推理。 TinyML的應用領域非常廣泛，包括智能傳感器、健康監測、物聯網、智能音頻處理、自動駕駛

2023-12-22 10:12:25

【圖書分享】《基于MDK的SAM3處理器開發應用》

SAM3U處理器的內部結構　　1.3.3 SAM3U系列MCU的優點　　1.3.4 SAM3 MCU的開發工具第2章 CortexM3 處理器編程模型　2.1 寄存器組　　2.1.1 通用寄存器

2014-03-13 11:00:26

【愛芯派 Pro 開發板試用體驗】在愛芯派部署ChatGLM3（一）

/main/detail。ChatGLM3 的推理框架是基于最新的高效動態推理和顯存優化技術構建的，在相同硬件、模型條件下，相較于目前最佳的開源實現，對比伯克利大學推出的 vLLM 以及 Hugging

2023-12-17 22:54:49

【飛凌RK3568開發板試用體驗】RKNN模型推理測試

研的人工智能協處理器NPU，并且提供了RKNN-Toolkit。今天就介紹一下如何使用RKNN模型進行推理應用程序開發。一、推理應用程序的基本流程RKNN 是瑞芯微（Rockchip） NPU平臺

2022-12-08 19:06:16

一種不依賴于棋盤格等輔助標定物體實現像素級相機和激光雷達自動標定的方法

主要內容本文提出了一種不依賴于棋盤格等輔助標定物體，實現像素級相機和激光雷達自動標定的方法。方法直接從點云中提取3D邊特征，一避免遮擋問題，并且使用了精確度更高的深度連續邊。文中首先指出：以下四種

2021-09-01 07:42:19

使用rk3588多npu推理模型，模型總推理時間還增加了，這怎么解釋

2023-11-05 18:22:42

全志XR806+TinyMaix，在全志XR806上實現ML推理

關于 TinyMaixTinyMaix是面向單片機的超輕量級的神經網絡推理庫，即TinyML推理庫，可以讓你在任意單片機上運行輕量級深度學習模型~設計原則：易用性 > 移植性 &

2022-09-21 09:56:29

壓縮模型會加速推理嗎？

你好我使用 STM32CUBE-AI v5.1.2 ApplicationTemplate 將簡單的 CNN 導入到 STM32L462RCT我發現壓縮模型對推理時間沒有影響。aiRun 程序在 8

2023-01-29 06:24:08

好奇~！谷歌的 Edge TPU 專用 ASIC 旨在將機器學習推理能力引入邊緣設備

出色的 ML 推理性能。例如，其能夠以良好的功率表現執行 MobileNet v2 等最先進的移動視覺模型，且 fps 可達 100 以上。這意味著你將能夠在符合節能與隱私保護要求的前提下，將快速 ML

2019-03-05 21:20:23

如何判斷推理何時由GPU或NPU在iMX8MPlus上運行？

當我為 TFLite 模型運行基準測試時，有一個選項 --nnapi=true我如何知道 GPU 和 NPU 何時進行推理？謝謝

2023-03-20 06:10:30

如何提高YOLOv4模型的推理性能？

使用 PyTorch 對具有非方形圖像的 YOLOv4 模型進行了訓練。將權重轉換為 ONNX 文件，然后轉換為中間表示（IR）。無法確定如何獲得更好的推理性能。

2023-08-15 06:58:00

實現具有RTD級精度且無需校準快速溫度傳感器設計

如何實現具有RTD級精度且無需校準快速溫度傳感器設計

2021-01-07 06:27:14

應用CPLD及EPP技術對CCD信號像素級的高速采集，不看肯定后悔

EPP技術和CPLD技術介紹應用CPLD及EPP技術對CCD信號像素級的高速采集

2021-04-08 06:11:10

怎樣使用PyTorch Hub去加載YOLOv5模型

PyTorch Hub 加載預訓練的 YOLOv5s 模型，model并傳遞圖像進行推理。'yolov5s'是最輕最快的 YOLOv5 型號。有關所有可用模型的詳細信息，請參閱自述文件。詳細示例此示例

2022-07-22 16:02:42

怎樣去解決rk1808相同模型推理速度變慢的問題呢

　　rk1808 相同模型速度變慢：　　rknn_server 0.9.4 （2078225 build： 2019-03-07 20:07:28）　　librknn_runtime version

2022-04-21 11:36:29

求助，為什么將不同的權重應用于模型會影響推理性能？

生成兩個 IR文件（相同的 .xml 文件，但不同的 .bin 文件）具有不同重量的類似模型，以不同的 fps （27fps 和 6fps）運行更多樣化的權重是否會影響 Myriad X 上的推理性能？

2023-08-15 07:00:25

深度剖析OpenHarmony AI調度管理與推理接口

：管理資源引擎的相關內容。Engine：推理引擎，推理的主要功能都由它管理。PluginManager：管理框架調度器的配置與工具。插件：管理框架與推理模型的加載、卸載。AIInterpreter：手機

2022-03-25 11:15:36

用tflite接口調用tensorflow模型進行推理

摘要本文為系列博客tensorflow模型部署系列的一部分，用于實現通用模型的部署。本文主要實現用tflite接口調用tensorflow模型進行推理。相關源碼見鏈接引言本文為系列博客

2021-12-22 06:51:18

經濟高效的入門級系統平臺

研華公司近期新推出了一款經濟高效的入門級系統平臺。研華ARK-1310擁有緊湊型、無風扇的鋁制機箱外殼，可安裝在任何大型系統中，也可作為獨立平臺單獨應用。ARK-1310小巧緊湊、堅固耐用，因此非常適合各種惡劣環境應用和自動化控制應用。

2019-07-23 06:21:45

請問模型推理只用到了kpu嗎？可以cpu，kpu，fft異構計算嗎？

2023-09-14 08:13:24

請問在新CPU上推斷INT8模型的速度是否比舊CPU快？

與采用舊 CPU 的推理相比，在新 CPU 上推斷的 INT8 模型的推理速度更快。

2023-08-15 08:28:42

SA算法在基于模型推理入侵檢測中的應用

鑒于模型推理的入侵檢測方法，需要在龐大的審計記錄空間中搜索巨量的攻擊腳本子集中的最優值，對于這一NP類完全問題，提出了應用模擬退火算法。并建立了攻擊檢測的優化問

2008-11-18 00:18:36

數據庫弱函數依賴推理規則挖掘方法

數據庫推理問題是數據庫安全研究的重要分支方向，推理通道的分析是解決推理問題的基礎。傳統推理規則無法處理不完全符合函數依賴的數據關系，針對這一問題，本文提出了弱

2009-12-25 14:58:04

首個32 GB microSDHC存儲卡問世

首個32 GB microSDHC存儲卡問世　　 SanDisk（閃迪）宣布，閃迪專為手機打造的的大容量、移動式存儲卡 ——32 gigabyte (GB)1 閃迪 microSDHC存儲卡——現已上市。全新

2010-03-25 17:20:33

1027

我國自主研發的高效彩色太陽能電池在長問世

我國自主研發的高效彩色太陽能電池在長問世記者今日從市科技局獲悉，繼湖南制造的高效彩色雙玻太陽能電池組件亮相上海世博會

2010-04-12 08:34:06

432

我國首個自主研發的地球系統模型宣布開源

模型

北京中科同志科技股份有限公司發布于 2023-11-18 09:59:01

什么是像素流送？像素流送如何應用？

芯片像素

dianliang02發布于 2023-12-13 15:56:04

超像素詞包模型與SVM分類的圖像標注_於敏

2017-03-19 19:03:46

貝葉斯IP網絡擁塞鏈路推理

針對CLINK算法在路由改變時擁塞鏈路推理性能下降的問題，建立一種變結構離散動態貝葉斯網模型，通過引入馬爾可夫性及時齊性假設簡化該模型，并基于簡化模型提出一種IP網絡擁塞鏈路推理算法（VSDDB

2018-01-16 18:46:26

無ROM Cortex? -M器件的SAM-BA? 監視器及器件接口介紹

SAM Boot Assistant（SAM-BA）允許使用USB或UART主機進行在系統編程（ISP），而無需任何外部編程接口。

2018-07-20 10:48:11

5195

歐司朗助力凱迪拉克實現業內首個“無需雙手”的駕駛技術

日前，歐司朗光電半導體和Joyson Safety Systems 公司為新款凱迪拉克CT6配備了一款創新的半自動駕駛系統。這款系統名為“超級巡航”（Super Cruise），是業內首個真正的在高速上實現“無需雙手”的駕駛技術。

2018-09-13 15:10:47

2811

阿里開源首個移動AI項目，淘寶同款推理引擎

阿里開源首個移動AI項目，淘寶同款推理引擎，這是阿里開源的首個移動AI項目，已經用于阿里手機淘寶、手機天貓、優酷等20多個應用之中。覆蓋直播、短視頻、搜索推薦、商品圖像搜索、互動營銷、權益發放、安全風控等場景。在IoT等移動設備場景下，也有若干應用。

2019-07-03 09:53:29

284

浪潮發布全球首個FPGA高效計算框架

浪潮宣布開源發布基于FPGA的高效AI計算框架TF2,這一框架的推理引擎采用全球首創的DNN移位計算技術,結合多項最新優化技術,可實現通用深度學習模型基于FPGA芯片的高性能低延遲部署。

2019-09-09 14:17:53

932

浪潮全球首發完整方案的FPGA高效計算框架

浪潮宣布開源發布基于FPGA的高效AI計算框架TF2,這一框架的推理引擎采用全球首創的DNN移位計算技術,結合多項最新優化技術,可實現通用深度學習模型基于FPGA芯片的高性能低延遲部署,這也是全球首個包含從模型裁剪、壓縮、量化到通用模型實現等優化算法的完整方案的FPGA上AI開源框架。

2019-09-23 15:04:56

1799

中興通訊在Linux基金會的首個開源社區正式成立

Adlik是LF AI中首個聚焦深度學習模型推理階段的項目，其宗旨是使深度學習模型能夠高效地運行在多種部署環境下。

2019-10-11 09:15:53

1420

中國首個3.35米直徑火箭長筒段貯箱成功問世

來自中國航天科技集團有限公司八院消息，近日，中國首個3.35米直徑火箭長筒段貯箱在八院800所問世。后續，該技術將應用于新一代運載火箭中。

2021-02-27 09:38:08

1546

貝葉斯網絡模型之一依賴估測器模型研究

分類問題是數據挖掘和機器學習領域硏究的重點問題，貝葉斯網絡模型因其簡單髙效的特點而廣泛應用于分類問題。一依賴估測器（ODE）模型作為半監督學習貝葉斯網絡模型中的經典模型，受到研究人員的廣泛關注。現有

2021-03-17 15:05:10

從SAM9x5移植到SAM9X60

本應用筆記介紹將基于 SAM9x5 的設計移植到 SAM9X60 器件需進行的硬件和軟件更改。SAM9X60 器件的性能優于SAM9x5。

2021-03-30 16:26:31

一種基于機器學習的流簇大小推理模型

數據中心網絡需要更加高效的推理模型提升流簇大小判斷的準確性和敏感性。提岀了一種基于機器學習的流簇大小推理模型（ Mlcoflow），利用極限學習杋（ELM）以最小訓練誤差為求解目標建立推理模型，并且使用不完全信息建模以提升敏感度。實驗證

2021-04-02 11:38:16

基于像素級生成對抗網絡的圖像彩色化模型

2021-06-27 11:02:01

基于變量依賴關系模型的變量重要性度量綜述

2021-07-02 14:44:08

NVIDIA技術助力線上大模型推理

自然語言理解、匹配排序等等，這些模型的訓練和推理都大量依賴于NVIDIA GPU，尤其在推理方面，NVIDIA GPU及相應的解決方案都滿足了業務所需的延遲和吞吐要求。微信搜索業務需要更高效平臺微信搜索業務由多個子模塊構成，包括查

2021-10-28 15:28:12

1551

深度學習工程之道|MegEngine推理性能優化技術綜述，CPU上極限加速

MegEngine「訓練推理一體化」的獨特范式，通過靜態圖優化保證模型精度與訓練時一致，無縫導入推理側，再借助工業驗證的高效卷積優化技術...

2022-02-07 10:59:49

如何實現高效的部署醫療影像推理

的時延變長，GPU 使用效率不高。醫療影像推理的另一個需要考慮的問題是如何實現高效的部署。我們往往需要部署多個醫療影像 AI 應用，那么如何去調度多個模型，如何并發處理多個請求，并充分利用 GPU 資源成為挑戰。

2022-04-09 08:18:22

1042

如何使用Triton進行高效的推理部署

一個完整的醫療影像推理流程一般包含數據的前處理、AI 推理以及數據后處理這幾部分。

2022-04-10 15:06:09

2396

DGX SuperPOD助力助力織女模型的高效訓練

　　“強悍的織女模型在京東探索研究院建設的全國首個基于 DGX SuperPOD 架構的超大規模計算集群 “天琴α” 上完成訓練，該集群具有全球領先的大規模分布式并行訓練技術，其近似線性加速比的數據、模型、流水線并行技術持續助力織女模型的高效訓練。”

2022-04-13 15:13:11

783

基于e-CARE的因果推理相關任務

因果推理是人類的一項核心認知能力。借助因果推理能力，人類得以理解已觀測到的各種現象，并預測將來可能發生的事件。然而，盡管當下的各類因果推理模型已經在現有的因果推理數據集上取得了令人印象深刻的性能，然而，這些模型與人類的因果推理能力相比仍存在顯著差距。

2022-05-16 16:21:26

1081

基于NVIDIA Triton的AI模型高效部署實踐

NVIDIA Triton 推理服務器(以前稱為 TensorRT 推理服務器)是一款開源軟件，可簡化深度學習模型在生產環境中的部署。借助 Triton 推理服務器，Devops 和 MLops

2022-06-28 15:49:47

1293

AI常識推理再突破單模型全球首次超過人類平均水平

??2022年7月25日，由科大訊飛承建的我國首個認知智能全國重點實驗室榮登科學常識推理挑戰賽OpenBookQA榜首，創新性提出X-Reasoner模型，以準確率94.2%的絕對優勢奪冠，常識推理

2022-07-25 23:00:28

488

用于深度學習推理的高性能工具包

　　推理引擎用于部署應用程序。使用部署管理器，您可以通過將模型、IR 文件、應用程序和相關依賴項組裝到目標設備的運行時包中來創建開發包。

2022-08-16 11:27:29

439

螞蟻鏈AIoT團隊與NVIDIA合作加速AI推理

螞蟻鏈 AIoT 團隊與 NVIDIA 合作，將量化感知訓練(QAT)技術應用于深度學習模型性能優化中，并通過 NVIDIA TensorRT 高性能推理 SDK 進行高效率部署，通過 INT8 推理，吞吐量提升了 3 倍，助力螞蟻鏈版權 AI 平臺中的模型推理服務大幅降本增效。

2022-09-09 09:53:52

872

加速邊緣設備中計算機視覺和語音的AI推理模型

　　加速AI推理模型已成為一項基本任務，因為我們正朝著創建更復雜，更高效的AI應用程序邁進。靈活和完整的AI輔助是在快速增長的AI領域取得成功的關鍵組成部分。

2022-10-19 09:08:50

423

對您的 LED 進行高效調光，無需檢測電阻器

2022-11-07 08:07:28

有了Fine-tune-CoT方法，小模型也能做推理，完美逆襲大模型

如果給語言模型生成一些 prompting，它還向人們展示了其解決復雜任務的能力。標準 prompting 方法，即為使用少樣本的問答對或零樣本的指令的一系列方法，已經被證明不足以解決需要多個推理步驟的下游任務（Chowdhery 等，2022）。

2023-02-02 16:15:26

772

GTC 2023：多模態短視頻模型推理優化方案解析

　　多卡推理--流水線并行：將模型和數據切分，以流水線形式計算，提高GPU利用率。模型切分策略：依照各部分的計算時間和參數量設計。

2023-03-23 18:17:33

1921

SAM-Adapter：首次讓SAM在下游任務適應調優！

在這些基礎模型中，Segment Anything Model（SAM）作為一個在大型視覺語料庫上訓練的通用圖像分割模型取得了顯著的突破。事實證明，SAM在不同的場景下具有成功的分割能力，這使得它在圖像分割和計算機視覺的相關領域邁出了突破性的一步。

2023-04-20 10:13:37

1061

SAM分割模型是什么？

SAM是一類處理圖像分割任務的通用模型。與以往只能處理某種特定類型圖片的圖像分割模型不同，SAM可以處理所有類型的圖像。

2023-05-20 09:30:45

1380

第一篇綜述！分割一切模型(SAM)的全面調研

SAM 是一個提示型模型，其在 1100 萬張圖像上訓練了超過 10 億個掩碼，實現了強大的零樣本泛化。許多研究人員認為「這是 CV 的 GPT-3 時刻，因為 SAM 已經學會了物體是什么的一般

2023-05-24 14:36:10

596

大模型時代下，普通科研人怎么辦？

所以，這篇arXiv的論文提出了一個簡單而有效的基于SAM大模型的視聽定位和分割框架，即AV-SAM，它可以生成與音頻相對應的發聲對象掩碼。具體而言，利用SAM中預先訓練的圖像編碼器的視覺特征，把它和音頻特征逐像素視聽融合來聚合跨模態表示

2023-05-24 16:00:02

500

SAM 到底是什么

的有這么強大嗎？讓我們一起通過本文了解詳情！ SAM 是一個由 Meta AI 實驗室推出的強大人工智能圖像分割應用，可以自動識別哪些圖像像素屬于一個對象，并且對圖像中各個對象進行自動風格處理，可廣泛用于分析科學圖像、編輯照片等。 SAM 的完整應用由一個圖片編碼器模型（encoder）

2023-06-12 10:46:56

2622

LeCun世界模型首個研究！自監督視覺像人一樣學習和推理！

今日，Meta 推出了首個基于 LeCun 世界模型概念的 AI 模型。該模型名為圖像聯合嵌入預測架構（Image Joint Embedding Predictive Architecture, I-JEPA），它通過創建外部世界的內部模型來學習，比較圖像的抽象表示（而不是比較像素本身）。

2023-06-15 15:47:34

201

YOLOv8最新版本支持SAM分割一切

分割任何模型（Segment Anything Model - SAM）是一種突破性的圖像分割模型，可實現具有實時性能的快速分割。

2023-06-18 11:42:53

1027

教你如何用兩行代碼搞定YOLOv8各種模型推理

大家好，YOLOv8 框架本身提供的API函數是可以兩行代碼實現 YOLOv8 模型推理，這次我把這段代碼封裝成了一個類，只有40行代碼左右，可以同時支持YOLOv8對象檢測、實例分割、姿態評估模型的GPU與CPU上推理演示。

2023-06-18 11:50:44

1891

基準數據集(CORR2CAUSE)如何測試大語言模型(LLM)的純因果推理能力

? 因果推理是人類智力的標志之一。因果關系NLP領域近年來引起了人們的極大興趣，但其主要依賴于從常識知識中發現因果關系。本研究提出了一個基準數據集(CORR2CAUSE)來測試大語言模型(LLM

2023-06-20 15:39:05

1223

構建一個移動端友好的SAM方案MobileSAM

導讀本文提出一種"解耦蒸餾"方案對SAM的ViT-H解碼器進行蒸餾，同時所得輕量級編碼器可與SAM的解碼器"無縫兼容"?。在推理速度方面，MobileSAM處理一張圖像僅需10ms

2023-06-30 10:59:08

673

FastSAM模型可實現25FPS的實時推理

比Meta的「分割一切模型」(SAM)更快的圖像分割工具，來了！最近中科院團隊開源了FastSAM模型，能以 50倍的速度達到與原始SAM相近的效果，并實現25FPS的實時推理。該成果

2023-07-03 17:06:08

630

如何使用NVIDIA Triton 推理服務器來運行推理管道

使用集成模型在 NVIDIA Triton 推理服務器上為 ML 模型管道提供服務

2023-07-05 16:30:34

1082

三種主流模型部署框架YOLOv8推理演示

深度學習模型部署有OpenVINO、ONNXRUNTIME、TensorRT三個主流框架，均支持Python與C++的SDK使用。對YOLOv5~YOLOv8的系列模型，均可以通過C++推理實現模型

2023-08-06 11:39:17

1677

對話三位IEEE專家：如何理解SAM視覺大模型

IEEE高級會員、天津理工大學教授、AR/VR技術專家羅訓對記者表示，SAM是視覺領域的通用大模型，很多報道中把它比喻成視覺領域的ChatG－PT，SAM和ChatGPT的支撐技術和應用場景都是不同的，但是在通用性這一點上，它們都是當前技術發展趨勢的代表者。

2023-08-23 16:32:19

529

mlc-llm對大模型推理的流程及優化方案

在 MLC-LLM 部署RWKV World系列模型實戰（3B模型Mac M2解碼可達26tokens/s）中提到要使用mlc-llm部署模型首先需要一個編譯過程，將原始的基于Realx搭建的模型

2023-09-26 12:25:55

383

主流大模型推理框架盤點解析

vLLM是一個開源的大模型推理加速框架，通過PagedAttention高效地管理attention中緩存的張量，實現了比HuggingFace Transformers高14-24倍的吞吐量。

2023-10-10 15:09:58

1556

TPU-MLIR量化敏感層分析，提升模型推理精度

背景介紹TPU-MLIR編譯器可以將機器學習模型轉換成算能芯片上運行的bmodel模型。由于浮點數的計算需要消耗更多的計算資源和存儲空間，實際應用中往往采用量化后的模型（也稱定點模型）進行推理。相比

2023-10-10 10:17:42

484

介紹一款基于昆侖芯AI加速卡的高效模型推理部署框架

昆侖芯科技公眾號全新欄目“用芯指南”重磅推出！面向AI行業技術從業者，系列好文將提供手把手的昆侖芯產品使用指南。第一期圍繞昆侖芯自研效能工具——昆侖芯Anyinfer展開，這是一款基于昆侖芯AI加速卡的高效模型推理部署框架。種種行業痛點，昆侖芯Anyinfer輕松搞定。

2023-10-17 11:16:43

799

全球首個人體器官芯片醫藥大模型在南京江寧問世

近日，位于江寧高新區的江蘇運動健康研究院傳來好消息，在東南大學生物科學與醫學工程學院院長、江蘇運動健康研究院院長顧忠澤教授團隊與華為公司的強強聯合下，全球首個人體器官芯片醫藥大模型近日在江寧問世

2023-10-20 08:43:41

261

澎峰科技發布大模型推理引擎PerfXLLM

要的巨額開銷也引發了相關研究者的關注。如何高效地進行推理，并盡可能地減少成本，從而促進大模型應用的落地成為了目前的關鍵問題。于是，澎峰科技研發了一款大模型推理引擎—PerfXLLM ，并且已經在高通的驍龍8Gen2 平臺實現了應用。接下來將分為四個部分進行介紹，第一部分將介

2023-11-25 15:35:01

383

用上這個工具包，大模型推理性能加速達40倍

工具包中的LLM Runtime為諸多模型顯著降低時延，且首個token和下一個token的推理速度分別提升多達40倍和2.68倍，還能滿足更多場景應用需求。英特爾 ?Extension

2023-12-01 20:40:03

552

一種新的分割模型Stable-SAM

SAM、HQ-SAM、Stable-SAM在提供次優提示時的性能比較，Stable-SAM明顯優于其他算法。這里也推薦工坊推出的新課程《如何將深度學習模型部署到實際工程中？

2023-12-29 14:35:14

252

ChatGPT是一個好的因果推理器嗎？

因果推理能力對于許多自然語言處理（NLP）應用至關重要。最近的因果推理系統主要基于經過微調的預訓練語言模型（PLMs），如BERT [1] 和RoBERTa [2]。

2024-01-03 09:55:37

420

萬興科技發布國內首個音視頻多媒體大模型“天幕”

萬興科技近日正式發布了國內首個音視頻多媒體大模型——萬興“天幕”，并宣布大模型研發中心將正式落戶馬欄山。

2024-02-04 11:42:03

785

Groq推出大模型推理芯片超越了傳統GPU和谷歌TPU

Groq推出了大模型推理芯片，以每秒500tokens的速度引起轟動，超越了傳統GPU和谷歌TPU。

2024-02-26 10:24:46

289

Groq LPU崛起，AI芯片主戰場從訓練轉向推理

人工智能推理的重要性日益凸顯，高效運行端側大模型及AI軟件背后的核心技術正是推理。不久的未來，全球芯片制造商的主要市場將全面轉向人工智能推理領域。

2024-02-29 16:46:08

557

已全部加載完成

搜索歷史

首個無需依賴SAM的高效像素級推理大模型PixelLM問世

評論