欧美日韩国产一区二区三区地区-久久亚洲线观看视频-国产亚洲综合性久久久影院-国产欧美日韩亚洲αv-国产欧美精品一区二区三区-久久国产亚洲欧美日韩精品

一句話總結

通過應用視覺專家進行工業異常檢測，以實現明確的異常檢測和高質量的異常描述，還可進行多輪對話，性能表現出色！優于AnomalyGPT等網絡，代碼即將開源！

Myriad

Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection

單位：哈工大(左旺孟團隊), 琶洲實驗室

論文：https://arxiv.org/abs/2310.19070

代碼：https://github.com/tzjtatata/Myriad

現有的工業異常檢測（IAD）方法可以預測異常檢測和定位的異常分數。然而，它們很難對異常區域進行多輪對話和詳細描述，例如工業異常的顏色、形狀和類別。

最近，大型多模態（即視覺和語言）模型（LMM）在圖像描述、視覺理解、視覺推理等多種視覺任務上表現出了卓越的感知能力，使其成為更易于理解的異常檢測的有競爭力的潛在選擇。然而，現有的通用 LMM 中缺乏有關異常檢測的知識，而訓練特定的 LMM 進行異常檢測需要大量的注釋數據和大量的計算資源。

本文提出了一種新穎的大型多模態模型，通過應用視覺專家進行工業異常檢測（稱為Myriad），從而實現明確的異常檢測和高質量的異常描述。

具體來說，采用 MiniGPT-4 作為基礎 LMM，并設計一個專家感知模塊，將視覺專家的先驗知識嵌入到大型語言模型（LLM）可以理解的標記中。

為了彌補視覺專家的錯誤和困惑，引入了域適配器來彌合通用圖像和工業圖像之間的視覺表示差距。此外，提出了一個視覺專家講師，它使 Q-Former 能夠根據視覺專家先驗生成 IAD 領域視覺語言標記。

實驗結果

在MVTec-AD 和 VisA 基準上的大量實驗表明，本文提出的方法不僅在 1-class 和少樣本設置下比最先進的方法表現更好，而且還提供了明確的異常預測以及 IAD 中的詳細描述領域。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

模型

模型

+關注

關注
1

文章
3178

瀏覽量
48731
視覺

視覺

+關注

關注
1

文章
146

瀏覽量
23896
大模型

大模型

+關注

關注
2

文章
2339

瀏覽量
2501

原文標題：工業異常檢測大模型來了！哈工大提出Myriad：利用視覺專家進行工業異常檢測的大型多模態模型

文章出處：【微信號：CVer，微信公眾號：CVer】歡迎添加關注！文章轉載請注明出處。

利用OpenVINO部署Qwen2多模態模型

多模態大模型的核心思想是將不同媒體數據（如文本、圖像、音頻和視頻等）進行融合，通過學習不同模態之間的關聯，實現更加智能化的信息處理。簡單來說

發表于 10-18 09:39 ?329次閱讀

華工科技聯合哈工大實現國內首臺激光智能除草機器人落地

華工科技黨委書記、董事長、總裁馬新強一行赴哈爾濱對哈爾濱工業大學機器人技術與系統全國重點實驗室（后簡稱哈工大機器人實驗室）、愛輝區智能激光除草機器人試點基地進行實地調研，代表華工科技中央研究院同

發表于 09-06 10:45 ?712次閱讀

云知聲推出山海多模態大模型

在人工智能技術的浩瀚星海中，多模態交互技術正成為引領未來的新航標。繼OpenAI的GPT-4o掀起滔天巨浪后，云知聲以創新之姿，推出了其匠心獨運的山海多模態大

發表于 08-27 15:20 ?368次閱讀

聆思CSK6視覺語音大模型AI開發板入門資源合集（硬件資料、大模型語音/多模態交互/英語評測SDK合集）

豐富外設配件配套多模態應用示例，支持快速上手體驗大模型語音交互、智能視覺等 AI 應用板載 DAPLINK 調試器，外接一條USB 線即可實現燒錄、調試、串口日志查看板載網絡模組

發表于 06-18 17:33

智譜AI發布全新多模態開源模型GLM-4-9B

近日，智譜AI在人工智能領域取得重大突破，成功推出全新開源模型GLM-4-9B。這款模型以其卓越的多模態能力，再次刷新了業界對于大型語言

發表于 06-07 09:17 ?687次閱讀

商湯科技發布5.0多模態大模型，綜合能力全面對標GPT-4 Turbo

場景應用需求；升級“日日新SenseNova 5.0”大模型體系，綜合能力全面對標GPT-4 Turbo。此外對于文生視頻徐立也表示商湯科技很快就會發布相關的平臺產品。備受矚目的商湯科技“日日新SenseNova” 5.0多模態

發表于 04-24 16:49 ?1072次閱讀

李未可科技正式推出WAKE-AI多模態AI大模型

文本生成、語言理解、圖像識別及視頻生成等多模態交互能力。 ? 該大模型圍繞 GPS 軌跡+視覺+語音打造新一代 LLM-Based的自然交互，同時多

發表于 04-18 17:01 ?568次閱讀

蘋果發布300億參數MM1多模態大模型

近日，科技巨頭蘋果公司在一篇由多位專家共同撰寫的論文中，正式公布了其最新的多模態大模型研究成果——MM1。這款具有高達300億參數的多

發表于 03-19 11:19 ?851次閱讀

螞蟻推出20億參數多模態遙感模型SkySense

據了解，負責開發的百靈團隊利用自身擁有的19億遙感影像數據集進行了預訓練，從而生成了具有20.6億參數的SkySense大模型。官方稱其為全球范圍內參數規模最大、任務覆蓋最全且識別精度最高的多

發表于 02-28 15:53 ?626次閱讀

韓國Kakao宣布開發多模態大語言模型“蜜蜂”

韓國互聯網巨頭Kakao最近宣布開發了一種名為“蜜蜂”(Honeybee)的多模態大型語言模型。這種創新模型能夠同時理解和處理圖像和文本數據

發表于 01-19 16:11 ?648次閱讀

機器人基于開源的多模態語言視覺大模型

ByteDance Research 基于開源的多模態語言視覺大模型 OpenFlamingo 開發了開源、易用的 RoboFlamingo 機器人操作

發表于 01-19 11:43 ?367次閱讀

基于DiAD擴散模型的多類異常檢測工作

現有的基于計算機視覺的工業異常檢測技術包括基于特征的、基于重構的和基于合成的技術。最近，擴散模型因其強大的生成能力而聞名，因此本文作者希望通

發表于 01-08 14:55 ?1290次閱讀

自動駕駛和多模態大語言模型的發展歷程

多模態大語言模型(MLLM) 最近引起了廣泛的關注，其將 LLM 的推理能力與圖像、視頻和音頻數據相結合，通過多模態對齊使它們能夠更高效地執行各種任務，包括圖像分類、將文本與相應的視頻

發表于 12-28 11:45 ?492次閱讀

從Google多模態大模型看后續大模型應該具備哪些能力

前段時間Google推出Gemini多模態大模型，展示了不凡的對話能力和多模態能力，其表現究竟如何呢？

發表于 12-28 11:19 ?1206次閱讀

大模型+多模態的3種實現方法

我們知道，預訓練LLM已經取得了諸多驚人的成就，然而其明顯的劣勢是不支持其他模態（包括圖像、語音、視頻模態）的輸入和輸出，那么如何在預訓練LLM的基礎上引入跨模態的信息，讓其變得更強大、更通用呢？本節將介紹“大

發表于 12-13 13:55 ?1631次閱讀