精品无码久久久久久久久,亚洲成a人片在线观看国产,国产在线精品观看免费观看,三级中文亚洲精品字幕,久久精品AⅤ无码中文字字幕

論文：Foundations and Recent Trends in Multimodal Machine Learning: Principles, Challenges, and Open Questions

地址：https://arxiv.org/pdf/2209.03430.pdf

多模態機器學習是一個充滿活力的多學科研究領域，旨在通過整合多種交流模態，包括語言、聲學、視覺、觸覺和生理信息，設計具有理解、推理和學習等智能能力的計算機智能體。隨著最近人們對視頻理解、具身化自主智能體、文本到圖像生成以及醫療健康和機器人等應用領域的多傳感器融合的興趣，多模態機器學習給機器學習社區帶來了獨特的計算和理論挑戰，因為數據源的異質性和模式之間經常發現的相互聯系。然而，多模態研究的廣泛進展使得很難確定該領域的共同主題和開放問題。通過從歷史和最近的角度綜合廣泛的應用領域和理論框架，本文旨在提供一個多模態機器學習的計算和理論基礎的概述。我們首先定義了驅動后續創新的模態異質性和相互聯系的兩個關鍵原則，并提出了6個核心技術挑戰的分類:表征、對齊、推理、生成、轉移和涵蓋歷史和近期趨勢的量化。最新的技術成果將通過這種分類法來展示，讓研究人員了解新方法的異同。最后，我們提出了幾個由我們的分類法確定的開放問題，以供未來研究。

開發具有智能能力的計算機智能體一直是人工智能的一個宏偉目標，如通過多模態經驗和數據進行理解、推理和學習，就像我們人類使用多種感官模式感知世界的方式一樣。隨著近年來在具身自主代理[77,512]、自動駕駛汽車[647]、圖像和視頻理解[16,482,557]、文本到圖像生成[486]以及機器人[335,493]和醫療健康[281,357]等應用領域的多傳感器融合方面的進展，我們現在比以往任何時候都更接近能夠集成許多感官形態并從中學習的智能體。多模態機器學習這一充滿活力的多學科研究領域帶來了獨特的挑戰，因為數據的異質性和通常在模態之間發現的相互聯系，并在多媒體[351,435]、情感計算[353,476]、機器人[308,334]、人機交互[445,519]和醫療健康[85,425]中有廣泛的應用。

然而，多模態研究的進展速度使得很難確定歷史和近期工作的共同主題，以及該領域的關鍵開放問題。通過從歷史和最近的角度綜合廣泛的應用領域和理論見解，本文旨在提供多模態機器學習的方法論、計算和理論基礎的概述，這很好地補充了最近在視覺和語言[603]、語言和強化學習[382]、多媒體分析[40]和人機交互[269]等面向應用的研究。

圖1:多模態學習的核心研究挑戰:(1)表示研究如何表示和總結多模態數據，以反映單個模態元素之間的異質性和相互聯系。(2)對齊旨在識別所有元素之間的聯系和相互作用。(3)推理的目的是將多模態證據組合成知識，通常通過對一個任務的多個推理步驟。(4)生成包括學習生成過程，以產生反映跨模態交互、結構和一致性的原始模態。(5)遷移旨在在模態及其表示之間遷移知識。(6)量化包括實證和理論研究，以更好地理解異質性、相互聯系和多模態學習過程。

為了建立多模態機器學習的基礎，我們首先為數據模式和多模態研究的定義奠定基礎，然后確定驅動后續技術挑戰和創新的兩個關鍵原則:(1)模態是異質的，因為在不同模態中出現的信息往往表現出不同的質量、結構和表征;(2)模態是相互聯系的，因為它們經常相關、共享共性，或在用于任務推斷時相互作用產生新信息?；谶@些定義，我們提出了多模態機器學習中的六個核心挑戰的新分類:表示、對齊、推理、生成、遷移和量化(見圖1)。這些構成了傳統單模態機器學習中研究不足的核心多模態技術挑戰，為了推動該領域向前發展，需要解決這些挑戰:

1. 表征: 我們能學習反映個體模態元素之間的異質性和相互聯系的表征嗎?本文將涵蓋以下基本方法:(1)表示融合:整合來自2個或更多模態的信息，有效減少單獨表示的數量;(2)表示協調:互換跨模態信息，目標是保持相同的表示數量，但改善多模態語境化;創建一個新的不相交的表示集，其數量通常大于輸入集，反映有關內部結構的知識，如數據聚類或因子分解。

2. 對齊:我們如何識別樣式元素之間的連接和交互?模態之間的對齊具有挑戰性，涉及(1)識別模態元素之間的連接，(2)上下文表示學習以捕獲模態連接和交互，以及(3)處理具有歧義分割的模態輸入。

3. 推理被定義為從多模態證據中組合知識，通常通過多個推理步驟，為特定任務開發多模態對齊和問題結構。這種關系通常遵循某種層次結構，更抽象的概念在層次結構中被定義為較不抽象的概念的函數。推理包括(1)對推理發生的結構建模，(2)推理過程中的中間概念，(3)理解更抽象概念的推理范式，(4)在結構、概念和推理的研究中利用大規模的外部知識。

4. 生成:第四個挑戰涉及學習生成過程，以生成反映每個模態的獨特異質性和模態之間的相互聯系的原始模態。我們將其子挑戰分類為:(1)總結:總結多模態數據以減少信息內容，同時突出輸入中最突出的部分;(2)翻譯:從一種模態轉換到另一種模態并保持信息內容，同時與跨模態交互保持一致;(3)創造:同時生成多個模態以增加信息內容，同時保持模態內部和跨模態的一致性。

5. 遷移旨在在模態及其表示之間遷移知識，通常用于幫助可能有噪聲或資源有限的目標模態。以以下算法為例:(1)跨模態遷移:使模型適應涉及主要模態的下游任務;(2)共同學習:通過在兩種模態之間共享表示空間，將信息從次要模態轉移到主要模態;保持單個單模態模型獨立，但在這些模型之間傳遞信息，從一種模態學到的知識(例如，預測的標簽或表示)如何幫助以另一種模態訓練的計算模型?

6. 量化: 第六個挑戰涉及實證和理論研究，以更好地理解異質性、模態相互聯系和多模態學習過程。量化旨在理解(1)多模態數據集的異質性維度以及它們如何影響建模和學習，(2)多模態數據集和訓練過的模型中模態連接和交互的存在和類型，以及(3)異構數據涉及的學習和優化挑戰。

最后，我們對多模態學習的未來研究方向提出了一個長遠的展望。

審核編輯：李倩

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

機器人

機器人

+關注

關注
210

文章
28205

瀏覽量
206536
機器學習

機器學習

+關注

關注
66

文章
8377

瀏覽量
132411
智能體

智能體

+關注

關注
1

文章
131

瀏覽量
10568

原文標題：CMU最新《多模態機器學習的基礎和最新趨勢》綜述

文章出處：【微信號：vision263com，微信公眾號：新機器視覺】歡迎添加關注！文章轉載請注明出處。

利用OpenVINO部署Qwen2多模態模型

多模態大模型的核心思想是將不同媒體數據（如文本、圖像、音頻和視頻等）進行融合，通過學習不同模態之間的關聯，實現更加智能化的信息處理。簡單來說，多

發表于 10-18 09:39 ?319次閱讀

多通道開關濾波器的創新者，引領電磁兼容技術新趨勢

維愛普|多通道開關濾波器的創新者，引領電磁兼容技術新趨勢

發表于 10-16 14:25 ?197次閱讀

云知聲推出山海多模態大模型

在人工智能技術的浩瀚星海中，多模態交互技術正成為引領未來的新航標。繼OpenAI的GPT-4o掀起滔天巨浪后，云知聲以創新之姿，推出了其匠心獨運的山海多模態大模型，正式宣告“Her時代

發表于 08-27 15:20 ?364次閱讀

深度學習中的無監督學習方法綜述

深度學習作為機器學習領域的一個重要分支，近年來在多個領域取得了顯著的成果，特別是在圖像識別、語音識別、自然語言處理等領域。然而，深度學習模型的強大性能往往依賴于大量有標簽的數據進行訓練

發表于 07-09 10:50 ?514次閱讀

如何看待半導體行業未來的新趨勢

如何看待半導體行業未來的新趨勢

發表于 04-25 11:38 ?690次閱讀

李未可科技正式推出WAKE-AI多模態AI大模型

李未可科技多模態 AI 大模型正式發布，積極推進 AI 在終端的場景應用 ? 4月18日，2024中國生成式AI大會上李未可科技正式發布為眼鏡等未來終端定向優化等自研WAKE-AI多模態

發表于 04-18 17:01 ?565次閱讀

AI機器人迎來多模態模型

配備 GR00T 模型的機器人由于需要“吸收消化”外界的多模態信息，還要快速完成理解、決策、行動等一系列動作，因此對于算力的需求是巨量的。

發表于 04-12 10:39 ?261次閱讀

新趨勢下，國產數據庫或“春山可望”

數據庫發展出現新趨勢

發表于 01-30 12:12 ?289次閱讀

機器人基于開源的多模態語言視覺大模型

ByteDance Research 基于開源的多模態語言視覺大模型 OpenFlamingo 開發了開源、易用的 RoboFlamingo 機器人操作模型，只用單機就可以訓練。

發表于 01-19 11:43 ?365次閱讀

什么是多模態？多模態的難題是什么？

單模態大模型，通常大于100M～1B參數。具有較強的通用性，比如對圖片中任意物體進行分割，或者生成任意內容的圖片或聲音。極大降低了場景的定制成本。

發表于 01-17 10:03 ?4402次閱讀

從Google多模態大模型看后續大模型應該具備哪些能力

前段時間Google推出Gemini多模態大模型，展示了不凡的對話能力和多模態能力，其表現究竟如何呢？

發表于 12-28 11:19 ?1199次閱讀

語音識別技術最新進展：視聽融合的多模態交互成為主要演進方向

多種模態（聲學、語言模型、視覺特征等）進行聯合建模，基于深度學習的多模態語音識別取得了新進展。 ? 多模

發表于 12-28 09:06 ?3633次閱讀

成都匯陽投資關于多模態驅動應用前景廣闊，上游算力迎機會!

【Gemini 大模型主打多模態，性能對標 GPT-4】當地時間12月6日，谷歌公司宣布推出其規模最大、功能最強的多模態大模型 Gemini, 其最強大的 TPU (張量處理單元)

發表于 12-18 13:08 ?459次閱讀

人工智能領域多模態的概念和應用場景

隨著人工智能技術的不斷發展，多模態成為了一個備受關注的研究方向。多模態技術旨在將不同類型的數據和信息進行融合，以實現更加準確、高效的人工智能應用。本文將詳細介紹

發表于 12-15 14:28 ?9203次閱讀

大模型+多模態的3種實現方法

我們知道，預訓練LLM已經取得了諸多驚人的成就，然而其明顯的劣勢是不支持其他模態（包括圖像、語音、視頻模態）的輸入和輸出，那么如何在預訓練LLM的基礎上引入跨模態的信息，讓其變得更強大、更通用呢？本節將介紹“大模型+

發表于 12-13 13:55 ?1627次閱讀