国产精品无码专区在线观看_久久av高潮av无码av喷吹_亚洲成āV人片在线观看_亚洲āV午夜福利精品一区

自多模態大火以來，井噴式地出現了許多工作，通過改造預訓練語言模型，用圖像信息來增強語義信息，但主要集中在幾個 NLU 任務上，在 NLG 上的研究比較少。

今天要介紹的這篇 paper Multimodal Conditionality for Natural Language Generation 研究的任務場景則是以多模態信息作為條件做 conditional 的 NLG任務。這種任務設置有許多實際的應用場景。比如，生成商品介紹文案時，僅僅基于該商品的文字標題是不夠的。如果能結合商品的圖片，必然能夠得到更貼切的文案。

這篇工作的模型基于 GPT2，而多模態信息則是以一種類似 prompt 的方式來使用。雖然方法比較簡單直觀，但具備一定通用性，未來或許有進一步挖掘的可能。

論文題目：

Multimodal Conditionality for Natural Language Generation

論文鏈接：

https://arxiv.org/pdf/2109.01229.pdf

原理作者的想法其實十分簡單，一切語言模型都是為了衡量一段文字序列的概率，即：

而如果引入了多模態的輸入，就相當于在生成時多了一個條件，即條件概率為：

其中為多模態輸入序列。

以文中生成商品文案的運用場景為例。

這里的Product Title和Product Images就是作為生成Product Description時的“條件”。

那么如何將多模態序列引入到自然語言生成模型呢？

本文使用了一個十分直觀的方法，稱作MANTIS，將作為條件的多模態序列作為前綴放置到decoder輸入序列的前面，進而中解碼過程中分享多模態信息。其中圖片輸入借助ResNet-152，將最后一層輸出用線性層映射到語言模型同一個空間中。而作為條件的文本輸入，即這里的product title，和生成序列一同進行編碼。

效果數據集采用FACAD，提供了商品的標題和圖片，目標是生成產品描述，效果如下：

文中提出的模型在所有指標中都取得了最優結果，相比于baseline，將BLEU4提升了0.8，CIDEr提升了7.2，METEOR提升了0.8，ROUGE-L提升了1.0。同時，由于衡量生成文本質量具有主觀性，作者也進行了人工評分，結果表明MANTIS依然取得了最優結果。

從生成效果來看，生成的描述成功地結合了圖片信息，使得描述更加準確，而非籠統的介紹。

總結這篇文章方法十分直觀，但是結合最近火熱的 Prompt，似乎又有了更多的啟發。同樣是生成，同樣是加前綴，似乎給定條件的生成就是加上編碼好的前綴？那么多模態未來能不能成為一種新的prompt呢？作者認為他們的模型可以借助各種不同的多模態條件生成，然而不得不說本文的方法對模態融合的部分做的馬虎了些。本文只是單純借助解碼器進行融合，并沒有在編碼階段就分享跨模態的信息。

責任編輯：haq

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

信息

信息

+關注

關注
0

文章
405

瀏覽量
35520
模型

模型

+關注

關注
1

文章
3174

瀏覽量
48716

原文標題：用多模態信息做 prompt，解鎖 GPT 新玩法

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

利用OpenVINO部署Qwen2多模態模型

多模態大模型的核心思想是將不同媒體數據（如文本、圖像、音頻和視頻等）進行融合，通過學習不同模態之間的關聯，實現更加智能化的信息處理。簡單來說，多

發表于 10-18 09:39 ?319次閱讀

Meta發布多模態LLAMA 3.2人工智能模型

Meta Platforms近日宣布了一項重要技術突破，成功推出了多模態LLAMA 3.2人工智能模型。這一創新模型不僅能夠深度解析文本信息，還實現了對圖像內容的精準理解，標志著Meta在AI

發表于 09-27 11:44 ?368次閱讀

云知聲推出山海多模態大模型

在人工智能技術的浩瀚星海中，多模態交互技術正成為引領未來的新航標。繼OpenAI的GPT-4o掀起滔天巨浪后，云知聲以創新之姿，推出了其匠心獨運的山海多模態大模型，正式宣告“Her時代

發表于 08-27 15:20 ?364次閱讀

李未可科技正式推出WAKE-AI多模態AI大模型

李未可科技多模態 AI 大模型正式發布，積極推進 AI 在終端的場景應用 ? 4月18日，2024中國生成式AI大會上李未可科技正式發布為眼鏡等未來終端定向優化等自研WAKE-AI多模態

發表于 04-18 17:01 ?565次閱讀

AI機器人迎來多模態模型

配備 GR00T 模型的機器人由于需要“吸收消化”外界的多模態信息，還要快速完成理解、決策、行動等一系列動作，因此對于算力的需求是巨量的。

發表于 04-12 10:39 ?261次閱讀

谷歌推出多模態VLOGGER AI

谷歌最新推出的VLOGGER AI技術引起了廣泛關注，這項創新的多模態模型能夠讓靜態肖像圖“活”起來并“說話”。用戶只需提供一張人物肖像照片和一段音頻內容，VLOGGER AI就能讓圖片中的人物仿佛真的在朗讀這段音頻，面部表情豐富，栩栩如生。

發表于 03-22 10:45 ?785次閱讀

機器人基于開源的多模態語言視覺大模型

ByteDance Research 基于開源的多模態語言視覺大模型 OpenFlamingo 開發了開源、易用的 RoboFlamingo 機器人操作模型，只用單機就可以訓練。

發表于 01-19 11:43 ?365次閱讀

什么是多模態？多模態的難題是什么？

單模態大模型，通常大于100M～1B參數。具有較強的通用性，比如對圖片中任意物體進行分割，或者生成任意內容的圖片或聲音。極大降低了場景的定制成本。

發表于 01-17 10:03 ?4402次閱讀

如何從訓練集中生成候選prompt 三種生成候選prompt的方式

這個“gradient”怎么得到的了呢，這是個啥玩意，怎么還有梯度？注意，注意。人家是帶引號的！比喻成梯度。這玩意有什么用呢。文章指出給定一批error samples（當前prompt無法

發表于 01-12 11:29 ?919次閱讀

自動駕駛和多模態大語言模型的發展歷程

多模態大語言模型(MLLM) 最近引起了廣泛的關注，其將 LLM 的推理能力與圖像、視頻和音頻數據相結合，通過多模態對齊使它們能夠更高效地執行各種任務，包括圖像分類、將文本與相應的視頻對齊以及語音檢測。

發表于 12-28 11:45 ?492次閱讀

從Google多模態大模型看后續大模型應該具備哪些能力

前段時間Google推出Gemini多模態大模型，展示了不凡的對話能力和多模態能力，其表現究竟如何呢？

發表于 12-28 11:19 ?1199次閱讀

語音識別技術最新進展：視聽融合的多模態交互成為主要演進方向

電子發燒友網報道（文/李彎彎）所謂“模態”，英文是modality，用通俗的話說，就是“感官”，多模態即將多種感官融合。多模態交互技術是近年

發表于 12-28 09:06 ?3651次閱讀

成都匯陽投資關于多模態驅動應用前景廣闊，上游算力迎機會!

【Gemini 大模型主打多模態，性能對標 GPT-4】當地時間12月6日，谷歌公司宣布推出其規模最大、功能最強的多模態大模型 Gemini, 其最強大的 TPU (張量處理單元)

發表于 12-18 13:08 ?459次閱讀

人工智能領域多模態的概念和應用場景

隨著人工智能技術的不斷發展，多模態成為了一個備受關注的研究方向。多模態技術旨在將不同類型的數據和信息進行融合，以實現更加準確、高效的人工智能

發表于 12-15 14:28 ?9212次閱讀

大模型+多模態的3種實現方法

我們知道，預訓練LLM已經取得了諸多驚人的成就，然而其明顯的劣勢是不支持其他模態（包括圖像、語音、視頻模態）的輸入和輸出，那么如何在預訓練LLM的基礎上引入跨模態的信息，讓其變得更強

發表于 12-13 13:55 ?1628次閱讀