精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何使用多模態信息做prompt

深度學習自然語言處理 ? 來源:夕小瑤的賣萌屋 ? 作者:子龍 ? 2021-11-03 09:39 ? 次閱讀

自多模態大火以來,井噴式地出現了許多工作,通過改造預訓練語言模型,用圖像信息來增強語義信息,但主要集中在幾個 NLU 任務上,在 NLG 上的研究比較少。

今天要介紹的這篇 paper Multimodal Conditionality for Natural Language Generation 研究的任務場景則是以多模態信息作為條件做 conditional 的 NLG任務。這種任務設置有許多實際的應用場景。比如,生成商品介紹文案時,僅僅基于該商品的文字標題是不夠的。如果能結合商品的圖片,必然能夠得到更貼切的文案。

這篇工作的模型基于 GPT2,而多模態信息則是以一種類似 prompt 的方式來使用。雖然方法比較簡單直觀,但具備一定通用性,未來或許有進一步挖掘的可能。

論文題目:

Multimodal Conditionality for Natural Language Generation

論文鏈接:

https://arxiv.org/pdf/2109.01229.pdf

原理作者的想法其實十分簡單,一切語言模型都是為了衡量一段文字序列的概率,即:

而如果引入了多模態的輸入,就相當于在生成時多了一個條件,即條件概率為:

其中為多模態輸入序列。

以文中生成商品文案的運用場景為例。

這里的Product Title和Product Images就是作為生成Product Description時的“條件”。

那么如何將多模態序列引入到自然語言生成模型呢?

本文使用了一個十分直觀的方法,稱作MANTIS,將作為條件的多模態序列作為前綴放置到decoder輸入序列的前面,進而中解碼過程中分享多模態信息。其中圖片輸入借助ResNet-152,將最后一層輸出用線性層映射到語言模型同一個空間中。而作為條件的文本輸入,即這里的product title,和生成序列一同進行編碼。

效果數據集采用FACAD,提供了商品的標題和圖片,目標是生成產品描述,效果如下:

dd0036ac-3837-11ec-82a8-dac502259ad0.png

dd22ef4e-3837-11ec-82a8-dac502259ad0.png

文中提出的模型在所有指標中都取得了最優結果,相比于baseline,將BLEU4提升了0.8,CIDEr提升了7.2,METEOR提升了0.8,ROUGE-L提升了1.0。同時,由于衡量生成文本質量具有主觀性,作者也進行了人工評分,結果表明MANTIS依然取得了最優結果。

從生成效果來看,生成的描述成功地結合了圖片信息,使得描述更加準確,而非籠統的介紹。

總結這篇文章方法十分直觀,但是結合最近火熱的 Prompt,似乎又有了更多的啟發。同樣是生成,同樣是加前綴,似乎給定條件的生成就是加上編碼好的前綴?那么多模態未來能不能成為一種新的prompt呢?作者認為他們的模型可以借助各種不同的多模態條件生成,然而不得不說本文的方法對模態融合的部分做的馬虎了些。本文只是單純借助解碼器進行融合,并沒有在編碼階段就分享跨模態的信息。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 信息
    +關注

    關注

    0

    文章

    405

    瀏覽量

    35520
  • 模型
    +關注

    關注

    1

    文章

    3174

    瀏覽量

    48716

原文標題:用多模態信息做 prompt,解鎖 GPT 新玩法

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    利用OpenVINO部署Qwen2模態模型

    模態大模型的核心思想是將不同媒體數據(如文本、圖像、音頻和視頻等)進行融合,通過學習不同模態之間的關聯,實現更加智能化的信息處理。簡單來說,
    的頭像 發表于 10-18 09:39 ?319次閱讀

    Meta發布模態LLAMA 3.2人工智能模型

    Meta Platforms近日宣布了一項重要技術突破,成功推出了模態LLAMA 3.2人工智能模型。這一創新模型不僅能夠深度解析文本信息,還實現了對圖像內容的精準理解,標志著Meta在AI
    的頭像 發表于 09-27 11:44 ?368次閱讀

    云知聲推出山海模態大模型

    在人工智能技術的浩瀚星海中,模態交互技術正成為引領未來的新航標。繼OpenAI的GPT-4o掀起滔天巨浪后,云知聲以創新之姿,推出了其匠心獨運的山海模態大模型,正式宣告“Her時代
    的頭像 發表于 08-27 15:20 ?364次閱讀

    李未可科技正式推出WAKE-AI模態AI大模型

    李未可科技模態 AI 大模型正式發布,積極推進 AI 在終端的場景應用 ? 4月18日,2024中國生成式AI大會上李未可科技正式發布為眼鏡等未來終端定向優化等自研WAKE-AI模態
    發表于 04-18 17:01 ?565次閱讀
    李未可科技正式推出WAKE-AI<b class='flag-5'>多</b><b class='flag-5'>模態</b>AI大模型

    AI機器人迎來模態模型

    配備 GR00T 模型的機器人由于需要“吸收消化”外界的模態信息,還要快速完成理解、決策、行動等一系列動作,因此對于算力的需求是巨量的。
    發表于 04-12 10:39 ?261次閱讀

    谷歌推出模態VLOGGER AI

    谷歌最新推出的VLOGGER AI技術引起了廣泛關注,這項創新的模態模型能夠讓靜態肖像圖“活”起來并“說話”。用戶只需提供一張人物肖像照片和一段音頻內容,VLOGGER AI就能讓圖片中的人物仿佛真的在朗讀這段音頻,面部表情豐富,栩栩如生。
    的頭像 發表于 03-22 10:45 ?785次閱讀

    機器人基于開源的模態語言視覺大模型

    ByteDance Research 基于開源的模態語言視覺大模型 OpenFlamingo 開發了開源、易用的 RoboFlamingo 機器人操作模型,只用單機就可以訓練。
    發表于 01-19 11:43 ?365次閱讀
    機器人基于開源的<b class='flag-5'>多</b><b class='flag-5'>模態</b>語言視覺大模型

    什么是模態模態的難題是什么?

    模態大模型,通常大于100M~1B參數。具有較強的通用性,比如對圖片中任意物體進行分割,或者生成任意內容的圖片或聲音。極大降低了場景的定制成本。
    的頭像 發表于 01-17 10:03 ?4402次閱讀
    什么是<b class='flag-5'>多</b><b class='flag-5'>模態</b>?<b class='flag-5'>多</b><b class='flag-5'>模態</b>的難題是什么?

    如何從訓練集中生成候選prompt 三種生成候選prompt的方式

    這個“gradient”怎么得到的了呢,這是個啥玩意,怎么還有梯度?注意,注意。人家是帶引號的!比喻成梯度。這玩意有什么用呢。 文章指出給定一批error samples(當前prompt無法
    的頭像 發表于 01-12 11:29 ?919次閱讀
    如何從訓練集中生成候選<b class='flag-5'>prompt</b> 三種生成候選<b class='flag-5'>prompt</b>的方式

    自動駕駛和模態大語言模型的發展歷程

    模態大語言模型(MLLM) 最近引起了廣泛的關注,其將 LLM 的推理能力與圖像、視頻和音頻數據相結合,通過多模態對齊使它們能夠更高效地執行各種任務,包括圖像分類、將文本與相應的視頻對齊以及語音檢測。
    發表于 12-28 11:45 ?492次閱讀
    自動駕駛和<b class='flag-5'>多</b><b class='flag-5'>模態</b>大語言模型的發展歷程

    從Google模態大模型看后續大模型應該具備哪些能力

    前段時間Google推出Gemini模態大模型,展示了不凡的對話能力和模態能力,其表現究竟如何呢?
    的頭像 發表于 12-28 11:19 ?1199次閱讀
    從Google<b class='flag-5'>多</b><b class='flag-5'>模態</b>大模型看后續大模型應該具備哪些能力

    語音識別技術最新進展:視聽融合的模態交互成為主要演進方向

    電子發燒友網報道(文/李彎彎)所謂“模態”,英文是modality,用通俗的話說,就是“感官”,模態即將多種感官融合。模態交互技術是近年
    的頭像 發表于 12-28 09:06 ?3651次閱讀
    語音識別技術最新進展:視聽融合的<b class='flag-5'>多</b><b class='flag-5'>模態</b>交互成為主要演進方向

    成都匯陽投資關于模態驅動應用前景廣闊,上游算力迎機會!

    【Gemini 大模型主打模態,性能對標 GPT-4】 當地時間12月6日, 谷歌公司宣布推出其規模最大、功能最強的模態大模型 Gemini, 其最強大的 TPU (張量處理單元)
    的頭像 發表于 12-18 13:08 ?459次閱讀
    成都匯陽投資關于<b class='flag-5'>多</b><b class='flag-5'>模態</b>驅動應用前景廣闊,上游算力迎機會!

    人工智能領域模態的概念和應用場景

    隨著人工智能技術的不斷發展,模態成為了一個備受關注的研究方向。模態技術旨在將不同類型的數據和信息進行融合,以實現更加準確、高效的人工智能
    的頭像 發表于 12-15 14:28 ?9212次閱讀

    大模型+模態的3種實現方法

    我們知道,預訓練LLM已經取得了諸多驚人的成就, 然而其明顯的劣勢是不支持其他模態(包括圖像、語音、視頻模態)的輸入和輸出,那么如何在預訓練LLM的基礎上引入跨模態信息,讓其變得更強
    的頭像 發表于 12-13 13:55 ?1628次閱讀
    大模型+<b class='flag-5'>多</b><b class='flag-5'>模態</b>的3種實現方法