国产人成在线观看91_国产乱人伦Aⅴ在线无码_日韩理论无码专区_看久久黄色一级片

沿著從大規模圖文多模態預訓練遷移適配到視頻多模態任務的思路，我們提出了模型LiteVL，它利用圖文預訓練模型BLIP來初始化參數，可以直接在下游任務上微調而不需要進行額外的昂貴的視頻文本預訓練。并且為了增強圖像語言模型中缺乏的時間建模，我們提出在BLIP的Image encoder中增加具有動態時間縮放（dynamic temporal scaling）的時間注意力模塊。除了模型方面的這一適配之外，我們還提出了一種非參數池化text-dependent pooling，以自適應地重新加權以文本為條件的細粒度視頻嵌入。我們選取了兩個具有代表性的下游任務，即文本-視頻檢索和視頻問答，來驗證所提出方法的有效性。實驗結果表明，所提出的LiteVL在沒有任何視頻文本預訓練的情況下，甚至明顯優于以前的視頻文本預訓練模型。

1. Motivation

近期許多Video-language modeling的工作往往基于大規模video-text數據集 (WebVid2M，CC-3M，HowTo100M) 上進行預訓練，然后在下游任務的數據集上微調，而預訓練的成本往往十分昂貴。另一方面，學習細粒度的visual-language對齊往往需要利用離線的目標檢測器 (e.g., ActBERT) 來捕捉物體信息，但卻受限于檢測器有限的類別數量 (e.g., 在MSCOCO數據集上訓練的目標檢測器只能檢測出不到100個類別) 和昂貴的計算開銷。而且沒有充分利用來自文本數據的監督信息。此外，以往的稀疏幀采樣的video-text模型是利用image encoder在大規模圖文對上預訓練的，它忽略了視頻理解所需要的時序信息建模 (e.g., CLIPBERT)。最近，在單一視頻模態領域的研究上，基于預訓練的圖像編碼器ViT初始化而來的TimeSformer在許多下游的視頻任務上性能表現很好，它相比ViT僅僅插入了額外的一層用ViT的注意力層初始化來的時間注意力層。

2. Solution

我們提出了一種簡單且高效的視頻語言模型LiteVL，它是從近期的預訓練圖像語言模型BLIP初始化而來的，并且分別從模型層面和特征層面做了時域信息增強。

對于模型層面，我們提出用一組具有可學習scaling factor的時間注意層明確插入原始image backbone中，可以針對每個下游任務進行訓練調整（Dynamic Temporal Scaling）：

對于特征層面，我們設計了一種無參的特征池化方法（Text-dependent Pooling），以學習基于文本描述的細粒度時間-空間視頻特征：

模型框架和動態時序scaling

Text-dependent Pooling

3. Experiments

在三個視頻文本檢索數據集上和BLIP的性能比較：

我們提出的LiteVL由于在模型和特征方面的顯式時間建模，最終性能優于原始BLIP。

關于Dynamic Temporal Scaling和Text-dependent Pooling的消融實驗

通過提出的輕巧的動態時間縮放自適應地根據每個特定任務調整框架級別的重要性，使性能得到進一步提高。此外，與僅使用原始特征相比，使用其他空間或時間池化后的特征會更好。

逐層的平均temporal scaling可視化分析

折線圖的變化趨勢顯示了video encoder的淺層更多地集中在理解每個幀的空間內容上，并更少注意不同幀之間的時間依賴性。當層的深度增加時，每個幀的空間特征變得更加全局，并且該模型逐漸尋求學習它們之間的時間依賴性。

Grad-CAM可視化分析

上圖展示了Grad-CAM可視化，提出的LiteVL有效地捕捉了不同幀之間的細微差異。這也表明我們提出的text-dependent pooling為video-grounded text encoder提供了豐富的信息。

4. Conslusion

我們提出了LiteVL，這是一種視頻語言模型，它無需大量的視頻語言預訓練或目標檢測器。LiteVL從預先訓練的圖像語言模型BLIP中繼承了空間視覺信息和文本信息之間已經學習的對齊。然后，我們提出了具有動態時間縮放的額外時間注意力塊，以學習視頻幀中的時間動態。我們還引入了一種無參的text-denpendent pooling，該方法基于文本描述來對不同幀或者空間位置進行加權，從而實現了細粒度的視頻語言對齊。實驗結果表明，我們的LiteVL優于利用了視頻文本預訓練的最先進方法。

審核編輯：郭婷

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

檢測器

檢測器

+關注

關注
1

文章
860

瀏覽量
47654
數據集

數據集

+關注

關注
4

文章
1205

瀏覽量
24649

原文標題：EMNLP 2022 | LiteVL：具有增強時空建模的高效視頻-語言學習

文章出處：【微信號：CVer，微信公眾號：CVer】歡迎添加關注！文章轉載請注明出處。

語言模型自動化的優點

語言模型自動化不僅優化了信息處理流程，提高了工作效率，還促進了跨文化交流，增強了人機交互的智能化水平。以下，是對語言

發表于 11-26 11:17 ?34次閱讀

搭建開源大語言模型服務的方法

本文我們將總結5種搭建開源大語言模型服務的方法，每種都附帶詳細的操作步驟，以及各自的優缺點。

發表于 10-29 09:17 ?140次閱讀

【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

收集海量的文本數據作為訓練材料。這些數據集不僅包括語法結構的學習，還包括對語言的深層次理解，如文化背景、語境含義和情感色彩等。自監督學習：模型采用自監督學習策略，在大量無標簽文本數據上學習語

發表于 08-02 11:03

【《大語言模型應用指南》閱讀體驗】+ 基礎篇

的章節包括統一自然語言任務、大語言模型的訓練過程和局限性分析，閱讀還算順利。至此，基礎篇只能算是瀏覽完成，因為部分原理方法并沒有吃透，但盡管如此也是收獲頗豐，因為我了解了大

發表于 07-25 14:33

大語言模型的預訓練

能力，逐漸成為NLP領域的研究熱點。大語言模型的預訓練是這一技術發展的關鍵步驟，它通過在海量無標簽數據上進行訓練，使模型學習到語言的通用知識

發表于 07-11 10:11 ?390次閱讀

卷積神經網絡中池化層的作用

。其中，池化層（Pooling Layer）作為CNN的重要組成部分，在降低模型復雜度、提高計算效率以及增強模型的不變性和魯棒性方面發揮著關鍵作用。本文將從多個方面深入探討

發表于 07-03 15:58 ?1135次閱讀

CNN模型的基本原理、結構、訓練過程及應用領域

卷積神經網絡（Convolutional Neural Network，簡稱CNN）是一種深度學習模型，廣泛應用于圖像識別、視頻分析、自然語言處理等領域。CNN模型的核心是卷積層

發表于 07-02 15:26 ?3151次閱讀

卷積神經網絡cnn中池化層的主要作用

（Pooling Layer）是一個關鍵的組成部分，它對卷積層的輸出進行下采樣，降低特征圖（Feature Map）的空間維度，從而減少計算量和參數數量，提高模型的泛化能力。池

發表于 07-02 14:50 ?807次閱讀

一種利用光電容積描記（PPG）信號和深度學習模型對高血壓分類的新方法

。 AvgPool_VGG-16 平均池化是卷積神經網絡中廣泛使用的操作，它計算特征圖塊的平均值并用于減小特征圖的大小。該方法旨在減少

發表于 05-11 20:01

【大語言模型：原理與工程實踐】大語言模型的應用

“幻覺”。此外，大語言模型僅限于生成文字，無法獨立調用API以滿足多樣化需求。例如，當詢問“查詢今天的天氣”時，它會拒絕請求，缺乏根據環境反饋調整行為的能力。動態調整行為及克服“幻覺”現象是大

發表于 05-07 17:21

【大語言模型：原理與工程實踐】大語言模型的評測

和產品化提供了有力的數據支持。對于生活閑聊類評測任務，模型的回答主要從人性化程度、內容質量和社交適應性三個方面進行考察。這些方面共同反映了模型在日常對話中的自然度、流暢度和應變能力

發表于 05-07 17:12

【大語言模型：原理與工程實踐】大語言模型的預訓練

訓練數據時，數量、質量和多樣性三者缺一不可。數據的多樣性對于大語言模型至關重要，這主要體現在數據的類別和來源兩個方面。豐富的數據類別能夠提供多樣的語言表達特征，如官方知識型數據、口

發表于 05-07 17:10

【大語言模型：原理與工程實踐】大語言模型的基礎技術

的特征，并且這些特征融合了這些詞在當前序列的上下文語義，因此能夠解決一詞多義的問題。憑借這種優勢，基于動態詞向量語言模型進行預訓練的方法被廣

發表于 05-05 12:17

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

獲得良好效果。語言模型作為自然語言處理的核心，不斷進化以捕捉人類語言的精髓。起初，這些模型依賴于統計

發表于 05-04 23:55

Meta發布新型無監督視頻預測模型“V-JEPA”

Meta，這家社交媒體和科技巨頭，近日宣布推出一種新型的無監督視頻預測模型，名為“V-JEPA”。這一模型在視頻處理領域引起了廣泛關注，因為

發表于 02-19 11:19 ?953次閱讀

精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

搜索歷史

基于視頻語言模型LiteVL的無參的特征池化方法

評論

語言模型自動化的優點

搭建開源大語言模型服務的方法

【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

【《大語言模型應用指南》閱讀體驗】+ 基礎篇

大語言模型的預訓練

卷積神經網絡中池化層的作用

CNN模型的基本原理、結構、訓練過程及應用領域

卷積神經網絡cnn中池化層的主要作用

一種利用光電容積描記（PPG）信號和深度學習模型對高血壓分類的新方法

【大語言模型：原理與工程實踐】大語言模型的應用

【大語言模型：原理與工程實踐】大語言模型的評測

【大語言模型：原理與工程實踐】大語言模型的預訓練

【大語言模型：原理與工程實踐】大語言模型的基礎技術

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

Meta發布新型無監督視頻預測模型“V-JEPA”