欧美日韩成人精品久久久免费看_欧美日韩国产中文精品字幕自在自线_欧美日韩激情无码专区_欧美日韩精品一区二区三区不卡_亚洲精品国产日韩无码av永久免费网

導讀

本文是對發表于計算機視覺領域頂級會議 ICCV 2023 的論文MotionBERT: A Unified Perspective on Learning Human Motion Representations的解讀。該論文由北京大學王亦洲課題組與上海人工智能實驗室合作完成。

這項工作提出了一個統一的視角，從大規模、多樣化的數據中學習人體運動的通用表征，進而以一個統一的范式完成各種以人為中心的下游視頻任務。實驗表明提出的框架在三維人體姿態估計、動作識別、人體網格重建等多個下游任務上均能帶來顯著提升，并達到現有最佳的表現。

圖1. 以統一的范式完成各種以人為中心的視頻任務

背景介紹

感知和理解人類活動一直是機器智能的核心追求。為此，研究者們定義了各種任務來從視頻中估計人體運動的語義標簽，例如骨骼關鍵點、行為類別、三維表面網格等。盡管現有的工作在這些任務上已經取得了顯著的進步，但它們往往被建模為孤立的任務。理想情況下，我們可以構建一個統一的以人為中心的運動表征，其可以在所有相關的下游任務中共享。

構建這種表征的一個重要挑戰是人體運動數據資源的異質性。運動捕捉（MoCap）系統提供了基于標記和傳感器的高精度 3D 運動數據，但其內容通常被限制在簡單的室內場景。動作識別數據集提供了動作語義的標注，但它們要么不包含人體姿態標簽，要么只有日常活動的有限動作類別。具備外觀和動作多樣性的非受限人類視頻可以從互聯網大量獲取，但獲取精確的姿勢標注需要額外的努力，且獲取準確真實（GT）的三維人體姿態幾乎是不可能的。因此，大多數現有的研究都致力于使用單一類型的人體運動數據解決某一特定任務，而無法受益于其他數據資源的特性。

在這項工作中，我們提供了一個新的視角來學習人體運動表征。關鍵的想法是，我們可以以統一的方式從多樣化的數據來源中學習多功能的人體運動表征，并利用這種表征以統一的范式處理不同的下游任務。

方法概覽

圖2. 框架概覽

我們提出了一個包括預訓練和微調兩個階段的框架，如圖2所示。在預訓練階段，我們從多樣化的運動數據源中提取 2D 關鍵點序列，并添加隨機掩碼和噪聲。隨后，我們訓練運動編碼器從損壞的 2D 關鍵點中恢復 3D 運動。這個具有挑戰性的代理任務本質上要求運動編碼器（i）從時序運動中推斷出潛在的 3D 人體結構；（ii）恢復錯誤和缺失的數據。通過這種方式，運動編碼器隱式地學習到人體運動的常識，如關節拓撲，生理限制和時間動態。在實踐中，我們提出雙流空間-時間變換器（DSTf ormer）作為運動編碼器來捕獲骨骼關鍵點之間的長距離關系。我們假設，從大規模和多樣化的數據資源中學習到的運動表征可以在不同的下游任務之間共享，并有利于它們的性能。因此，對于每個下游任務，我們僅需要微調預訓練的運動表征以及一個簡單的回歸頭網絡（1-2層 MLP）。

在設計統一的預訓練框架時，我們面臨兩個關鍵挑戰：

如何構建合適的代理任務（pretext task）學習的運動表征。

如何使用大規模但異質的人體運動數據。

針對第一個挑戰，我們遵循了語言和視覺建模的成功實踐[1]來構建監督信號，即遮蔽輸入的一部分，并使用編碼的表征來重構整個輸入。我們注意到這種“完形填空”任務在人體運動分析中自然存在，即從 2D 視覺觀察中恢復丟失的深度信息，也就是 3D 人體姿態估計。受此啟發，我們利用大規模的 3D 運動捕捉數據[2]，設計了一個 2D 至 3D 提升（2D-to-3D lifting）的代理任務。我們首先通過正交投影 3D 運動來提取 2D 骨架序列 x。然后，我們通過隨機遮蔽和添加噪聲來破壞 x，從而產生破壞的 2D 骨架序列，這也類似于 2D 檢測結果，因為它包含遮擋、檢測失敗和錯誤。在此之后，我們使用運動編碼器來獲得運動表征并重建 3D 運動。

對于第二個挑戰，我們注意到 2D 骨架可以作為一種通用的中介，因為它們可以從各種運動數據源中提取。因此，可以進一步將 RGB 視頻納入到 2D 到 3D 提升框架以進行統一訓練。對于 RGB 視頻，2D 骨架可以通過手動標注或 2D 姿態估計器給出。由于這一部分數據缺少三維姿態真值（GT），我們使用加權的二維重投影誤差作為監督。

圖3. DSTformer 網絡結構

在運動編碼器的具體實現上，我們根據以下原則設計了一個雙流時空變換器（DSTformer）網絡結構（如圖3所示）：

兩個流都有綜合建模時空上下文信息的能力。

兩個流側重不同方面的時空特征。

將兩個流融合在一起時根據輸入的時空特征動態平衡融合權重。

實驗結論

我們在三個下游任務上進行了定性和定量的評估，所提出的方法均取得了最佳表現。

圖4. 效果展示

表1. 三維人體姿態估計的定量評估。數字代表 Human3.6M 上的平均關節誤差 MPJPE（mm）。（上）使用檢測到的 2D 姿態序列作為輸入。（下）使用真值（GT）2D 姿態序列作為輸入。

對于三維人體姿態估計任務，我們在 Human3.6M[3]上進行了定量測試。如表1所示，本文的兩個模型都優于最先進的方法。所提出的預訓練運動表征額外降低了誤差，這證明了在廣泛而多樣的人體運動數據上進行預訓練的好處。

表2. 基于骨架的動作識別準確度的定量評估。（左）NTU-RGB+D 上的跨角色（X-Sub）和跨視角（X-View）識別準確度。（右）NTU-RGB+D-120 上的單樣本學習識別精度。所有結果都是第一選項準確度（%）。

對于基于骨架的動作識別任務，我們在 NTU-RGB+D[4]和 NTU-RGB+D-120[5]上進行了定量測試。在完全監督的場景下本文的方法與最先進的方法相當或更好，如表2（左）所示。值得注意的是，預訓練階段帶來了很大的性能提升。此外，本文研究了可用于未見動作和稀缺標簽的單樣本學習設置。表2（右）說明所提出的模型大幅度優于此前最佳的模型。值得注意的是，預訓練運動表征只需1-2輪微調即可達到最佳性能。

表3. 人體表面網格重建的定量評估。數字代表平均三維位置誤差（mm）。

對于人體表面網格重建任務，我們在 Human3.6M[3] 和 3DPW[6]數據集上進行了定量測試。本文的模型超過了此前所有基于視頻的方法。此外，所提出的預訓練運動表征可以和 RGB 圖像的方法相結合并進一步改善其表現。

圖5. 在三個下游任務上隨機初始化訓練和微調預訓練運動表征的學習曲線對比。

我們還比較了微調預訓練運動表征和隨機初始化訓練模型的訓練過程。如圖5所示，使用預訓練運動表征的模型在所有三個下游任務上都具有更好的性能和更快的收斂速度。這表明該模型在預訓練期間學習了關于人體運動的可遷移知識，有助于多個下游任務的學習。

總結

在這項工作中，我們提出了：

一個統一的視角以解決各種以人為中心的視頻任務。

一個預訓練框架以從大規模和多樣化的數據源中學習人體運動表征。

一個通用的人體運動編碼器 DSTformer 以全面建模人體運動的時空特征。

在多個基準測試上的實驗結果證明了學習到的運動表征的多功能性。未來的研究工作可以探索將學習到的運動表征作為一種以人為中心的語義特征與通用視頻架構融合，并應用到更多視頻任務（例如動作評價、動作分割等）。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

編碼器

編碼器

+關注

關注
45

文章
3595

瀏覽量
134157
模型

模型

+關注

關注
1

文章
3172

瀏覽量
48713
數據源

數據源

+關注

關注
1

文章
62

瀏覽量
9665

原文標題：ICCV 2023 | 北大提出MotionBERT：人體運動表征學習的統一視角

文章出處：【微信號：CVer，微信公眾號：CVer】歡迎添加關注！文章轉載請注明出處。

多站低頻雷達運動人體微多普勒特征提取與跟蹤技術【論文干貨】

多普勒分析方法在葉簇穿透環境下不能得到高質量的慢時間-多普勒譜（Slow Time-Doppler Spectrogram，STDS），也未考慮多個人體微多普勒特征的分離問題。因此本文提出了一種基于

發表于 12-20 15:49

人體上肢運動表面肌電特征研究

目的根據檢測的人體上肢表面肌電信號，研究日常生活活動中男性、女性和左右上肢肌肉功能狀態的差異性。方法對20 個被試者的三角肌中部、肱二頭肌、肱三頭肌、掌長肌和指伸

發表于 01-22 13:46 ?18次下載

基于多區域的人體運動跟蹤研究

針對單區域跟蹤快速運動人體易產生漂移的缺點, 本文提出一種基于Kalman Filter 預測的多區域跟蹤的新算法。該算法利用Kalman Filter 預測人體各區域, 然后利用顏色

發表于 05-25 15:11 ?14次下載

基于多區域的<b class='flag-5'>人體</b><b class='flag-5'>運動</b>跟蹤研究

CASIO登山運動表PRG-110T-使用說明書

CASIO登山運動表PRG-110T-說明書

發表于 03-24 17:40 ?45次下載

監測人體健康和運動表現

高度微型化的傳感器系列，如壓電MEMS和光學傳感器，使人體監測應用的快速發展，借助高精度模擬和處理芯片，以及最新的IEEE 802.15.6無線體域網的出現（禁止）標準

發表于 06-20 09:48 ?23次下載

基于多區域的人體運動跟蹤分析

　針對單區域跟蹤快速運動人體易產生漂移的缺點，本文提出一種基于KalmanFilter預測的多區域跟蹤的新算法。該算法利用KalmanFilter預測人體各區域，然后利用顏色直方圖匹配

發表于 09-08 15:13 ?4次下載

基于視角相容性的多視角數據缺失補全

的多視角數據出現視角缺失，這使得一些多視角學習方法無法有效進行，為此。本文提出了

發表于 12-18 10:46 ?1次下載

基于塊稀疏模型的人體運動模式識別方法

在人體運動模式識別中，傳統稀疏表示分類算法未考慮待測試樣本相應稀疏系數向量內在塊結構相關性信息，影響了算法識別性能。為此，提出一種基于塊稀疏模型的人

發表于 12-20 15:12 ?0次下載

基于多視角自步學習的人體動作識別方法

自步學習的動作識別方法采用課程學習的思路，忽略了不同視角動作特征對課程的影響，對多分類的人體兩維視頻復雜動作識別無法取得滿意效果。針對上述問題，提出

發表于 03-29 17:02 ?0次下載

小米眾籌上架一款智能跑鞋可強化運動表現

5月30日，今天小米眾籌上架了一款自適應科技跑步鞋，號稱可根據不同運動狀態，發揮“自適應”特性，提供恰到好處的緩震回彈和支撐，強化運動表現。

發表于 05-31 15:17 ?2502次閱讀

小米有品推出一款C+86運動表

7月29日消息，小米有品推出一款C+86運動表，采用進口機芯金屬，還有多功能計時表盤。

發表于 07-30 15:00 ?1346次閱讀

三星已認證新思科技PrimeLib統一庫表征和驗證解決方案

基于新思科技PrimeLib統一庫表征和驗證解決方案，雙方共同客戶可將汽車、AI、高性能計算和5G等應用的芯片設計時間縮短5倍。新思科技（Synopsys）近日宣布，三星晶圓廠（以下簡稱為“三星

發表于 11-09 16:59 ?1686次閱讀

通過Token實現多視角文檔向量表征的構建

該篇論文與前兩天分享的DCSR-面向開放域段落檢索的句子感知的對比學習一文有異曲同工之妙，都是在檢索排序不引入額外計算量的同時，通過插入特殊Token構建長文檔的多語義向量表征，使得同一

發表于 07-08 11:13 ?842次閱讀

稠密向量檢索的Query深度交互的文檔多視角表征

今天給大家帶來一篇北航和微軟出品的稠密向量檢索模型Dual-Cross-Encoder，結合Query生成和對比學習技術，將文檔與生成的不同偽query進行深度交互學習構建文檔的不同視角

發表于 08-18 15:37 ?1751次閱讀

一個基于參數更新的遷移學習的統一框架

它提出一個基于參數更新的遷移學習的統一框架，建立多種參數優化方法之間的聯系，從而方便理解不同方法背后的關鍵設計，進而設計出只更新更少參數同時取得更好效果的參數優化方法。

發表于 09-26 10:29 ?1284次閱讀

精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

搜索歷史

北大提出MotionBERT：人體運動表征學習的統一視角

評論

多站低頻雷達運動人體微多普勒特征提取與跟蹤技術【論文干貨】

人體上肢運動表面肌電特征研究

基于多區域的人體運動跟蹤研究

CASIO登山運動表PRG-110T-使用說明書

監測人體健康和運動表現

基于多區域的人體運動跟蹤分析

基于視角相容性的多視角數據缺失補全

基于塊稀疏模型的人體運動模式識別方法

基于多視角自步學習的人體動作識別方法

小米眾籌上架一款智能跑鞋可強化運動表現

小米有品推出一款C+86運動表

三星已認證新思科技PrimeLib統一庫表征和驗證解決方案

通過Token實現多視角文檔向量表征的構建

稠密向量檢索的Query深度交互的文檔多視角表征

一個基于參數更新的遷移學習的統一框架