精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

CVPR2023:IDEA與清華提出首個一階段3D全身人體網格重建算法

3D視覺工坊 ? 來源:3D視覺工坊 ? 2023-04-07 09:56 ? 次閱讀

三維全身人體網格重建(3D Whole-Body Mesh Recovery)是三維人體重建領域的一個基礎任務,是人類行為建模的一個重要環節,用于從單目圖像中捕獲出準確的全身人體姿態和形狀,在人體重建、人機交互等許多下游任務中有著廣泛的應用。

來自粵港澳大灣區研究院(IDEA)與清華大學深研院的研究者們提出了首個用于全身人體網格重建的一階段算法OSX,通過模塊感知的Transformer網絡,高效、準確地重建出全身人體網格,并提出了一個大規模、關注真實應用場景的上半身人體重建數據集UBody.

本文提出的算法從投稿至今(2022.11~2023.04),是AGORA榜單SMPL-X賽道的第一名。該工作已經被計算機視覺頂會CVPR2023接收,算法代碼和預訓練模型已經全部開源。

ab422af4-d4cf-11ed-bfe3-dac502259ad0.png

三維全身人體網格重建(3D Whole-Body Mesh Recovery)是人類行為建模的一個重要環節,用于從單目圖像中估計出人體姿態(Body Pose), 手勢(Hand Gesture)和臉部表情(Facial Expressions),該任務在許多下游現實場景中有著廣泛的應用,例如動作捕捉、人機交互等。得益于SMPLX等參數化模型的發展,全身人體網格重建精度得到了提升,該任務也得到越來越多的關注。

相比于身體姿態估計(Body-Only Mesh Recovery),全身人體網格重建需要額外估計手和臉部的參數,而手和臉部的分辨率往往較小,導致難以通過一個一階段的網絡,將全身參數估計出來。之前的方法大多采用多階段的復制-粘貼(Copy-Paste)框架,提前檢測出手和臉的包圍框(Bounding Box),將其裁剪出來并放大,輸入三個獨立的網絡,分別估計出身體(Body), 手(Hand), 和臉(Face)的參數,再進行融合。這種多階段的做法可以解決手和臉分辨率過小的問題,然而,由于三部分的參數估計相對獨立,容易導致最后的結果以及三部分之間的連接不夠自然和真實,同時也會增加模型的復雜度。為了解決以上問題,我們提出了首個一階段的算法OSX,我們使用一個模塊感知的Transformer模型,同時估計出人體姿態, 手勢和臉部表情。該算法在較小計算量和運行時間的情況下,在3個公開數據集(AGORA, EHF, 3DPW)上,超過了現有的全身人體網格重建算法。

我們注意到,目前的全身人體網格重建數據集,大部分是在實驗室環境或者仿真環境下采集的,而這些數據集與現實場景有著較大的分布差異。這就容易導致訓練出來的模型在應用于現實場景時,重建效果不佳。此外,現實中的許多場景,如直播、手語等,人往往只有上半身出現在畫面中,而目前的數據集全部都是全身人體,手和臉的分辨率往往較低。為了彌補這方面數據集的缺陷,我們提出了一個大規模的上半身數據集UBody,該數據集涵蓋了15個真實場景,包括100萬幀圖片和對應的全身關鍵點(2D Whole-Body Keypoint), 人體包圍框(Person BBox)、人手包圍框(Hand BBox)以及SMPLX標簽。下圖是UBody的部分數據可視化。

ab5c1004-d4cf-11ed-bfe3-dac502259ad0.gif

圖1 UBody數據集展示

本工作的貢獻點可以概括為:

我們提出了首個一階段的全身人體網格重建算法OSX,能夠用一個簡單、高效的方式,估計出SMPLX參數。

我們的算法OSX在三個公開數據集上,超過了現有的全身人體網格重建算法。

我們提出了一個大規模的上半身數據集UBody,用以促進全身人體網格重建這個基礎任務在現實場景中的應用。

2. 一階段重建算法介紹

2.1 OSX整體框架

如下圖所示,我們提出了一個模塊感知(Component-Aware)的Transoformer模型,來同時估計全身人體參數,再將其輸入SMPLX模型,得到全身人體網格。我們注意到,身體姿態(Body Pose)估計需要利用到全局的人體依賴信息,而手勢(Hand Gesture)和臉部表情(Facial Expression)則更多的聚焦于局部的區域特征。因而,我們設計了一個全局編碼器和一個局部解碼器,編碼器借助于全局自注意力機制(Global Self-attention),捕獲人體的全身依賴關系,估計出身體姿態和形狀(Body Pose and Shape),解碼器則對特征圖進行上采樣,使用關鍵點引導的交叉注意力機制(Cross-Attention),用以估計手和臉部的參數。

addebf7a-d4cf-11ed-bfe3-dac502259ad0.png

圖2 OSX網絡結構示意圖

2.2 全局編碼器

在全局編碼器中,人體圖片首先被切為多個互不重蛩的塊,這些塊通過一個卷積層,加上位置編碼,轉換為特征令牌(Feature Token) ,接著,我們再將其與若干個由可學習參數構成的人體令牌(Body Token) 進行連接,輸入全局編碼器。全局編碼 器由多個Transformer塊組成,每個塊包含一個多頭自注意力、一個前饋網絡和兩個層歸一化模塊(Layer Normization)。 經過這些 塊之后,人體各個部分之間的信息得到了交互,body token 捕捉了人體的全身依賴關系,輸入全連接層,回歸出人體姿態和 形狀。 Feature token則進行重組(Reshape),轉換為特征圖,供解碼器使用。

2.3 高分辨率局部解碼器

在解碼器中,我們首先對特征圖進行上采樣,以解決手和臉分辨率過低的問題。具體的,我們使用一個可微分的感興趣區域對齊 (Region of Interest Alignment)操作,將手和臉部的特征圖進行上采樣,因而獲得多尺度的手、臉高分辨率特征 。接著,我們定義多個模塊令牌(Component Token) ,每一個token代表一個關鍵點,將這些token輸入解碼器,通過關鍵點 引導的交叉注意力機制,從高分辨率特征中捕獲有用的信息,更新Component Token:

ae123d28-d4cf-11ed-bfe3-dac502259ad0.png

最終,這些模塊token通過全連接層,轉換為手勢和臉部表情,并與身體姿態和形狀一起,輸入SMPLX模型,轉換為人體網格。

3. 上半身數據集UBody介紹

3.1 數據集亮點

為了縮小全身人體網格重建這一基礎任務與下游任務的差異,我們從15個現實場景,包括音樂演奏、脫口秀、手語、魔術表演等,收集了超過100萬的圖片,對其進行標注。這些場景與現有的數據集AGORA相比,由于只包含上半身,因而手和臉的分辨率更大,具有更加豐富的手部動作和人臉表情。同時,這些場景含有非常多樣的遮擋、交互、切鏡、背景和光照變化,因而更加具有挑戰性,更加符合現實場景。此外,UBody是視頻的形式,每個視頻都包含了音頻(Audio),因而未來也可以應用于多模態等任務。

ae291a34-d4cf-11ed-bfe3-dac502259ad0.png

圖3 UBody 15個場景展示

3.2 IDEA自研高精度全身動捕標注框架

為了標注這些大規模的數據,我們提出了一個自動化標注方案,如下圖所示,我們首先訓練一個基于ViT的關鍵點估計網絡,估計出高精度的全身人體關鍵點。接著,我們使用一個多階段漸進擬合技術(Progreesive Fitting),將OSX輸出的人體網格轉換為三維關鍵點(3D Keypoints),并投影到圖像平面,與估計的二維關鍵點(2D Keypoints)計算損失,用以優化OSX網絡參數,直至估計出來的網格與2D關鍵點能夠高度貼合。

ae5652ce-d4cf-11ed-bfe3-dac502259ad0.png

圖4 全身動捕標注框架圖

以下是UBody數據集的15個場景及其標注結果的展示:

ae66a9c6-d4cf-11ed-bfe3-dac502259ad0.gif

SignLanguage

aec00b9c-d4cf-11ed-bfe3-dac502259ad0.gif

Singing

af973bd0-d4cf-11ed-bfe3-dac502259ad0.gif

OnlineClass

b00628f6-d4cf-11ed-bfe3-dac502259ad0.gif

Olympic

b07de4e0-d4cf-11ed-bfe3-dac502259ad0.gif

Entertainment

b0a83178-d4cf-11ed-bfe3-dac502259ad0.gif

Fitness

b10949b8-d4cf-11ed-bfe3-dac502259ad0.gif

LiveVlog

b28abac4-d4cf-11ed-bfe3-dac502259ad0.gif

Conference

b2eeb6d2-d4cf-11ed-bfe3-dac502259ad0.gif

TVShow

b415a6d8-d4cf-11ed-bfe3-dac502259ad0.gif

ConductMusic

b56e70be-d4cf-11ed-bfe3-dac502259ad0.gif

Speech

b5d41fd6-d4cf-11ed-bfe3-dac502259ad0.gif

TalkShow

b62ea3ac-d4cf-11ed-bfe3-dac502259ad0.gif

MagicShow

4. 實驗結果

4.1 定量實驗對比

OSX從投稿至今(2022.11~2023.04),是AGORA榜單上SMPLX賽道的榜首,在AGORA-test (https://agora-evaluation.is.tuebingen.mpg.de/)上的定量對比結果如下表所示:

b77b5778-d4cf-11ed-bfe3-dac502259ad0.png

表1 OSX與SOTA算法在AGORA-test上的定量結果

在AGORA-val上的定量對比結果如下表所示:

b7a2830c-d4cf-11ed-bfe3-dac502259ad0.png

表2 OSX與SOTA算法在AGORA-val上的定量結果

在EHF和3DPW的定量結果如下:

b7c5a512-d4cf-11ed-bfe3-dac502259ad0.png

表3 OSX與SOTA算法在EHF及3DPW上的定量結果

可以看出,OSX由于使用了模塊感知的Transformer網絡,能夠同時保證全局依賴關系的建模和局部特征的捕獲,在現有數據集,特別是AGORA這一較為困難的數據集上,顯著超過了之前的方法。

4.2 定性實驗對比

在AGORA上的定性對比結果如圖所示:

b7deb03e-d4cf-11ed-bfe3-dac502259ad0.gif

從左到右依次為:輸入圖, ExPose, Hand4Whole, OSX(Ours)

在EHF上的定性對比結果如圖所示:

b842aa9e-d4cf-11ed-bfe3-dac502259ad0.gif

從左到右依次為:輸入圖, ExPose, Hand4Whole, OSX(Ours)

在UBody數據集上的對比結果如圖所示:

ba576234-d4cf-11ed-bfe3-dac502259ad0.gif

從左到右依次為:輸入圖, ExPose, Hand4Whole, OSX(Ours)

可以看出,我們的算法OSX能夠估計出更加準確的身體姿勢,手部動作和臉部表情,重建出來的人體網格更加準確,與原圖貼合的更好,更加魯棒。

5. 總結

OSX是首個一階段全身人體網格重建的算法,通過一個模塊感知的Transformer模型,同時估計了body pose, hand pose和facial experssion,在三個公開榜單上取得了目前最好whole-body mesh recovery最好的結果。此外,我們提出了一個大規模的上半身場景數據集UBody,用以促進人體網格重建任務在下游場景中的應用。我們的代碼已經進行了開源,希望能夠推動該領域的發展。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4599

    瀏覽量

    92642
  • 網格
    +關注

    關注

    0

    文章

    139

    瀏覽量

    16000
  • 數據集
    +關注

    關注

    4

    文章

    1205

    瀏覽量

    24641

原文標題:CVPR2023:IDEA與清華提出首個一階段3D全身人體網格重建算法,代碼開源!

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    如何將3D散點圖與3D網格圖在個三維坐標系中顯示呢?

    如何將3D散點圖與3D網格圖在個三維坐標系中顯示呢?
    發表于 03-08 18:18

    【ELT.ZIP】OpenHarmony啃論文俱樂部——即刻征服3D網格壓縮編碼

    算法會碰撞出什么火花呢?圖像、醫療、機器人、通信都在這里了你可能少有聽說的TinyOS操作系統揭秘 3D 網格壓縮的三類方式殿堂級 WARP 寄存器壓縮技術【技術DNA】[外鏈圖片轉存失敗,源站可能有
    發表于 07-20 21:51

    基于約束的地質網格曲面重建算法

    提出種基于地質約束的地質曲面重建算法,為在三維地質建模中構造線性不連續層位面片提供種解決方案。應用“移動立方體”
    發表于 04-03 09:04 ?8次下載

    種基于量化方法的3D模型盲水印算法

    相對非盲算法而言,盲算法因在水印檢測時不需要傳輸原始載體而使其應用更為廣泛。雖然盲水印算法的魯棒性稍弱,但仍有提高的空間。該文提出
    發表于 02-10 11:53 ?11次下載

    基于STL曲面網格重建算法

    快速獲得完整拓撲關系且其存在大量冗余信息的缺點,制約了STL網格模型的進步優化處理與應用.為此,需要針對STL網格模型進行網格重建.針對2
    發表于 12-25 11:52 ?1次下載
    基于STL曲面<b class='flag-5'>網格</b><b class='flag-5'>重建</b><b class='flag-5'>算法</b>

    基于局部姿態先驗的深度圖像3D人體運動捕獲方法

    提出種基于局部姿態先驗的從深度圖像中實時在線捕獲3D人體運動的方法,關鍵思路是根據從捕獲的深度圖像中自動提取具有語義信息的虛擬稀疏3D標記
    發表于 01-03 14:33 ?0次下載

    FAIR和INRIA的合作提出人體姿勢估計新模型,適用于人體3D表面構建

    FAIR和INRIA的合作研究提出個在Mask-RCNN基礎上改進的密集人體姿態評估模型DensePose-RCNN,適用于人體3D表面構
    的頭像 發表于 02-05 11:21 ?5777次閱讀

    我國首個衛星物聯網完成第一階段建設

    我國首個衛星物聯網完成第一階段建設。根據麥肯錫預測,預計2025年前,天基物聯網產值可達5600億美元至8500億美元。
    的頭像 發表于 10-20 16:19 ?2601次閱讀

    3D的感知技術及實踐

    測量表面法向量估計 幾何測量平面提取 3D重建從離散點云得到光滑曲面 3D重建ICP點云配準 3D重建
    的頭像 發表于 10-23 09:40 ?3175次閱讀
    <b class='flag-5'>3D</b>的感知技術及實踐

    大規模3D重建的Power Bundle Adjustment

    BA (BA) 是個經典的計算機視覺問題,它構成了許多 3D 重建和運動結構 (SfM) 算法的核心組成部分。它指的是通過最小化非線性重投影誤差來聯合估計相機參數和
    的頭像 發表于 12-15 11:20 ?666次閱讀

    用于快速高保真RGB-D表面重建的神經特征網格優化的GO-Surf

    我們提出了GO-Surf,種直接的特征網格優化方法,用于從RGB-D序列中準確和快速地重建表面。
    的頭像 發表于 03-17 16:35 ?718次閱讀

    生成高質量 3D 網格,從重建到生成式 AI

    代 AI 工作流已經在生成高保真 3D 模型方面取得了巨大成功,從基于給定圖像的場景重建,到能夠為交互式體驗制作資產的生成式 AI。 這些生成的 3D 模型通常被提取成標準的三角
    的頭像 發表于 08-17 19:15 ?702次閱讀
    生成高質量 <b class='flag-5'>3D</b> <b class='flag-5'>網格</b>,從<b class='flag-5'>重建</b>到生成式 AI

    NeurIPS 2023 | 清華ETH提出首個二值化光譜重建算法

    壓縮重建工具包 BiSCI 內,該工具包支持八類最主要的二值網絡,歡迎大家來使用。同時,我們還將 BiSRNet 嵌入到了我們之前開發的光譜重建工具箱 MST 當中。目前 MST 工具包已支持超過 12 類深度學習算法
    的頭像 發表于 12-03 20:20 ?626次閱讀
    NeurIPS <b class='flag-5'>2023</b> | <b class='flag-5'>清華</b>ETH<b class='flag-5'>提出首個</b>二值化光譜<b class='flag-5'>重建</b><b class='flag-5'>算法</b>

    3D人體生成模型HumanGaussian實現原理

    3D 生成領域,根據文本提示創建高質量的 3D 人體外觀和幾何形狀對虛擬試穿、沉浸式遠程呈現等應用有深遠的意義。傳統方法需要經歷系列人工制作的過程,如
    的頭像 發表于 12-20 16:37 ?1518次閱讀
    <b class='flag-5'>3D</b><b class='flag-5'>人體</b>生成模型HumanGaussian實現原理

    Nullmax提出多相機3D目標檢測新方法QAF2D

    今天上午,計算機視覺領域頂會CVPR公布了最終的論文接收結果,Nullmax感知部門的3D目標檢測研究《Enhancing 3D Object Detection with 2D De
    的頭像 發表于 02-27 16:38 ?1077次閱讀
    Nullmax<b class='flag-5'>提出</b>多相機<b class='flag-5'>3D</b>目標檢測新方法QAF2<b class='flag-5'>D</b>