精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

清華朱軍團隊提出ProlificDreamer:直接文本生成高質量3D內容

CVer ? 來源:機器之心 ? 2023-05-29 10:02 ? 次閱讀

清華大學 TSAIL 團隊最新提出的文生 3D 新算法 ProlificDreamer,在無需任何 3D 數據的前提下能夠生成超高質量的 3D 內容。

ProlificDreamer 算法為文生 3D 領域帶來重大進展。利用 ProlificDreamer,輸入文本 “一個菠蘿”,就能生成非常逼真且高清的 3D 菠蘿:

8a709276-fd82-11ed-90ce-dac502259ad0.gif

給出稍微難一些的文本,比如 “一只米開朗琪羅風格狗的雕塑,正在用手機讀新聞”,ProlificDreamer 的生成也不在話下:

8e5bc13a-fd82-11ed-90ce-dac502259ad0.gif

將 Imagen 生成的照片(下圖靜態圖)和 ProlificDreamer(基于 Stable-Diffusion)生成的 3D(下圖動態圖)進行對比。有網友感慨:短短一年時間,高質量的生成已經能夠從 2D 圖像領域擴展到 3D 領域了!

8f955250-fd82-11ed-90ce-dac502259ad0.gif

A blue jay standing on alarge basket of rainbow macarons 這一切都來源于清華大學計算機系朱軍教授帶領的 TSAIL 團隊近期公開的一篇論文《ProlificDreamer: High-Fidelity and Diverse Text-to-3D Generation with Variational Score Distillation》:

98c9572c-fd82-11ed-90ce-dac502259ad0.png

論文鏈接:https://arxiv.org/abs/2305.16213

項目主頁:https://ml.cs.tsinghua.edu.cn/prolificdreamer/

在數字創作和虛擬現實等領域,從文本到三維模型(Text-to-3D)的技術具有重要的價值和廣泛的應用潛力。這種技術可以從簡單的文本描述中生成具體的 3D 模型,為設計師、游戲開發者和數字藝術家提供強大的工具。 然而,為了根據文本生成準確的 3D 模型,傳統方法需要大量的標記 3D 模型數據集。這些數據集需要包含多種不同類型和風格的 3D 模型,并且每個模型都需要與相應的文本描述相關聯。創建這樣的數據集需要大量的時間和人力資源,目前還沒有現成的大規模數據集可供使用。 由谷歌提出的 DreamFusion [1] 利用預訓練的 2D 文本到圖像擴散模型,首次在無需 3D 數據的情況下完成開放域的文本到 3D 的合成。但是 DreamFusion 提出的 Score Distillation Sampling (SDS) [1] 算法生成結果面臨嚴重的過飽和、過平滑、缺少細節等問題。高質量 3D 內容生成目前仍然是非常困難的前沿問題之一。 ProlificDreamer 論文提出了 Variational Score Distillation(VSD)算法,從貝葉斯建模和變分推斷(variational inference)的角度重新形式化了 text-to-3D 問題。具體而言,VSD 把 3D 參數建模為一個概率分布,并優化其渲染的二維圖片的分布和預訓練 2D 擴散模型的分布間的距離。可以證明,VSD 算法中的 3D 參數近似了從 3D 分布中采樣的過程,解決了 DreamFusion 所提 SDS 算法的過飽和、過平滑、缺少多樣性等問題。此外,SDS 往往需要很大的監督權重(CFG=100),而 VSD 是首個可以用正常 CFG(=7.5)的算法。效果展示ProlificDreamer 可以根據文本生成非常高質量的帶紋理的三維網格:

98ea2da8-fd82-11ed-90ce-dac502259ad0.png

ProlificDreamer 可以根據文本生成非常高質量的三維神經輻射場(NeRF),包括復雜的效果。甚至 360° 的場景也能生成:

99788238-fd82-11ed-90ce-dac502259ad0.png

ProlificDreamer 還可以在給出同樣文本的情況下生成具有多樣性的 3D 內容:

998b834c-fd82-11ed-90ce-dac502259ad0.png

傳統文生 3D 的優化算法給定一個 2D 圖片上預訓練好的擴散模型(例如 stable-diffusion),Dreamfusion [1] 提出可以在不借助任何 3D 數據的情況下實現開放域的文到 3D 內容(text-to-3D)生成。具體而言,對于一個 3D 物體,文生 3D 任務的關鍵是設計一種優化算法,使得 3D 物體在各個視角下投影出來的 2D 圖片與預訓練的 2D 擴散模型匹配,并不斷優化 3D 物體。其中,SDS [1] (也稱為 Score Jacobian Chaining (SJC) [3]) 是目前幾乎所有的零樣本開放域文生 3D 工作所使用的算法。該算法將 3D 物體視為一個單點(single point),并通過隨機梯度下降優化該 3D 物體,優化目標是最大化該渲染的 2D 圖像在預訓練擴散模型下的似然值。值得注意的是,該優化問題的最優解并不等價于從擴散模型中采樣。

99cac3c2-fd82-11ed-90ce-dac502259ad0.png

傳統文生 3D 的優化算法示意圖 實驗中,所有基于 SDS/SJC 的方法目前都有一個嚴重的問題:生成的物體過于平滑、過飽和現象嚴重,并且多樣性不高。例如,開源庫 threestudio [4] 將目前主流的 text-to-3D 工作復現至與原論文可比水平,如下圖所示:

99da1390-fd82-11ed-90ce-dac502259ad0.png

由 threestuidio [4] 復現的文生 3D 工作 在此之前,基于 2D 擴散模型的文生 3D 仍然與實踐落地有較大差距。然而,清華大學朱軍團隊提出的 ProlificDreamer 在算法層面解決了 SDS 的上述問題,能夠生成非常逼真的 3D 內容,極大地縮小了這一差距。ProlificDreamer 的原理與以往方法不同,ProlificDreamer 并不單純優化單個 3D 物體,而是優化 3D 物體對應的概率分布。通常而言,給定一個有效的文本輸入,存在一個概率分布包含了該文本描述下所有可能的 3D 物體。

9a0f3606-fd82-11ed-90ce-dac502259ad0.png

給定文本下的 3D 物體存在一個潛在的概率分布 基于該 3D 概率分布,我們可以進一步誘導出一個 2D 概率分布。具體而言,只需要對每一個 3D 物體經過相機渲染到 2D,即可得到一個 2D 圖像的概率分布。

9a3f99d6-fd82-11ed-90ce-dac502259ad0.png

由潛在 3D 分布可以誘導出一個 2D 圖像分布 因此,優化 3D 分布可以被等效地轉換為優化 2D 渲染圖片的概率分布與 2D 擴散模型定義的概率分布之間的距離(由 KL 散度定義)。這是一個經典的變分推斷(variational inference)任務,因此 ProlificDreamer 文中將該任務及對應的算法稱為變分得分蒸餾(Variational Score Distillation,VSD)。

9a7edf60-fd82-11ed-90ce-dac502259ad0.png

優化 3D 分布可以被等效地轉換為優化 2D 圖片之間的概率分布 具體而言,VSD 的算法流程圖如下所示。其中,3D 物體的迭代更新需要使用兩個模型:一個是預訓練的 2D 擴散模型(例如 Stable-Diffusion),另一個是基于該預訓練模型的 LoRA(low-rank adaptation)。該 LoRA 估計了當前 3D 物體誘導的 2D 圖片分布的得分函數(score function),并進一步用于更新 3D 物體。該算法實際上在模擬 Wasserstein 梯度流,并可以保證收斂得到的分布滿足與預訓練的 2D 擴散模型的 KL 散度最小。

9aa4f5d8-fd82-11ed-90ce-dac502259ad0.png

VSD 的訓練流程圖 與傳統的 SDS/SJC 算法相比,可以發現 VSD 僅僅需要把原來的高斯噪聲項換成 LoRA 項即可。由于LoRA 提供了比高斯噪聲更精細的更新方向(例如,LoRA 可以利用文本 y、相機視角 c、擴散時間 t 等的先驗信息),VSD 在實踐中可以得到遠超 SDS 的精細結果。并且,論文作者提出,SDS/SJC 實際上是 VSD 使用一個單點 Dirac 分布作為變分分布的特例,而 VSD 擴展到了由 LoRA 定義的更復雜的概率分布,因此可以得到更好的結果。此外,VSD 還對監督權重(CFG)更友好,可以使用與 2D 擴散模型一樣的監督權重(例如 stable-diffusion 常用的 CFG=7.5),因此可以達到和 2D 擴散模型類似的采樣質量。這一結果首次解決了 SDS/SJC 中的超大 CFG(一般為 100)的問題,也同時說明 VSD 這種基于分布優化的思想與預訓練的 2D 擴散模型更適配。

9ab308d0-fd82-11ed-90ce-dac502259ad0.png

SDS/SJC 與 VSD 的更新公式對比 最后,ProlificDreamer 還對 3D 表示的設計空間做了詳細的研究,提出了如下實現。在實踐中,VSD 可以在 512 渲染分辨率的 NeRF 下訓練,并極大地豐富了所得到的 3D 結果的紋理細節。

9ad2242c-fd82-11ed-90ce-dac502259ad0.png

ProlificDreamer 與其它工作的實現細節比較

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 3D
    3D
    +關注

    關注

    9

    文章

    2863

    瀏覽量

    107328
  • 算法
    +關注

    關注

    23

    文章

    4599

    瀏覽量

    92643
  • 數據集
    +關注

    關注

    4

    文章

    1205

    瀏覽量

    24644

原文標題:無需任何3D數據!清華朱軍團隊提出ProlificDreamer:直接文本生成高質量3D內容

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    如何設計高質量低成本的3D眼鏡_Designing Cost-Effective 3D Technol...

    如何設計高質量低成本的3D眼鏡_Designing Cost-Effective 3D Technology ByRobert Murphy, Cypress Semiconductor作者
    發表于 06-18 13:56

    阿里3D AI技術已成功應用諸多場景中,可迅速批量生產高質量3D模型

    阿里資深算法專家樂田表示:“3D重建是3D機器學習的核心,只有在高質量3D數據集支持下,工業級3D AI建模才能滿足更大規模的產業需求。”目
    發表于 08-26 13:50 ?1560次閱讀

    面向社交媒體的高質量文章內容識別模型

    如何從海量多媒體文章中自動識別高質量內容是信息推薦、搜索引擎等系統的核心功能之一。現有的方法在訓練中依賴大量的人工標注數據。針對其未考慮社交媒體中的社交信息和視覺內容的問題,提出一種基
    發表于 05-11 11:09 ?11次下載

    基于視覺注意力的全卷積網絡3D內容生成方法

     由于在某些特殊場景中獲取深度線索的難度較高,使得已有3D內容生成方法的應用受到限制。為此,以顯著圖代替深度圖進行2D-3D轉換,提出一種
    發表于 05-13 16:13 ?11次下載

    文本生成任務中引入編輯方法的文本生成

    4. FELIX FELIX是Google Research在“FELIX: Flexible Text Editing Through Tagging and Insertion”一文中提出文本生成
    的頭像 發表于 07-23 16:56 ?1704次閱讀
    <b class='flag-5'>文本生成</b>任務中引入編輯方法的<b class='flag-5'>文本生成</b>

    NVIDIA提出Magic3D:高分辨率文本3D內容創建

    Magic3D 還可以執行基于提示的 3D 網格編輯:給定低分辨率 3D 模型和基本提示,可以更改文本從而修改生成的模型
    的頭像 發表于 11-25 11:33 ?1108次閱讀

    Meta提出Make-A-Video3D:一行文本生成3D動態場景!

    具體而言,該方法運用 4D 動態神經輻射場(NeRF),通過查詢基于文本到視頻(T2V)擴散的模型,優化場景外觀、密度和運動的一致性。任意機位或角度都可以觀看到提供的文本生成的動態視頻輸出,并可以
    的頭像 發表于 03-24 10:47 ?994次閱讀

    面向結構化數據的文本生成技術研究

    今天我們要講的文本生成是現在最流行的研究領域之一。文本生成的目標是讓計算機像人類一樣學會表達,目前看基本上接近實現。這些突然的技術涌現,使得計算機能夠撰寫出高質量的自然文本,滿足特定的
    的頭像 發表于 06-26 14:39 ?587次閱讀
    面向結構化數據的<b class='flag-5'>文本生成</b>技術研究

    生成高質量 3D 網格,從重建到生成式 AI

    有很多優點,包括支持現有的軟件包、高級硬件加速,以及支持物理模擬。然而,并非所有網格都是相同的,只有高質量的網格才能實現這些優點。 NVIDIA Research 提出了一種名為“FlexiCubes”的新方法,它可以在 3D
    的頭像 發表于 08-17 19:15 ?703次閱讀
    <b class='flag-5'>生成</b><b class='flag-5'>高質量</b> <b class='flag-5'>3D</b> 網格,從重建到<b class='flag-5'>生成</b>式 AI

    3D人體生成模型HumanGaussian實現原理

    3D 生成領域,根據文本提示創建高質量3D 人體外觀和幾何形狀對虛擬試穿、沉浸式遠程呈現等應用有深遠的意義。傳統方法需要經歷一系列人
    的頭像 發表于 12-20 16:37 ?1519次閱讀
    <b class='flag-5'>3D</b>人體<b class='flag-5'>生成</b>模型HumanGaussian實現原理

    4DGen:基于動態3D高斯的可控4D生成新工作

    盡管3D和視頻生成取得了飛速的發展,由于缺少高質量的4D數據集,4D生成始終面臨著巨大的挑戰。
    的頭像 發表于 01-04 15:57 ?844次閱讀
    4DGen:基于動態<b class='flag-5'>3D</b>高斯的可控4<b class='flag-5'>D</b><b class='flag-5'>生成</b>新工作

    Adobe提出DMV3D3D生成只需30秒!讓文本、圖像都動起來的新方法!

    因此,本文研究者的目標是實現快速、逼真和通用的 3D 生成。為此,他們提出了 DMV3D。DMV3D 是一種全新的單階段的全類別擴散模型,能
    的頭像 發表于 01-30 16:20 ?811次閱讀
    Adobe<b class='flag-5'>提出</b>DMV<b class='flag-5'>3D</b>:<b class='flag-5'>3D</b><b class='flag-5'>生成</b>只需30秒!讓<b class='flag-5'>文本</b>、圖像都動起來的新方法!

    奧比中光3D相機打造高質量、低成本的3D動作捕捉與3D動畫內容生成方案

    高質量、低成本的3D動作捕捉與3D動畫內容生成方案。 Moverse公司總部位于希臘塞薩洛尼基,是三維動畫相關媒體和娛樂行業的一家科技創業公
    的頭像 發表于 06-25 16:37 ?1026次閱讀

    Meta推出革命性3D Gen AI模型:1分鐘內生成高質量3D內容

    在科技日新月異的今天,Meta再次引領創新潮流,宣布了一項令人矚目的技術突破——3D Gen AI模型的誕生。這款先進的模型以其前所未有的高效性與卓越品質,重新定義了3D內容創作的邊界,標志著數字藝術創作進入了一個全新的快速響應
    的頭像 發表于 07-04 18:12 ?990次閱讀

    如何使用 Llama 3 進行文本生成

    使用LLaMA 3(Large Language Model Family of AI Alignment)進行文本生成,可以通過以下幾種方式實現,取決于你是否愿意在本地運行模型或者使用現成的API
    的頭像 發表于 10-27 14:21 ?214次閱讀