国产成人精品免费视频大全_无码人妻精品一二三区免费_精品极品国产呦在线观看_99久久精品无码一区二区三区

來源｜AIGC開放社區(qū)

在 Sora 引爆文生視頻賽道之前，國內(nèi)的字節(jié)跳動(dòng)也推出了一款顛覆性視頻模型——Boximator。

與 Gen-2、Pink1.0 等模型不同的是，Boximator 可以通過文本精準(zhǔn)控制生成視頻中人物或物體的動(dòng)作。

例如，下雨天，大風(fēng)把一位女生的雨傘吹走了。目前，很少有視頻模型能精準(zhǔn)做到這一點(diǎn)。

Boximator 案例賞析

我們先看一下 Boximator 與 Gen-2、Pink1.0，在使用相同的文本提示詞、圖像生成的視頻，所表現(xiàn)出來的不同動(dòng)作。

為了方便觀察，「AIGC 開放社區(qū)」將對(duì)比視頻整合在一起，最左邊的是 Boximator 生成的視頻。

一個(gè)可愛的 3D 男孩站著，然后走路

在這個(gè)案例中，Pika 1.0 生成的視頻男孩只是站著沒有走動(dòng)，Gen-2 的視頻走動(dòng)了但不明顯，只有 Boximator 產(chǎn)生了明顯的走動(dòng)動(dòng)作。

一位英俊的男人用他的右手從口袋里拿出一朵玫瑰，并且在看著這朵玫瑰

這個(gè)案例 Pika 1.0 和 Gen-2 表現(xiàn)的都非常不好，男士沒有掏出玫瑰花的動(dòng)作。Boximator 再一次完美理解文本語義并做出了相應(yīng)的動(dòng)作。

往杯子里加紅酒

這個(gè)案例主要展示了控制物體動(dòng)作的能力，Pika 1.0 和 Gen-2 都做出了倒酒的動(dòng)作，但是杯子里的酒沒有明顯上升的動(dòng)作。只有 Boximator 做到了倒酒 + 上升兩個(gè)動(dòng)作。

看了這 3 個(gè)案例，能感受到 Boximator 對(duì)文本語義精準(zhǔn)理解，以及對(duì)動(dòng)作控制的強(qiáng)大功能了吧。

Boximator 模型介紹

為了實(shí)現(xiàn)對(duì)視頻中物體、人物的動(dòng)作控制，Boximator 使用了“軟框”和“硬框”兩種約束方法。

硬框：可精確定義目標(biāo)對(duì)象的邊界框。用戶可以在圖片中畫出感興趣的對(duì)象,Boximator 會(huì)將其視為硬框約束, 在之后的幀中精準(zhǔn)定位該對(duì)象的位置。

軟框：軟框定義一個(gè)對(duì)象可能存在的區(qū)域, 形成一個(gè)寬松的邊界框。對(duì)象需要停留在這個(gè)區(qū)域內(nèi), 但位置可以有一定變化，實(shí)現(xiàn)適度的隨機(jī)性。

兩類框都包含目標(biāo)對(duì)象的 ID, 用于在不同幀中跟蹤同一對(duì)象。此外, 框還包含坐標(biāo)、類型等信息的編碼。

控制模塊和訓(xùn)練策略

控制模塊可以將框約束的編碼與視頻幀的視覺編碼結(jié)合，用來指導(dǎo)視頻的精準(zhǔn)動(dòng)作生成。包含框編碼器和自注意力層兩大塊。

框編碼器：將框的坐標(biāo)、ID、類型等信息, 通過 Fourier 編碼和 MLP 映射為控制向量。

自注意力層：將框的控制向量與視頻幀的視覺向量通過自注意力建模其關(guān)系, 學(xué)習(xí)將框指導(dǎo)幀生成。

訓(xùn)練策略方面，Boximator 主要分為兩個(gè)階段: 自跟蹤階段，訓(xùn)練模型的同時(shí)生成視頻內(nèi)容和對(duì)應(yīng)的框，并簡(jiǎn)化框與對(duì)象的關(guān)系學(xué)習(xí)。

正常訓(xùn)練，訓(xùn)練模型只生成視頻內(nèi)容, 框的內(nèi)在表達(dá)已經(jīng)學(xué)會(huì)指導(dǎo)對(duì)象生成。此外, 訓(xùn)練還使用多階段策略，逐步過渡從硬框到軟框的約束, 以及適當(dāng)融合無框數(shù)據(jù)。

Boximator 實(shí)驗(yàn)數(shù)據(jù)

為獲得視頻訓(xùn)練數(shù)據(jù), 研究人員從 WebVid-10M 數(shù)據(jù)集中，過濾出 110 萬段動(dòng)態(tài)明顯的視頻片段, 并自動(dòng)為其注釋了 220 萬個(gè)對(duì)象的邊界框。并在 PixelDance 和 ModelScope 這兩個(gè)模型上訓(xùn)練了 Boximator。

實(shí)驗(yàn)數(shù)據(jù)顯示，Boximator 在保持原模型視頻質(zhì)量, 具有非常強(qiáng)大的動(dòng)作控制能力。同時(shí)可以作為一種插件，幫助現(xiàn)有視頻擴(kuò)散模型提升生成質(zhì)量。

在 MSR-VTT 數(shù)據(jù)集上, 無論是視頻質(zhì)量還是框與對(duì)象對(duì)齊精度方面,Boximator 都優(yōu)于原模型。在人類評(píng)估中,Boximator 生成的視頻也在質(zhì)量和運(yùn)動(dòng)控制上明顯超過原模型。

字節(jié)跳動(dòng)的研究人員表示，目前該模型處于研發(fā)階段，預(yù)計(jì) 2-3 個(gè)月內(nèi)發(fā)布測(cè)試網(wǎng)站。讓我們期待一下國內(nèi)挑戰(zhàn) Sora 的產(chǎn)品誕生吧！

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

字節(jié)跳動(dòng)

字節(jié)跳動(dòng)

+關(guān)注

關(guān)注
0

文章
311

瀏覽量
8904
Sora

Sora

+關(guān)注

關(guān)注
0

文章
76

瀏覽量
190

原文標(biāo)題：字節(jié)跳動(dòng)推出顛覆性文生視頻模型，可自由控制動(dòng)作！

文章出處：【微信號(hào)：AI前線，微信公眾號(hào)：AI前線】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

字節(jié)跳動(dòng)自研視頻生成模型Seaweed開放

近日，字節(jié)跳動(dòng)旗下的AI內(nèi)容平臺(tái)即夢(mèng)AI傳來新消息，宣布自研的視頻生成模型Seaweed即日起正式面向平臺(tái)用戶開放使用。這一舉措標(biāo)志著

發(fā)表于 11-11 14:31 ?210次閱讀

字節(jié)跳動(dòng)計(jì)劃在歐洲設(shè)立AI研發(fā)中心

字節(jié)跳動(dòng)正積極布局歐洲市場(chǎng)，計(jì)劃在該地區(qū)設(shè)立AI研發(fā)中心。據(jù)知情人士透露，字節(jié)跳動(dòng)已開始在歐洲尋找LLM(Large Language Model，大語言

發(fā)表于 10-28 11:04 ?526次閱讀

今日看點(diǎn)丨Vishay裁員800人，關(guān)閉上海等三家工廠；字節(jié)跳動(dòng)發(fā)布兩款視頻生成大模型

1. 字節(jié)跳動(dòng)發(fā)布兩款視頻生成大模型面向企業(yè)市場(chǎng)開啟邀測(cè) ? 9月24日，字節(jié)

發(fā)表于 09-25 15:48 ?713次閱讀

字節(jié)跳動(dòng)豆包大模型已支持實(shí)時(shí)語音通話

字節(jié)跳動(dòng)火山引擎今日隆重推出創(chuàng)新對(duì)話式AI實(shí)時(shí)交互解決方案，該方案以火山方舟大模型服務(wù)平臺(tái)為核心，全面升級(jí)語音交互體驗(yàn)。該方案深度融合火山引擎RTC技術(shù)，實(shí)現(xiàn)了語音數(shù)據(jù)的即時(shí)采集、高效

發(fā)表于 08-12 16:13 ?696次閱讀

字節(jié)跳動(dòng)回應(yīng)要進(jìn)軍手機(jī)市場(chǎng)

近日，關(guān)于字節(jié)跳動(dòng)秘密啟動(dòng)AI手機(jī)研發(fā)項(xiàng)目的傳聞引起了廣泛關(guān)注。然而，字節(jié)跳動(dòng)相關(guān)人士在12日對(duì)此進(jìn)行了澄清，表示這一消息并不屬實(shí)。

發(fā)表于 06-13 11:48 ?718次閱讀

字節(jié)跳動(dòng)豆包大模型全面開啟對(duì)外服務(wù)

近日，字節(jié)跳動(dòng)在2024年春季火山引擎Force原動(dòng)力大會(huì)上宣布，其自主研發(fā)的豆包大模型正式開啟對(duì)外服務(wù)。這一大模型家族涵蓋了多個(gè)細(xì)分領(lǐng)域，

發(fā)表于 05-16 09:29 ?465次閱讀

字節(jié)跳動(dòng)發(fā)布豆包大模型

在近日舉行的火山引擎原動(dòng)力大會(huì)上，字節(jié)跳動(dòng)公司正式發(fā)布了其強(qiáng)大的豆包大模型。據(jù)火山引擎總裁譚待透露，這款大模型展現(xiàn)了驚人的數(shù)據(jù)處理能力，目前日均處理文本量高達(dá)1200億Tokens，并

發(fā)表于 05-15 11:26 ?707次閱讀

南開大學(xué)和字節(jié)跳動(dòng)聯(lián)合開發(fā)一款StoryDiffusion模型

近日，南開大學(xué)和字節(jié)跳動(dòng)聯(lián)合開發(fā)的 StoryDiffusion 模型解決了擴(kuò)散模型生成連貫圖像與視頻的難題。

發(fā)表于 05-07 14:46 ?1207次閱讀

字節(jié)跳動(dòng)被曝正秘密研發(fā)多個(gè)AI產(chǎn)品

據(jù)多位知情人士透露，科技巨頭字節(jié)跳動(dòng)正在人工智能（AI）大模型領(lǐng)域秘密研發(fā)多個(gè)創(chuàng)新產(chǎn)品。其中，多模態(tài)數(shù)字人產(chǎn)品備受矚目，該產(chǎn)品將結(jié)合先進(jìn)的AI技術(shù)與虛擬形象，為用戶提供全新的交互體驗(yàn)。此外，字

發(fā)表于 03-05 11:22 ?914次閱讀

Stability AI與Morph AI共同推出一體化AI視頻創(chuàng)作工具

近日，業(yè)界領(lǐng)先的AI技術(shù)公司Stability AI與中國AI創(chuàng)業(yè)公司Morph AI達(dá)成重要合作。雙方宣布共同推出一款革新性的all-in-one（一體式）AI

發(fā)表于 03-05 10:44 ?849次閱讀

字節(jié)跳動(dòng)辟謠推出中文版Sora 期待國產(chǎn)Sora大模型

字節(jié)跳動(dòng)辟謠推出中文版Sora 期待國產(chǎn)Sora大模型 “文成視頻大模型”的熱度持續(xù)火爆，大家都

發(fā)表于 02-21 17:29 ?829次閱讀

字節(jié)跳動(dòng)辟謠推出中文版Sora

近日，有關(guān)字節(jié)跳動(dòng)在Sora引爆文生視頻賽道之前，已研發(fā)出“中文版Sora”的傳言在網(wǎng)絡(luò)上流傳。據(jù)稱，這款創(chuàng)新性視頻

發(fā)表于 02-21 10:27 ?684次閱讀

字節(jié)跳動(dòng)澄清未推出中文版Sora

近日，有傳聞稱字節(jié)跳動(dòng)在Sora文生視頻模型發(fā)布之前，已經(jīng)推出了一款名為

發(fā)表于 02-20 13:58 ?651次閱讀

字節(jié)跳動(dòng)推出創(chuàng)新視頻模型Boximator，實(shí)現(xiàn)精確操控人物或物體動(dòng)作

針對(duì) Boximator 的相關(guān)問題，字節(jié)跳動(dòng)方回應(yīng)指出，這只是視頻生成對(duì)象移動(dòng)技術(shù)方法的研究項(xiàng)目，暫不可能成為完整可用的產(chǎn)品。相比國外優(yōu)秀的視頻

發(fā)表于 02-20 13:49 ?509次閱讀

字節(jié)跳動(dòng)否認(rèn)使用OpenAI技術(shù)開發(fā)大語言模型，并正與后者進(jìn)行溝通?

回顧過去，字節(jié)跳動(dòng)早在 4月份就明文規(guī)定，嚴(yán)禁將 GPT 模型生成的數(shù)據(jù)添加到大模型的訓(xùn)練數(shù)據(jù)集中，并且指導(dǎo)工程師們?cè)谑褂?GPT 時(shí)遵循服務(wù)條款。更值得關(guān)注是，9 月時(shí)，

發(fā)表于 12-18 09:53 ?540次閱讀

精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

搜索歷史

字節(jié)跳動(dòng)推出一款顛覆性視頻模型—Boximator

評(píng)論

字節(jié)跳動(dòng)自研視頻生成模型Seaweed開放

字節(jié)跳動(dòng)計(jì)劃在歐洲設(shè)立AI研發(fā)中心

今日看點(diǎn)丨Vishay裁員800人，關(guān)閉上海等三家工廠；字節(jié)跳動(dòng)發(fā)布兩款視頻生成大模型

字節(jié)跳動(dòng)豆包大模型已支持實(shí)時(shí)語音通話

字節(jié)跳動(dòng)回應(yīng)要進(jìn)軍手機(jī)市場(chǎng)

字節(jié)跳動(dòng)豆包大模型全面開啟對(duì)外服務(wù)

字節(jié)跳動(dòng)發(fā)布豆包大模型

南開大學(xué)和字節(jié)跳動(dòng)聯(lián)合開發(fā)一款StoryDiffusion模型

字節(jié)跳動(dòng)被曝正秘密研發(fā)多個(gè)AI產(chǎn)品

Stability AI與Morph AI共同推出一體化AI視頻創(chuàng)作工具

字節(jié)跳動(dòng)辟謠推出中文版Sora 期待國產(chǎn)Sora大模型

字節(jié)跳動(dòng)辟謠推出中文版Sora

字節(jié)跳動(dòng)澄清未推出中文版Sora

字節(jié)跳動(dòng)推出創(chuàng)新視頻模型Boximator，實(shí)現(xiàn)精確操控人物或物體動(dòng)作

字節(jié)跳動(dòng)否認(rèn)使用OpenAI技術(shù)開發(fā)大語言模型，并正與后者進(jìn)行溝通?