在OpenAI研發出Sora后不久,谷歌Deep Mind團隊公開了在世界模型領域的新進展——基礎世界模型Genie。該模型主要借鑒非對抗方式進行訓練,可根據各類圖像乃至草圖生成具有豐富動作表現的2D世界,從而實現人們與虛構世界的深度互動。只需輸入一張圖像,Genie便可構建一個全新的交互環境。
DeepMind指出,Genie有能力根據最新的文生圖大模型生成初始幀,再借助Genie的能力賦予這些圖像更深層次的含義。Genie作為一個包含110億參數的基礎世界模型,成功研發得益于谷歌聲名在外的潛在動作模型,用于推斷視頻幀間的運動,視頻分詞器則可以將原始視頻幀轉化為離散標記,而動態模型則負責預測下一幀的活動情況。
值得注意的是,相較于號稱“高清晰度、高真實感”的Sora, Genie似乎更注重潛在行為的預測,而不是極力展現畫面的真實性。現階段,從圖像或文本中生成高質量視頻尚未成為Genie關注的核心業務點。DeepMind進一步透露,Genie主要圍繞“2D平臺類游戲及大約率算法”展開應用,這種處理方法具有廣泛適應性,可應用于各領域,也可以擴展至更大規模的互聯網數據集。
然而,這個還在試驗階段的Genie尚不能視為商業產品問世。據DeepMind人士解釋,Genie的訓練視頻為160x90像素且每秒僅10幀的超低分辨率視頻,生成的模擬游戲以每秒1幀的速率運行。因此,實際場景更為復雜且要求更高實時性的商業應用仍需耐心等待解決方案。
-
DeepMind
+關注
關注
0文章
129瀏覽量
10819 -
genie
+關注
關注
0文章
6瀏覽量
4275 -
OpenAI
+關注
關注
9文章
1043瀏覽量
6408 -
大模型
+關注
關注
2文章
2328瀏覽量
2483
發布評論請先 登錄
相關推薦
評論