本文來自“技術復盤與分析:Sora是如何成功的?”,報告深入分析了Sora的各項能力、采用的技術路線和創新性的工作。我們認為Sora是將之前的研究工作上進行了很好的綜合,并在強大的算力、工程能力以及GPT和DALL·E模型技術積累下誕生的。
隨著OpenAI將這種具有開創性的技術路徑走通,國內模型和應用廠商有望快速迭代出類Sora的視頻生成模型和應用產品。
Sora的突破可以概括為以下幾點:
? 從生成效果看,突破此前視頻生成模型的時長限制,能夠生成60s時長、分辨率1080p的視頻,可用性極高。
? 從技術路線看,依舊遵從LLM范式“大力出奇跡”,通過patches向量化與transformer架構結合,使得訓練數據能夠使用大小、尺寸、分辨率不同的視頻,能夠讓模型學習到視頻的規律乃至世界的規律;使用GPT生成prompt,在訓練和推理過程中解決了模態之間的對齊問題,大大提升了生成效果。
? 從產業發展看,Sora通用性極強,有望統一視頻生成生態;能夠進一步賦能與促進下游應用發展,未來有望成為真正的“世界模擬器” 。
Sora的誕生無異是產業的里程碑,以其為代表的“多模型協同”方式是接近AGI的可行道路。與Gemini這樣的多模態模型不同,Sora的核心能力依舊在視頻生成領域,且在推理時需要調用GPT的能力重述prompt。這種方式可能不如Gemini符合直覺,但效果非常顯著,大大加速了產業走向AGI的過程。
Sora代表LLM的通用和涌現范式在視頻領域的成功復現,因此算力依舊是模型與應用廠商布局的關鍵。通過巧妙的patches嵌入方法,Sora能夠運用高效的Transformer架構在海量的視頻上進行訓練,因此也涌現了模擬現實世界的能力。在其他技術路徑的模型獲得更好的效果之前,這種“大力出奇跡”的訓練方式將依舊是產業的主流,算力需求將持續迎來更大的爆發。
Sora可能成為視頻生成領域的Base Model,模型層的競爭格局可能走向收斂。相比其他輕應用,Sora的生成時長更長、質量更高,能夠完全替代這些輕應用。因此在多數場景下,Sora都能取代其他的生成模型和應用,最終使視頻模型格局走向收斂。
-
模型
+關注
關注
1文章
3004瀏覽量
48232 -
GPT
+關注
關注
0文章
342瀏覽量
15152 -
Sora
+關注
關注
0文章
75瀏覽量
170
原文標題:復盤與分析:Sora是如何成功的?
文章出處:【微信號:架構師技術聯盟,微信公眾號:架構師技術聯盟】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論