電子發燒友網報道(文/周凱揚)自文本與圖片類的AIGC爆火以來,幾乎所有互聯網公司和應用開發商都在跟進。然而近期隨著Sora的爆火,決定開發同類應用的廠商卻少之又少,這就不得不談到硬件成本的問題,畢竟一個能夠實現文生視頻的應用,服務器成本要遠遠高于GPT類應用。
從文生視頻模型的配置談硬件成本
對于目前市面上的一些文生視頻模型而言,其配置往往決定了體驗的好壞。就拿Runway的Gen-2模型來說,其最大的特點在于可以生成4K級別分辨率的視頻,且具備影視級別的構圖和運鏡,支持圖片和文本的指令輸入。
然后是最近一炮走紅的Sora,其將最大時長做到了1分鐘,且支持符合部分物理規律的世界模型,以及多鏡頭的切換等。不過與Gen-2模型一樣,其對分辨率也進行了限制,甚至只能生成1080p的視頻。
其他文生視頻模型的配置則更加捉襟見肘,比如Meta的Emu Video只能生成最長4秒的512x512分辨率視頻等等。從以上文生視頻模型看來,由于為了確保畫面一致性,視頻分辨率、視頻長度和每秒幀數往往決定了生成單個視頻的硬件負載。目前對于硬件要求最高的應該是Runway的Gen-2和OpenAI的Sora。
這也是為何文生視頻應用均采用訂閱模式,甚至是按量訂閱的付費策略,比如生成視頻的項目數量、存儲空間、導出質量等,文生視頻考驗的不僅是服務器算力,還有存儲成本。畢竟為了方便用戶回溯,這些生成的視頻依然需要存儲在服務器上一段時間。
就以Runway為例,要想完全無限制地生成視頻功能,每月訂閱費用高達76美元,且這僅僅意味著450s的Gen-2視頻生成,如果用戶需要生成更多內容,則還需要額外購買。可見為了維持服務器費用,文生視頻應用面臨的成本壓力要遠大于GPT類應用。
不只是云端,硬件成本也決定了本地部署的難度
從ChatGPT和Stable Diffusion這兩個最火的AIGC應用就可以看出,硬件是開發這類應用的最大門檻之一。基于低成本硬件打造的類ChatGPT應用響應時間慢,生成內容質量差。而Stable Diffusion這類文生圖模型,已經可以在消費級硬件上實現不錯的效果,甚至可以普及到一些低功耗的端側設備上。
但對于Sora這類文生視頻的模型而言,要想在消費級實現本地部署可謂是難于登天,在完成內容的基本生成工作后,還需要經歷風格化、分鏡、遮罩、渲染和自定義等一系列流程,可以說不僅考驗硬件的AI算力,也對視頻渲染能力提出了更高的要求。
據了解,一批開源開發者已經在構建OpenAI Sora的復制版本,且可以在使用消費級英偉達GPU的高配電腦上跑通。不過馬斯克也評論道,他也認為這是可行的,但是幀渲染速率會非常低。如果需要花上數小時,才能生成出一個質量較差的4秒視頻,對于絕大多數用戶來說,必然不是好的體驗。
寫在最后
要論硬件成本的話,對于應用開發者和用戶而言,文生視頻目前還是一個較為昂貴的“玩具”。但我們也不能否認其前景,隨著算力成本逐漸下降,未來文生視頻不僅可以作為內容創作途徑,也可以作為輔助工具,替代掉一部分重復性工作,尤其是在廣告視頻行業。
不過這類應用的出現,也會讓我們開始重新審視起GPU在AIGC硬件市場的地位,畢竟多出了圖形渲染這一額外的硬件要求,其他的ASIC方案在這方面固然會遜色GPU一籌。再加上英偉達GPU在物理仿真上的優勢,或許文生視頻會給英偉達帶來更多的市場機遇。
-
AI
+關注
關注
87文章
30106瀏覽量
268399 -
AIGC
+關注
關注
1文章
356瀏覽量
1508 -
大模型
+關注
關注
2文章
2322瀏覽量
2479 -
Sora
+關注
關注
0文章
76瀏覽量
190
發布評論請先 登錄
相關推薦
評論