在ITF World 2023半導體大會上,黃仁勛表示,人工智能的下一個浪潮將是具身智能(embodied AI),即能理解、推理、并與物理世界互動的智能系統。
同時,他也介紹了英偉達的多模態具身智能系統Nvidia VIMA,其能在視覺文本提示的指導下,執行復雜任務、獲取概念、理解邊界、甚至模擬物理學,這也標志著AI能力的一大顯著進步。
而在今年3月,谷歌聯合柏林工業大學團隊發布PaLM-E,這是一種多模態具身視覺語言模型,也是史上最大的“通才”AI模型,其不僅可以理解圖像,還能理解、生成語言,可執行各種復雜的機器人指令而無需重新訓練,且表現出很好的遷移能力。
具身智能是智能科學的一個基礎問題,也是一個大難題。而AIGC為具身智能的實現提供了新思路。
1950 年,圖靈在他的論文——《Computing Machinery and Intelligence》中首次提出了具身智能的概念。在之后的幾十年里,囿于技術問題,具身智能并沒有取得很大的進展。
正如斯坦福大學計算機科學教授李飛飛所說,“具身的含義不是身體本身,而是與環境交互以及在環境中做事的整體需求和功能。”
與人、與環境的交互,是具身智能機器人形成對于客觀世界的理解和改造能力的第一步,這方面,最直接的障礙在于,人們嚴重依賴手寫代碼來控制機器人,人類與人工智能面前,“巴別塔”高筑。
而進入AIGC時代,GPT等AI大模型提供了新的解決方案,已有不少研究者嘗試將多模態的大語言模型作為人類與機器人溝通的橋梁。即通過將圖像、文字、具身數據聯合訓練,并引入多模態輸入,增強模型對現實中對象的理解,幫助機器人處理具身推理任務。
具身智能是什么?
具身智能簡單來說就是AI的大腦加上軀體。它能夠跟我們生活的環境進行交互,從而展現出智能行為。
而具身智能為什么被看作AI的iPhone時刻?
原來的人工智能可以看作第三人稱的智能,也就是投喂數據給機器,讓它學習什么它就學習什么。而現在具身智創造了一種機器自主學習的新方式,能夠以第一人稱的視角來感知和學習物理世界,并像人類一樣理解和感知事物的能力,才能在此基礎上進行相同思維的發展,最后表現出人類期待的行為方式。
Windows為何能統治操作系統,iPhone為何創造智能手機時代,最重要的原因就是他們創造了最簡單、最直觀的人機交互窗口。
發展人工智能的意義在于能夠讓機器造福人類,協助處理事務,提高生產力;更進一步則是讓AI進行創造,推動科學研究的進展。而這一切的前提是:要讓機器理解人類社會,要做到這一點,需要的就是具身智能。
具身智能的硬實力包括:機器視覺和多模態大模型。
具身智能是指通過身體和環境的相互作用來實現智能行為的能力。傳統上,智能主要關注于基于符號和算法的符號推理和計算,而具身智能強調了身體感知、運動和與環境互動的重要性。
具身智能認為智能不僅僅是大腦內部的思考和計算過程,還涉及到與外部環境的交互。通過感知環境、運動控制和與環境的實時交互,智能體能夠適應和應對復雜的情境和任務。
具身智能在機器人學、人工智能和認知科學等領域得到廣泛應用。通過賦予機器人身體感知和運動能力,使其能夠更好地理解環境、與環境進行交互,并通過實際操作來學習和解決問題。具身智能的研究旨在使機器具備更接近人類的智能表現,能夠更自然、靈活地適應各種環境和任務要求。
具身智能和人工智能有什么區別
具身智能和人工智能是兩個相關但不完全相同的概念。
人工智能是指通過計算機系統模擬和實現人類智能的能力。它涵蓋了各種技術和方法,包括符號推理、機器學習、深度學習等,旨在讓計算機能夠感知、理解、學習和決策,以完成各種任務。
具身智能強調了智能與身體和環境的互動關系。它認為智能不僅僅局限于思考和計算的過程,還涉及到通過身體感知、運動和與環境互動來實現智能行為的能力。具身智能關注于將智能與實際物理世界結合起來,使機器能夠通過感知和運動與環境進行實時交互,從而更好地適應和解決復雜任務。
總的來說,人工智能更側重于模擬和實現人類智能的各種算法和技術,而具身智能則更關注于將智能與身體、感知和環境互動結合起來,以實現更真實、自然和靈活的智能表現。具身智能可以看作是人工智能的一種延伸,通過引入身體感知和運動能力,使智能系統更接近人類的交互方式和行為方式。
機器視覺是AI的感知工具,亦為數據生產的手段。在人類的五大感官中視覺獲取的信息占比超過 80%。
機器視覺的端口是攝像頭,作為看懂世界的“眼睛”;機器視覺的大腦是算法,承擔分析功能。
什么是AICG
AIGC(Artificial Intelligence in Games and Computation)是人工智能技術在游戲和計算領域的應用。隨著人工智能技術的不斷發展,AIGC已成為一個重要的學科,它的發展將有助于提高游戲和計算系統的效率和智能性。本文將介紹AIGC的基本概念、技術實現、優勢與不足、潛在問題以及未來發展方向,并結合一些比較熱門的AIGC相關模型、產品或者應用,深入探討AIGC技術的應用價值。
一、AIGC的基本概念
AIGC是指利用人工智能技術來開發更具智能性的游戲和計算系統的學科。AIGC的工作原理是利用人工智能技術,如機器學習、計算機視覺、自然語言處理等,來開發具有智能性的游戲和計算系統。AIGC的應用領域包括游戲開發、數據分析、計算機圖形學、自動控制等。通過使用AIGC技術,我們可以開發出具有自主學習能力的游戲和計算系統,使它們能夠根據環境的變化自動調整策略,從而提高效率。
近年來,隨著AIGC技術的不斷發展,一些熱門的AIGC相關模型、產品或者應用也逐漸嶄露頭角。例如:
AlphaGo:由DeepMind公司開發的圍棋人工智能程序,使用了深度學習和強化學習等AIGC技術,在2016年擊敗了人類頂尖的圍棋選手李世石,引起全球關注。此后,AlphaGo又以不同的版本繼續刷新人工智能的歷史。在2017年,AlphaGo Zero和AlphaGo Master分別以100:0和60:0的比分戰勝了之前的AlphaGo版本,并在同年與世界第一的圍棋選手柯潔進行了三局對決,結果是AlphaGo Master以3:0完勝柯潔。在2018年,DeepMind公司推出了更先進的AlphaZero程序,它不僅可以玩圍棋,還可以玩國際象棋和西洋跳棋,并在自我對弈中超越了所有人類或機器所創造的棋類程序。
OpenAI Five:由OpenAI公司開發的Dota 2人工智能團隊,使用了深度學習、強化學習等AIGC技術,2019年成功地戰勝了世界頂尖的Dota 2戰隊OG,展示了AIGC技術在實際應用中的強大能力。此后,OpenAI Five又以OpenAI Dota 2 as a Service (DAAS) 的形式向公眾開放,讓任何人都可以和它對戰或者觀看它的比賽。同時,OpenAI公司也在不斷推出更多基于自然語言生成技術NLG的AIGC產品,例如OpenAI Codex和OpenAI DALL-E。OpenAI Codex是一個可以根據自然語言描述生成代碼的程序,它可以幫助開發者快速編寫各種應用。OpenAI DALL-E是一個可以根據自然語言描述生成圖像的程序,它可以創造出各種有趣和驚奇的圖像。
Unity Machine Learning Agents:由Unity Technologies公司推出的人工智能工具包,用于開發具有智能性的游戲和虛擬環境。該工具包使用了深度學習、強化學習等AIGC技術,使游戲和虛擬環境具有自主學習和決策能力。(這個例子可以替換為更新更廣泛的AIGC相關產品或應用,例如ChatGPT、Stable Diffusion、Synthesia等。)
除了Unity Machine Learning Agents,還有許多其他的AIGC相關產品或應用,它們都展示了生成式技術在不同領域的創造力和潛力。
ChatGPT:由OpenAI公司開發的基于自然語言生成技術NLG的人工智能聊天平臺,它可以根據用戶的輸入和上下文生成流暢、有趣和合理的對話。ChatGPT不僅可以用于娛樂、教育和社交目的,還可以用于協作創作,例如生成Stable Diffusion等圖像生成平臺所需的描述詞12。
Stable Diffusion:由Midjourney公司開發的基于深度學習和強化學習等AIGC技術的圖像生成平臺,它可以根據用戶提供的文字提示和風格類型,以及用戶對中間結果的反饋,生成獨特、高質量和逼真的圖像。Stable Diffusion不僅可以用于藝術創作34,還可以用于游戲開發、廣告設計等領域。
Synthesia:由Synthesia公司開發的基于深度學習和強化學習等AIGC技術的視頻合成平臺,它可以根據用戶提供的文字或音頻輸入,以及用戶選擇或上傳的人物形象,生成逼真、同步和定制化的視頻。Synthesia不僅可以用于娛樂、教育和社交目的5,還可以用于商業演示、培訓視頻等領域。 這些AIGC產品或應用都是利用了生成式技術來實現內容創造,并且都具有高度互動性和可定制性。它們為用戶提供了更多選擇、更多靈感和更多可能性。
這些AIGC模型、產品或者應用不僅引領了AIGC技術的發展方向,也展示了AIGC技術在游戲、計算和內容生成領域的廣泛應用前景。
二、AIGC的技術實現
AIGC技術的實現涉及多個方面,包括機器學習、計算機視覺、自然語言處理、優化算法等。下面將對其中幾個主要技術進行簡要介紹。
機器學習
機器學習是AIGC技術的核心之一。它是一種通過數據訓練模型來實現自主學習和智能決策的方法。在AIGC中,機器學習可以被用于創建智能代理,例如游戲角色、機器人等,使它們能夠根據不同的游戲狀態和用戶輸入自動地進行決策和行動。機器學習的主要方法包括監督學習、無監督學習、半監督學習和強化學習。
計算機視覺
計算機視覺是另一個重要的AIGC技術。它可以使計算機理解和解釋視覺信息,例如圖像和視頻。在AIGC中,計算機視覺可以被用于游戲中的自適應圖形、虛擬現實和增強現實等方面,以及對玩家的行為進行跟蹤和分析。計算機視覺的主要方法包括特征提取、圖像分類、目標檢測和語義分割。
自然語言處理
自然語言處理是另一個重要的AIGC技術。它使計算機能夠理解和生成自然語言。在AIGC中,自然語言處理可以被用于游戲中的對話系統、自動生成任務和劇情等方面,以及對玩家輸入的語言進行分析和處理。自然語言處理的主要方法包括語音識別、文本分類、情感分析和文本生成。
優化算法
優化算法是AIGC技術中的重要組成部分。它可以使計算機自動優化策略和行動,從而提高游戲和計算系統的效率和性能。在AIGC中,優化算法可以被用于解決強化學習中的探索與利用、高維狀態空間等問題,以及在數據分析和決策中進行優化和搜索。優化算法的主要方法包括遺傳算法、粒子群算法、蟻群算法和模擬退火算法。
除了上述主要技術之外,AIGC技術還涉及多個其他技術和工具,例如神經網絡、深度學習、強化學習等。這些技術和工具相互配合,構成了AIGC技術的核心框,使得游。
三、AIGC的優勢與不足
AIGC技術的優勢不僅在于提高游戲和計算系統的效率和智能性,而且還能夠為用戶提供更好的游戲體驗和服務。AIGC技術能夠為游戲和計算系統帶來更好的互動性和可用性,讓用戶可以享受到更加個性化和智能化的游戲和計算服務。此外,AIGC技術還具有自主學習和自我優化的能力,使得游戲和計算系統能夠不斷提高其智能性和效率,提供更好的用戶體驗。
當然,AIGC技術也存在一些不足之處。一方面,技術問題是一個比較突出的問題,如精度不高、效率不高等。雖然AIGC技術在算法和模型的研發方面取得了很大進展,但是在實際應用過程中,還存在一些技術問題和難題需要解決。另一方面,AIGC技術的實現難度也比較高,需要具備相關的技術知識和專業能力。同時,AIGC技術在應用過程中也存在一些安全問題,如數據泄露、惡意攻擊等,需要得到重視和解決。
因此,為了發揮AIGC技術的優勢和避免其不足之處,我們需要不斷加強技術創新和應用實踐,提高AIGC技術的精度和效率,降低AIGC技術的實現難度,同時也加強AIGC技術的安全性和可靠性。這需要技術人員、學者、政策制定者和產業界共同合作,制定出相應的技術政策和法規,推進AIGC技術的健康發展,為我們提供更加智能、高效、安全的游戲和計算系統。
四、AIGC的潛在問題
除了技術問題和安全問題外,AIGC技術的普及也可能對社會產生一些潛在影響,如勞動力市場的變化、社會秩序的變化等。
首先,AIGC技術的普及可能導致一些崗位的消失,特別是那些需要重復性工作的崗位。例如,自動化的制造流程可能導致工廠工人的數量減少。雖然AIGC技術的發展也將創造新的就業機會,如AIGC軟件開發人員等,但是需要關注的是是否會出現技能不匹配的問題。
其次,AIGC技術的廣泛應用也可能導致社會秩序的變化。例如,使用AIGC技術的自動化決策系統可能會對人類的生活方式產生影響,使人們更加依賴機器決策而非個人判斷。此外,AIGC技術可能還會影響人類的社交互動模式,例如自動回復系統可能會取代人類的互動。
最后,AIGC技術如果濫用,也可能對人類造成潛在威脅,如信息操縱、數據泄露等。例如,虛假信息可能會被AIGC技術擴散得更快,從而引起社會恐慌。此外,AIGC技術也可能被黑客利用來攻擊其他系統,從而造成安全風險。
這些問題需要得到重視,我們需要制定相應的技術政策和法規,以確保AIGC技術的健康發展,同時避免對人類造成不必要的負面影響。
什么是AIGC?AIGC是指通過人工智能來生成內容的方式。
從互聯網過往發展的歷史來看,創作門檻的降低,釋放了內容創造力。我們此前經歷的互聯網時代被稱作Web1.0和Web2.0。在Web1.時代內容的生產方式主要是由專家、專業人士生成(PGC),信息單向傳遞,內容生成數量少;隨著人們對內容需求的不斷增加,我們逐漸來到了Web2.0時代,內容主要由用戶生成(UGC),比如我們在使用的抖音、快手、B、微博、小紅書、等興起等都有大量的內容是用戶自己創作的。
隨著時代繼續發展,用戶對內容消費的需求繼續增長,UGC、PGC這樣的內容生成方式也將難以滿足需求增速,我們將邁入Web3.0時代,由人工智能生成內容(AIGC)。AIGC(人工智能生成內容)將是新的元宇內容生成解決方案,是元宇宙的新方向。
1)AIGC+傳媒:寫稿機器人、采訪助手、視頻字幕生成、語音播報、視頻錦集、人工智能合成主播
2)AIGC+電商:商品3D模型、虛擬主播、虛擬貨場
3)AIGC+影視:AI劇本創作、AI合成人臉和聲音、AI創作角色和場景、AI自動生成影視預告片
4)AIGC+娛樂:AI換臉應用(如FaceAPP、ZAO)、AI作曲(如初音未來虛擬歌姬)、AI合成音視頻動畫
5)AIGC+教育:AI合成虛擬教師、AI根據課本制作歷史人物形象、AI將2D課本轉換為3D
6)AIGC+金融:通過AIGC實現金融資訊、產品介紹視頻內容的自動化生產,通過AIGC塑造虛擬數字人客服
7)AIGC+醫療;AIGC為失聲者合成語言音頻、為殘疾人合成肢體投影、為心理疾病患者合成醫護陪伴
8)AIGC+工業:通過AIGC完成工程設計中重復的低層次任務,通過AIGC生成衍生設計,為工程師提供靈感
AIGC構建發展“加速度”
AIGC是利用人工智能技術來生成內容。2021年之前,AIGC生成的主要還是文字,而新一代模型可以處理的格式內容包括:文字、語音、代碼、圖像、視頻、機器人動作等等。AIGC被認為是繼專業生產內容(PGC,professional-generated content)、用戶生產內容(UGC,User-generated content)之后的新型內容創作方式,可以在創意、表現力、迭代、傳播、個性化等方面,充分發揮技術優勢。2022年AIGC發展速度驚人,年初還處于技藝生疏階段,幾個月之后就達到專業級別,足以以假亂真。這讓花費畢生所學進行創作的從業人員倍感焦慮和緊張。同時,AIGC的迭代速度呈現指數級爆發,這其中深度學習模型不斷完善、開源模式的推動、大模型探索商業化的可能,成為AIGC發展的“加速度”。
(一)深度學習模型是AIGC加速普及的基礎
視覺信息一直在網絡中有較強的傳播力且容易被大眾感知,具有跨平臺、跨領域、跨人群的優勢,天然容易被人記憶和理解。同時視覺信息應用場景廣泛,因此生成高質量的圖像成為當前AI領域的一個現象級功能。
2021年,OpenAI團隊將跨模態深度學習模型CLIP(Contrastive Language-Image Pre-Training,以下簡稱“CLIP”)進行開源。CLIP模型能夠將文字和圖像進行關聯,比如將文字“狗”和狗的圖像進行關聯,并且關聯的特征非常豐富。因此,CLIP模型具備兩個優勢:一方面同時進行自然語言理解和計算機視覺分析,實現圖像和文本匹配。另一方面為了有足夠多標記好的“文本-圖像”進行訓練,CLIP模型廣泛利用互聯網上的圖片,這些圖片一般都帶有各種文本描述,成為CLIP天然的訓練樣本。據統計,CLIP模型搜集了網絡上超過40億個“文本-圖像”訓練數據,這為后續AIGC尤其是輸入文本生成圖像/視頻應用的落地奠定了基礎。
“對抗生成網絡”GAN(Generative Adverserial Network, 以下簡稱“GAN”)雖然也是很多AIGC的基礎框架,但是GAN有三個不足:一是對輸出結果的控制力較弱,容易產生隨機圖像;二是生成的圖像分別率較低;三是由于GAN需要用判別器來判斷生產的圖像是否與其他圖像屬于同一類別,這就導致生成的圖像是對現有作品的模仿,而非創新。因此依托GAN模型難以創作出新圖像,也不能通過文字提示生成新圖像。
隨后出現的Diffusion擴散化模型,則真正讓文本生成圖像的AIGC應用為大眾所熟知,也是2022年下半年Stable Diffusion應用的重要推手。Diffusion模型有兩個特點:一方面,給圖像增加高斯噪聲,通過破壞訓練數據來學習,然后找出如何逆轉這種噪聲過程以恢復原始圖像。經過訓練,該模型可以從隨機輸入中合成新的數據。另一方面,Stable Diffusion把模型的計算空間從像素空間經過數學變換,降維到一個可能性空間(Latent Space)的低維空間里,這一轉化大幅降低了計算量和計算時間,使得模型訓練效率大大提高。這算法模式的創新直接推動了AIGC技術的突破性進展。
總的來看,AIGC在2022年實現破圈,主要是在深度學習模型方面有了長足進步:首先CLIP模型基于海量互聯網圖片進行訓練,推動AI繪畫模型進行組合創新;其次Diffusion擴散化模型實現算法創新;最后使用潛空間降維的方法來降低Diffusion模型在內存和時間消耗較大的問題。因此,AIGC繪畫之所以能夠幫助大眾畫出各種天馬行空的畫作,背后離不開大量深度學習模型的不斷完善。
(二) “開源模式”成為AIGC發展催化劑
在算法模型方面,AIGC的發展離不開開源模式的推動。以深度學習模型CLIP為例,開源模式加速CLIP模型的廣泛應用,使之成為當前最為先進的圖像分類人工智能,并讓更多機器學習從業人員將CLIP模型嫁接到其他AI應用。同時,當前AIGC繪畫最熱門的應用Stable Diffusion已經正式開源(包括模型權重和代碼),這意味著任何用戶都可以以此建立針對特定文本到圖像的創作任務應。Stable Diffusion的開源直接引發2022年下半年AIGC引發廣泛關注,短短幾個月時間內出現大量二次開發,從模型優化到應用拓展,大幅降低用戶使用AIGC進行創作的門檻,提升創作效率,并長期長期霸占GitHub熱榜第一名。
在訓練數據集方面,機器學習離不開大量數據學習,LAION作為全球非盈利機器學習研究機構,在2022年3月開放了當前規模最大的開源跨模態數據庫LAION-5B,使得近60億個“文本-圖像”對可以用來訓練,從而進一步加快AI圖像生成模型的成熟,幫助研究人員加快推動從文字到圖像的生成模型。正是CLIP和LAION的開源模式構建起當前AI圖像生成應用的核心。未來,隨著模型穩定,開源將成為AIGC成熟的催化劑,源模式有望讓相關模型成為海量應用、網絡和服務的基礎,應用層面的創造力有望迎來拐點。
AIGC為創作領域帶來的效率與模式的創新
(一) AIGC工具屬性有助于效率提升
在捕捉靈感方面,AIGC可以幫助有經驗的創作者捕捉靈感,創新互動形式。例如在游戲行業,制作人靈感往往難以準確表達,與美術工作人員經常由于溝通產生理解誤差。通過AIGC系統可以在設計初期,生成大量草圖,在此基礎上制作人與美術人員可以更好的理解并確認彼此的需求。同時,創作靈感難以琢磨,可以提前通過AIGC來尋找“感覺”,進一步降低美術創作者大量前期工作和項目成本。例如,制作人先構建完整的背景故事后,由AIGC生成系列畫作,之后再由專業的美術人員進行篩選、處理、整合,并將整個故事和畫面進一步完善提升。
在提升效率方面,AIGC的出現將會讓創作者擁有一個更加高效的智能創作工具,在內容創作環節進行優化,而非成為競爭對手。例如在極短的項目籌備時間內,AIGC可以大幅提升效率,驗證了AI投入到工業化使用的可行性。尤其是對于藝術、影視、廣告、游戲、編程等創意行業的從業者來說,可以輔助從業者進行日常工作,并有望創造出更多驚艷的作品。同時,還可以進一步降低成本和效率,為規模化生產構建市場增量。
(二) AIGC構建創意與實現的分離
在創意構思方面,AIGC構建了新的創意完善通路,傳統的創作過程中消化、理解以及重復性工作將有望交由AIGC來完成,最終創意過程將變為“創意-AI-創意”的模式。
在創意實現方面,創作者和AIGC的關系類似于攝影師和照相機。攝影師構建拍攝思路并進行規劃,對相機進行參數配置,但是不用了解相機的工作機制,一鍵生成高質量的內容。同樣的,創作者構思并進行規劃,對AI模型進行參數配置,不需要了解模型的原理,直接點擊輸出內容即可。創意和實現呈現出分離狀態,實現過程變為一種可重復勞動,可以由AIGC來完成,并逐步將成本推向趨近于0。
(三) AIGC給創作者獲得更多收益帶來思路創新
創作者的成果是AIGC學習的對象,但創作者的創意才是關鍵,創意本身比AIGC生成的繪畫更有價值,因此如何將創作者的“創意”進行量化,甚至定價,將有助于打造AIGC的商業模式。這其中“注意力機制”將成為AIGC潛在的量化載體。例如國內有機構專家提出,可以通過計算輸入文本中關鍵詞影響的繪畫面積和強度,我們就可以量化各個關鍵詞的貢獻度。之后根據一次生成費用與藝術家貢獻比例,就可以得到創作者生成的價值。最后在與平臺按比例分成,就是創作者理論上因貢獻創意產生的收益。
例如某AIGC平臺一周內生成數十萬張作品,涉及這位創作者關鍵詞的作品有30000張,平均每張貢獻度為0.3,每張AIGC繪畫成本為0.5元,平臺分成30%,那么這位創作者本周在該平臺的收益為:30000*0.3*0.5*(1-30%)=3150元的收益,未來參與建立AI數據集將有望成為藝術家的新增收益。
(四) 從“大模型”到“大應用”,探索可行商業模式
基于深度學習算法數據越多,模型魯棒性越強的特點,當前的大模型規模只增不減,比拼規模已經成為標配。例如,Open AI推出的GPT-3參數已經超過1750億個。但“數據投喂”并非一種技術路徑上的創新,更多的是在工程領域的微調。需要指出的是,模型規模越大,其實越難以在現實場景中落地部署。同時“海量數據”并不等同于“海量高質量數據”,有可能會導致反向效果產生。
AIGC的發展離不開預訓練大模型的不斷精進。大模型雖然在很多領域都表現出良好的使用效果,但是這些效果作為展示甚至噱頭之后,很難形成良性的商業價值,與大模型的訓練成本、基礎設施投入更是相差甚遠。如何推動“大模型”向“大應用”來轉變,正在成為關鍵的考驗。AIGC的破圈以及引發的關注,可以看到大模型商業化的潛力正在清晰化:一方面大模型企業可以根據C端用戶實際“按需提供服務”和商業轉化;另一方面帶動對云計算、云存儲的使用量上升。將AIGC從“嘗鮮試試看”變成大眾頻繁使用的需求,再到與具體行業和領域深度結合,依托我國豐富的產業需求和應用場景,有望為大模型商業化和長期價值探索一條新路徑。
AIGC發展面臨的挑戰
Gartner預計,到2025年,生成式人工智能將占所有生成數據的10%。根據《Generative AI :A Creative New World》的分析,AIGC有潛力產生數萬億美元的經濟價值。AIGC在引發全球關注的同時,知識產權、技術倫理將面臨諸多挑戰和風險。同時AIGC距離通用人工智能還有較大的差距。
(一) AIGC引發“創造力”歸屬爭論
傳統印象中,人工智能在創造性工作領域與人類還無法進行競爭,主要擅長的是計算、挖掘,聚焦在海量數據分析領域。人類更擅長的是創新,例如詩詞、設計、編程等需要創造性的事物上。與AI下棋相比,AI進行繪畫創作給大眾帶來的沖擊更為明顯:棋類游戲具有明確的規則和定義,不需要AI具備創造性,但AIGC尤其是輸入文字就能進行繪畫、視頻,讓沒有相關專業能力的人也可以制作出以假亂真的專業級別作品,則引發人們對自身引以為傲的“創造力”擔憂。AI不會替代創作者,但是可能會替代不會AI工具的創作者。
(二) 知識產權引發創作者擔憂
由于算法模型的進一步完善和成本快速下降,AIGC大規模商業化成為現實,過去遙不可及的專業能力已經具備從實驗室飛入尋常百姓家的可能。與此同時,AIGC的飛速發展和商業化應用,除了對創作者造成沖擊外,也對大量依靠版權為主要營收的企業帶來沖擊。具體來看:
一方面,AIGC難以被稱為“作者”。根據我國《著作權法》的規定,作者只能是自然人、法人或非法人組織,很顯然AIGC不是被法律所認可的權利主體,因此不能成為著作權的主體。但AIGC應用對生成的圖片版權問題持有不同觀點,圖片屬于平臺、完全開源還是生成者,目前尚未形成統一意見。
另一方面,AIGC產生的“作品”尚存爭議。根據我國《著作權法》和《著作權法實施條例》的規定,作品是指文學、藝術和科學領域內具有獨創性并能以某種有形形式復制的智力成果。AIGC的作品具有較強的隨機性和算法主導性,能夠準確證明AIGC作品侵權的可能性較低。同時,AIGC是否具有獨創性目前難以一概而論,個案差異較大。
由于創作者每次新的創作都在無形中對AIGC進行免費培訓,這讓眾多版權機構產生巨大擔憂。目前已經有大量藝術家和創作者宣布禁止AI學習自己的作品,從而保護自身知識產權。Getty Images、Newgrounds等網站也紛紛宣布禁止上傳和銷售AIGC作品。
(三) 距離通用人工智能還有較大差距
當前熱門的AIGC系統雖然能夠快速生成圖像,但是這些系統是否能夠真正理解繪畫的含義,從而能夠根據這些含義進行推力并決策,仍是未知數。
一方面,AIGC系統對輸入的文本和產生的圖像不能完全關聯起來。例如,用戶對AIGC系統進行測試,輸入“騎著馬的宇航員”和“騎著宇航員的馬”內容時,相關AIGC系統難以準確生成對應的圖像。因此,當前的AIGC系統還并沒有深刻理解輸入文本和輸出圖像之間的關系。另一方面,AIGC系統難以了解生成圖像背后的世界。了解圖像背后的世界,是判斷AIGC是否具備通用人工智能的關鍵。目前來看,AIGC系統還難以達到相關的要求。比如,在Stable Diffusion 輸入“畫一個人,并把拿東西的部分變成紫色”,在接下來的九次測試過程中,只有一次成功完成,但準確性還不高。顯然,Stable Diffusion 并不理解人的雙手是什么。
知名AI專家發出的調查也印證了同樣的觀點,有86.1%的人認為當前的AIGC系統對世界理解的并不多。持相同觀點的人還包括Stable Diffusion的首席執行官。
(四) 創作倫理問題尚未有效解決
部分開源的AIGC項目,對生成的圖像監管程度較低。一方面,部分數據集系統利用私人用戶照片進行AI訓練,侵權人像圖片進行訓練的現象屢禁不止。這些數據集正式AIGC等圖片生成模型的訓練集之一。例如,部分數據集在網絡上抓取了大量病人就醫照片進行訓練,且沒有做任何打碼模糊處理,對用戶隱私保護堪憂。另一方面,一些用戶利用AIGC生成虛假名人照片等違禁圖片,甚至會制作出暴力和性有關的畫作,LAION-5B數據庫包含色情、種族、惡意等內容,目前海外已經出現基于Stable Diffusion模型的色情圖片生成網站。
由于AI本身還不具備價值判斷能力,為此一些平臺已經開始進行倫理方面的限制和干預。例如DALL·E2已經開始加強干預,減少性別偏見的產生、防止訓練模型生成逼真的個人面孔等。但相關法律法規的空白和AIGC應用研發者本身的不重視將引發對AI創作倫理的擔憂。
AIGC的未來發展
AIGC技術的未來發展前景廣闊,隨著人工智能技術的不斷發展,AIGC技術也將不斷提高。未來,AIGC技術將在游戲和計算領域得到更廣泛的應用,使游戲和計算系統具有更高效、更智能、更靈活的特性。同時,AIGC技術也將與人工智能技術緊密結合,在更多的領域得到廣泛應用。
AIGC技術是一個非常重要的人工智能技術,其核心技術包括機器學習、計算機視覺、自然語言處理等多個方面。AIGC技術的應用領域非常廣泛,包括游戲開發、數據分析、計算機圖形學、自動控制等多個領域。雖然AIGC技術具有很多優勢,但也存在一些技術問題和潛在問題,需要得到重視和解決。
AIGC技術將繼續得到提高,同時也將與人工智能技術緊密結合,在更多的領域得到廣泛應用。我們需要制定相應的技術政策和法規,以確保AIGC技術的健康發展,為我們提供更加智能、高效、靈活的游戲和計算系統,同時也為人類社會的發展提供重要的技術支持。
未來AI領域將是“具身智能”的天下
具身智能翻譯于英文embodied AI,字面意思就是具有身體的人工智能。簡單點說,就是能理解、推理、并與物理世界互動的智能系統。而搭載具身智能技術的“智能體”則具備自主決策和行動能力的機器智能,它可以像人類一樣感知和理解環境,通過自主學習和適應性行為來完成任務。
谷歌“史上最大‘通才’AI模型”能引起業內轟動——它無需預先處理的場景,因此也不用人類對相關數據進行預處理或注釋。只需要一句簡單的指令,便可實現更為自主的機器人控制。更重要的是,PaLM-E生成的行動計劃還具有“彈性”,即可對周圍環境變化作出相應反應。
實現通用人工智能是行業的一大愿景。但人工智能中集成了太多概念,其中一些概念難以被測量或驗證。而正如上海交通大學教授盧策吾所說的那樣,雖然人工智能能給你輸出一個表征,但很難檢驗它們是否真的理解了這些概念。“所以我們可以先在一些可驗證、可測量的概念上面做出個閉環。而具身智能剛好是這樣一個閉環,這樣的具身智能可能是邁向通用智能的一個很好的起點,因為它可測量、可解釋、可檢驗。”
具身智能指的是智能體通過與環境產生交互后,通過自身的學習,產生對于客觀世界的理解和改造能力。
換言之,一個具身智能機器人需要:首先聽懂人類語言,之后分解任務、規劃子任務,移動中識別物體,與環境交互,最終完成相應任務。
若想要實現具身智能,離不開多個學科的交叉互助:
1)機器人學為具身智能提供機械身體和基本運動控制;
2)深度學習中的神經網絡是具身智能中主要工具;
3)強化學習是具身智能機器人的主要學習手段之一;
4)機器視覺給具身智能提供了處理視覺信號的能力;
5)計算機圖形學開發的物理仿真環境為具身智能提供了真實物理世界的替代;
6)自然語言給具身智能帶來了與人類交流、從自然文本中學習的可能;
7)認知科學進一步幫助具身智能體理解人類、構建認知和價值。
就目前的發展趨勢來看,可以說,未來,人工智能領域將是“具身智能”的天下,就是要創建軟硬件結合的智能體。它能夠像“生命體”一樣,既可通過與環境的互動學習不斷進化,也可通過“遺傳”把進化成果遺傳給下一代,從而進化成越來越高級的智能體。
如今,隨著一套新的虛擬世界的建立和運行,具身智能體已經開始發揮這種潛力,在他們的新環境中取得了重大進展。不過,從人工智能到具身智能,未來還要有很長的路要走。但是毫無疑問,這也是人類科技的必由之路,期待具身智能為人類帶來新一輪的科技變革。
審核編輯 :李倩
-
機器人
+關注
關注
210文章
28210瀏覽量
206545 -
人工智能
+關注
關注
1791文章
46863瀏覽量
237589 -
AIGC
+關注
關注
1文章
356瀏覽量
1508
原文標題:技術與市場:為具身智能突破技術瓶頸:AIGC
文章出處:【微信號:AIOT大數據,微信公眾號:AIOT大數據】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論