電子發(fā)燒友網(wǎng)報道(文/吳子鵬)前有AI落地難,如今AI大模型的落地也遇到了一些挑戰(zhàn)。雖然各大企業(yè)推出了非常多的行業(yè)垂直大模型,不過這些模型基本上還是基于云端去實現(xiàn)。在終端,目前AI智能手機和AI PC是最熱門的兩大應(yīng)用。
我們簡單看一下AI智能手機行業(yè),已經(jīng)有數(shù)家廠商推出了配置在手機端的大模型。以vivo的藍心大模型為例,可以通過抓取屏幕中的內(nèi)容,智能且直接地完成日程添加的操作,使用戶體驗更為便捷。還有榮耀MagicOS 8,大模型讓榮耀手機能夠捕獲用戶的意圖。在AI PC方面,道理大抵是相通的。
那么,除了原本就比較智能且出貨量較大的智能手機和PC之外,AI大模型還有什么終端方向值得去探索呢?OpenAI 給出的答案是機器人。
把ChatGPT裝進機器人的大腦
近日,機器人初創(chuàng)公司Figure發(fā)布了自己第一個OpenAI大模型加持的機器人demo。視頻內(nèi)容顯示,當一個1.7米左右的機器人被植入GPT大模型之后,智能化水平顯著提升,不僅能夠和人類無違和對話,而且也具有非常強的動手能力。
根據(jù)demo內(nèi)容,這個搭載GPT的機器人能夠非常準確地描述自己所見的內(nèi)容,比如面前的蘋果和杯子,以及演示人員手部的動作。并且,當演示人員讓這個機器人遞些吃的東西過去時,它能夠在幾乎不需要反應(yīng)時間的情況下將蘋果遞給演示人員。這個demo顯示出,搭載GPT的機器人已經(jīng)具有非常高的“意識自主性”,雖然有些對話需要時間反應(yīng),不過他最終都能夠做出正確的舉措。
據(jù)悉,機器人初創(chuàng)公司Figure擁有一個豪華的技術(shù)團隊,創(chuàng)始人Adcock重金從波士頓動力、特斯拉、谷歌等公司挖了大量的人才。再加上有了GPT的加持,F(xiàn)igure 01機器人可以自主做計劃、執(zhí)行任務(wù)、有記憶、聽懂人話,離具身智能的程度更近一步。
上一個引起行業(yè)廣泛關(guān)注的機器人是VIMA(Vision-and-Language Navigation with Multi-Modal Transformers)。VIMA由李飛飛教授及來自斯坦福大學、加州理工、清華大學和英偉達的幾位學者組成的團隊聯(lián)合打造,是一個使用多模態(tài)提示執(zhí)行各類任務(wù)的機械體操作系統(tǒng)。根據(jù)介紹,VIMA是一個帶有機械臂的LLM,可以接受多模態(tài)提示詞,單個的文本、圖像、視頻或這些信息的結(jié)合。
太平洋證券曾在研報中指出,雖然當前人形機器人的智能AI系統(tǒng)還不夠成熟,但當前ChatGPT的出現(xiàn)已展現(xiàn)了生成式AI具備較強理解和生成對話能力,結(jié)合OpenAI投資人形機器人賽道,以及特斯拉等巨頭的入局,看好未來人形機器人更快商業(yè)化落地。
無疑,F(xiàn)igure 01機器人展示出當下具身智能機器人的最新進展。具身智能機器人要求機器人能夠像人類一樣與環(huán)境交互、感知、規(guī)劃、決策、行動、執(zhí)行任務(wù)。英偉達創(chuàng)始人黃仁勛在 ITF World 2023 半導體大會上就大談特談具身智能。他認為,具身智能是能理解、推理、并與物理世界互動的智能系統(tǒng),是人工智能的下一個浪潮。
相信隨著AI大模型技術(shù)越來越成熟,這種大模型和機器人的融合會更加成熟,到時候機器人可能會無縫融入人類社會。
大模型融入機器人的挑戰(zhàn)
不過,憧憬是美好的,過程總是很艱辛。針對AI大模型和機器人的融合,當前還有很多困難需要克服,就像Figure 01機器人一樣,它還有很多細節(jié)問題無法很平滑地處理。
在2023年底舉辦的中國信通院人工智能論壇上,很多專家就談到了AI大模型的終端落地難題,其中一些問題實際上也是適用于機器人行業(yè)的。
比如,第一個是算力和存儲問題,當AI大模型在云端訓練時,相對算力還是比較充沛的,不過當部署到終端的時候,模型受限于算力和存儲能力的顯著下降就需要做瘦身。這就牽連出第二個問題,由于實際應(yīng)用經(jīng)驗嚴重匱乏,目前大部分AI大模型的瘦身都是“拍腦袋式”的,這也是為什么Figure 01機器人在一些問題上應(yīng)對非常好,在一些問題上卻需要很久的推理思考。因此,在硬件問題上,成本就會是個大麻煩,成本太低的話,AI大模型受影響就會非常嚴重,成本太高的話就無法廣泛普及。
第二個是數(shù)據(jù)的問題,以機器人來說,最終落地到終端會有比較明確的場景。然而,就需要利用這類場景數(shù)據(jù)對AI大模型進行二次訓練,如何對這些數(shù)據(jù)進行高質(zhì)量清洗,另外如何微調(diào)數(shù)據(jù)以達到更好的部署效果,這些都是巨大的挑戰(zhàn),因為有太多經(jīng)驗空白區(qū)。有人會問,竟然要求具身智能,要像人類一樣,那么不是應(yīng)該具有廣泛的知識嗎?理想形態(tài)當然是這樣,甚至是機器人在一些能力上超過人類,但是受限于硬件,短期看這是不現(xiàn)實的。
第三個是仿真和部署的問題。我們都知道,具身智能的機器人需要和物理世界接觸并融入物理世界。這就遇到了一個問題,智能體是基于虛擬仿真環(huán)境進行設(shè)計的,不過智能體部署之后,現(xiàn)實世界要復雜很多,如何將虛擬世界和物理世界耦合是一個更大的挑戰(zhàn)。這不僅要求智能體模型具有非常好的可擴展性和成長性,還需要一個強大的通用智能本體平臺。可能有人已經(jīng)想到了硬件性能冗余,不過考慮到可靠性和成本問題,單純性能冗余明顯是不夠的,特定場景通用走向社會性通用的過程中,硬件平臺架構(gòu)創(chuàng)新是非常關(guān)鍵的。
目前,頭部企業(yè)實現(xiàn)AI大模型和機器人融合的方式有一些差異性。微軟公司使用ChatGPT大型語言模型 (LLM) 將人的語言快速轉(zhuǎn)換為機器人的高層控制代碼,然后轉(zhuǎn)化為機器人的控制;谷歌PaLM-E模型則是一種視覺路線,能夠觀察物理實體世界的信息,由大模型進行分析理解,再將決策結(jié)果反饋至物理世界;特斯拉則是打通FSD和機器人的底層模塊,實現(xiàn)一定的算法復用,特斯拉利用大規(guī)模的數(shù)據(jù)集訓練模型,可以提高算法在復雜環(huán)境下的性能,并認為自動駕駛的本質(zhì)就是機器人。
從結(jié)果來看,目前AI大模型+機器人已經(jīng)實現(xiàn)了一些功能,但是離通用智能和規(guī)模部署還有一段路要走。
結(jié)語
AI大模型如何在終端落地?這是一個困擾行業(yè)的問題,將本身就智能的智能手機和PC升級,這當然是一個路徑。不過,具身智能的機器人會有更大的想象空間,當然這條路道阻且長。
-
機器人
+關(guān)注
關(guān)注
210文章
28191瀏覽量
206505 -
AI大模型
+關(guān)注
關(guān)注
0文章
307瀏覽量
289
發(fā)布評論請先 登錄
相關(guān)推薦
評論