是時候給大模型造個身體了。
近期,奧比中光研發團隊結合機械臂與大模型,利用語音、語言、視覺-語言大模型,輔以Orbbec Gemini 2系列深度相機的數據輸入,打造出一個能夠理解、執行語音任務的機械臂。
該項目以斯坦福大學李飛飛教授團隊打造的機器人智能體為基礎,通過解決泛化、觀測、控制等一系列工程化難題,將基于多模態大模型的機械臂從仿真環境落地到現實世界,拓展智能機械臂應用潛能。
融合多種大模型能力
讓機械臂理解、執行語音指令
去年以來,各類大模型的涌現引發了機器人產業新一輪發展浪潮。盡管“大模型+機器人”還處于早期技術探索階段,但隨著二者深入融合,機器人有望具備更智能的“大腦”,配合更強大的“眼睛”與“身體”,實現向具身智能的進化。
奧比中光最新打造的大模型機械臂,可以通過語音Prompts作為輸入,利用多種大模型的理解能力和視覺感知能力,生成空間語義信息,讓機械臂理解、執行動作。
首先,機械臂可借助語音大模型,識別任務下發者的語音指令;同時,通過兩臺Orbbec Gemini 2雙目結構光相機,獲取高質量環境RGB和Depth數據;再利用SAM、CLIP等視覺-語言大模型,理解場景信息,并進行實時碰撞檢測,最終執行任務。
基于這一原理,奧比中光可以讓機械臂完成一系列指令,比如:
請記住當前的狀態
把紅色的方塊放到黃色的框中
把綠色的方塊放到白色的框里面
把藍色的方塊逆時針旋轉30°
將藍色方塊朝著綠色方塊的方向移動10cm
把藍色方塊放到綠色的方塊上面
請恢復最開始的狀態
請把所有的方塊放到黃色的框中
目前,該項目在1.0階段打通了多模態大模型在機械臂上的應用部署baseline。奧比中光正在進一步優化多模態指令理解、多傳感器融合感知、機械臂軌跡規劃控制、末端抓取控制等方面,未來將推出大模型機器人控制系統,讓機器人更加智能、靈活,適應更加復雜的操作場景。
克服泛化、觀測、控制難題
從仿真變為現實
目前,國內外眾多針對機器人智能體的研究多在仿真環境中完成。而從虛擬仿真到真實世界,還需要克服一系列工程化落地難題。比如,在仿真環境中,相機基于理想的成像模型,可以不受成像畸變、環境光照等影響,這就對智能體在真實場景中的泛化能力提出了挑戰。
奧比中光的研發團隊基于預訓練的多模態機械臂模型,克服了泛化、觀測、控制等一系列落地難題:
為實現快速準確的語音輸入與理解,引入語音預訓練大模型,使得機械臂靈敏響應語音指令。
為確保機械臂在真實世界中具備足夠的泛化能力,采用視覺-語言大模型,使機械臂理解適應復雜場景,在多樣化的環境中穩健執行任務。
為處理預訓練模型的理想相機成像問題,設計全新標定方案,優化相機自動曝光(AE)策略,解決受環境光、成像畸變、透視形變等因素帶來的挑戰,使機械臂擁有更強的魯棒性。
為提高機械臂在復雜環境中的安全性,引入深度相機碰撞檢測和抓取修正,優化機械臂控制,提高機械臂抓取場景的性能、精度和適應性。
基于關鍵技術的引入與創新,奧比中光成功地克服了多模態機械臂在多個交叉領域的難題,打通工程化應用落地的“最后一公里”。
在機器人視覺領域,奧比中光擁有超過8年的行業落地經驗,服務超過100家機器人產業企業。通過多年合作,奧比中光在機器人3D傳感器、激光雷達、模型算法等方面積累了豐富的經驗,助力機器人客戶快速實現創新應用開發與量產制造。
布局多模態視覺大模型
升維機器人應用潛力
融合多種大模型能力的機械臂,可以應用在哪些場景?
隨著機器人的“眼睛”(視覺傳感器)、“大腦”(大模型)、“身體”(本體)不斷發展進化,智能機器人及機械臂有望在工業制造、柔性物流、商用服務等場景中率先落地。
例如,在自動化工廠場景,基于多模態大模型的機器臂可以結合無人小車,進行智能分揀、搬運;在家用服務機器人場景,人們可以通過簡單的自然語言指令,讓機器人幫忙倒水、取快遞。
當前,面向機器人產業,奧比中光可提供單目結構光、雙目結構光、iToF、激光雷達、dToF等全技術路線3D視覺傳感器,并提供多傳感器融合支持。同時,針對AI大模型、具身智能機器人等科技發展趨勢,奧比中光正在致力于搭建機器人及AI視覺中臺,通過多模態視覺大模型及智能算法的研發,結合機器人視覺傳感器,將形成自主移動定位導航和避障的完整產品方案,為全產業下游客戶提供全方位能力平臺及系列化產品方案,迎接智能機器人時代。
審核編輯:彭菁
-
機器人
+關注
關注
210文章
28205瀏覽量
206525 -
3D傳感器
+關注
關注
4文章
113瀏覽量
26566 -
奧比中光
+關注
關注
1文章
135瀏覽量
8495 -
大模型
+關注
關注
2文章
2328瀏覽量
2482
原文標題:從仿真變成現實,奧比中光大模型機械臂1.0來了!
文章出處:【微信號:orbbec,微信公眾號:奧比中光】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論