從本科到研究生階段,再到2014年出來創業以后,這前后大概5年的時間里,我始終聚焦在視覺領域的學習。所以能夠比較清晰地看到,在這幾年時間里,以視覺為核心的,包括人臉識別、物體識別、空間定位、導航避障等在內的感知層算法正在隨著底層人工智能的基礎型算法架構(比如我們現在熟知的機器學習、深度學習,以及最近很火的增強學習)和硬件傳感器的發展產生著日新月異的變化。
在實驗室的時候,我的主要研究方向是為特種機器,包括微小型的無人機、功能性的機器人構建一套以視覺感知為主的機器人視覺系統,而在2011年后發展起來的這一波感知層算法的進步與傳感器硬件上面的推陳出新恰恰為這樣的研究提供了有利的支持,以至于到今天推動了整個資本市場上對于人工智能項目的大熱與追捧。
下面,我將從機器人視覺系統、視覺技術原理和未來發展趨勢三個方面,為大家講述我們是如何為機器人構建起一個“三維世界”的。
機器人視覺系統發展與三維視覺的興起
我們知道“機器人”這一名詞是1920年一位捷克作家在一本科幻劇中提出的,到了1950年前后,另一位美國作家阿西莫夫才系統性的提出了“機器人學”這一概念,并給出了著名的機器人三定律。在那之后,從1970年,隨著計算機的興起,現代控制技術、傳感器技術的發展,機器人開始了真正的產品化的進程。也正是從那個時候開始,搭載一顆基于CCD芯片攝像頭的機器人,可以為人們提供某一時刻的光學影像信息記錄,而這也形成了最早期的機器人視覺系統。值得一提的是,1969年美國的阿波羅登月飛船上搭載的正是基于CCD感光芯片的照相機,為機器人視覺系統的硬件架構提供了系統性的參照。由于具備一定的簡單的記憶存儲能力,那個時候的機器人可以進行簡單的重復作業,但是對周圍環境沒有任何感知與反饋控制能力,我們稱當時的機器人為第一代機器人。
時間推進到80年代,視覺傳感器、力觸覺傳感器、接近傳感器和計算機在這一時期進入到了快速發展期,特別是摩爾定律的發現代表著信息技術的發展速度在這一時期確確實實到了頂峰。這一時期的機器人已經具備了一定的感知能力,能夠獲取作業環境與作業對象的部分信息,并進行一定的實時處理,引導機器人進行作業。比如下圖我們看到的當時美國斯坦福研究所開發實現的Shakey移動機器人,擁有電子攝像頭、測距儀等感知設備,建立了一套底層到頂層的分層控制機制和當時最先進的視覺系統,用來幫助機器人在非結構化的環境中進行獨立的推理、運動規劃與實時控制。這是當時人工智能技術應用于移動機器人最為成熟的成果之一,Shakey的誕生自此也揭開了智能移動機器人研究的大幕。
自此以后,世界各國都開始投入到了對移動機器人的研究上,而在這之中,視覺系統更是被公認為是機器人走向智能的核心入口。因為在研究的推進中,人們需要機器人對環境擁有更完善的感知能力、邏輯思維能力、判斷決策能力,甚至是根據作業要求與環境信息進行自主的工作。比如美國DARPA在90年代研究的ALV自主車可以選擇路標識別實現導航,達到10km/h的移動虛度,還采用了立體視覺、衛星導航等當時的先進技術。2004年NASA研制的火星探測器機遇號與勇氣號成功在火星表面登陸,搭載當時最為先進的圖像采集與立體視覺技術,幫助探測器在復雜的星球表面完成各項未知任務。而也正是在這樣一個時期,三維視覺系統在移動機器人上的重要性被首次提出。
通過上面的介紹,不難發現,從上個世紀六七十年代發展起來的機器人視覺系統,到今天,實際上是建立在不同時期最先進的算法技術和硬件傳感器的基礎之上的。在視覺系統的算法技術上,通過幾十年的發展,形成了用戶交互、識別感知、運動決策和數據優化4個層級,分別對應實現體感識別、目標跟隨、人眼跟隨;地圖構建、場景理解、物體識別;定位定姿、自主導航、路徑規劃;圖像優化、深度優化、其他數據優化等諸多今天大家耳熟能詳的算法。在硬件傳感器上,也主要分為前端傳感器表現,集成處理芯片和嵌入式算法三個層級。在今天的鈦坦白分享課上,我會主要介紹一下三維視覺的主要實現原理。
在前面的介紹中,我們看到,機器人視覺系統一路走來,和光學傳感器的演進密不可分??梢哉f視覺系統幾十年的發展史,就是光學傳感器的演進史。今天,我們大體將機器人視覺系統中搭載的視覺傳感器分為三類:以單線激光雷達為代表的一維線陣傳感器,以嵌入式攝像頭為代表的二維面陣傳感器和以特殊光源為代表的三維深度傳感器。其中,以特殊光源為代表的三維深度傳感器是實現機器人三維視覺系統的最主要也是最關鍵的傳感器,三維數據的獲取質量直接影響了移動機器人后端的算法結果與決策控制。
目前實現三維深度傳感器的主流技術大體在2010年后發展起來,路線有以下幾類:基于單目結構光技術路線、基于雙目結構光技術路線以及基于飛行時間法技術路線。速感科技在今年的11月份,面向服務機器人廠商推出的M-32三維傳感器就是基于其中的雙目結構光原理實現的,且集成嵌入式視覺算法的視覺傳感器。結構光的原理是利用激光的光學衍射原理,通過傳感器投射出特定的圖案,用以加速或輔助深度圖的獲取。其中特定的圖案可以分為規則、偽隨機或隨機點狀散斑和特殊圖形斑幾類,其優勢在于精度高,刷新率快,但缺點是不適合在戶外強光下的環境進行使用。飛行時間的原理也稱TOF原理,是利用調制光源在不同距離接收到的相位不同從而根據光的傳播速度反算距離這一原理實現的深度獲取,這一原理的優勢測量精度不會隨著距離遞減,但劣勢是分辨率低且環境擾動大。
基于視覺的機器人感知技術SLAM
講到基于視覺的機器人感知算法原理,就不得不提到這兩年大火的SLAM技術。 SLAM (simultaneous localization and mapping,即時定位與地圖構建。由于其重要的理論與應用價值,被很多學者認為是實現真正全自主移動機器人的關鍵。
我和我的合伙人2012年開始接觸這一技術,到2014年創業的時候,除了國內一些研究機器人自動化技術的實驗室和老師,幾乎做圖形圖像的學術圈都沒怎么聽說過SLAM,更不用說當時的創業公司和資本市場。而今天,幾乎整個人工智能領域似乎都對SLAM這一技術報以了極大的關注度與期望,這實際上是和這一技術在今天對于機器人和人工智能的重要地位以及代表性產品的推出是分不開的。我認為SLAM技術在資本市場上獲得極大的關注度有很大一部分原因是去年美國明星創業團隊Magic Leap在AR領域的技術探索,微軟公司在去年推出的Hololens以及今年10月份Google開源了一套SLAM算法密不可分的。由于在這之前,大家都沒有聽說過SLAM這一技術,更不必說意識到這一技術在2010年后在機器人領域取得突飛猛進的進步。當有代表性的產品或者公司將這一技術運用起來,便一下子引起了大家的關注。
今天我和大家介紹一些2010年后隨著三維視覺傳感器的興起,SLAM的進一步演進,也就是今天我們應用在各種移動機器人上的vSLAM(基于視覺的同時定位與構圖技術),是如何建立起來并且被應用在機器人的自主導航、路徑規劃等方案中的。
從2012年開始在實驗室的接觸研究,再到后來成立速感和同事們推進技術的迭代中,我覺得對于SLAM到今天為止,有三個里程碑式的事件:
2000年左右的國際機器人研討會上,首次給出了SLAM這一基本框架和收斂性的驗證結果,并針對這一理論給出了具體的證明和結論,自此,以MIT、悉尼大學為代表的研究移動機器人地圖構建和定位的學術圈前輩才正式開始致力于SLAM技術的研究,補充并完善的給出了SLAM的技術可行性依據。在這之前盡管SLAM這一理論被提出有10年之久,但學術圈普遍認為這一理論得到的地圖估計誤差是不收斂的,因此不能通過處理一個同時包含機器人定位與特征路標位置的聯合狀態對模型進行求解從而得到結果;
2011年前后,正好是我進入到實驗室,和實驗室的師兄師弟開始對無人機視覺系統的定位定姿與地圖構建進行系統性的學習與開發的階段,以Kinect 1為代表的視覺傳感器開始在SLAM研究領域興起,為SLAM的大踏步發展奠定了底層硬件上的基礎契機。從整個機器人視覺系統的發展歷程來看,任何一個關鍵技術的應用需要一個較長時間的技術轉化周期,而突破性的進展離不開底層關鍵元器件、計算芯片或傳感器的支持。而我認為,三維視覺傳感器的興起正是為SLAM的發展提供了這樣的關鍵一步;
從去年開始到今年的這一波世界范圍內的人工智能浪潮。誠然我們需要看清楚的是,在這一次人工智能復興的浪潮中,存在很多被稱為“偽命題”的黑科技,但是也要清楚的看到隨著深度學習、增強學習以及遷移學習這樣基礎性的數據訓練與學習方式的變革,帶動了一批過去我們看來在實際商業化與產品化并不成熟的行業。比如VR/AR,比如無人駕駛,再比如機器人、無人機。很幸運的是,在目前最熱的人工智能涉及到的這三個行業中,我們都看到了SLAM的影子,并且看到了這一技術在這其中所發揮出的巨大價值。
今天廣泛被人們討論和學習的vSLAM,簡單來說,是SLAM技術發展到今天結合目前的底層技術實現與硬件,離產品化最近的一種表現形式。針對不同端的應用需求,被分為了sparse(稀疏)和dense(稠密)兩大類,前者側重空間中對位置的感知與描述,后者側重空間中對環境的構建與理解,但無論是哪一類,其基礎性的構造框架對于數據的處理一定是分為前端和后端兩部分的。其中前端用來對數據進行實時的特征提取、剔除噪聲、幀匹配得到位置轉移向量,這一部分又可以單獨作為輕量級的視覺定位定姿算法,成為VO,常見的優化包括加入IMU慣性測量單元數據進行計算,也叫VIO。后端主要從全局的角度出發,通過濾波算法、圖優化、樹優化等方法對前端得到的結果進行閉環檢測、循環迭代等方法的二次優化,最終得到最優的計算結果。
對于SLAM算法,很多人覺得掌握了SLAM算法就解決了機器人移動這樣關鍵性的基本問題,事實上并非如此。SLAM在今天之于人工智能機器人等領域的發展上,已經越來越像深度神經網絡一樣,成為一項基礎性的工具。一個表現好的SLAM框架可以幫助我們得到一個魯棒性高的空間運動模型和空間環境模型,但是只是讓機器人看到了世界,并不能真正指導機器人的決策,因此我們需要利用這樣的模型,回到具體環境中有針對性的進行接下來的自主導航與路徑規劃等方案的開發。目前我們基于vSLAM算法,針對機器人在環境中的全局路徑規劃和局部路徑規劃,我們開發了一套魯棒性高,可以實時決策的路徑規劃與導航算法框架,可以有針對性的結合vSLAM得到的最優計算結果,進行有效的多傳感器融合與前端處理器的嵌入式集成,使其可以在不同復雜的環境中獲得良好的表現結果。
在這一點上,我覺得過去這幾年,人工智能的研究始終停留在對于感知算法的迭代優化上,包括人臉識別、 語義分析等等,我們追求更高的測試與跑分結果,反倒是忽略了這樣的技術應該如何更好地在商業領域、工業領域產生更多的價值。因此我們也發現,從去年開始的這一波人工智能浪潮,正在推動學術界在人工智能的研究從感知向真正的決策與使用轉移。比如今天我們看到的VR/AR設備、無人駕駛汽車等等都是將這樣的技術在一個具體細分的行業里面加以實踐,實踐中遇到了棘手的問題,然后尋找解決辦法,指導底層硬件進行決策。我覺得這是真正的進步,而在接下來的幾年,人工智能最大的增長點應該是如何幫助人們去優化地進行決策。
三維視覺在機器人上的發展方向
機器人自誕生之日起,視覺功能就是其最核心的功能與智能化的入口,三維視覺已經在近10年的發展中逐漸成為機器人的主流與標準配置,用以解決以往移動機器人“看不見”這一難題。但是由于從目前的硬件發展局限性而言,依然存在計算量大、使用環境受限等問題。針對更細分的應用場景,設計實現三維視覺技術的小型化、模塊化、前端化將會成為今后兩到三年業內主流的發展方向。
小型化:從CCD、CMOS芯片的相機,再到一維、二維激光雷達及三維視覺傳感器,數據量在增加的同時,小型化的體積更加利于系統的集成;
模塊化:機器人視覺系統功能與定位越來越明確,通用性的接口與標準正在逐步形成,行業進入方向明確化發展階段;
前端化:GPU、FPGA、DSP等專用處理器飛速發展,通用處理器的計算資源需求正在被簡化,將更側重于交互功能的實現。
在這條道路上,整個機器人行業正在興起,行業格局也越發清晰,產業鏈的上下游已經初見成熟,希望速感科技目前在做的事情,能夠通過自身在發展中的不斷積累,真正的,實實在在的推動正在興起的機器人產業的進步與發展。(本文獨家首發鈦媒體,根據速感科技創始人、CEO陳震在鈦坦白上的分享整理)
陳震畢業于清華大學信息交叉學科(計算機方向)信息科學國家實驗室,主攻機器人交互技術。是中關村雙創服務機器人產業聯盟(RFC)成員、2016中關村U30成員、北京市海淀區青年英才、“雛鷹計劃”成員、多所國際頂尖學術機構訪問學者。曾擔任國家重點科研項目負責人,獲全國大學生挑戰杯金獎,參與多項機器人研究項目合作,個人擁有多項國家科技發明專利及學術論文。速感科技是一家以機器視覺為核心的人工智能創業公司,目前已完成三輪融資。
評論
查看更多