1.3D視覺技術
2D視覺技術借助強大的計算機視覺和深度學習算法取得了超越人類認知的成就,而3D視覺則因為算法建模和環(huán)境依賴等問題,一直處于正在研究的前沿。
3D視覺同樣為傳統(tǒng)研究領域,但最近5年內得到快速發(fā)展。與深度學習算法結合,在智能制造/機器人、自動駕駛、AR/VR、SLAM、無人機、三維重建、人臉識別等領域取得了優(yōu)異的效果。
3D視覺主要研究內容包括:
3D感知:點云獲取及處理,應用于機器人/機械臂、自動駕駛、無人機等場景。
位姿估計(視覺SLAM):應用于機器人定位導航、VPS等場景。
3D重建:
大規(guī)模場景的3D重建、動態(tài)實景融合和3D理解(與3D感知趨于一致等),應用于數(shù)字城市/園區(qū)、數(shù)字文旅、混合現(xiàn)實等場景。
人臉、人體、手部3D重建和關鍵點檢測識別,應用于游戲娛樂、動漫影視內容制作等領域。
近年來,學術界和工業(yè)界推出了一系列優(yōu)秀的算法和產(chǎn)品,被廣泛應用到各個領域。
學術界:
CVPR、ECCV、ICCV三大頂會每年和3D視覺相關主題的文章數(shù)量保持在十分之一左右,且呈增加趨勢。3D視覺技術主要包括:3D點云識別與分割、3D物體檢測、單目圖像深度圖的生成、語義SLAM、三維重建、光場計算等。
工業(yè)界:
3D視覺廣泛應用到人臉識別、智能機器人、自動駕駛、ARVR等領域;比如,OPPO、華為和蘋果等公司推出的3D+AI識別功能,通過掃描人臉三維結構完成手機解鎖;自動駕駛領域通過分析3D人臉信息,判斷司機駕駛時的情緒狀態(tài);SLAM方式通過重建周邊環(huán)境,完成建圖與感知;AR領域通過三維重建技術完成目標的重現(xiàn),等等。
2.3D視覺傳感器/相機
傳感器/相機作為3D視覺的眼睛,其在3D技術演進及落地應用過程中所占的位置十分重要,甚至一定程度上決定了3D視覺技術的發(fā)展了應用。本文概要分析3D傳感器/相機技術,并對當前業(yè)界硬件廠商和產(chǎn)品進行簡單介紹。
3D傳感器/相機,不僅能夠獲得平面圖像,還可以獲得拍攝對象的深度信息,即三維位置及尺寸等。3D傳感器/相機通常有多個攝像頭+深度傳感器組成。可以實現(xiàn)三維信息采集,且三維數(shù)據(jù)可以轉成點云。
根據(jù)基礎原理的不同,目前市面上的3D傳感器主要包括以下幾種:
(1)雙目相機
雙目視覺是機器視覺的一種重要形式,基于視差原理并利用成像設備從不同的位置獲取被測物體的兩幅圖像,通過計算圖像對應點間的位置偏差,來獲取物體三維幾何信息的方法。目前有主動雙目,被動雙目之分,被動雙目就是采用可見光,好處是不需要額外光源,但是晚上無法使用,主動雙目就是主動發(fā)射紅外激光做補光,光線暗的場景也能正常使用。
雙目相機優(yōu)缺點:
硬件要求和成本低,普通CMOS相機即可。
可適用室內外場景。
對環(huán)境光照非常敏感。光線變化導致圖像偏差大,進而會導致匹配失敗或精度低。
不適用單調缺乏紋理的場景。雙目視覺根據(jù)視覺特征進行圖像匹配,沒有特征會導致匹配失敗。
計算復雜度高。純視覺的方法對算法要求高,計算量較大。
基線限制了測量范圍。測量范圍和基線(兩個攝像頭間距)成正比,導致無法小型化。
(2)結構光
結構光(Structured light):通常采用特定波長的不可見的紅外激光作為光源,發(fā)射出來的光經(jīng)過一定的編碼投影在物體上,通過一定算法來計算返回的編碼圖案的畸變來得到物體的位置和深度信息。
根據(jù)編碼圖案不同,機構光相機可分為:
一般有條紋結構光---enshape
編碼結構光---Mantis Vision, Real sense(F200)
散斑結構光--apple(prime sense)
等
結構光相機優(yōu)缺點包括:
方案成熟,相機基線可以做的比較小,方便小型化。
資源消耗較低,單幀IR圖即可計算深度信息,功耗低。
主動光源,暗光線場景也可使用。
在一定范圍內精度高,分辨率高,分辨率可達1280x1024,幀率可達到60FPS。
容易受環(huán)境光干擾,室外體驗差。
隨檢測距離增加,精度會變差。
(3)ToF相機
不同于使用2D圖像來推算3D資訊,ToF是透過紅外光在空氣中的飛行時間,計算出目標體的距離。ToF技術也是機器視覺工業(yè)的重要里程碑,因其只需要使用低成本的CMOS傳感器和主動光源技術就能提供3D場景的距離景深資訊。
此外,不同于單點逐點掃描方式,ToF是每個圖元都能測量對應目標體的亮度和反射回來的到達時間,從而計算出該點對應的距離景深。ToF提供了視角范圍內場景的整個分辨率的距離景深資料。該技術結構簡單,容易使用,不依賴環(huán)境光,且兼具高精度和高幀率。
TOF法根據(jù)調制方法的不同,一般可以分為兩種:脈沖調制(Pulsed Modulation)和連續(xù)波調制(Continuous Wave Modulation)。脈沖調制需要非常高精度時鐘進行測量,且需要發(fā)出高頻高強度激光,目前大多采用檢測相位偏移辦法來實現(xiàn)TOF功能。
下面圖片描述了TOF相機(連續(xù)波)的基本原理,實際應用中,通常采用的是正弦波調制。由于接收端和發(fā)射端正弦波的相位偏移和物體距離攝像頭的距離成正比,因此可以利用相位偏移來測量距離。
TOF的優(yōu)缺點包括:
檢測距離遠。在激光能量夠的情況下可達幾十米。
受環(huán)境光干擾比較小。
對設備要求高,特別是時間測量模塊。
資源消耗大。該方案在檢測相位偏移時需要多次采樣積分,運算量大。
邊緣精度低。
限于資源消耗和濾波,幀率和分辨率都沒辦法做到較高。目前消費類最大也就VGA。
除了上述視覺傳感器(相機)外,3D視覺相關的數(shù)據(jù)采集設備還包括:毫米波雷達、激光雷達等,廣泛用于機器人、自動駕駛等應用場景。
毫米波是指波長在1mm到10mm之間的電磁波,換算成頻率后,毫米波的頻率位于30GHz到300GHz之間。毫米波的波長介于厘米波和光波之間,因此毫米波兼有微波制導和光電制導的優(yōu)點。
激光雷達(Light Detection And Ranging,LiDAR),即光探測與測量,是一種集激光、全球定位系統(tǒng)(GPS)和慣性測量設備(IMU)于一身的系統(tǒng),用于獲得數(shù)據(jù)并生成精確的DEM(數(shù)字高程模型)。LiDAR可以高度準確地定位激光束打在物體上的光斑,測距精度可達厘米級,其優(yōu)勢包括“精準”、“快速”。下圖為自動駕駛領域常用的Velodyne LiDAR。
近幾年,無人駕駛技術興起并快速發(fā)展。無人駕駛技術研發(fā)公司,包括谷歌、百度、Uber等主流無人駕駛汽車研發(fā)團隊,都在使用激光雷達作為傳感器之一,與圖像識別等技術搭配使用,實現(xiàn)三維環(huán)境感知,為自動駕駛保駕護航。
LiDAR系統(tǒng)通過發(fā)射一束激光,測量光在物體表面反射而返回來的信號,信號傳輸所需的時間提供了一種直接測量LiDAR系統(tǒng)與物體之間的距離的手段。關于物體的額外的信息,比如它的速率或材料成分,也可以通過測量反射回來的信號中的某些特性而得以確定,這些特性包括誘導多普勒頻移,從而創(chuàng)建出完整的3D模型。
編輯:jq
-
智能機器人
+關注
關注
17文章
863瀏覽量
82207 -
無人機
+關注
關注
228文章
10336瀏覽量
179609 -
vps
+關注
關注
1文章
106瀏覽量
12008
原文標題:3D視覺技術和3D傳感器初探
文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論