這篇文章是為了幫助初學者開發社區,尤其是那些對計算機視覺和計算機科學不熟悉的人。NVIDIA 認識到,通過計算機視覺和人工智能解決并受益于世界的視覺計算挑戰需要我們所有人。NVIDIA 很高興與 人工智能中的黑人女性 合作,并將此帖子獻給 人工智能中的黑人女性 。
計算機視覺在現實世界中的應用越來越廣泛,其應用也越來越具有挑戰性,并且正在改變其意義。計算機視覺已經以某種形式存在了幾十年,它正在成為一個越來越常見的短語,遍布世界各地和各個行業:計算機視覺系統、計算機視覺軟件、計算機視覺硬件、計算機視覺開發、計算機視覺管道、計算機視覺技術。
什么是計算機視覺?
無論從字面上還是比喻上看,計算機視覺的術語和領域都超出了人們的想象。在特定的非人工智能實例中,計算機視覺也被稱為 vision AI 和傳統圖像處理,在制造業和工業用例中也被稱為 machine vision 。
簡言之,計算機視覺使包括筆記本電腦、智能手機、自動駕駛汽車、機器人、無人機、衛星和 x 光機在內的設備能夠感知、處理、分析和解釋數字圖像和視頻中的數據。
換句話說,計算機視覺從根本上將圖像數據或圖像數據集作為輸入,包括視頻的靜止圖像和運動幀,無論是錄制的還是來自實時攝像機的。計算機視覺使設備能夠像人類視覺系統一樣擁有和使用類似人類的視覺功能。在人類視覺中,你的眼睛實時地將你周圍的物理世界感知為不同的光反射。
類似地,計算機視覺設備感知圖像和視頻的像素,檢測模式并解釋可用于進一步分析或決策的圖像輸入。從這個意義上說,計算機視覺“看到”就像人類視覺一樣,并使用智能和計算能力來處理輸入的視覺數據,以輸出有意義的見解,就像機器人探測并避開其路徑上的障礙物一樣。
不同的計算機視覺任務模擬人類視覺系統,執行、自動化和增強與人類視覺系統類似的功能。
計算機視覺與其他形式的人工智能有何關聯?
計算機視覺有助于教授和掌握視覺,就像對話人工智能在識別、翻譯和描述文本(我們用來定義和描述周圍物理世界的詞語)的應用中,有助于通過語音教授和掌握聲音的感覺。
同樣,計算機視覺通過數字圖像和視頻幫助教授和掌握視覺。更廣泛地說,術語 computer vision 還可用于描述設備傳感器(通常為攝像頭)在檢測、跟蹤和識別圖像中的對象或圖案的應用中如何感知和作為視覺系統工作。
多模態對話人工智能將對話人工智能的功能與多媒體會議應用中的計算機視覺相結合,例如 NVIDIA Maxine 。
計算機視覺還可以廣泛用于描述其他類型的傳感器,如光探測和測距( LiDAR )和無線電探測和測距(雷達)如何感知物理世界。在自動駕駛汽車中,計算機視覺用于描述激光雷達和雷達傳感器如何工作,通常與攝像頭一起工作,以識別和分類人、物體和碎片。
有哪些常見任務?
雖然計算機視覺任務涵蓋了廣泛的感知能力,而且列表還在不斷增長,但最新的技術支持并幫助解決涉及檢測、分類、分割和圖像合成的用例。
檢測任務定位并有時跟蹤圖像中存在的對象。例如,在數字病理醫療領域,檢測可能涉及通過醫學成像識別癌細胞。在機器人技術領域,軟件開發人員正在使用目標檢測來避開工廠地板上的障礙物。
分類技術確定視覺數據中存在的對象。例如,在制造業中,物體識別系統將不同類型的瓶子分類包裝。在農業領域,農民們正在使用分類來識別作物中的雜草。
分割任務對屬于某一類別的像素進行分類,可以按像素單獨分類(語義圖像分割),也可以將同一類別的多個對象類型指定為單個實例(實例圖像分割)。例如,自動駕駛汽車將道路場景的一部分分割為可駕駛空間和非可駕駛空間。
圖像合成技術通過變形現有數字圖像以包含所需內容來創建合成數據。生成性對抗網絡( GAN ),比如 EditGAN ,能夠從文本描述和現有的風景和人物圖像中生成合成視覺信息。使用合成數據來補充和模擬真實數據是物流領域一個新興的計算機視覺用例,它將視覺 AI 用于智能庫存控制等應用。
什么是不同類型的計算機視覺?
為了理解計算機視覺中的不同領域,理解計算機視覺任務所基于的技術是很重要的。大多數計算機視覺技術都是從一個模型或數學算法開始的,它執行特定的基本操作、任務或組合。雖然我們將傳統的圖像處理和基于人工智能的計算機視覺算法分別進行分類,但大多數計算機視覺系統依賴于一種組合,這取決于用例、復雜性和所需的性能。
傳統的計算機視覺
傳統的、基于非深度學習的計算機視覺可以指計算機視覺和圖像處理技術。
在傳統的計算機視覺中,一組特定的指令執行特定的任務,比如檢測圖像中的角點或邊緣,以識別建筑物圖像中的窗口。
另一方面,圖像處理對圖像執行特定操作,然后可以使用視覺算法對圖像進行進一步處理。例如,您可能希望平滑或壓縮圖像的像素以供顯示,或減小其整體大小。這可以比作彎曲進入眼睛的光線來調整焦點或視野。圖像處理的其他示例包括調整、轉換、重新縮放和扭曲輸入圖像。
基于人工智能的計算機視覺
基于人工智能的計算機視覺或視覺人工智能依賴于經過視覺數據訓練的算法來完成特定任務,而不是像圖像處理那樣的編程、硬編碼指令。
前面提到的檢測、分類、分割和合成任務通常都是基于人工智能的計算機視覺算法,因為它們可以實現準確性和魯棒性。在許多情況下,基于人工智能的計算機視覺算法可以在這兩個性能指標方面優于傳統算法。
基于人工智能的計算機視覺算法通過學習和適應視覺數據輸入,更緊密地模擬人類視覺系統,使其在大多數情況下成為計算機視覺模型的首選。這就是說,基于人工智能的計算機視覺算法需要大量數據,數據的質量直接驅動模型輸出的質量。但是,性能超過了成本。
基于人工智能的神經網絡自學,這取決于算法的訓練數據。基于人工智能的計算機視覺就像是從經驗中學習,并根據上下文做出預測,而不是明確的方向。學習過程類似于當你的眼睛看到一個不熟悉的物體,大腦試圖學習它是什么,并將其存儲起來以備將來預測。
基于人工智能的計算機視覺中機器學習與深度學習的比較
機器學習計算機視覺是一種基于人工智能的計算機視覺。基于人工智能的基于機器學習的計算機視覺具有人工神經網絡或層,類似于人腦中的神經網絡或層,用于連接和傳輸有關攝取的視覺數據的信號。在機器學習中,計算機視覺神經網絡具有獨立且不同的層,明確定義層之間的連接,以及視覺數據傳輸的預定義方向。
基于深度學習的計算機視覺模型是基于機器學習的計算機視覺的一個子集。深度學習中的“深度”源于神經網絡的深度或層數。通常,三層或三層以上的神經網絡被認為是深層次的。
基于人工智能的基于深度學習的計算機視覺是基于大量數據進行訓練的。數十萬、數以百萬計的數字圖像被用來訓練和開發深層神經網絡模型,這種情況并不少見。
開始開發計算機視覺
既然我們已經介紹了計算機視覺的基礎知識,我們鼓勵您開始開發計算機視覺。我們建議初學者開始使用 視覺編程接口( VPI )計算機視覺和圖像處理庫 進行非人工智能算法或 TAO 工具包完全可操作、隨時可用、經過預訓練的人工智能模型 。
關于作者
邁克爾·布恩是NVIDIA 自動駕駛汽車和計算機視覺的產品營銷經理。在 2019 冠狀病毒疾病流行的米迦勒,他開始了一個有執照的專業工程師的職業生涯,從交通基礎設施咨詢中逐漸進入了新的技術領域。在他的當前角色,米迦勒合作在NVIDIA 的團隊,開發和定位令人興奮的技術解決方案,在人工智能和深入學習的計算機視覺應用的醫療保健( CuCIM ),定義自主車輛平臺(驅動器),并支持啟用 NVIDIA 計算機視覺和圖像處理庫視覺編程接口( VPI )社區。 Michael 與研究、工程、產品和活動團隊合作,分享、開發和交付下一代技術。
Sandeep Hiremath 是NVIDIA 計算機視覺的首席技術產品經理。他是一位經驗豐富的產品領導者,專長于計算機視覺、機器學習和嵌入式系統領域。在NVIDIA ,他負責為汽車、醫療保健、機器人和研究領域的開發人員提供一組計算機視覺和圖像處理解決方案的產品愿景和戰略。在 MathWorks 的前一份工作中,他在十多年中擔任了多個面向客戶的角色,涉及客戶成功、宣傳,以及為學術界、機器人和嵌入式視覺領域的 MATLAB 用戶提供營銷解決方案。
Ona Ogbona 是 NVIDIA 的高級系統安全工程師,致力于開發自動駕駛解決方案。她的職責包括客戶參與、產品開發、系統和安全流程交付,以確保自動駕駛汽車的安全交付。在之前的 ZF 工作中,她為乘用車和卡車開發了轉向電子設備,發揮了功能性安全作用,成功地實現了車輛道路釋放。在加入汽車行業之前, Ona 一直在陸地和深水石油和天然氣行業發揮作用。 Ona 是特許工程師(曾)和工程技術學會( MIET )成員。
審核編輯:郭婷
-
NVIDIA
+關注
關注
14文章
4949瀏覽量
102828 -
計算機
+關注
關注
19文章
7430瀏覽量
87733 -
深度學習
+關注
關注
73文章
5493瀏覽量
120999
發布評論請先 登錄
相關推薦
評論