亚洲综合成人网在线观看_日韩美女va在线毛片免费知_亚洲欧美v国产一区二区_国产一在线精品一区在线观看_成人欧美一区二区三区白人_亚洲精品国产va在线观看_成人精品一区二区三区日本久久_国产日韩一区二区三区高清视频_日本精品一区二区三区视频

圖像目標檢測是圖像處理領域的基礎。自從2012年CNN的崛起，深度學習在Detection的持續發力，為這個領域帶來了變革式的發展：一個是基于RPN的two-stage，RCNN/Fast RCNN/Faster RCNN、RetinaNet、Mask RCNN等，致力于檢測精度的提高。一類是基于SSD和YOLOv1/v2/3的one-stage，致力于提高檢測速度。

視頻目標檢測要解決的問題是對于視頻中每一幀目標的正確識別和定位。相對于圖像目標檢測，視頻是高度冗余的，包含了大量時間局部性（temporal locality，即在不同的時間是相似的）和空間局部性（spatial locality，即在不同場景中看起來是相似的），既Temporal Context（時間上下文）的信息。充分利用好時序上下文關系，可以解決視頻中連續幀之間的大量冗余的情況，提高檢測速度；還可以提高檢測質量，解決視頻相對于圖像存在的運動模糊、視頻失焦、部分遮擋以及形變等問題。

視頻目標檢測和視頻跟蹤不同。兩個領域解決相同點在于都需要對每幀圖像中的目標精準定位，不同點在于視頻目標檢測不考慮目標的識別問題，而跟蹤需要對初始幀的目標精確定位和識別。

圖1 高德地圖車載AR導航可識別前方車輛并提醒

視頻目標檢測應用廣泛，如自動駕駛，無人值守監控，安防等領域。如圖1所示，高德地圖車載AR導航利用視頻目標檢測，能夠對過往車輛、行人、車道線、紅綠燈位置以及顏色、限速牌等周邊環境，進行智能的圖像識別，從而為駕駛員提供跟車距離預警、壓線預警、紅綠燈監測與提醒、前車啟動提醒、提前變道提醒等一系列駕駛安全輔助。

視頻目標檢測算法一般包括單幀目標檢測、多幀圖像處理、光流算法、自適應關鍵幀選擇。Google提出基于Slownetwork 和Fast network分別提取不同特征，基于ConvLSTM特征融合后生成檢測框，實現實時性的state-of-art。

論文地址：https://arxiv.org/abs/1903.10172

1 Motivation

物體在快速運動時，當人眼所看到的影像消失后，人眼仍能繼續保留其影像，約0.1-0.4秒左右的圖像，這種現象被稱為視覺暫留現象。人類在觀看視頻時，利用視覺暫留機制和記憶能力，可以快速處理視頻流。借助于存儲功能，CNN同樣可以實現減少視頻目標檢測的計算量。

視頻幀具有較高的時序冗余。如圖2所示，模型[1]提出使用兩個特征提取子網絡：Slow network 和Fast network。Slow network負責提取視頻幀的精確特征，速度較慢，Fast network負責快速提取視頻幀的特征提取，準確率較差，兩者交替處理視頻幀圖像。Fast network和Slow network特征經過ConvLSTM層融合并保存特征。檢測器在當前幀特征和上下文特征融合基礎上生成檢測框。論文提取基于強化學習策略的特征提取調度機制和需要保存特征的更新機制。

論文提出的算法模型在Pixel 3達到72.3 FPS，在VID 2015數據集state-of-art性能。

論文創新點：

1、提出基于存儲引導的交替模型框架，使用兩個特征提取網絡分別提取不同幀特征，減少計算冗余。

2、提出基于Q-learning學習自適應交替策略，取得速度和準確率的平衡。

3、在手機設備實現迄今為止已知視頻目標檢測的最高速度。

圖2 存儲引導的交錯模型

2網絡架構

2.1交錯模型

圖3交錯模型

如圖3所示論文提出的交錯模型（τ = 2），Slow network（Large featureextractor）和Fastnetwork(Small feature extractor)均由MobileNetV2構成(兩個模型的depth multiplier不同，前者為1.4，后者為0.35)，anchors比率限制為{1.0,0.5,2.0}。

2.2存儲模型

LSTM可以高效處理時序信息，但是卷積運算量較大，并且需要處理所有視頻幀特征。論文提出改進的ConvLSTM模型加速視頻幀序列的特征處理。

ConvLSTM是一種將CNN與LSTM在模型底層結合，專門為時空序列設計的深度學習模塊。ConvLSTM核心本質還是和LSTM一樣，將上一層的輸出作下一層的輸入。不同的地方在于加上卷積操作之后，為不僅能夠得到時序關系，還能夠像卷積層一樣提取特征，提取空間特征。這樣就能夠得到時空特征。并且將狀態與狀態之間的切換也換成了卷積計算。

圖4 存儲模型LSTM單元

如所示，論文的ConvLSTM有一下改進：

1、增加Bottleneck Gate和output跳躍連接。

2、LSTM單元分組卷積。特征圖HxWxN分為G組，每個LSTM僅處理HxWxN/G的特征，加速ConvLSTM計算。論文中G = 4。

3、LSTM有一固有弱點，sigmoid激活輸入和忘記門很少完全飽和，導致緩慢的狀態衰減，長期依賴逐漸喪失，更新中無法保留完整的前期狀態。導致Fast network運行中，Slownetwork特征緩慢消失。論文使用簡單的跳躍連接，既第一個Fast network輸出特征重復使用。

2.3推斷優化

論文提出基于異步模式和量化模型，提高系統的計算效率。

1、異步模式。交錯模型的短板來自于Slow network。論文采用Fastnetwork提取每幀圖像特征，τ = 2幀采用Slow network計算特征和更新存儲特征。Slownetwork和Fast network異步進行，提高計算效率。

2、在有限資源的硬件設備上布置性能良好的網絡，就需要對網絡模型進行壓縮和加速，其中量化模型是一種高效手段?；赱2]算法，論文的ConvLSTM單元在數學運算（addition,multiplication, sigmoid and ReLU6）后插入量化計算，確保拼接操作的輸入范圍相同，消除重新縮放的需求。

3 實驗

模型在Imagenet DET 和COCO訓練，在Imagenet VID 2015測試結果如圖5所示。

從測試結果看，系統只有Slow network模塊時準確率最高，只有Fast network模塊時準確率最低，但是速度沒有交錯模型快，比較詫異。另外基于強化學習的adaptive對精度和速度幾乎沒有影響，而異步模式和模型量化提高系統的實時性。

圖5 Imagenet VID 2015測試結果

4 優缺點分析

視頻處理策略

1、基于強化學習的交錯模型調度是偽命題。論文的Slow network提取強特征，Fastnetwork提取弱特征，交錯模型的τ越大，模型性能越差。理論上τ=2時模型的準確率越高。綜合考慮準確率和實時性，論文中τ=9。

2、視頻具有很強的上下文相關性。視頻理解領域的目標檢測、分割、識別，跟蹤，等領域，都需要提取前后幀的運動信息，而傳統采用光流方式，無法保證實時性。本文提出的分組ConvLSTM，可加速計算，量化模型保持準確率，具有借鑒意義。

以上僅為個人閱讀論文后的理解、總結和思考。觀點難免偏差，望讀者以懷疑批判態度閱讀，歡迎交流指正。

參考文獻

[1] MasonLiu, Menglong Zhu, Marie White, Yinxiao Li, Dmitry Kalenichenko.Looking Fastand Slow: Memory-Guided Mobile Video Object Detection.arXivpreprint arXiv:1903.10172,2019.

[2] B.Jacob, S. Kligys, B. Chen, M. Zhu, M. Tang, A. Howard,H. Adam, and D.Kalenichenko. Quantization and training of neural networks for efficientinteger-arithmetic-only inference. In CVPR, 2018.

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

Google

Google

+關注

關注
5

文章
1758

瀏覽量
57418
目標檢測

目標檢測

+關注

關注
0

文章
205

瀏覽量
15590

原文標題：Google又發大招：高效實時實現視頻目標檢測

文章出處：【微信號：IV_Technology，微信公眾號：智車科技】歡迎添加關注！文章轉載請注明出處。

在樹莓派上部署YOLOv5進行動物目標檢測的完整流程

目標檢測在計算機視覺領域中具有重要意義。YOLOv5（You Only Look One-level）是目標檢測算法中的一種代表性方法，以其高效

發表于 11-11 10:38 ?471次閱讀

使用OpenVINO C# API部署YOLO-World實現實時開放詞匯對象檢測

YOLO-World是一個融合了實時目標檢測與增強現實（AR）技術的創新平臺，旨在將現實世界與數字世界無縫對接。該平臺以YOLO（You Only Look Once）算法為核心，實現

發表于 08-30 16:27 ?566次閱讀

目標檢測與圖像識別的區別在哪

檢測（Object Detection）是指在圖像或視頻中識別并定位感興趣的目標，通常包括目標的類別和位置。目標

發表于 07-17 09:51 ?729次閱讀

目標檢測與識別技術有哪些

視頻中識別并定位感興趣的目標，通常包括目標的類別和位置信息。目標識別（Object Recognition）是指對檢測到的

發表于 07-17 09:40 ?540次閱讀

目標檢測與識別技術的關系是什么

任務是在圖像或視頻中快速準確地定位出感興趣的目標，并給出目標的位置信息。目標檢測技術通常包括候選區域提取、特征提取、分類器設計等步驟。

發表于 07-17 09:38 ?521次閱讀

目標檢測識別主要應用于哪些方面

介紹目標檢測識別的應用領域，以及其在各個領域的具體應用情況。安全監控安全監控是目標檢測識別應用最廣泛的領域之一。在安全監控系統中，目標

發表于 07-17 09:34 ?952次閱讀

基于深度學習的小目標檢測

在計算機視覺領域，目標檢測一直是研究的熱點和難點之一。特別是在小目標檢測方面，由于小目標在圖像中所占比例小、特征不明顯，使得

發表于 07-04 17:25 ?772次閱讀

基于FPGA的實時邊緣檢測系統設計，Sobel圖像邊緣檢測，FPGA圖像處理

的主要特征提取手段。由于實時視頻圖像的邊緣檢測需要處理的數據量非常大，所以采用一般的軟件方法實現起來處理速度慢，無法滿足實時性的要求。隨

發表于 05-24 07:45

【RTC程序設計：實時音視頻權威指南】音視頻的編解碼壓縮技術

和技術可以實現不同的高效壓縮和解壓縮，常用的就是MP4文件。 MP4是一種容器格式，包含多種類型的媒體文件，如視頻，音頻，靜態圖像等，這些媒體數據同時存在于同一個MP4文件中，MP4支持多種

發表于 04-28 21:04

英碼科技EA500I基于昇騰Mind SDK實現實時人體關鍵點檢測

，實時人體關鍵點檢測應用可以用來識別異常行為或特定姿態，以達到場景安全防控的目的。那么，什么是實時人體關鍵點檢測？簡單來說，實時人體關鍵

發表于 04-21 17:44 ?968次閱讀

在控道AI盒子上基于YOLOv9實現實時目標檢測實戰

隨著計算機視覺技術的不斷進步，目標檢測已經成為許多應用的核心組件，如自動駕駛、視頻監控、智能安防等。

發表于 04-12 14:30 ?900次閱讀

OpenVINO工具包部署YOLO9模型實現實時目標檢測

YOLOv9引入了可編程梯度信息 (PGI) 和廣義高效層聚合網絡 (GELAN) 等開創性技術，不僅增強了模型的學習能力，還確保了在整個檢測過程中保留關鍵信息，從而實現了卓越的準確性和性能。

發表于 03-18 11:38 ?1125次閱讀

百度開源DETRs在實時目標檢測中勝過YOLOs

這篇論文介紹了一種名為RT-DETR的實時檢測Transformer，是第一個實時端到端目標檢測器。

發表于 03-06 09:24 ?1436次閱讀

AI驅動的雷達目標檢測：前沿技術與實現策略

傳統的雷達目標檢測方法，主要圍繞雷達回波信號的統計特性進行建模，進而在噪聲和雜波的背景下對目標存在與否進行判決，常用的典型算法如似然比檢測（LRT）、

發表于 03-01 12:26 ?2542次閱讀

在ELF 1 開發板上實現讀取攝像頭視頻進行目標檢測

深度學習模型的項目，該項目能夠實時讀取攝像頭視頻流并實現對畫面中的物體進行精準的目標檢測。項目所需的硬件設備：1、基于NXP（恩智浦）i.M

發表于 01-24 10:38 ?659次閱讀