Freespace檢測是駕駛場景理解的一部分,它將圖像中的每個像素分類為可駕駛或不可駕駛區域,通常通過圖像分割算法來實現。自動駕駛系統中的其他模塊受益于這些像素級分割結果,例如軌跡預測和路徑規劃,以確保自動駕駛車輛在復雜環境中可以進行安全導航。近年來,多模態數據融合卷積神經網絡(CNN)架構極大地提高了自由空間檢測算法的性能。為了實現穩健且準確的場景理解,自動駕駛車輛通常配備不同的傳感器,并且多種傳感模式可以通過其互補性進行融合。在多模態學習中,模態可以根據融合級別從下到上進行組合。
然而,這種多模態 CNN 具有高數據吞吐量并包含大量計算密集型卷積計算,限制了其實時應用的可行性。高階智駕車載運算單元HPC為這些問題提供了靈活性、性能和低功耗的獨特組合,以適應多模態數據和不同壓縮算法的計算加速。網絡輕量級方法為促進 CNN 在此類資源上的部署提供了極大的保證。
在本文中,介紹了一種用于多模態自由空間Freespace檢測算法的網絡輕量級方法。首先,通過設置HPC中擅長的算子進行運算,同時對神經網絡進行兩部分有效的剪枝,以減少參數數量,以防完整模型超出HPC芯片內存。然后,根據低秩特征圖包含較少信息的原則提出了數據相關的過濾器剪枝器。對于特征提取器來說,為了不損害多模態信息的完整性,剪枝器對于每種模態都是獨立的。對于分段解碼器,應用通道修剪方法來刪除冗余參數。
詳細神經網絡訓練到底需要多大的計算量?
強大的骨干網絡表現更好的分割特征。基于 U-Net的模型將較低級別的特征作為跳躍連接到特征圖,以預測更詳細的輸出。最近的研究主要集中在語義分割模型中的非局部操作,以消除特征圖中的噪聲。這些方法使用參數極大的變壓器來確保網絡學習語義之間的相關性,具有高精度結果的特點。后來,逐漸引入結合多模態數據的幾何信息的方法來解決這個分割問題。早期的工作將深度轉換為單通道圖像,并使用早期融合將深度和 RGB 簡單地連接起來作為四通道圖像輸入。另一種三通道深度編碼,包括水平視差、離地高度和法線角。在其他研究中,RGB和HHA圖像被輸入到兩個DCNN中分別提取特征,最后使用中間融合來進行連接。
自由空間檢測網絡采用經典的編碼器-解碼器架構構建,如圖1所示。
圖 1.輕量級多模態自由空間檢測網絡。采用編碼器-解碼器架構,網絡的輸入是一對 RGB 和深度圖像。由殘差網ResNets編碼器進行處理,多模態融合策略是特征圖的串聯, U 形分割解碼器被傳播用于最終預測。
與軟件平臺不同,硬件構建的卷積計算資源在程序過程中無法釋放。這意味著實現的算子越少對資源的利用就越好。常見的圖像編碼器包括 VGG 、Deeplab 、mobilenet、ResNet等。VGG采用堆疊3×3卷積,但由于梯度消失問題,網絡較淺,很難達到高精度。Deeplab取得了不錯的效果,但空間金字塔結構包含多種空洞卷積算子,多尺度融合時會產生較大的特征張量,很難實現。Mobilenet是一個輕量級網絡,它使用深度可分離卷積來減少3×3卷積的參數,但代價是計算步驟的增加和低維特征的細節損失。ResNet通過捷徑連接大大增加網絡深度,具有很強的特征提取能力,基本只由3×3卷積和1×1組成卷積,這是我們編碼器的首選。
如下圖所示,卷積分解涉及殘差網絡ResNet中的計算有1×1卷積、3×3卷積、7×7卷積和快捷級聯。
圖2. 用 3 × 3 卷積替換 7 × 7 卷積
需要注意的是,車載域控中的級聯運算只需通過內存調度即可實現,無需計算單元的參與。因此,7×7卷積的計算量是最大的。同時,該卷積僅在第一層中出現一次,并且隨后不會重復使用,這導致我們產生了對其進行優化的想法。與 7 × 7 空間濾波器的卷積意味著該操作的感受野是 7 × 7。不改變大小的感受野,我們試圖找到一個具有更小的卷積核的多層網絡來代替這個操作。卷積層的理論感受野可以通過遞歸公式計算:
其中 r 是感受野,k 是內核大小,s 是步幅。假設特征圖的長度和寬度都是x(x >= 7)。我們使用 7 × 7 卷積核以 1 的步長進行滑動,這需要 (x ? 7 + 1) 次滑動。垂直方向同樣,滑動(x ? 7 + 1)次,因此有(x ? 6) ? (x ? 6)次卷積計算,其中感受野的大小為(x ? 6) ? (x ? 6) 6)。同理,3×3卷積后的輸出大小為(x?3+1)*(x?3+1)。在輸出圖上再使用兩個 3 × 3 卷積來獲得感受野 (x ? 3 + 1 ? 3 + 1 ? 3 + 1) ? (x ? 3 + 1 ? 3 + 1 ? 3 + 1) = (x ? 3 + 1) 6)*(x-6),等于7×7卷積結果。因此,可以得出結論,3個3×3卷積和1個7×7卷積具有相同的特征提取能力。
3 × 3 卷積的運算量為 9 次,7 × 7 卷積的運算量為 49 次。對于長寬均為 x 的圖像,3 個 3 × 3 卷積和 1 個 7 × 7 卷積的計算量為 O3 = 9 ?(x?2)2+9*(x?4)2+9*(x?6)2 和 O7=49*(x?6)2 分別。計算O3<=O7,可以得到x>12,這意味著對于大于12×12的圖像,三層3×3卷積在參數數量和計算量上都具有優勢。對于Resnet的第一層,輸入是原始圖像,遠大于12×12,因此使用三層3×3卷積而不是7×7卷積總是性能更好。本文設計的優化加速7×7卷積層如圖3(a)所示。
圖 3.(a) 優化加速 7 × 7 卷積層的細節。(b) 大特征降維的細節
實際上,在語義分割模型中,網絡越深,感受野越大,但解碼器中丟失的信息也越多。因此,邊緣特征的檢索極其重要。U-Net采用跳躍連接的方法,將編碼器中的同級特征圖與反卷積層的恢復結果進行融合,實現邊緣特征的檢索。參考這種U形結構,我們將多模態同層特征連接到skip連接,同時將它們用于反卷積層的計算。缺點是級聯后的特征張量會很厚。以KITTI數據集為例,原始圖像的大小為1392×512,四次下采樣后的特征圖大小為87×32,ResNet-50第4層特征圖的維度為1024。所以特征張量的大小連接后的雙模網絡的大小為 87 × 32 × 3072,占用約 8.13 Mb的RAM。雖然這size在可接受的范圍內,但是需要占用了一半以上的內存空間,這使得設備無法運行雙批并行。這是浪費,所以我們使用兩個 1 × 1 卷積層降低融合特征的維數如上圖3(b)所示。
整個輕量級自由空間檢測網絡采用ResNet-50作為主干,U-net作為分割頭,并采用級聯作為特征融合方法,有效保持了網絡的復雜度和特征提取能力。該輕量級網絡僅包含3×3卷積和1×1卷積兩個卷積算子,大大節省了HPC上的計算資源。同時,對算法中間結果的大小進行精確控制,使算法能夠在HPC內部進行多批次并行處理,避免了外部數據交換帶來的延遲。
為何要進行模型剪枝?
剪枝是一種基于 CNN 過度參數化的神經網絡消除不必要權重的技術。作為一種機器學習方法,CNN可以分為兩個階段:訓練和推理。
訓練階段,需要根據數據學習必要的模型參數;在推理階段,新的數據被輸入到模型中,經過計算得到結果。過度參數化則意味著訓練階段有大量參數來捕獲數據集中的信息。一旦訓練完成到推理階段,這些參數大部分都是冗余的,這意味著可以在部署之前對網絡進行剪枝。網絡剪枝有很多好處,最直接的一個是減少大量計算,從而減少計算時間和功耗。更小的內存占用還允許算法在低端設備上運行,例如用更快、更省電的 SRAM 取代 DRAM。最后,較小的包大小有利于模型更新,使產品升級更加方便。根據剪枝特征的粒度,剪枝技術可以分為權重剪枝和過濾剪枝。早期的方法基于權重剪枝,剪枝的粒度就是權重核,剪枝后的核是填充零元素的稀疏矩陣。在當今硬件的支持下,利用現有的基本線性代數子程序(BLAS)庫無法對稀疏矩陣進行優化,因此剪枝模型很難獲得實質性的性能提升。因此,近年來的研究主要集中在過濾器剪枝上。存在不同粒度的過濾器修剪,例如基于過濾器、基于通道、基于塊和基于層。由于過濾器剪枝不會改變權重矩陣的稀疏性,因此現有的計算平臺和框架可以很好地支持它。
本文主要關注濾波器剪枝來實現模型壓縮和加速,旨在為HPC提供通用的解決方案。典型的神經網絡剪枝框架是訓練、剪枝和微調。
如何根據濾波器剪枝評估函數刪除參數?
濾波器剪枝是通過去除特征提取能力較弱的卷積核,使網絡稀疏來加速的方法。該方法可以大大減少網絡中的參數。重新訓練剪枝后的模型,精度可以很快恢復。該過程可分為五個步驟。步驟1是用數據集訓練整個網絡,生成初始網絡模型文件。步驟2記錄第一層卷積核的權重分布,并根據卷積核的重要性設置剪枝率。步驟3,根據剪枝率刪除對網絡性能影響較小的卷積核和特征圖之間的對應關系。步驟 4 是重新訓練網絡以恢復性能損失。步驟5,逐層重復上述過程,進行剪枝和微調,直至輸出剪枝后的網絡模型文件。
當前,眾多研究專注于修剪過濾器的細粒度權重。先前有人提出了一種迭代方法來丟棄值低于預定義閾值的小權重值,同時,將剪枝表述為一個優化問題,即找到最小化損失的權重,同時滿足剪枝成本條件。然而,通過權值剪枝得到的稀疏矩陣不支持相應的加速操作。
與權重剪枝相反,過濾器剪枝是根據某些指標刪除整個過濾器。它是加速超參數化 CNN 最流行的方法之一,因為修剪后的深度網絡可以直接應用于任何現成的平臺和硬件上以獲得在線加速,從而使一些與數據無關的過濾器剪枝策略得到進一步探索。一些有效的方法包括利用 l1-范數標準可以修剪不重要的過濾器。而使用 l2-范數標準可以有效的選擇濾波器,并以軟方式修剪這些選定的濾波器,隨后又有人提出通過對批量歸一化層的縮放參數實施稀疏性來修剪模型,在濾波器上使用譜聚類來選擇不重要的濾波器。還有一些論文甚至提出了通過幾何中值進行過濾器剪枝來壓縮模型。而這些過濾器剪枝方法需要利用訓練數據來確定修剪后的過濾器。進而,采用下一層的統計信息來指導過濾器的選擇。旨在通過最小化訓練集樣本激活的重建誤差來獲得分解。還有提出了一種本質上由數據驅動的方法,該方法使用主成分分析 (PCA) 來指定應保留的能量比例。將子空間聚類應用于特征圖,以消除卷積濾波器中的冗余。此外,也有開發一種經過數學公式化的方法,用于修剪具有低秩特征圖的過濾器。
剪枝濾波器評價函數
使用低學習率用額外的時期來訓練網絡,以便網絡有機會從性能損失中恢復。一般來說,最后兩步是迭代的,每次迭代都會增加剪枝率。剪枝器的核心在于選擇剪枝濾波器評價函數,其目標是在最高壓縮比下實現較小的精度損失。根據是否利用訓練數據來確定剪枝濾波器,濾波器剪枝可以分為數據相關型和數據無關型。
1)與數據無關的剪枝方法是基于網絡的固有權重,不依賴于輸入數據。剪枝后,需要進行微調以恢復精度。典型的方法包括 L1 或 L2 范數、一階梯度度量、特征圖的秩和網絡層中的幾何中值。這些濾波器具有時間復雜度低的優點,但在精度和壓縮比方面存在局限性。
2)數據相關剪枝的方法是在輸入數據中添加額外的正則項,使其稀疏,并將剪枝嵌入到訓練過程中,使數據流在網絡訓練過程中提出更好的剪枝策略。該類別屬于 BN 層中的縮放因子和掩蔽結構稀疏參數等方法。這些直接向網絡添加稀疏約束的方法通常會比第一種方法取得更好的效果。
在多模態學習中,模型通常支持多個數據輸入,這使得數據對網絡產生顯著影響。因此,我們更喜歡依賴數據的過濾器剪枝作為評估函數。
優化網絡學習算法進行模型訓練
高效的自由空間檢測算法對于智駕系統的部署非常重要。然而,很少有工作討論用于自由空間檢測任務的語義分割神經網絡的修剪。針對分類任務設計的修剪方法已直接應用于分割神經網絡,且在ImageNet上的主干網絡中修剪過濾器并將其轉移到分割網絡。
本文介紹了一種多任務通道修剪以獲得輕量級語義分割網絡。
假設 Ci 是預訓練 CNN 模型的第 i 個卷積層。Ci 中的權重可以表示為 WCi = {w1, w2, ... , wni} ε Rni×ni?1×ki×ki,其中 ni 代表數字Ci 和 ki 中的濾波器數量表示內核大小。輸入特征圖表示為 Xi ={x1, x2, ... , xni}εRb×ni?1×hi×wi,其中 b 是批量大小,hi 和 wi 是特征圖的高度和寬度。過濾器剪枝旨在識別并刪除不太重要的權重從 WCi 設置,可以將其表述為優化問題:
其中 F() 衡量 CNN 中權重的重要性。δ是一個過濾器,如果 wi,j 重要,則為 1;如果 wi,j不重要,則為 0。最小化 p 就是去除 Ci 中最不重要的權重。
編碼器剪枝:我們的關鍵問題在于設計一個能夠很好地反映多模態特征信息豐富度的函數F()。由于不同模態的特征圖相對獨立,大多數直接基于網絡權重設計F()的剪枝方法都會集中于某種模態,這導致算法忽略了重要的跨模態信息。因此,對于編碼器,我們建議根據每個獨立模態的特征圖來定義 F(),因為特征圖是可以反映濾波器屬性和輸入圖像的中間步驟。
因此,優化函數 p 重新表述為:
其中 F*() 估計 wi,j 和 xi,j 生成的特征圖的信息。特征圖包含的信息越多,相應的濾波器就越重要。
矩陣的秩是不相關的行或列向量的數量。對于圖像的矩陣來說,秩可以表示圖像中的信息冗余程度和信息量。我們對圖像 xi,j 執行奇異值分解 (SVD):
其中 R 是輸入特征圖的秩,σi、ui 和 vi 是奇異值。具有等級R的特征圖可以分解為具有等級R和附加信息的較低等級的特征圖,這表明較高等級的特征圖比較低等級的特征圖包含更多信息。它不僅可以作為信息的有效度量,而且可以作為穩定的表示。因此,我們將信息測量定義為:
解碼器剪枝:由于編碼器和解碼器網絡中的縮放因子是交替優化的,因此為骨干網絡和解碼器設置相同的全局閾值是不合適的。無需考慮中間結果的影響,在解碼器上應用傳統的剪枝方法足以去除冗余參數。我們根據卷積核的 L1 范數對它們進行排序:
我們為每個通道引入一個縮放因子,該因子乘以該層的輸出。然后,我們聯合訓練網絡權重和這些縮放因子,并對它們進行稀疏正則化。最后,我們用小因素修剪這些通道并對修剪后的網絡進行微調。由于剪枝對應于刪除該層的所有輸入和輸出,因此我們可以直接獲得一個狹窄的網絡。縮放因子充當權重選擇并與權重共同優化,網絡可以自動識別不重要的通道并安全地刪除它們,而不會極大地影響泛化性能。
最后一步:量化和層融合
8位量化:我們的量化策略是在網絡訓練中使用浮點計算,在推理中使用整數計算。量化的目標是僅使用整數計算來完成所有算術運算。它是通過實數值r和整數值q之間的仿射變換來實現的:
其中 Z 是量化零點,它是常數。r 是要量化的真實值,通常是 32 位浮點數。對于B位量化,q是B位的整數。在本文中,我們設置B = 8。S是量化尺度,通過計算整個數組的最大值和最小值來計算:
Z是量化零點,表示q相對于0的偏差,與q是相同的數據類型。
量化層融合:一般CNN中的一層由卷積、BN和ReLU組成。由于推理過程中所有參數都是恒定的,這些計算的融合可以大大減少參數的數量。由于批量歸一化,卷積計算可以設置為無偏的。
因此,卷積可以表示為:
其中ω是權重,x是輸入特征,y是卷積結果。將如上方程量化,其中 x = Sx(qx ? Zx) 和 ω = Sω(qω ? Zω),卷積等效于:
批量歸一化(BN)廣泛用于解決內部協變量偏移問題。BN在推理過程中的計算可以概括為歸一化和縮放的結合:
其中?是均值,σ是方差,α是尺度,β是平移。然后我們就有了量化的BN:
卷積運算后接非線性激活單元,通過非線性激活函數處理上一層的線性輸出,模擬任意函數,從而增強網絡的表示能力。ReLU 是分段線性函數,這是最常用的激活層。ReLU算子可表示為:
輸出y也應量化為 y = Sy(qy ? Zy)。因此當 y’’≥0 時,那么我們的量化結果為:
當 y’’< 0 時:
最后,得到量化卷積層參數公式如下:
其中M、b、Zx、Zω和Zy是五個常數,可以在推理前離線計算。融合卷積層大大減少了推理中的計算步驟,進一步加速了網絡。
總結
對于自動駕駛汽車來說,自由空間檢測是視覺感知的重要組成部分。近年來,隨著多模態卷積神經網絡(CNN)的發展,駕駛場景語義分割算法的性能得到了顯著提高。因此,大多數自由空間檢測算法都是基于多個傳感器開發的。
本文介紹的算法首先引入一種輕量級多模態自由空間檢測網絡,具有較少的卷積算子和較小的特征圖。然后通過濾波器剪枝和8位量化來減少模型的參數。最后將該模型移植到車載域控上,使其能夠在低功耗器件中進行獨立預測。
審核編輯:劉清
-
濾波器
+關注
關注
160文章
7727瀏覽量
177670 -
編解碼器
+關注
關注
0文章
253瀏覽量
24206 -
自動駕駛
+關注
關注
783文章
13682瀏覽量
166136 -
卷積神經網絡
+關注
關注
4文章
366瀏覽量
11848
原文標題:自動駕駛中多模態下的Freespace檢測到底如何實現輕量化
文章出處:【微信號:阿寶1990,微信公眾號:阿寶1990】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論