一、比賽背景
International Geoscience and Remote Sensing Symposium (IGARSS)是IEEE地球科學和遙感學會的旗艦會議。2023年7月16 ,第46屆IGARSS大會在美國帕薩迪納成功召開,發布了IEEE GRSS DFC 2023國際遙感數據融合大賽的結果和論文。來自中國、美國、瑞典、日本、印度、德國、比利時、泰國、土耳其等全球25個國家和地區的700余支隊伍,經過為期三個月的初賽、決賽激烈角逐,航天宏圖PIESAT-AI團隊在“建筑物實例分割與屋頂細粒度分類”與“面向多任務學習的城市建筑物提取與高度估計”雙賽道,均獲得第一名的好成績。
在城市規劃與建筑設計領域,建筑屋頂類型和高度是非常重要的元素之一,影響到建筑外觀、功能、通風、采光、保溫、防水等多個方面。正確的提取建筑的基底、高度、以及屋頂類型(如坡頂、平頂、圓頂、尖頂等),有助于高效地完成實景三維重建,為土地利用、空間分析、數字孿生等方面提供重要的參考數據,同時也可加強環境監測和資源管理,促進城市可持續發展。此外,在城市災害和救援中,這些信息的準確性也很關鍵。當城市遭受地震、洪水等自然災害時,往往會造成建筑物屋頂的破損和崩塌,如果能通過衛星影像快速地確定災區的屋頂狀況,可以為救援行動提供重要的信息和指導。
傳統的建筑檢測、屋頂分類、高度估計方法往往依賴于地面實地勘測,因為受天氣、光照、時間等因素的影響,存在效率低、成本高、精度差等問題,已無法滿足現代需求。huang等人[1]驗證代表性的單階段 (SOLOv2)、兩階段 (Mask-RCNN、Cascade Mask RCNN) 和基于查詢 (QueryInst) 的方法,這些方法在類似賽道一的屋頂檢測分割數據集 UBC [1]中無法實現理想的性能。zheng[2]、xing[3]等人提出聯合語義信息提高單一高度估計任務的學習,但與高度信息完全匹配的語義標簽卻難以獲得,影響了高度估計的準確性。
基于光學遙感圖像的細粒度屋頂檢測、分類,高度估計技術主要面臨三個挑戰:
不同屋頂類型、建筑物高度(低,中,高)的樣本呈現不均勻的長尾分布,如圖1.1-1.3所示;
在遙感圖像中很多建筑屬于弱小目標不易分辨;
不同屋頂類別之間視覺特征模糊難以區分;
部分標注數據中,建筑輪廓和高度掩碼(nDSM大于0部分)不對齊,如圖1.4所示;
實際場景中的云霧干擾、建筑陰影、相互遮擋等,降低了識別精度。
SAR雷達影像因為波長更長,可以穿透云層、霧、灰塵、霾和煙,克服了遙感光學影像受天氣、光照、時間等干擾的不足。我們嘗試將遙感可見光影像和SAR雷達影像這兩種模態數據與深度學習算法相結合,研發全新的多模態建筑基底、屋頂類型、高度估計方法,實現更高精度的建筑屬性自動提取方法。
▲圖 1.1 IEEE GRSS DFC 2023數據集[4]的12種屋頂類型
▲圖1.2 IEEE DFC 2023數據集,各種屋頂類別實例分布?;?、橙和藍色分別代表大、中、小實例
▲圖1.3 IEEE GRSS DFC 2023數據集建筑高度分布情況,超過50m的約占2%
▲圖1.4 IEEE GRSS DFC 2023數據集,建筑物輪廓和nDSM圖像不對齊樣例
二、屋頂檢測分類方法
基于遙感多模態AI技術,航天宏圖團隊使用自監督預訓練、雙主干網絡多模態表征、Modified Copy-Paste數據增強、實例分割多模型融合,抗長尾損失函數SeesawLoss等方法來應對上述挑戰并實現高精度的建筑屋頂檢測和分類的方法,在DFC 2023賽道一測試集以mAP50 50.6% 取得第一名成績。
本賽道遙感圖像上的建筑屋頂具有目標特征微弱,不同屋頂間的特征邊界模糊、不同類別屋頂數量極度不平衡等特點。為了提高模型區分目標前景和背景的能力從而提高模型的召回率,系統架構采用經典的端到端two stage實例分割算法Cascade Mask-RCNN[5]作為基礎框架, 網絡結構如圖2.1所示。相比于one stage的實例分割算法,two stage的RPN結構幫助模型能夠更加細致的理解圖特征,獲得更多前景proposal從而更加有力的應對微弱特征目標。同時為了進一步加強模型特征提取能力,我們基于CBnetV2首次提出將目前的SOTA算法ConvNeXtV2進行dual-ConvNeXtV2結構的構建。為了應對訓練數據存在的長尾分布場景,我們將定位損失GIoULoss與分類損失SeesawLoss相結合,有效地緩解了訓練過程中占比較小類別的梯度會被頭部類別淹沒的問題。
“優秀”的模型初始化策略在整個模型訓練優化過程中占據了舉足輕重的地位,可以讓模型贏在起跑線。本次比賽為了進一步提高模型的收斂質量,提供高模型最終的表現,我們未使用以往的Imagenet22K預訓練模型,而是在訓練模型前對主干網絡進行了自監督模型預訓練,自監測預訓練策略選用與ConvNeXtV2較為契合的FCMAE。
本賽道用于訓練的數據集包含數據樣本數量為3000+,為了更好的提升模型的泛化能力,我們在數據增強策略上進行創新?;趯嵗指钐狳c利器Simple Copy-Paste基礎上,我們提出Modified Copy-Paste,從粘貼實例角度喜歡數據增強環節,進一步增強數據增強能。并結合大尺度的圖像輸入,隨機翻轉,隨機旋轉等數據策略大大提升模型泛化到其它場景能力。
模型推理階段輸入光學影像模態和SAR模態,輸出建筑物屋頂的檢測外接矩形框、屋頂類別及屋頂的多邊形輪廓,模型具體表現如圖2.2所示。
▲圖2.1 多模態屋頂檢測識別網絡結構圖
▲圖2.2 模型推理結果樣例
2.1. 具體方法
屋頂檢測與細粒度分類模型訓練流程如圖2.3所示。第一步進行ConvNeXtV2遙感影像域自適應預訓練;第二步使用Modified copy-paste等數據加強進行檢測器模型訓練;第三步對模型進行去Modified copy-paste的微調;第四步進行SWA訓練。接下來文章會根據訓練的每個Step為線索,對所涉及的技術細節及創新性方案進行詳細闡述。
▲圖2.3 屋頂檢測與細粒度分類模型流程
2.1.1 Step1: 自監督預訓練
模型通過自監督預訓練在訓練正式開始前快速的適應場景數據,為后面的訓練打下堅實的基礎。該部分主要技術點在ConvNeXtV2及FCMAE。
ConvNeXtV2[6]:該模型采用全卷積架構,模型通過全局特征聚合、特征標準化、特征校準等策略使得模型有著強悍的性能,一經提出就成為CV領域各大競賽的寵兒。本次項目沿用ConvNeXtV2模型的整體架構,未作修改。
FCMAE[7]:該方法是對于全卷積架構模型進行MIM預訓練的方式,該方法引入稀疏卷積實現讓卷積神經網絡能夠通過圖像遮擋部位的圖像還原來對圖像數據進行建模,從而讓模型對遙感屋頂建筑該領域的數據進行訓練前的domain adaptation。從圖2.4中可以看出,模型對與masked部分能通過自己的理解進行一定的合理性還原。
▲圖2.4 FCMAE方法預訓練過程數據破壞及重建可視化,original:數據原圖,masked:被破壞后輸入模型的數據形態,reconstruction:模型重建后的數據形態。
2.1.2 Step2: 模型訓練
模型的訓練過程采用豐富的數據增強策略對構建起的檢測器進行訓練,我們使用的檢測器是經典的Cacsace Mask Rcnn架構,并為了對抗長尾分布的訓練數據集采用seesaw loss對分類頭進行監督。這一部分我們主要側重的技術點Dual-Backbone、Modified Copy-Paste及損失的使用。
Dual-Backbone: 方案參考CBNet[8]網絡結構,設計出兩個稠密連接的Dual-ConvNeXtV2結構,如圖2.5所示。兩個子主干網絡均為ConvNeXtV2-base網絡,二者通過稠密連接的方式增強高維度低維度信息的融合及兩個子主干網絡間特征信息的融合。
▲圖2.5. Dual-Backbone的網絡結構
Modified Copy-Paste: 在檢測器訓練過程中,有效的數據增強策略能夠提高檢測器的魯棒性。Simple Copy-Paste[9]是實例分割檢測器的重要數據增強手段之一。Modified Copy-Paste對Simple Copy-Paste剪切下的實例進行旋轉、翻轉、縮放后再粘貼到目標圖片數據上合成新的數據。因為遙感數據的特殊性,俯視拍攝的數據不會因為實例的旋轉、翻轉而破壞整個場景數據的語義信息。合成數據可見圖2.6所示。
▲圖2.6 Modified Copy-Paste合成數據
SeesawLoss[10]: 降低檢測器在長尾分布數據上性能的一個關鍵原因是施加在尾部類別上的正負樣本梯度的比例是不均衡的,而 SeesawLoss 通過動態地抑制尾部類別上過量的負樣本梯度,同時補充對誤分類樣本的懲罰,顯著改進了尾部類別的分類準確率,進而提升檢測器在長尾數據集上的整體性能。
2.1.3 Step3: 模型微調
訓練過程中,豐富的數據增強策略是把雙刃劍,它不僅可以擴充數據集增強模型的泛化能力也可以從一定程度導致整體訓練數據的domain shift,從而影響模型最終的能力。為了最大程度利用數據增強策略,弱化其負面影響,我們在實驗中發現,經過多輪次訓練后的模型可以通過關閉數據增強并使用小學習率進行微調來達到進一步提高精度的效果,精度提升效果具體可見表2.1。
2.1.4 Step4: SWA訓練
SWA(Stochastic Weights Averaging)[11]:機器學習模型權重一般會收斂到一組最佳權重集合的邊緣部分,而使用隨機權重平均可以收斂到這個最佳權重集合的更中心位置,一般具有更好的平均表現和泛化水平。該策略可以對訓練好的模型進行穩定,有助于比賽最終模型效果的穩定。
2.2. 實驗結果
表2.1 給出消融實驗結果。我們在DFC2023賽道1復賽成績 mAP50 50.6% 是通過不同超參數和骨干網下訓練的多個強大檢測器進行WSF 融合而獲得的。從實驗中,可以發現SeesawLoss帶來0.18的提升;SCP可以在此基礎上提點0.008;主干網絡變為ConvNeXtV2并使用自監督域自適應預訓練又有0.007個點的提升;SWA和MCP的使用分別有0.009和0.02的提升。但是, SAR 數據并沒有增強模型性能,如表 2.1.* 所示,與單一光學模態輸入相比,精度下降0.072,主要原因是提供的SAR數據沒有與光學影像準確的對齊。
▲表2.1.消融實驗結果,其中CMR,SCP,MCP,db,DAP,CNV2分別是Cascade Mask-Rcnn,Simple Copy-Paste,Modified Copy-Paste,DUal-Backbone,Domain Adapted Pretraining,ConvNeXtV2, Weighted Segmentation Fusion的縮寫
三、建筑高度估計
基于單張衛星影像的建筑提取和高度估計是基于規則大規模城市3D重建和空間分析的關鍵數據。PopNet[2]使用雙解碼器機制,同時 SCENet[3]引入了分離-合并機制和注意力機制,用于同時處理語義分割和高度估計的任務。但是這些方法都強依賴于對齊的語義標簽和高度標簽。
為了應對前述挑戰部分標注數據建筑輪廓和高度掩碼不對齊的問題,以及建筑高度的長尾分布問題,我們提出了一種聯合建筑層級提取和高度估計的HGDNET方法。在DFC 2023賽道2數據集上的大量實驗和消融研究證明了該方法在建筑高度估計(δ1:0.8012)、實例提?。ˋP50:0.7730)方面的優越性以及最終平均得分0.7871在測試階段排名第一, 部分效果如圖3.1所示。
▲圖3.1. 高度估計的效果圖,(a)是光學影像,(b)(c)分別是真值和模型預測結果,最后一列(d)diff=pred-gt,顏色越深差異越大,紅色和綠色分別表示相對真值,預測結果偏高和偏低
通過綜合調研與實驗對比,最后我們提出了一種新的雙解碼器高度估計模型(Height-hierarchy Guided Dual-decoder Network,HGDNet),集成了輔助分支-建筑物高度層級的分割分支,以緩解不同高度建筑物直接高度估計的困難,網絡結構如圖3.2 所示。其中,高度估計的分支(左)直接通過像素級推理,逐像素回歸nDSM值;而輔助分支則進行離散的建筑高度層級分類,即通過對nDSM值進行聚類,將建筑分為不同高度層級,以生成新合成的建筑分割指導圖。高度估計分支和輔助分支(建筑高度層級分類)之間形成隱式約束,促進模型的訓練速度與最終模型對高度的估計的準確性。
▲圖3.2. 高度估計網絡HGDNet的結構
3.1. 具體方法
基于高度層次引導的雙解碼高度估計網絡HGDNet的架構如圖3.2所示。采用ConvNeXt V2-Base作為編碼器模塊提取遙感影像的主干特征,同時采用了雙解碼器的結構分別進行高度估計與建筑數高度層級分割的聯合估計任務,不同分支的解碼器對不同任務分別進行回歸學習。解碼器采用UperNet [12]的結構,通過上-下的通路和跳躍連接實現不同尺度的特征融合。兩個分支共享同樣的主干網絡權重進行特征提取,從而不同分支通過不同方向的損失進行權重的回歸迭代,共同約束模型學習,加速訓練速度,提高訓練精度。
3.1.1 高度估計分支
由于建筑物高度分布不均勻,見圖1.2, 集中在0-50m,甚至0-10m。因此,我們對nDSM 使用對數函數進行處理,使其分布更接近正態。然后,執行最大歸一化以促進更快的模型收斂。標準化 nDSM 計算如下:
采用UperNet 作為解碼器框架。通過低層、高層的神經通路和橫向連接增強了主干的多尺度特征。所有增強的特征都被上采樣到一定的規模并隨后融合,作為高度估計的最終特征。此外,在高度分支的末尾添加了一個額外的 1 通道卷積層和一個 Sigmoid 層進行最后的激活。
3.1.2 輔助分支-建筑高度層級分割
為了提高高度估計的準確性,在網絡中加入了一個額外的高度分層分割分支。在此分支中,使用與高度估計分支相同的 UPerNet 解碼器。然而,融合特征只需要一個 n 通道卷積層,其中 n 等于高度層次的數量。我們將 nDSM 劃分為幾個離散的高度層級,而不是直接使用僅具有單個類的實例分割標簽,這有助于通過不同的高度層級加強模型的特征提取能力。通過分析nDSM的分布并使用聚類算法,將nDSM分為n類作為建筑高度層級的類別標簽, 這些離散的類別標簽用于指導建筑物高度的估計,解決了通用方法中與nDSM對齊的語義標簽不足的問題。
3.1.3 加權損失函數
建筑高度層級分割分支是一個n分類的學習,使用交叉熵(CE)損失,而高度分支是一個像素級的回歸分支,所以使用SmoothL1損失,由于兩個損失的量級不同,在兩個分支中應用不同的損失權重。最終損失函數如下:
3.1.4 高度的校正過程
在訓練中,輔助分支由于與高度估計分支共享主干網絡、特征,二者通過隱式約束互相促進,但輔助分支作用不至于此。在推理過程,輔助分支還有額外的作用。輔助分支學習的是建筑高度層級的分類結果,這也就意味著輔助分支分類為0的地方即地面區域(無高度),于是,利用輔助分支結果對HGDNet估計的建筑高度進行后處理,將輔助預測為地面類型的且高度預測不到一定閾值的高度修正為0。
3.2 實驗結果
3.2.1 對比實驗
在HGDNet的高度層次分割分支中,建筑物根據高度分為地面、低、中、高4個層次類別。如表3.1所示,通過與其他模型的對比,在DFC中驗證集上,HGDNet取得了δ1=0.7966的最好結果,比次優的SCENet高0.02。
▲表3.1 DFC 2023賽道2測試集上高度估計的結果,其中Baseline是官方發布的基于Deeplabv3的回歸結果
3.2.2 消融實驗
表3.2,3.3分別對HGDNet的分層分割結果分支和高度特征表征主干網絡進行了消融實驗,可以發現ConvNeXtV2 Base是相對最好的特征提取器,尤其是增加了建筑層級分割分支進一步提升了分割精度,同結構下,沒有建筑層級分割分支的模型精度(δ1)要低6個百分點。
▲表3.2 HGDNet增加分層分割結果的對比實驗
▲表3.3 HGDNet的高度估計特征表征主干網絡對比實驗
總結與展望
經過大量的實驗,我們利用光學衛星圖像作為輸入,采用域自適應預訓練和雙主干特征提取,構建了一個魯棒的建筑屋頂實例分割模型。同時,我們提出了一種高度層次引導的雙解碼高度估計網絡HGDNet用于建筑高度屬性估計。此外,基于我們提出的兩類高性能算法模型,我們可以準確地提取得到建筑物輪廓、類別、高度、地理位置等多種屬性信息,來高效構建建筑實體,實現大規模的城市級三維建模。我們基于單張影像的完成的三維城市規則化建模結果如圖4.1,4.2所示。該技術能夠在城市規劃、災害防護、城市孿生等等多方面應用中發揮重要作用,讓城市實景三維建設更高效、讓信息更直觀被人所理解。
▲圖4.1. 語義分析成果示意圖
(從左至右:光學衛星影像、建筑輪廓、建筑高度估計)
▲圖4.2基于單張衛星影像的快速建模video demo
航天宏圖“女媧星座”首發4顆InSAR衛星于2023年3月30日成功發射。一期工程計劃于2023年至2025年共發射38顆業務星,包括28顆雷達衛星組成的雷達遙感星座和10顆光學遙感衛星,將提供更豐富、更高分辨率的衛星數據。本次DFC2023比賽,光學影像與SAR影像之間的錯位和異構性給多模數據融合帶來了困難。后續,我們將結合航天宏圖衛星數據進一步提升建筑屬性估計精度,利用光學影像和SAR數據進行多模態融合更多的探索。
審核編輯:彭菁
-
雷達
+關注
關注
50文章
2901瀏覽量
117327 -
遙感
+關注
關注
0文章
244瀏覽量
16792 -
數據集
+關注
關注
4文章
1205瀏覽量
24644 -
衛星數據
+關注
關注
0文章
10瀏覽量
6851 -
航天宏圖
+關注
關注
0文章
91瀏覽量
8484
原文標題:航天宏圖榮獲IEEE 2023國際遙感數據融合大賽雙賽道冠軍 | 基于遙感影像的建筑屋頂檢測分類和高度估計
文章出處:【微信號:MzA3MjAyNTI5MQ==,微信公眾號:航天宏圖】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論