引言
目標(biāo)檢測是計算機視覺中的一個非常重要的基礎(chǔ)任務(wù),與常見的的圖像分類/識別任務(wù)不同,目標(biāo)檢測需要模型在給出目標(biāo)的類別之上,進一步給出目標(biāo)的位置和大小信息,在 CV三大任務(wù)(識別、檢測、分割)中處于承上啟下的關(guān)鍵地位。當(dāng)前大火的多模態(tài) GPT4在視覺能力上只具備目標(biāo)識別的能力,還無法完成更高難度的目標(biāo)檢測任務(wù)。而識別出圖像或視頻中物體的類別、位置和大小信息,是現(xiàn)實生產(chǎn)中眾多人工智能應(yīng)用的關(guān)鍵,例如自動駕駛中的行人車輛識別、安防監(jiān)控應(yīng)用中的人臉鎖定、醫(yī)學(xué)圖像分析中的腫瘤定位等等。
已有的目標(biāo)檢測方法如 YOLO系列、R-CNN系列等耳熟能詳?shù)哪繕?biāo)檢測算法在科研人員的不斷努力下已經(jīng)具備很高的目標(biāo)檢測精度與效率,但由于現(xiàn)有方法需要在模型訓(xùn)練前就定義好待檢測目標(biāo)的集合(閉集),導(dǎo)致它們無法檢測訓(xùn)練集合之外的目標(biāo),比如一個被訓(xùn)練用于檢測人臉的模型就不能用于檢測車輛;另外,現(xiàn)有方法高度依賴人工標(biāo)注的數(shù)據(jù),當(dāng)需要增加或者修改待檢測的目標(biāo)類別時,一方面需要對訓(xùn)練數(shù)據(jù)進行重新標(biāo)注,另一方面需要對模型進行重新訓(xùn)練,既費時又費力。一個可能的解決方案是,收集海量的圖像,并人工標(biāo)注Box信息與語義信息,但這將需要極高的標(biāo)注成本,而且使用海量數(shù)據(jù)對檢測模型進行訓(xùn)練也對科研工作者提出了嚴峻的挑戰(zhàn),如數(shù)據(jù)的長尾分布問題與人工標(biāo)注的質(zhì)量不穩(wěn)定等因素都將影響檢測模型的性能表現(xiàn)。
發(fā)表于 CVPR2021的文章 OVR-CNN[1]提出了一種全新的目標(biāo)檢測范式:開放詞集目標(biāo)檢測(Open-Vocabulary Detection,OVD,亦稱為開放世界目標(biāo)檢測),來應(yīng)對上文提到的問題,即面向開放世界未知物體的檢測場景。OVD由于能夠在無需人工擴充標(biāo)注數(shù)據(jù)量的情形下識別并定位任意數(shù)量和類別目標(biāo)的能力,自提出后吸引了學(xué)術(shù)界與工業(yè)界持續(xù)增長的關(guān)注,也為經(jīng)典的目標(biāo)檢測任務(wù)帶來了新的活力與新的挑戰(zhàn),有望成為目標(biāo)檢測的未來新范式。具體地,OVD技術(shù)不需要人工標(biāo)注海量的圖片來增強檢測模型對未知類別的檢測能力,而是通過將具有良好泛化性的無類別(class-agnostic)區(qū)域檢測器與經(jīng)過海量無標(biāo)注數(shù)據(jù)訓(xùn)練的跨模態(tài)模型相結(jié)合,通過圖像區(qū)域特征與待檢測目標(biāo)的描述性文字進行跨模態(tài)對齊來擴展目標(biāo)檢測模型對開放世界目標(biāo)的理解能力。跨模態(tài)和多模態(tài)大模型工作近期的發(fā)展非常迅速,如 CLIP[2]、ALIGN[3]與R2D2[4](鏈接:https://github.com/yuxie11/R2D2)等,而它們的發(fā)展也促進了 OVD的誕生與 OVD領(lǐng)域相關(guān)工作的快速迭代與進化。
OVD技術(shù)涉及兩大關(guān)鍵問題的解決:1)如何提升區(qū)域(Region)信息與跨模態(tài)大模型之間的適配;2)如何提升泛類別目標(biāo)檢測器對新類別的泛化能力。從這個兩個角度出發(fā),下文我們將詳細介紹一些 OVD領(lǐng)域的相關(guān)工作。
OVD基本流程示意[1]
OVD的基礎(chǔ)概念:OVD的使用主要涉及到 few-shot 和 zero-shot兩大類場景,few-shot是指有少量人工標(biāo)注訓(xùn)練樣本的目標(biāo)類別,zero-shot則是指不存在任何人工標(biāo)注訓(xùn)練樣本的目標(biāo)類別。在常用的學(xué)術(shù)評測數(shù)據(jù)集 COCO、LVIS上,數(shù)據(jù)集會被劃分為 Base類和 Novel類,其中Base類對應(yīng) few-shot場景,Novel類對應(yīng) zero-shot場景。如 COCO數(shù)據(jù)集包含65種類別,常用的評測設(shè)定是 Base集包含48種類別,few-shot訓(xùn)練中只使用該48個類別。Novel集包含17種類別,在訓(xùn)練時完全不可見。測試指標(biāo)主要參考 Novel類的 AP50數(shù)值進行比較。
Open-Vocabulary Object Detection Using Captions
論文地址:https://arxiv.org/pdf/2011.10678.pdf
代碼地址:https://github.com/alirezazareian/ovr-cnn
OVR-CNN是 CVPR2021的 Oral-Paper,也是 OVD領(lǐng)域的開山之作。它的二階段訓(xùn)練范式,影響了后續(xù)很多的 OVD工作。如下圖所示,第一階段主要使用 image-caption pairs對視覺編碼器進行預(yù)訓(xùn)練,其中借助 BERT(參數(shù)固定)來生成詞掩碼,并與加載 ImageNet預(yù)訓(xùn)練權(quán)重的 ResNet50進行弱監(jiān)督的 Grounding匹配,作者認為弱監(jiān)督會讓匹配陷入局部最優(yōu),于是加入多模態(tài) Transformer進行詞掩碼預(yù)測來增加魯棒性。
第二階段的訓(xùn)練流程與 Faster-RCNN類似,區(qū)別點在于,特征提取的 Backbone來自于第一階段預(yù)訓(xùn)練得到的 ResNet50的1-3層,RPN后依然使用 ResNet50的第四層進行特征加工,隨后將特征分別用于 Box回歸與分類預(yù)測。分類預(yù)測是 OVD任務(wù)區(qū)別于常規(guī)檢測的關(guān)鍵標(biāo)志,OVR-CNN中將特征輸入一階段訓(xùn)練得到的 V2L模塊(參數(shù)固定的圖向量轉(zhuǎn)詞向量模塊)得到一個圖文向量,隨后與標(biāo)簽詞向量組進行匹配,對類別進行預(yù)測。在二階段訓(xùn)練中,主要使用 Base類對檢測器模型進行框回歸訓(xùn)練與類別匹配訓(xùn)練。由于 V2L模塊始終固定,配合目標(biāo)檢測模型定位能力向新類別遷移,使得檢測模型能夠識別并定位到全新類別的目標(biāo)。
如下圖所示,OVR-CNN在 COCO數(shù)據(jù)集上的表現(xiàn)遠超之前的 Zero-shot目標(biāo)檢測算法。
RegionCLIP: Region-based Language-Image Pretraining
論文地址:https://arxiv.org/abs/2112.09106
代碼地址:https://github.com/microsoft/RegionCLIP
OVR-CNN中使用 BERT與多模態(tài) Transfomer進行 iamge-text pairs預(yù)訓(xùn)練,但隨著跨模態(tài)大模型研究的興起,科研工作者開始利用 CLIP,ALIGN等更強力的跨模態(tài)大模型對 OVD任務(wù)進行訓(xùn)練。檢測器模型本身主要針對 Proposals,即區(qū)域信息進行分類識別,發(fā)表于 CVPR2022的 RegionCLIP[5]發(fā)現(xiàn)當(dāng)前已有的大模型,如 CLIP,對裁剪區(qū)域的分類能力遠低于對原圖本身的分類能力,為了改進這一點,RegionCLIP提出了一個全新的兩階段 OVD方案。
第一階段,數(shù)據(jù)集主要使用 CC3M,COCO-caption等圖文匹配數(shù)據(jù)集進行區(qū)域級別的蒸餾預(yù)訓(xùn)練。具體地,
將原先存在于長文本中的詞匯進行提取,組成Concept Pool,進一步形成一組關(guān)于Region的簡單描述,用于訓(xùn)練。
利用基于LVIS預(yù)訓(xùn)練的RPN提取Proposal Regions,并利用原始CLIP對提取到的不同Region與準(zhǔn)備好的描述進行匹配分類,并進一步組裝成偽造的語義標(biāo)簽。
將準(zhǔn)備好的Proposal Regions與語義標(biāo)簽在新的CLIP模型上進行Region-text對比學(xué)習(xí),進而得到一個專精于Region信息的CLIP模型。
在預(yù)訓(xùn)練中,新的CLIP模型還會通過蒸餾策略學(xué)習(xí)原始CLIP的分類能力,以及進行全圖級別的image-text對比學(xué)習(xí),來維持新的CLIP模型對完整圖像的表達能力。
第二階段,將得到的預(yù)訓(xùn)練模型在檢測模型上進行遷移學(xué)習(xí)。
RegionCLIP進一步拓展了已有跨模態(tài)大模型在常規(guī)檢測模型上的表征能力,進而取得了更加出色的性能,如下圖所示,RegionCLIP相比 OVR-CNN在 Novel類別上取得了較大提升。RegionCLIP通過一階段的預(yù)訓(xùn)練有效地的提升了區(qū)域(Region)信息與多模態(tài)大模型之間的適應(yīng)能力,但 CORA認為其使用更大參數(shù)規(guī)模的跨模態(tài)大模型進行一階段訓(xùn)練時,訓(xùn)練成本將會非常高昂。
CORA: Adapting CLIP for Open-Vocabulary Detection with Region Prompting and Anchor Pre-Matching
論文地址:https://arxiv.org/abs/2303.13076
代碼地址:https://github.com/tgxs002/CORA
CORA[6]已被收錄于 CVPR2023,為了克服其所提出當(dāng)前 OVD任務(wù)所面臨的兩個阻礙,設(shè)計了一個類 DETR的OVD模型。如其文章標(biāo)題所示,該模型中主要包含了 Region Prompting與 Anchor Pre-Matching兩個策略。前者通過 Prompt技術(shù)來優(yōu)化基于 CLIP的區(qū)域分類器所提取的區(qū)域特征,進而緩解整體與區(qū)域的分布差距,后者通過 DETR檢測方法中的錨點預(yù)匹配策略來提升 OVD模型對新類別物體定位能力的泛化性。
CLIP 原始視覺編碼器的整體圖像特征與區(qū)域特征之間存在分布差距,進而導(dǎo)致檢測器的分類精度較低(這一點與 RegionCLIP的出發(fā)點類似)。因此,CORA提出 Region Prompting來適應(yīng) CLIP圖像編碼器,提高對區(qū)域信息的分類性能。具體地,首先通過 CLIP編碼器的前3層將整幅圖像編碼成一個特征映射,然后由 RoI Align生成錨點框或預(yù)測框,并將其合并成區(qū)域特征。隨后由 CLIP 圖像編碼器的第四層進行編碼。為了緩解 CLIP 圖像編碼器的全圖特征圖與區(qū)域特征之間存在分布差距,設(shè)置了可學(xué)習(xí)的 Region Prompts并與第四層輸出的特征進行組合,進而生成最終的區(qū)域特征用來與文本特征進行匹配,匹配損失使用了樸素的交叉熵損失,且訓(xùn)練過程中與 CLIP相關(guān)的參數(shù)模型全都凍結(jié)。
CORA是一個類 DETR的檢測器模型,類似于 DETR,其也使用了錨點預(yù)匹配策略來提前生成候選框用于框回歸訓(xùn)練。具體來說,錨點預(yù)匹配是將每個標(biāo)簽框與最接近的一組錨點框進行匹配,以確定哪些錨點框應(yīng)該被視為正樣本,哪些應(yīng)該被視為負樣本。這個匹配過程通常是基于 IoU(交并比)進行的,如果錨點框與標(biāo)簽框的 IoU 超過一個預(yù)定義的閾值,則將其視為正樣本,否則將其視為負樣本。CORA表明該策略能夠有效提高對新類別定位能力的泛化性。
但是使用錨點預(yù)匹配機制也會帶來一些問題,比如只有在至少有一個錨點框與標(biāo)簽框形成匹配時,才可正常進行訓(xùn)練。否則,該標(biāo)簽框?qū)⒈缓雎?,同時阻礙模型的收斂。進一步,即使標(biāo)簽框獲得了較為準(zhǔn)確的錨點框,由于Region Classifier的識別精度有限,進而導(dǎo)致該標(biāo)簽框仍可能被忽略,即標(biāo)簽框?qū)?yīng)的類別信息沒有與基于CLIP訓(xùn)練的Region Classifier形成對齊。因此,CORA用CLIP-Aligned技術(shù)利用CLIP的語義識別能力,與預(yù)訓(xùn)練ROI的定位能力,在較少人力情形下對訓(xùn)練數(shù)據(jù)集的圖像進行重新標(biāo)注,使用這種技術(shù),可以讓模型在訓(xùn)練中匹配更多的標(biāo)簽框。
相比于RegionCLIP,CORA在COCO數(shù)據(jù)集上進一步提升了2.4的AP50數(shù)值。
360人工智能研究院在OVD技術(shù)上的實踐
OVD技術(shù)不僅與當(dāng)前流行的跨/多模態(tài)大模型的發(fā)展緊密聯(lián)系,同時也承接了過去科研工作者對目標(biāo)檢測領(lǐng)域的技術(shù)耕耘,是傳統(tǒng)AI技術(shù)與面向通用AI能力研究的一次成功銜接。OVD更是一項面向未來的全新目標(biāo)檢測技術(shù),可以預(yù)料到的是,OVD可以檢測并定位任意目標(biāo)的能力,也將反過來推進多模態(tài)大模型的進一步發(fā)展,有希望成為多模態(tài)AGI發(fā)展中的重要基石。
360 人工智能研究院近年來的研發(fā)重點包括:21年跨模態(tài)方向,22年OVD和視頻分析方向,23年AIGC和多模態(tài)大模型方向。在底層海量圖文數(shù)據(jù)及多模態(tài)方向長期技術(shù)積累的加持下,360人工智能研究院自研OVD大模型,目前已在互聯(lián)網(wǎng)、智能硬件等業(yè)務(wù)中落地,在長尾目標(biāo)檢測、巡店、看護、設(shè)備巡檢等場景中實現(xiàn)廣泛應(yīng)用。未來我們計劃將OVD與多模態(tài)大模型MLLM相結(jié)合,賦予LLM在基礎(chǔ)的視覺能力之外更為重要的開放世界目標(biāo)檢測能力,讓多模態(tài)大模型的能力向通用人工智能更近一步。
號外
為了推動OVD研究在國內(nèi)的普及和發(fā)展,360人工智能研究院聯(lián)合中國圖象圖形學(xué)學(xué)會舉辦了2023開放世界目標(biāo)檢測競賽(鏈接:https://360cvgroup.github.io/OVD_Contest/),目前競賽正在火熱報名中。競賽可以幫助大家找到OVD方向的研究同好,與他們切磋交流,并能接觸實際業(yè)務(wù)場景數(shù)據(jù),體驗OVD技術(shù)在實際生產(chǎn)中的優(yōu)勢與魅力,歡迎報名和轉(zhuǎn)發(fā)。
360人工智能研究院簡介:360人工智能研究院隸屬于360技術(shù)中臺。自2015年成立以來積累了大量人工智能與機器學(xué)習(xí)前沿能力,范圍包括但不限于自然語言理解、機器視覺與運動、語音語義交互等方面,技術(shù)水平行業(yè)領(lǐng)先,核心成員和團隊多次榮獲AI相關(guān)比賽冠軍/提名獎項,發(fā)表頂會、頂刊論文數(shù)十篇。業(yè)務(wù)落地方面,研究院提供智能安全大數(shù)據(jù)、互聯(lián)網(wǎng)信息分發(fā)、企業(yè)數(shù)字化、AIoT、智能汽車等360集團全量業(yè)務(wù)場景支持,支持千萬級硬件設(shè)備,億級用戶,產(chǎn)生千億規(guī)模數(shù)據(jù)量。2023年著重攻堅大語言模型、CV大模型和多模態(tài)大模型,為360集團和行業(yè) AIGC技術(shù)發(fā)展應(yīng)用提供底層技術(shù)支撐。
-
算法
+關(guān)注
關(guān)注
23文章
4599瀏覽量
92643 -
目標(biāo)檢測
+關(guān)注
關(guān)注
0文章
205瀏覽量
15590 -
Agi
+關(guān)注
關(guān)注
0文章
77瀏覽量
10194
原文標(biāo)題:邁向多模態(tài)AGI之開放世界目標(biāo)檢測
文章出處:【微信號:AI科技大本營,微信公眾號:AI科技大本營】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論