作者丨周縱葦@知乎
導讀
視覺的目的是什么?設計匹配亦或是分類。作者從“視覺的目的”引發討論,簡要回顧計算機視覺在通用視覺特征學習的發展歷程,以及近期在這個領域取得的眾多突破,最后對自監督學習框架提出一些作者自己的想法。
摘要:視覺,對于人類或動物來說,似乎是一件稀松平常的事情,我們甚至都不需要去有意識地訓練自己,就可以天賦一般地認識世界。對于機器而言,理解圖片卻是一項極其困難的任務,計算機視覺是一門教機器如何“看”的科學。當給定一個明確的目標函數并加以不斷地迭代,當前的計算機已經可以完成很多復雜的任務,比如圖像視頻分類,目標跟蹤和檢測,實例分割,關鍵點檢測等。完成單一的復雜任務雖然能夠清晰地定義目標函數,但是訓練成本高,數據收集困難,并且復雜任務的數量不勝枚舉,尤其是對于跨學科的圖像理解任務。人類的視覺恰恰相反:通過長時間的觀察學習,只需很少的監督樣本就可以快速達到多個領域的專家水平。要給這種長期的,無監督的學習定義一個清晰的目標函數或目標任務,卻是一項非常具有挑戰的課題,也是計算機視覺一直在探索的問題。這次分享,我將會從“視覺的目的”引發討論,簡要回顧計算機視覺在通用視覺特征學習的發展歷程,以及近期在這個領域取得的眾多突破,最后對自監督學習框架提出一些我自己的想法。
為什么問“視覺的目的是什么?”
大家好,我是周縱葦,現在是亞利桑那州立大學的博士生,再過幾個月我就畢業了,今天很高興在這里和大家聊一聊計算機視覺。視覺不是人類特有的,大多數的動物,或者更寬泛地來說,攝像頭,都有所謂視覺,來收集光線,并做出某些反應。比如現在我沒有真的坐在大家的面前,但是你們可以通過攝像頭看到我。現在的攝像頭變得越來越聰明了,它不光能檢測到物體,還能跟蹤,能識別人臉,能給我實時地做美顏,這還不算什么,現在的攝像頭還能輔助自動駕駛,自動手術等等。真的和我們的視覺越來越像了。問題是,既然攝像頭這么智能,如果用它來替換動物的眼睛,能好使嗎?小貓小狗的視覺系統可能還遠遠做不到像現在的攝像頭一樣,把圖片中的大大小小的東西都識別出來,打上標簽,甚至把邊緣都分割得那么好,它們的視覺系統看起來笨笨的,但是很穩定,很可靠。攝像頭背后的秘密就是我們今天討論的計算機視覺,它的最終目標就是能讓計算機像人一樣地看見,理解照片,視頻,和周圍的環境,并且能作出某些反應。
我們先來看看為什么現在的計算機視覺在某些任務中這么厲害——比如人臉識別——因為它目的明確。在訓練計算機的時候,我們就告訴它,你把這個事兒做了,其他不用管,跟我們小時候差不多,你把學習弄好了,其他大大小小的家務不用你管。那這個事情就簡單了,我們需要做的就是把目標函數設計好,計算機的任務就是不停地學,不停地迭代,直到無限靠近這個目標。用這一套方法論,你會發現計算機視覺很簡單嘛,很多任務,只要我們能清晰地設計出目標函數,并且能收集到大量的數據集,計算機視覺非常容易在某個任務中超越人眼。我說到這兒,不知道大家有沒有在想一個問題?如果說計算機視覺的終極目標是讓計算機擁有像人類或者動物一樣看上去笨笨的但是可靠的視覺理解系統,那我就請問,
視覺的目的是什么?或者視覺的目標函數是什么?
What is the Will of Vision?
“視覺的目的是設計和匹配特征?“
這個問題很有意思,基本上貫穿了整個計算機視覺的研究脈絡。在我還沒生出來的時候,計算機視覺是以規則為主的,對于所有的概念,我們都需要很詳細地去設計它的特征。比如要讓計算機了解貓,最簡單的特征就是它的臉,形狀,四肢,尾巴等等,為了和狗做區分,我們還要設計那些顯著的特征。有了這些特征,計算機就去匹配,能匹配上的就是貓。現在回過來看,你會發現這種方法特沒譜,首先,就算計算機認出了這只貓,這算不上理解,只是對一些規則的數學匹配;其次,普遍的規則很難用在復雜的現實情況中,這只貓必須站的非常端正,計算機才能把它認出來;再有,定義一個概念是非常不容易的,何況有那么多概念要定義。那時候的計算機視覺,目的就是特征的計算和匹配——無論是人為設計的還是用公式算出來的特征,只要匹配上了,計算機就算認出了這個東西。它的弊端雖然不言而喻,但為了解決它還是費了很多時間的。
“視覺的目的是大規模分類?“
后來是怎么解決這個問題的呢?我們就得回頭分析人的視覺系統了,在我們認識世界的時候,沒有人給設計特征,完全是靠大量地長時間地看,不知不覺地就形成了視覺理解。“不知不覺”這個事情很玄,沒法在工程上實現,那么我們就退一步,給計算機看很多很多的圖片,并且告訴它里面有什么,通過這個方法來形成計算機視覺。最有名的就是ImageNet,這個圖片數據集,里面包含了很多人工標注的概念,比如貓,狗。它和之前方法不同的是,從此我們不再需要人為地設計特征了,而是讓計算機自己從大量的圖片和標簽配對中學習這么多概念和它們對應的視覺特征。
用這個方法學習的計算機視覺很強,怎么看出來的呢?是在眾多的benchmark任務中體現出來的。我們稱這些模型為ImageNet預訓練模型。計算機視覺,在這個任務中的目的也很明確,就是準確分類,讓計算機的識別和人類標注越接近越好。是不是順著這個思路,我們可以訓練出一個至少像動物一樣可靠的視覺系統呢?如果答案是的話,問題就簡單多了,擴充ImageNet數據集,增加類別數,增加圖片量,增強模型設計。雖然有人說這樣很費時間也很費錢,但是如果這個思路真的可行,能用錢解決的問題都不是大問題。可是我們想一想,人類或者動物的視覺是這么形成的嗎?或者說
分類是視覺的目的嗎?
再回到我們小時候,我們的視覺系統是否是這樣形成的?當我們看東西的時候,有沒有一個人在邊上一直告訴我們:這是貓,那是狗,這個桌子,那是椅子。如果這個不夠直接,那不妨考慮一下動物,家里的寵物狗是否需要區分這些概念才能建立起它們的視覺系統?在大量的例子中我們可以發現,概念的分類可能是一個有效的途徑,但并不是建立視覺系統的必要條件。進一步講,基于人類語言的標簽不是視覺系統的必要條件,換句話說,不需要“分類”,只需要“分辨”,也就是說,是貓是狗是桌子是椅子沒所謂的,重要的是把這些概念區分開即可。
這里展開來闡述一下“分類”和“分辨”的差異。它們貌似差不多,但在我們今天聊的“視覺的目的”上有本質的區別。
首先,在分類問題中,所有類是完全獨立的,或者說在空間中是兩兩正交的。但是實際情況下卻并非如此,比如類別貓和老虎,貓和椅子,在分類問題的設定下,它們類之間的差異是一樣的,但很顯然,貓和老虎的類間差異比貓和椅子低很多。這就出來兩個問題:我們如何去標注這樣一個數據集,如何去訓練一個模型才能夠讓它知道類之間的不同?
第二點,人工標注的數據集中類之間是很平衡的,貓和狗的數量一樣多,但是現實情況下,類別是長尾分布的,也就是大多數類的圖片是很稀有的,這里的問題是如何解決大多數類的長尾標注問題?
最后一點,也是最關鍵的一點是,類別這個事情,本身就是不勝枚舉的。世界上有多少正交的類,類中還有子類,子類還有子子類,子子孫孫無窮盡也。同樣是狗,狗中還有特別多的子類,如何去定義類和子類,以及如何去定義“有用的”類。比如,ImageNet里面大多是動物,那么植物呢,其他的物件,或者說背景信息,比如天空,大海,星辰呢?
目前來說,訓練完一個計算機模型,它能做的分類只能是數據集里面有的類而已,如果測試集中出來新的類,它是完全不知道的。那么如果說分類真的是視覺的目的,為了去真正地實現像人和動物這樣的視覺系統,其中最大的難點就是去定義和標注這些類。不知道你是否認同,定義類本身這個工作,和定義特征的工作沒有本質的區別。它們的目標都是讓模型能更好的理解圖片,但是定義類和定義特征這兩個工作都是無窮盡的,并且有很多人為主觀的干預,比如什么樣的特征能刻畫一個概念,什么樣的類能幫助建立可靠的視覺系統。但是,話說回來,你是否認同分類是視覺的目的這個假設?
也許不見得吧,再回想我們小時候,監督學習,或者類別學習占的畢竟少數,特別是對動物而言,它們很少很少會出現監督學習這個情況。大多數情況下,視覺系統的建立是無監督的,靠我們自己和環境之間的互動,來理解圖片和視頻。這個簡單的想法就促成了無監督或者自監督的視覺學習方法。其實這方面的研究開始的挺早的,為什么一直都沒有像現在這么火呢?關鍵還是當時的實驗結果沒有像全監督的分類學習那么好,雖然它蠻符合我們對視覺的期望,實驗結果還是硬道理。不過就這幾年,自監督學習發展地特別快,某些方法已經在實驗中被驗證比有監督的分類學習要好。這又是我們在了解視覺系統中邁出的很大的一步。那么我們就來聊一聊自監督學習是如何回答“視覺的目的是什么”這個問題的。
我們所有的系統,視覺,聽覺,觸覺,嗅覺都是自我迭代學習的,很多時候它們在學習而我們是不自知的。有人會問自監督學習是不是就是給一堆數據,讓計算機自己實現智能?不是的,一個很簡單的例子,我給一條狗看MNIST數據集,不停地看,不停地看,很多很多的數字,它會建立起對數字的認知嗎?我再換一個方法,還是讓它不停地看,但是每次看到數字9的時候,給吃的。第二個方法狗的視覺系統會產生學習,但是第一個不會。也就是說,視覺系統,或其他系統的學習是天生惰性的,雖然說我們的視覺系統感覺上是自發學習的,如果沒有明確的動機,它是不會在腦回路中真的產生變化的,那也就回到了我們一直在討論的問題,視覺的目的是什么?如果我們了解了它的動機,那么實現通用的計算機視覺算法就沒有那么困難了。現在那么多的自監督學習方法,其實本質上都在探索這個問題的答案。
我們可以先猜一猜,視覺的目的是什么?科學研究就是先提出假設,然后驗證這個假設。那好,生物最基本的動機就是活著,為了活著,視覺必須學會一個很重要的功能,那就是
預判
試想一直老虎向你跑過來了,你不會等它到了才跑吧,視覺系統需要做準確的預判并且馬上采取行動。對于那些不能做預判的,可能就被自然淘汰了。另一個不那么極端的例子,你看到蘋果從樹上掉下來,應該會躲吧,這也是一種預判。往大里說是你的視覺系統學習到了牛頓定理,其實就是它學習到了重力的表現形式。很多很多生活上的例子表明,視覺系統需要學習預判的能力。那么預判在自監督學習上體現在哪兒呢?其實有很多,最基本的就是auto-encoder,還有去噪聲的auto-encoder,in-painting,out-painting,在視頻處理中應用的更多,根據當前幀來預測下一幀的圖片。這些方法在實驗中被證明是非常有效的,并且不需要人工的標注,因為圖片和視頻本身就是最好的標注。
但是這一系列的預判方法在某些時候可能會不太好用。比如,我隨機遮住一只貓腦袋的一部分,讓計算機去腦補,如果它知道這只貓,就會補全它的腦袋,這沒有問題。但是,如果我遮住那只貓的尾巴,計算機去腦補的時候就會出問題,因為就算我知道這只貓需要補一條尾巴,但是我不知道那尾巴原來是朝哪兒的。再看原圖,它只是提供了某一種可能性,但并不唯一的可能性。發現問題了嗎?這一系統方法被人詬病的最重要的一個點就是,預判是一個概率的問題,不能用原圖的每一個像素來做嚴格訓練,特別是需要預判的內容特別多的時候,會出現問題。Yann Lecun有一個非常經典的例子,視頻中一只鉛筆筆尖朝下豎直放著,預測下一時間,我們都知道鉛筆會因為重力倒下,但是具體往哪個放下倒是一個隨機的問題,并不能用原數據來監督學習。最近有論文就對這個問題做了詳細的詮釋和提出了解決方案,大家有機會可以去看一看:
https://openai.com/blog/image-gpt/
好,我們再想想還有什么是視覺系統需要自發學習的。剛剛說了一只老虎朝你跑過來,你需要預判并且躲避,那么如果一只小貓跑過來呢?注意這里需要學習的是
分辨(而不是分類)
最簡單的動機,還是為了生存,我們需要區分能吃的和不能吃的,往大里說,我們需要區分不同物體的差異,并不是分出來貓和狗的類別差異就可以了,更需要分出來不同的貓之間的差異,大小胖瘦,毛色等等,從這個角度講,每一只貓個體都是不一樣的,并且,即便是一只貓,在早中晚也是不一樣的。這就和剛剛說的以分類為核心,類與類之間正交的學習方法完全不同了,廣義上說,我們需要承認世界上沒有兩片一樣的雪花,即便給的標簽是一摸一樣的,(0,1,0,0),計算機也需要看出物與物之間的不同。這個思路引出了最近火的不行的對比學習。和預判不同的是,這一系列的方法不需要“腦補”,而是能在對比中發現不同即可。很有代表性的工作包括聚類,旋轉,和最近的SimCLR,MoCo等。特別一提的是,就是這種方法最近被發現比ImageNet上的分類學習更有效。SimCLR和MoCo假設是世界上沒有兩片一樣的雪花,我們在這個基礎上又加了一個假設,也就是我們承認沒有兩片一樣的雪花,但是雪花和雪花之間的差異還是會比雪花和樹葉之間的差異更大。
這個很重要,對比學習,除了對比出不同點,也應該同時發現相似處。這就是我們去年在MICCAI Workshop中發表的一篇工作。大家有興趣的也可以看一看。
Parts2Whole: Self-supervised Contrastive Learning via Reconstructionlink.springer.com
https://link.springer.com/chapter/10.1007/978-3-030-60548-3_9
這也引出了一個更深層的討論,不同概念的內涵(connotation)和外延(denotation):內涵是一個概念中事物的共有屬性,外延是一切屬于這個概念的具體事物。分類問題事先給定了一個概念的外延的一部分,比如在所有ImageNet數據集中,“貓”這個概念的外延就是它對應的那幾張圖片,模型根據這個外延,來學習“貓”這個概念中圖片的共有屬性(內涵)。分辨則不同,它是不斷地放縮一個概念的外延,來辨別兩幅圖片的相似點和差異性,即便是兩幅“貓”,當外延只縮到每一幅圖本身了,模型在承認這兩幅圖都有貓的同時,還需要辨別出兩只貓細微的差異的,比如顏色,動作,長相,年齡。對比學習在縮放不同概念的內涵和外延之間,學習到更立體,更豐滿的視覺特征。
前沿成果的比較
談到這里,我們離學術前沿是越來越近了。回顧一下我們到底想要一個什么東西?我們需要一個通用的,可靠的,可延展的視覺模型,這個模型不是去做博士干的事情,比如分割一個細胞,區分一個腫瘤是惡性還是良性的,從圖片中找病灶等等,這些工作都是后話,有足夠標簽就能做好,我們需要的是一個五歲小朋友的視覺系統,一種雖然看上去傻乎乎的什么都不會,但是很穩定,很全面的一個模型。很多人在詬病深度學習說需要很多的標簽,而人只需要學習一兩個樣本中就掌握一項任務。這個認識是有偏見的,人確實可以通過學習一兩個樣本就能大概分清什么是肋骨,什么是心臟,但是這個人想必不是剛出生的嬰兒,嬰兒視覺系統是沒有辦法短時間內完成這個one-shot或者few-shot的任務的。而這個五歲左右的視覺系統,就是我們追求的視覺模型。這個模型,是有機會讓無數的下游任務實現少樣本學習。這相當于是一件“磨刀不誤砍柴工”的工作。在眾多的下游任務中,我們只需要極少的模型參數量的調整,極少的人工標注,就可以達到一個不錯的水平。
我們離這個夢想是有距離的。現在我們就來看看自監督學習離真正回答“視覺的目的是什么”還差多少。現在每天都有那么多自監督學習的方案發表,可以說是公說公有理,婆說婆有理,大家都從不同的角度去思考如何訓練一個通用的視覺模型,所以給模型設定的目標也是非常不一樣的。有說腦補可以的,有預測旋轉角度的,有做拼圖游戲的,有比較學習的。一時間出現這么多套訓練方案百家爭鳴,正常嗎?非常正常。想想我們在建立視覺基礎的時候也不就是自己摸索出自己的一套方法嗎?打個比方,如果說一個厲害的視覺預訓練模型是高考狀元,高考每年有那么多的狀元,他們成功背后的方法也是不一樣的嘛。每一個方法都可以發表一篇論文,每個家長都說自己的一套方法是訓練狀元的有效途徑。但是,真的要去評價孰好孰壞是不容易的,確實可能某些自監督方法在特定的情況下會很強,它的通用性是需要在很多具體任務來評判。最新的一篇論文
How Well Do Self-Supervised Models Transfer?
https://arxiv.org/pdf/2011.13377.pdf
就有對大部分自監督學習方法做一個比較,得到的結果參差不齊,有時候這個方法好,有時候那個方法好。這方面的研究論文一般來說有兩種,一種是提出新的自監督學習方法,說新提出的方法比其他的方法好。隨著越來越多的方案的提出,另一種文章是對這么多方法的一個綜述和比較。除了這兩種論文,現在又有一種論文的題目特別有趣兒,形如:
Do Better ... Transfer Better?
這里的省略號代表不同的預訓練方法。你可能會覺得很奇怪,人家論文都說了,比如預測旋轉角度可以讓模型更好地遷移學習,為什么還有問這個問題呢?其實這兩個論述不太一樣,一個是實然層面的,我做了實驗,結果表明預測旋轉角度可以提高遷移學習的效果,另一個是應然層面的,意思是說預測旋轉角度是不是視覺的目的,也就說如果我提升了預測旋轉的能力,是否保證這個預訓練模型一定會更好?這是一個很有意思的問題,我們可以從實驗中總結出來一個自監督學習的方法,比如預測旋轉角,是不是直接地學習了視覺特征,還是在預測角度的同時間接地學到了視覺特征。還是高考狀元為例,我寫一篇論文說根據我的統計結果,發現高考狀元的家境普遍比較貧寒。我再寫一篇論文,問是不是家境越貧寒,高考成績越好呢?這就是這一類論文的價值所在,它簡直就是靈魂拷問,它從本質上去測試一個自監督學習方法是不是學習到了視覺的目的。大家能明白我接下來要講什么嗎?如果這個類的論文“Do Better ... Transfer Better?”,但凡有一篇的回答是Yes,那真的是,學習通用視覺特征這個問題就大體解決了,或者變成了一個可解的問題了。為什么呢?打個比方,我發現腦補圖片的技能越強,模型的遷移學習能力越強。視覺的目的一下子被清晰的定義下來了,也就說訓練模型的目標函數被定義下來了。我們把一個模糊的,抽象的所謂“視覺的目的”,轉化成了一個具體的,可量化的函數,接下來的任務就是刷高分數,像ImageNet競賽一樣,有一個清晰的評價指標,然后每年把分數往上刷。
現在我們沒有辦法這么直接地解決問題,還在一個探索期,視覺的目的是什么?剛剛總結了兩大塊主流任務,預判與分辨。計算機科學為什么是一門科學,是因為在解決工程問題的時候,我們需要做底層的分析和研究,也需要多學科的交流,比如視覺和腦科學的研究會對解決這個預訓練的問題很有幫助。那我們來看看這一路走來學到了什么。從一開始的定義特征,到后來自動學習特征(但是需要定義好類別和類別數),到現在完全不需要人工的類別標簽,一個趨勢就是,當學習通用的視覺模型時,人為定義的東西越少越好,讓計算機自主學習的東西越多越好。沿著這個思路下去,和我們的視覺系統相比,這些自監督學習的方法,至少到目前為止,我認為還有幾個方面需要解決:
首先,視角是人為設計的。
其次,模型是人為設計的。
最后,任務是人為設計的。
這三個方向的研究都非常有意思,今天我沒辦法一一細說,我會在后續的博客中討論。這邊我展開來討論一下最后一條,任務是人為設計的。首先我覺得在現在的階段,人為設計預訓練的任務是可以被接受的,畢竟我們人類上課學習的時候也有一個培養計劃,讓計算機自己給自己設計一套學習方案,我現在還不敢想。那就看看如何去設計任務,讓計算機可以學到通用的視覺特征?回溯到自監督學習一開始的時候,它是先在自然語言處理領域得到突破,為什么自然語言可以做自監督呢?原因是(1)語言可以切成詞匯,(2)詞匯的排列是有意義的。計算機從網上的那么多語料中學習,一個很重要的點是你不能把語料中的詞匯打亂,打亂了就沒有語義了。比如
視 · 覺 · 的 · 目 · 的 · 是 · 什 · 么
一共八個字組成,是一段有意義的話,但是,這八個字有很多中排列組合的形式,絕大多數的排列是沒有語義特征的,而計算機就只在這種有意義的排列中學習特征,所以是有效的。反觀自然圖片,貓的圖片可謂說是千奇百怪什么都有,像自然語言那樣的理想情況是什么?最好所有的貓都端端正正地給我坐好,一個姿勢,一種表情,然后計算機去學習它的紋理,形狀,或其他的抽象特征。在這種嚴格的規定下,我清楚地知道什么在上,什么在下,什么在左,什么在右,就像自然語言一樣人為地創造了一種特定的語法。計算機就可以比較直接地學習到圖片的上下文語義特征。請問這一段對理想圖片的描述讓你想到了什么?
醫學影像
首先在拍影像的時候,醫生是不會讓你有天馬行空的姿勢的,基本上兩種姿勢,要不站著,要不躺著。其次,如果姿勢是固定的,人體的組織器官的分布也是有序的,五臟六腑都有固定的位置。所以最后拍出來的圖片都看起來差不多,就像一個句子,你反復地用不同的詞匯說,但是表達的內容相似。
視覺的目的是什么?視覺的動機是什么?視覺的目標是什么?
醫學影像這個獨特的優勢和自然語言非常的類似。所以我有理由相信在醫學影像處理中的自監督學習也可以得到像BERT一樣很猛的預訓練模型,而不依賴于人工標簽。那如何去利用這個天然的優勢呢?我們還需要參考自然語言處理,它們是先定義了詞的概念,然后根據大量的語料學習每個詞的特征,或者每個詞在句子中的特征。相似地,我們也可以給醫學影像定義視覺詞匯,因為剛才說了,這些視覺詞匯在醫學影像中是有序的,并且傳達出人體組織結構的語義信息,那么一個簡單的思路就是去學這些視覺詞匯的特征。在計算機視覺早期的時候就有Bag of Visual Word的概念,我們最近的一篇TMI就是讓這些視覺詞匯通過深度網絡的學習,使之具備遷移學習的能力。大家有機會可以去看看,應該馬上就能見刊了,下面這篇是它的會議版本:
Learning Semantics-enriched Representation via Self-discovery, Self-classification, and Self-restoration
https://arxiv.org/abs/2007.06959
我們來看看這個方法背后想要傳達的信息和整體框架的基本假設。梳理一下剛剛的邏輯:
自然語言處理的預訓練特別猛,而且不依靠人工標注,因為語料中自帶了上下文語義特征
醫學影像也具備相似的屬性,因為拍照是的姿勢固定的,人體內部的組織結構是有序的
因此,我們只需要定義醫學影像中的視覺詞匯,并學習它的上下文語義特征即可
可能這個時候有小伙伴會質疑,你說的這個特征確實在醫學影像中表現地非常明顯,但自然圖像難道不具備這個特征嗎?沒錯,自然圖片也可以有這個特征,比如說人臉識別,只要能把人臉從圖片中框出來,并加上一定的旋轉,也可以得到一個具有固定上下文語義特征的數據集, 也就是一個近似對齊的數據集,計算機同樣可以通過自監督的視覺詞匯學習,從圖像中學到特征。只是構建這種數據集需要一定的工作,不像醫學影像(比如ChestXray)那樣是自帶的屬性。
再往上想一層,其實自然圖片是包含了弱弱的上下文語義的。剛剛說的語義特征是來自于有序的詞匯排列,如果打亂了,語義就沒了。從這個邏輯出發,嚴格意義上講,所有能被理解的自然圖片都是有一定意義的,真的打亂圖片中的像素才能說它是一堆亂碼。一張圖中這么多像素,它們能根據一定的規則拼成有意義的圖片,本身就是一種語義信息。
只是沒有像醫學影像那么直接,看起來那么有規則。總結來講,醫學影像本身具有很好的屬性,讓我們可以有針對性地設計自監督學習的策略,原因是它比自然圖片更有規則,總結來說,人體組織結構的一致性是自監督學習在醫學影像處理中一個很獨特也是很直接的學習目的。除了這個特性,醫學影像和自然圖片相比,還有很多寶藏可以挖,比如影像的像素值有物理意義,大多數影像是三維的等等,這些特性都是設計預訓練算法的非常寶貴的參考,我今天就不細說了,因為很多想法都還沒有發表,等以后和大家分享。
最后,上一個價值:計算機視覺在學習通用特征時,需要大量參考人類或者動物的視覺系統,也就是一種跨學科的概念。當然也不是說必須我們要用電腦模擬一個一摸一樣的視覺系統,很多工具在借鑒生物學的同時也會根據工程的實際需要進行調整。比如飛機借鑒了鳥的翅膀,但是最后的成品是在這個鳥的基礎上優化了很多,甚至改進地面目全非。這是在了解了鳥類飛行的機理的前提下,我們才有可能進行仿真和優化。其實這方面是有爭論的,我們會因為腦科學的研究對大腦有一個完整的認識,還是會先在計算機科學上有一個突破,從而反推回大腦的機理,建立起更深的認識,這個我不清楚。但是今天討論“視覺的目的”是想給計算機找出一個可量化的目標函數,這個目標函數可以和通用視覺特征有一個很緊密的關聯,而做到Better ... Better Transfer。這個目的從一開始計算和匹配人為設計的特征,到后來匹配人為定義的類別的監督學習,再到現在的預判,分辨為核心的自監督學習。除了從視覺本身出發去設計不同的預訓練任務,探索視覺的目的,我們也可以通過對圖片本身性質的理解出發來設計任務,也就是所謂先驗的特征,特別是醫學影像中那么多的模態,各有千秋,各有各的語義特征。
編輯:黃飛
-
機器視覺
+關注
關注
161文章
4344瀏覽量
120106 -
醫學影像
+關注
關注
1文章
110瀏覽量
17353 -
人臉識別
+關注
關注
76文章
4005瀏覽量
81764 -
視覺系統
+關注
關注
3文章
331瀏覽量
30684 -
計算機視覺
+關注
關注
8文章
1696瀏覽量
45927
原文標題:視覺的目的到底是什么?
文章出處:【微信號:機器視覺沙龍,微信公眾號:機器視覺沙龍】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論