精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

通過訓(xùn)練大型卷積網(wǎng)絡(luò),可以預(yù)測數(shù)十億社交媒體圖像的hashtag

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-08-19 09:20 ? 次閱讀

為了解決視覺模型依賴有監(jiān)督預(yù)訓(xùn)練、難以遷移的問題,F(xiàn)acebook何愷明等多名研究者發(fā)表了一項獨特的遷移學(xué)習(xí)研究,無需數(shù)據(jù)清洗和手工標(biāo)記數(shù)據(jù),通過訓(xùn)練大型卷積網(wǎng)絡(luò)可以預(yù)測數(shù)十億社交媒體圖像的hashtag,在圖像分類和目標(biāo)檢測任務(wù)上都得到了迄今最高的精度。

用于各種任務(wù)的最先進(jìn)的視覺感知模型都依賴于有監(jiān)督的預(yù)訓(xùn)練。ImageNet分類實際上是這些模型的預(yù)訓(xùn)練任務(wù)。然而,ImageNet現(xiàn)在已有近十年的歷史,并且按現(xiàn)代標(biāo)準(zhǔn)而言,它的規(guī)模相當(dāng)“小”。

即便如此,對于要用多個數(shù)量級更大的數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練的行為,我們所知甚少。原因很明顯:這些數(shù)據(jù)集很難收集,也很難注釋。

為了解決這個問題,來自Facebook的包括何愷明在內(nèi)的多名研究者發(fā)表了一項獨特的遷移學(xué)習(xí)研究,通過訓(xùn)練大型卷積網(wǎng)絡(luò),可以預(yù)測數(shù)十億社交媒體圖像的hashtag。

這一研究再次引起熱議,吳恩達(dá)也在推特上盛贊:

“當(dāng)你在前所未有的35億張(真的很大!)有標(biāo)記圖像上訓(xùn)練,然后遷移到新的任務(wù),神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練能不斷改進(jìn)。在我看來,我們還遠(yuǎn)遠(yuǎn)沒有接近預(yù)訓(xùn)練/遷移學(xué)習(xí)的極限。”

該研究的實驗表明,對大規(guī)模 hashtag 預(yù)測進(jìn)行訓(xùn)練可以得到很好的結(jié)果。研究展示了幾項在圖像分類和目標(biāo)檢測任務(wù)上的改進(jìn),并報告了迄今為止最高的ImageNet-1k single-crop,top-1 精度:85.4%(top-5 精度是97.6%)。大量實驗還提供了關(guān)于大規(guī)模預(yù)訓(xùn)練和遷移學(xué)習(xí)效果之間關(guān)系的新的經(jīng)驗數(shù)據(jù)。

無需數(shù)據(jù)清洗和人工標(biāo)記,得到優(yōu)異遷移性能

幾乎所有最先進(jìn)的視覺感知算法都依賴于同一個方案:(1)在一個大型、手動注釋的圖像分類數(shù)據(jù)集上預(yù)訓(xùn)練卷積網(wǎng)絡(luò);(2)在一個較小的、特定于任務(wù)的數(shù)據(jù)集上微調(diào)網(wǎng)絡(luò)。這個方案已經(jīng)廣泛使用多年,并在許多任務(wù)上取得了令人印象深刻的改進(jìn),包括物體檢測、語義分割、人體姿勢估計、視頻識別、單目深度估計等。事實上,它是如此有效,以至于現(xiàn)在不使用有監(jiān)督的預(yù)訓(xùn)練被認(rèn)為是蠻干。

ImageNet數(shù)據(jù)集實際上是一個預(yù)訓(xùn)練數(shù)據(jù)集。雖然有研究分析了各種ImageNet預(yù)訓(xùn)練因素對遷移學(xué)習(xí)的影響,或使用與ImageNet規(guī)模一致的其他數(shù)據(jù)集,但對于在大幾個數(shù)量級的數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練的了解相對較少。

原因有很多:這樣大的數(shù)據(jù)集很少,因為構(gòu)建新的數(shù)據(jù)集需要大量人力,并且需要大量的計算資源來進(jìn)行實驗。然而,鑒于預(yù)訓(xùn)練的核心作用,擴(kuò)展在這一領(lǐng)域的科學(xué)了解非常重要。

本文試圖通過研究一個未被探索的數(shù)據(jù)體系來解決這個復(fù)雜的問題:數(shù)十億張帶有社交媒體“標(biāo)簽”(hashtags)的真實圖片。這個數(shù)據(jù)源的優(yōu)點是:它很大,并且在不斷增長,以及從注釋角度來說它是“免費”的,因為不需要手動標(biāo)記。但是,這個數(shù)據(jù)源也有潛在的缺點:hashtag可能噪音太多而不能用作有效的監(jiān)督信號,并且圖像分布可能存在偏差,從而損害遷移學(xué)習(xí)。因此,在這些數(shù)據(jù)上進(jìn)行訓(xùn)練不一定能產(chǎn)生良好的遷移學(xué)習(xí)結(jié)果。

本研究的主要結(jié)果是,在沒有人工數(shù)據(jù)集管理或復(fù)雜的數(shù)據(jù)清洗的情況下,使用數(shù)千個不同的hashtag作為標(biāo)簽,在數(shù)十億Instagram圖像上訓(xùn)練的模型表現(xiàn)出了優(yōu)異的遷移學(xué)習(xí)性能。例如,我們觀察到在圖像分類和物體檢測任務(wù)上相比state-of-the-art的技術(shù)有所改進(jìn),我們在ImageNet-1k圖像分類數(shù)據(jù)集 single-crop,top-1的準(zhǔn)確率為85.4%,相比此前最優(yōu)的79.8%要高;在COCO物體檢測數(shù)據(jù)集獲得45.2% AP,高于此前最優(yōu)的43.7%。

但是,我們的主要目標(biāo)是提供關(guān)于這個先前未被探索的體系的新實驗數(shù)據(jù)。為此,我們進(jìn)行了大量實驗,揭示出一些有趣的趨勢。例如,我們發(fā)現(xiàn)“hashtag engineering”(即收集以特定hashtag子集標(biāo)記的圖像)是改善遷移學(xué)習(xí)結(jié)果的一個有前景的新方向。在大規(guī)模hashtag數(shù)據(jù)上訓(xùn)練對label noise意外的robust,所學(xué)的特征允許簡單的線性分類器實現(xiàn)最優(yōu)的ImageNet-1k top-1 準(zhǔn)確率,即83.6%,沒有任何微調(diào)(微調(diào)的情況下達(dá)到84.2%)。

擴(kuò)大有監(jiān)督預(yù)訓(xùn)練

在實驗中,我們訓(xùn)練了標(biāo)準(zhǔn)的卷積網(wǎng)絡(luò)架構(gòu)來預(yù)測多達(dá)35億張Instagram公開圖像的hashtag。

Instagram 數(shù)據(jù)集

表1:用于圖像分類任務(wù)的數(shù)據(jù)集

ImageNet 數(shù)據(jù)集

除了標(biāo)準(zhǔn)IN-1k數(shù)據(jù)集之外,我們還嘗試了完整ImageNet 2011版本的更大子集,包含14.2M圖像和22k標(biāo)簽。我們構(gòu)建包含5k和9k標(biāo)簽的訓(xùn)練集和驗證集。在所有情況下,每個類都使用50張圖像進(jìn)行驗證。

模型

我們使用具有分組卷積層的殘差網(wǎng)絡(luò)ResNeXt[15],實驗使用ResNeXt-101 32×Cd,它有101層,32組,組寬為C。

實驗和結(jié)果

在實驗中,我們預(yù)訓(xùn)練了卷積網(wǎng)絡(luò)來進(jìn)行標(biāo)簽預(yù)測,然后將這些網(wǎng)絡(luò)遷移到各種任務(wù)中。

圖像分類實驗

我們通過三個分類目標(biāo)任務(wù)(ImageNet [30], CUB2011 [21], Places365[14])的分類精度來評估Instagram預(yù)處理。我們對224×224中心裁剪的圖像進(jìn)行推理,并研究(1) hashtag詞匯量大小,(2)訓(xùn)練集大小,(3) hashtag 目標(biāo)中的噪聲的數(shù)量,以及(4) hashtag的采樣策略對結(jié)果的影響。

1、Instagram hashtag集對準(zhǔn)確度的影響如何?

圖1顯示,對hashtag預(yù)測進(jìn)行預(yù)訓(xùn)練可以顯著提高目標(biāo)任務(wù)的準(zhǔn)確性:在標(biāo)準(zhǔn)的IN-1k基準(zhǔn)測試集中,一個在約1B、具有1.5k標(biāo)簽的Instagram圖像集上預(yù)訓(xùn)練的網(wǎng)絡(luò),最高精度達(dá)到84.2%——與僅使用IN-1k訓(xùn)練的相同模型架構(gòu)相比,提高了4.6%;與使用優(yōu)化網(wǎng)絡(luò)架構(gòu)的先前技術(shù)相比,提高了1.5%。

圖1:用 IG-1B 數(shù)據(jù)集訓(xùn)練ResNeXt-101 的分類精度,包含不同詞匯量大小的hashtag(紫色條)。灰色條表示基線模型。

Instagram預(yù)訓(xùn)練得到的性能改進(jìn)因ImageNet任務(wù)而異。在CUB2011和Places365目標(biāo)任務(wù)中,使用最大 hashtag 集訓(xùn)練的源模型可能表現(xiàn)最佳,因為17k hashtags跨越了更多對象、場景和細(xì)粒度類別。這些模式非常直觀,表明源標(biāo)簽集和目標(biāo)標(biāo)簽集之間的對齊是一個重要因素。

我們還使用具有17k hashtags(深紫色條)的更大的3.5B圖像集,結(jié)果如圖1所示。它在所有目標(biāo)任務(wù)中都表現(xiàn)最佳。雖然IN-1M-1k模型在val-IN-1k上獲得了87.5%的rectified top-1 精度,但我們的IG-3.5B-17k預(yù)訓(xùn)練模型精度達(dá)到了90.4%。

2、預(yù)訓(xùn)練圖像集大小對準(zhǔn)確度的影響如何?

圖2:在IN- {1k,5k,9k}和CUB2011的分類精度。橫軸表示源任務(wù)的訓(xùn)練圖像數(shù)量。

圖2顯示了ImageNet驗證集的分類精度(y軸),它是Instagram訓(xùn)練圖像數(shù)量(x軸)的函數(shù),數(shù)量范圍從3.5M到3.5B。該圖顯示了預(yù)訓(xùn)練的模型的結(jié)果,用于預(yù)測具有三種不同容量(由不同顏色表示)的ResNeXt-101模型的1.5k標(biāo)簽(虛線)或17k標(biāo)簽(實線)。

3、hashtag標(biāo)簽的噪聲對模型精度有什么影響?

圖3:在IG-1B-17k上預(yù)訓(xùn)練的ResNeXt-101 32×16d的分類精度

圖3的結(jié)果表明,網(wǎng)絡(luò)對標(biāo)簽噪聲具有顯著的彈性:p = 10%的噪聲水平導(dǎo)致分類精度損失小于1%,而標(biāo)簽噪聲p = 25%,精度降低約2%。這些結(jié)果表明,如果在數(shù)十億圖像上訓(xùn)練網(wǎng)絡(luò),標(biāo)簽噪聲可能問題不大。

4、預(yù)訓(xùn)練數(shù)據(jù)的采樣如何影響準(zhǔn)確性?

圖4:ResInXt-101 32×4d的分類精度,在IG-1B-17k上預(yù)訓(xùn)練,在val-IN- {1k,5k,9k}上用三種不同的標(biāo)簽采樣策略:自然采樣,均勻采樣和平方根采樣。

結(jié)果表明重新采樣標(biāo)簽分布對于獲得良好的ImageNet圖像分類結(jié)果非常重要:使用均勻采樣或平方根采樣可以提高5到6%的準(zhǔn)確度,無論ImageNet類的數(shù)量是多少。該圖還表明,隨著目標(biāo)類數(shù)量的增長,更大的hashtag詞匯量可以提高準(zhǔn)確度。

探索監(jiān)督預(yù)訓(xùn)練的極限

我們試圖探索監(jiān)督預(yù)訓(xùn)練(supervised pretraining)的極限。除了在ImageNet-1k基準(zhǔn)任務(wù)(85.4%single-crop, top-1 精度; 97.6%single-crop, top-5 精度)和其他幾項視覺任務(wù)上產(chǎn)生最先進(jìn)的結(jié)果,我們的研究還得到四個重要的觀察:

1、我們的結(jié)果表明,雖然增加預(yù)訓(xùn)練數(shù)據(jù)集的大小是值得的,但為源任務(wù)選擇標(biāo)簽空間以匹配目標(biāo)任務(wù)的標(biāo)簽空間至少同等重要。我們發(fā)現(xiàn),在設(shè)計用于匹配ImageNet-1k數(shù)據(jù)集中類的標(biāo)簽詞匯表上訓(xùn)練的網(wǎng)絡(luò)優(yōu)于那些訓(xùn)練了兩倍數(shù)量的圖像、而沒有仔細(xì)選擇hashtag標(biāo)簽的網(wǎng)絡(luò)(圖2左上)。

這一發(fā)現(xiàn)為“l(fā)abel-space engineering”方法的設(shè)計鋪平了道路,該方法旨在為特定目標(biāo)任務(wù)選擇最佳的(弱監(jiān)督)標(biāo)簽集。這種標(biāo)簽空間工程可能比進(jìn)一步增加訓(xùn)練模型的數(shù)據(jù)規(guī)模更有成效。

2、與先前的工作[16,17]一致,我們觀察到在訓(xùn)練數(shù)十億圖像時,當(dāng)前的網(wǎng)絡(luò)架構(gòu)是欠擬合(underfitting)的。雖然這種underfitting的確導(dǎo)致對hashtag的噪聲具有很高的魯棒性,但我們的結(jié)果表明,通過進(jìn)一步提高網(wǎng)絡(luò)容量可以提高目標(biāo)任務(wù)準(zhǔn)確性。例如,通過增加現(xiàn)有架構(gòu)的層數(shù)和每層的過濾器數(shù)量,或者通過專家混合(使用跨GPU的模型并行化),可以增加容量。

3、實驗結(jié)果還強(qiáng)調(diào)了在基準(zhǔn)測試任務(wù)中更多地考慮視覺多樣性的重要性。結(jié)果表明,如果在具有更大視覺變化的任務(wù)上評估這些特征,則視覺特征質(zhì)量的差異變得更加明顯。 例如,我們發(fā)現(xiàn)使用兩個不同詞匯表預(yù)訓(xùn)練的模型之間的準(zhǔn)確度差異隨著目標(biāo)類數(shù)量的增加而增加。 我們相信對更多ImageNet類進(jìn)行評估有助于更全面地評估視覺識別模型。

4、將模型轉(zhuǎn)換為目標(biāo)檢測、實例分割和關(guān)鍵點檢測任務(wù)的結(jié)果表明,大規(guī)模標(biāo)簽預(yù)測的訓(xùn)練可以改善分類,同時可能會損害定位(localization)的性能。這為改進(jìn)大規(guī)模、弱監(jiān)督的預(yù)訓(xùn)練任務(wù),以更好地適應(yīng)目標(biāo)任務(wù)(如檢測、姿態(tài)估計等)的定位需求開辟了新的方向。

最后,我們反思了一個值得注意的事實,即hashtag prediction的訓(xùn)練根本不需要額外的手動注釋或數(shù)據(jù)清理。我們認(rèn)為,與傳統(tǒng)的人工設(shè)計和注釋數(shù)據(jù)集的方法相比,我們的研究表明了自然數(shù)據(jù)或“wild”數(shù)據(jù)的潛力。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 圖像分類
    +關(guān)注

    關(guān)注

    0

    文章

    90

    瀏覽量

    11907
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1205

    瀏覽量

    24644

原文標(biāo)題:何愷明等新作:用35億社交網(wǎng)絡(luò)圖片訓(xùn)練AI算法,吳恩達(dá)推薦

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    【PYNQ-Z2申請】基于PYNQ的卷積神經(jīng)網(wǎng)絡(luò)加速

    項目名稱:基于PYNQ的卷積神經(jīng)網(wǎng)絡(luò)加速試用計劃:申請理由:本人研究生在讀,想要利用PYNQ深入探索卷積神經(jīng)網(wǎng)絡(luò)的硬件加速,在PYNQ上實現(xiàn)圖像
    發(fā)表于 12-19 11:37

    基于賽靈思FPGA的卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)設(shè)計

    學(xué)習(xí)已經(jīng)在圖像識別和語音識別等任務(wù)中取得巨大成功。 深度學(xué)習(xí)技術(shù)使用大量已知數(shù)據(jù)找到一組權(quán)重和偏差值,以匹配預(yù)期結(jié)果。這個過程被稱為訓(xùn)練,并會產(chǎn)生大型模式。這激勵工程師傾向于利用專用硬件(例如 GPU
    發(fā)表于 06-19 07:24

    卷積神經(jīng)網(wǎng)絡(luò)為什么適合圖像處理?

    卷積神經(jīng)網(wǎng)絡(luò)為什么適合圖像處理?
    發(fā)表于 09-08 10:23

    卷積神經(jīng)網(wǎng)絡(luò)簡介:什么是機(jī)器學(xué)習(xí)?

    復(fù)雜數(shù)據(jù)中提取特征的強(qiáng)大工具。例如,這包括音頻信號或圖像中的復(fù)雜模式識別。本文討論了 CNN 相對于經(jīng)典線性規(guī)劃的優(yōu)勢。后續(xù)文章“訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò):什么是機(jī)器學(xué)習(xí)?——第2部分”將討論
    發(fā)表于 02-23 20:11

    通過簡單的「圖像旋轉(zhuǎn)」預(yù)測便可為圖像特征學(xué)習(xí)提供強(qiáng)大監(jiān)督信號

    我們的研究遵循自監(jiān)督范例,并提出,通過訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(ConvNets)識別應(yīng)用于其作為輸入的圖像的幾何變換,從而學(xué)習(xí)圖像表示。更具體地說
    的頭像 發(fā)表于 03-26 13:40 ?4218次閱讀

    面向社交媒體的高質(zhì)量文章內(nèi)容識別模型

    如何從海量多媒體文章中自動識別高質(zhì)量內(nèi)容是信息推薦、搜索引擎等系統(tǒng)的核心功能之一。現(xiàn)有的方法在訓(xùn)練中依賴大量的人工標(biāo)注數(shù)據(jù)。針對其未考慮社交媒體中的
    發(fā)表于 05-11 11:09 ?11次下載

    訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)通過繪畫3D地形識別畫家

    的 research 通過訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),根據(jù)繪畫的 3D 地形來學(xué)習(xí)和識別畫家。這項工作可以幫助歷史學(xué)家和藝術(shù)專家區(qū)分合作作品中的藝術(shù)家,并找到偽造的作品。
    的頭像 發(fā)表于 04-07 17:06 ?1121次閱讀

    python卷積神經(jīng)網(wǎng)絡(luò)cnn的訓(xùn)練算法

    python卷積神經(jīng)網(wǎng)絡(luò)cnn的訓(xùn)練算法? 卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)一直是深度學(xué)習(xí)領(lǐng)
    的頭像 發(fā)表于 08-21 16:41 ?1613次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練步驟

    模型訓(xùn)練是將模型結(jié)構(gòu)和模型參數(shù)相結(jié)合,通過樣本數(shù)據(jù)的學(xué)習(xí)訓(xùn)練模型,使得模型可以對新的樣本數(shù)據(jù)進(jìn)行準(zhǔn)確的預(yù)測和分類。本文將詳細(xì)介紹 CNN
    的頭像 發(fā)表于 08-21 16:42 ?1629次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)如何識別圖像

    多層卷積層、池化層和全連接層。CNN模型通過訓(xùn)練識別并學(xué)習(xí)高度復(fù)雜的圖像模式,對于識別物體和進(jìn)行圖像分類等任務(wù)有著非常優(yōu)越的表現(xiàn)。本文將會詳細(xì)介紹
    的頭像 發(fā)表于 08-21 16:49 ?1890次閱讀

    cnn卷積神經(jīng)網(wǎng)絡(luò)模型 卷積神經(jīng)網(wǎng)絡(luò)預(yù)測模型 生成卷積神經(jīng)網(wǎng)絡(luò)模型

    cnn卷積神經(jīng)網(wǎng)絡(luò)模型 卷積神經(jīng)網(wǎng)絡(luò)預(yù)測模型 生成卷積神經(jīng)網(wǎng)
    的頭像 發(fā)表于 08-21 17:11 ?1209次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)的基本原理、結(jié)構(gòu)及訓(xùn)練過程

    訓(xùn)練過程以及應(yīng)用場景。 一、卷積神經(jīng)網(wǎng)絡(luò)的基本原理 卷積運(yùn)算 卷積運(yùn)算是卷積神經(jīng)
    的頭像 發(fā)表于 07-02 14:21 ?2080次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)圖像識別中的應(yīng)用

    卷積操作 卷積神經(jīng)網(wǎng)絡(luò)的核心是卷積操作。卷積操作是一種數(shù)學(xué)運(yùn)算,用于提取圖像中的局部特征。在
    的頭像 發(fā)表于 07-02 14:28 ?934次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練的是什么

    訓(xùn)練過程以及應(yīng)用場景。 1. 卷積神經(jīng)網(wǎng)絡(luò)的基本概念 1.1 卷積神經(jīng)網(wǎng)絡(luò)的定義 卷積神經(jīng)
    的頭像 發(fā)表于 07-03 09:15 ?352次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)可以通過輸出反推到輸入嗎

    卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,簡稱CNN)是一種深度學(xué)習(xí)模型,廣泛應(yīng)用于圖像識別、視頻分析、自然語言處理等領(lǐng)域。CNN通過
    的頭像 發(fā)表于 07-03 09:17 ?533次閱讀