精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

半監督學習代碼庫存在的問題與挑戰

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:深度學習自然語言 ? 2022-10-18 16:28 ? 次閱讀

當使用監督學習(Supervised Learning)對大量高質量的標記數據(Labeled Data)進行訓練時,神經網絡模型會產生有競爭力的結果。例如,根據Paperswithcode網站統計,在ImageNet這一百萬量級的數據集上,傳統的監督學習方法可以達到超過88%的準確率。然而,獲取大量有標簽的數據往往費時費力。

為了緩解對標注數據的依賴,「半監督學習」(Semi-supervised Learning/SSL)致力于在僅有「少量」的標注數據時利用「大量無標簽」數據(Unlabeled Data)來提升模型的泛化性。半監督學習亦是機器學習的重要主題之一。深度學習之前,這一領域的研究者們提出了諸如半監督支持向量機、熵正則化、協同訓練等經典算法

深度半監督學習

隨著深度學習的興起,「深度」半監督學習算法也取得了長足的進步。同時,包括Google、Meta和微軟等在內的科技巨頭也認識到了半監督學習在實際場景中的巨大潛力。例如,Google利用噪聲學生訓練(Noisy student training)這一半監督算法提高了其在搜索方面的性能[1]。當前最具代表性的半監督算法通常對標注數據使用交叉熵損失進行訓練,對無標注數據使用「一致性正則」技術(Consistency Regularization)鼓勵對輸入擾動進行不變預測。例如,Google在NeurIPS 2020提出的FixMatch[2]算法利用增強錨定(Augmentation Anchoring)和固定閾值(Fixed Thresholding)技術來增強模型對不同強增強數據的泛化性和減少噪聲偽標簽(Noisy Pseudo Labels)的影響。在訓練中,FixMatch過濾了低于用戶指定(user-provided / pre-defined)閾值的無標簽數據。

微軟亞洲研究院與東京工業大學等在NeurIPS 2021合作提出的FlexMatch[3]則考慮到了「不同類」之間的學習難度不同,因此提出了「課程偽標簽」(Curriculum Pseudo Labeling)技術對于不同類應該采用不同的閾值。具體來說,對于容易學習的類別,模型應該設置高閾值以降低噪聲偽標簽的影響;對于難學習的類,模型應該設置低閾值鼓勵該類的擬合。每個類的學習難度評估取決于落入該類且高于固定值的未標記數據樣本的數量。

同時,研究員和這些學校還合作提出了一個統一的基于Pytorch的半監督方法代碼庫「TorchSSL」[4],對該領域的深度方法、常用數據集、和基準結果進行了統一的支持。

3e74bd92-4ded-11ed-a3b6-dac502259ad0.png

當前「半監督學習代碼庫存在的問題與挑戰」

盡管半監督學習的發展如火如荼,但是,研究員們注意到目前大部分半監督論文「只關注」計算機視覺 (CV) 分類任務,而「其他領域」(例如自然語言處理 (NLP)、音頻處理 (Audio))研究者無法得知這些在CV任務上有效的算法是否依然有效。另外,大部分半監督論文都是由谷歌,微軟等大型機構發表的,學術界的實驗室往往由于計算資源的限制不能一起推動半監督領域的發展。總的來說,半監督學習基準目前存在以下兩個問題:

(1)多樣性不足。現有的半監督學習基準大多局限于計算機視覺 (CV) 分類任務(即 CIFAR-10/100,SVHN,STL-10 和 ImageNet 分類),「排除了對自然語言處理 (NLP)、音頻處理 (Audio) 等分類任務的一致和多樣化評估,而在NLP和Audio中缺乏足夠的標記數據也是一個普遍問題。」

(2)耗時且對學術界不友好。現有的半監督學習基準(如TorchSSL)通常是耗時且不環保的,因為它需要通常從頭開始訓練深度神經網絡模型。具體而言,使用 TorchSSL評估FixMatch[1]大約需要「300」GPU日。如此高的訓練成本使得許多研究實驗室(尤其是學術界的實驗室或小研究團體)無法負擔得起SSL的相關研究,從而阻礙了SSL的進展。

USB: 任務多樣化和對研究者更友好的新基準庫

微軟亞洲研究院的研究員們聯合西湖大學、東京工業大學、卡內基梅隆大學、馬克斯-普朗克研究所等機構的研究人員們提出了「USB」:第一個將「視覺,語言,和音頻」分類任務進行統一的半監督分類學習基準。相比于之前的半監督學習基準(如TorchSSL)只關注少量視覺任務,該論文不僅引入更多樣化的應用領域,還「首次」利用視覺預訓練模型(Pretrained Vision Transformer)大大縮減了半監督算法的驗證時間(「從7000GPU時縮減至900GPU時」),使得半監督研究對研究者、特別是小研究團體更友好。USB的相關論文已被國際人工智能頂會NeurIPS 2022接收。

USB

「USB提供的解決方案」

那么,USB如何一次性解決當前半監督基準存在的問題呢?研究員們進行了如下的改進:

(1)為增強任務多樣性,USB引入了5個CV 數據集,5個NLP數據集和5個音頻數據集提供了一個多樣化且具有挑戰性的基準,從而能夠對來自不同領域的多個任務進行一致的評估。下表提供了USB與TorchSSL的任務和訓練時間等方面的詳細對比。

(2)為提高訓練效率,研究員們將預訓練的Vision Transformer引入SSL,而不是從頭訓練ResNets。具體而言,研究員們發現在「不影響性能」的情況下使用預訓練模型可以大大減少訓練迭代次數(例如,將 CV 任務的訓練迭代次數從100萬步減少到「20」萬步)。(3)為了對研究人員更加友好,研究員們開源實現了14種 SSL算法并開源了一個模塊化代碼庫和相關的配置文件以供研究者輕松再現USB報告中的結果。為了快速上手,USB還提供詳細的文檔和教程。此外,USB還提供pip包」以供使用者直接調用SSL算法。研究員們承諾未來會在USB中不斷加入新的算法(例如不平衡半監督算法等)和更多更具挑戰性的數據集。

總結

半監督學習通過利用大量無標簽數據來訓練更精確、更魯棒的模型,在未來有著重要的研究和應用價值。研究員們期待通過USB這一工作,能夠予力學術界和工業界在半監督學習領域取得更大的進展。

審核編輯:彭靜
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 代碼
    +關注

    關注

    30

    文章

    4747

    瀏覽量

    68349
  • 深度學習
    +關注

    關注

    73

    文章

    5492

    瀏覽量

    120975
  • 半監督學習
    +關注

    關注

    0

    文章

    20

    瀏覽量

    2514

原文標題:NIPS'22 | USB: 統一、任務多樣化、對學術界更友好的半監督學習算法庫

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    基于監督學習的跌倒檢測系統設計_李仲年

    基于監督學習的跌倒檢測系統設計_李仲年
    發表于 03-19 19:11 ?4次下載

    基于監督學習框架的識別算法

    問題,對半監督學習中的協同訓練算法進行改進,提出了一種基于多學習器協同訓練模型的人體行為識別方法.這是一種基于監督學習框架的識別算法,該方法首先通過基于Q統計量的
    發表于 01-21 10:41 ?1次下載

    你想要的機器學習課程筆記在這:主要討論監督學習和無監督學習

    with experience E(一個程序從經驗E中學習解決任務T進行某一任務量度P,通過P測量在T的表現而提高經驗E(另一種定義:機器學習是用數據或以往的經驗,以此優化計算機程序的性能標準。) 不同類型的機器學習算法:主要
    發表于 12-03 17:12 ?538次閱讀

    如何使用優化圖的監督學習進行行人檢測的詳細資料說明

     行人檢測是當前機器視覺領域的挑戰性課題之一。為了提高行人檢測效率,提出一種基于優化圖的監督學習的行人檢測算法。首先,提取每幅圖像的形狀上下文特征,并采用選擇性搜索提取出行人候選區域建議框;然后
    發表于 12-21 17:23 ?5次下載

    如何用Python進行無監督學習

    監督學習是一種用于在數據中查找模式的機器學習技術。無監督算法給出的數據不帶標記,只給出輸入變量(X),沒有相應的輸出變量。在無監督學習中,算法自己去發現數據中有趣的結構。
    的頭像 發表于 01-21 17:23 ?4217次閱讀

    谷歌:監督學習其實正在悄然的進化

    上圖可以看出來,最開始的時候,監督學習訓練確實有種提升監督學習效果的趨勢,然而實際操作中,我們經常陷入從“可怕又不可用”的狀態,到“不那么可怕但仍然完全不可用”。
    的頭像 發表于 05-25 09:58 ?2914次閱讀
    谷歌:<b class='flag-5'>半</b><b class='flag-5'>監督學習</b>其實正在悄然的進化

    聚焦 | 新技術“紅”不過十年?監督學習卻成例外?

    就目前來看,監督學習是一個很有潛力的方向。
    的頭像 發表于 06-18 17:24 ?2515次閱讀

    機器學習算法中有監督和無監督學習的區別

    監督學習的好處之一是,它不需要監督學習必須經歷的費力的數據標記過程。但是,要權衡的是,評估其性能的有效性也非常困難。相反,通過將監督學習算法的輸出與測試數據的實際標簽進行比較,可以很容易地衡量
    的頭像 發表于 07-07 10:18 ?5703次閱讀

    最基礎的監督學習

    導讀 最基礎的監督學習的概念,給大家一個感性的認識。 監督學習(SSL)是一種機器學習技術,其中任務是從一個小的帶標簽的數據集和相對較大
    的頭像 發表于 11-02 16:08 ?2613次閱讀

    監督學習最基礎的3個概念

    導讀 今天給大家介紹監督學習中的3個最基礎的概念:一致性正則化,熵最小化和偽標簽,并介紹了兩個經典的監督學習方法。 沒看一的點這里哈:
    的頭像 發表于 11-02 16:14 ?2928次閱讀
    <b class='flag-5'>半</b><b class='flag-5'>監督學習</b>最基礎的3個概念

    為什么監督學習是機器學習的未來?

    為什么監督學習是機器學習的未來。 監督學習是人工智能領域的第一種學習類型。從它的概念開始,無數的算法,從簡單的邏輯回歸到大規模的神經網絡,
    的頭像 發表于 11-27 10:42 ?3870次閱讀

    監督學習:比監督學習做的更好

    監督學習是人工智能領域的第一種學習類型。從它的概念開始,無數的算法,從簡單的邏輯回歸到大規模的神經網絡,都已經被研究用來提高精...
    的頭像 發表于 12-08 23:32 ?1387次閱讀

    基于特征組分層和監督學習的鼠標軌跡識別方法

    傳統時間序列分類方法存在鼠標軌跡特征挖掘不充分、數據不平衡與標記樣本量少等問題,造成識別效果較差。結合特征組分層和監督學習,提出一種鼠標軌跡識別方法。通過不同視角構建有層次的鼠標軌跡特征組,并借鑒
    發表于 05-13 15:41 ?9次下載

    機器學習中的無監督學習應用在哪些領域

    監督學習|機器學習| 集成學習|進化計算| 非監督學習| 監督學習| 自
    發表于 01-20 10:52 ?4913次閱讀
    機器<b class='flag-5'>學習</b>中的無<b class='flag-5'>監督學習</b>應用在哪些領域

    跨解剖域自適應對比監督學習方法解析

    監督學習中,一個典型的例子是 Mean-Teacher。與對抗網絡類似,其整體架構包含了兩個網絡:teacher 網絡和 student 網絡。
    發表于 04-14 14:37 ?1255次閱讀