精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于弱監督學習創建大規模數據集

nlfO_thejiangme ? 來源:lp ? 2019-03-19 10:18 ? 次閱讀

對于現代機器學習系統來說,最大的瓶頸在于訓練過程中對數據龐大的需求。創建大規模的數據集是十分昂貴的過程,需要消耗大量的人力物力來標注數據,并且隨著應用的迭代已有的數據集可能不能滿足實際的需要還需要重新標注甚至創建新的數據集。為了克服工業級大規模數據的瓶頸,世界各地的研究人員在這個方向上進行了深入的努力。近日,來自谷歌斯坦福和布朗大學的研究人員們提出了一種稱為”Snorkel Drybell”的新方法,基于弱監督學習的方法可以再很大程度上緩解大規模工業數據集生成的問題,利用已有的知識迅速的標注出大規模的數據。

研究人員基于開源框架Snorkel開發了這套實驗標注系統,并在實驗中發現這套系統可以獲得與手工標記成千上萬個數據點相同的效果,并揭示了如何為現代機器學習系統創造訓練數據和核心原理。值得一提的是,Snorkel是一套專門基于弱監督創建訓練數據的框架,它能基于內部模型、本體、規則知識圖譜等各種形式的知識為機器學習模型創建大規模的數據。

與傳統手工標注不同,新系統創造出為數據打標的標注函數,程序化地完成數據標記工作。研究人員主要探索了這些標注函數是如何捕獲工程師的經驗,如何基于現有資源啟發式的進行弱監督學習的。

舉個例子,如果我們想識別出與名人相關的內容,一方面可以使用現有的命名實體識別(NER)模型來標注出不包含與名人無關的人的內容來實現這一任務。這就巧妙地將已有的知識資源與簡單的邏輯結合起來,為新的模型創造了訓練數據。更重要的是這一標注函數將在大多數情況下返回None(與名人相關的相對較少),這就意味著在整個數據集中只有少量數據需要打標,我們可以利用這些數據標簽來訓練對于另一任務具有泛化性的新模型。

實驗中的標注函數,將現有知識與簡單的邏輯代碼相結合啟發式的進行數據標注。

自動化的程序標注顯然比人工方法要高效和靈活,但質量卻無法與手工標注媲美。標注函數常常會出現標簽重疊和不一致的情況。這主要是用于標注函數的精度未知、與已有數據的關聯方式也存在不確定性。為了解決這一問題,研究人員利用生成模型來對標記函數的精度和相關性進行可溯源的自動估計,在無需基準訓練數據的情況下將輸出重新賦權并為每一個數據點合成單一概率標簽。此外還可以基于協方差觀察標記函數之間的一致性,并學習出標記函數精度和相關性的參數,更好的解釋標注的輸出情況。

基于多源知識的弱監督學習

在研究Snorkel Drybell的過程中,研究人員使用了網絡內容分類、是否提及特定產品以及實時事件的檢測等生產任務及數據來進行實驗。基于新的框架,可以充分綜合各種信息源和已有資源:

啟發和規則:例如特定領域作者的規則

主題模型、標記器和分類器:例如目標或相關領域的機器學習模型

統計匯總:例如目標領域的相關指標

知識或實體圖譜:例如目標領域的數據庫

在Snorkel DryBell中,為了訓練模型對對Web數據進行內容或事件分類。 用戶無需手工標注,而是編程組織已有資源并自動加權生成新數據集。

研究人員利用MapReduce中的模板來實現資源的組織和數據標簽生成,但結果卻不盡如人意。得到的數據標簽噪聲很大,要么與其他標簽沖突,要么對于目標任務粒度太大。為了解決這一問題研究人員在自動數據清洗和整合上又進行了深入的研究。

對準確度建模以結合&重用現有資源

為了處理標簽中的噪聲,需要將標記函數的輸出基于置信度加權整合為單一的數據點標簽。但最大的難點在于沒有基準數據。所以研究人員引入了生成模型技術,基于無標記數據學習出每一個標記函數的精度。通過標記函數輸出的一致性矩陣并綜合已知的相關性結構來進行學習。在Snorkel DryBell研究人員還實現了一套快速無采樣的建模方法,在tensorflow中處理web級別的數據。通過對標記函數的輸出進行組合與建模,在Snorkel DryBell中實現了高質量的數據標記。事實上,在手工標記的訓練數據可用于比較的兩個應用中,Snorkel DryBell打標的數據分別與12,000和80,000個人工標記數據點在同一模型的訓練中得到了相同的預測精度。

將非服務知識轉移到可服務模型中

在很多情況下可用于生產的服務特征與非服務特征之間也存在重要區別,非服務特征在生產中使用面臨著速度和成本的問題。但非服務特征中可能具有非常豐富的信號,但問題在于如何使用這些信號來進行訓練或輔助服務模型在生成中進行部署呢?

用戶可以自行編寫標簽函數,利用在生產中無法使用的特征歷來組織知識資源(a)例如在生產中使用太慢或太昂貴的聚合統計,內部模型或知識圖 來訓練可服務的生產模型,利用如便宜,實時的網絡信號來進行服務

在Snorkel DryBell中,用戶可以自行編寫標簽函數來組織已有的知識資源,并利用輸出的數據來訓練具有不同的可服務特征的新模型。這種特征交叉遷移將基準數據上的表現平均提高了52%。更重要的是,這種方法將緩慢(昂貴的模型或者聚合統計)、私密(實體或知識圖譜)或者其他不適合部署的特征充分利用起來,并訓練了基于迅速和便捷特征的新模型。這種簡單但強大的方式可以被視為一種全新的遷移學習方法,在不同特征集上的知識遷移代替了在不同數據集間的模型遷移,具有廣泛的應用潛力!

展 望

研究人員將在未來的工作中將其他形式的知識應用于弱監督標簽生成中,并探索Snorkel DryBell在信息復用和跨域知識共享中的應用。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 分類器
    +關注

    關注

    0

    文章

    152

    瀏覽量

    13175
  • 機器學習
    +關注

    關注

    66

    文章

    8382

    瀏覽量

    132444
  • 數據集
    +關注

    關注

    4

    文章

    1205

    瀏覽量

    24649

原文標題:谷歌等研究員提出弱監督學習新方法,突破數據瓶頸

文章出處:【微信號:thejiangmen,微信公眾號:將門創投】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    大規模數據的相似度計算原理

    Spark MLlib 之 大規模數據的相似度計算原理探索
    發表于 06-04 08:19

    一個benchmark實現大規模數據上的OOD檢測

    操作,感知的環境類別也更多。因此,針對大規模圖像分類任務的OOD檢測算法的開發和評估存在一個關鍵的gap。本文首先志在提出一個benchmark實現大規模數據上的OOD檢測。本文指出,隨著語義類別
    發表于 08-31 15:11

    TextTopicNet模型:以自監督學習方式學習區別視覺特征

    大規模帶標注的數據的出現是深度學習在計算機視覺領域取得巨大成功的關鍵因素之一。然而,監督學習
    的頭像 發表于 07-31 17:50 ?1w次閱讀
    TextTopicNet模型:以自<b class='flag-5'>監督學習</b>方式<b class='flag-5'>學習</b>區別視覺特征

    如何用Python進行無監督學習

    監督學習是一種用于在數據中查找模式的機器學習技術。無監督算法給出的數據不帶標記,只給出輸入變量(X),沒有相應的輸出變量。在無
    的頭像 發表于 01-21 17:23 ?4226次閱讀

    機器學習算法中有監督和無監督學習的區別

    監督學習的好處之一是,它不需要監督學習必須經歷的費力的數據標記過程。但是,要權衡的是,評估其性能的有效性也非常困難。相反,通過將監督學習算法的輸出與測試
    的頭像 發表于 07-07 10:18 ?5715次閱讀

    最基礎的半監督學習

    導讀 最基礎的半監督學習的概念,給大家一個感性的認識。 半監督學習(SSL)是一種機器學習技術,其中任務是從一個小的帶標簽的數據和相對較大
    的頭像 發表于 11-02 16:08 ?2618次閱讀

    監督學習最基礎的3個概念

    有趣的方法,用來解決機器學習中缺少標簽數據的問題。SSL利用未標記的數據和標記的數據學習任務
    的頭像 發表于 11-02 16:14 ?2931次閱讀
    半<b class='flag-5'>監督學習</b>最基礎的3個概念

    為什么半監督學習是機器學習的未來?

    為什么半監督學習是機器學習的未來。 監督學習是人工智能領域的第一種學習類型。從它的概念開始,無數的算法,從簡單的邏輯回歸到大規模的神經網絡,
    的頭像 發表于 11-27 10:42 ?3876次閱讀

    監督學習:比監督學習做的更好

    監督學習是人工智能領域的第一種學習類型。從它的概念開始,無數的算法,從簡單的邏輯回歸到大規模的神經網絡,都已經被研究用來提高精...
    的頭像 發表于 12-08 23:32 ?1390次閱讀

    深度學習:基于語境的文本分類監督學習

    高成本的人工標簽使得監督學習備受關注。seed-driven 是監督學習中的一種常見模型。該模型要求用戶提供少量的seed words,根據seed words對未標記的訓練
    的頭像 發表于 01-18 16:04 ?2953次閱讀

    監督學習,無監督學習,遷移學習,表征學習以及小樣本學習

    大規模標注的數據上訓練深度模型不僅可以使手頭的任務表現良好,還可以使模型學習對于下游任務的有用特征形式。但是,我們是否可以在不使用如此昂貴且細粒度的標注
    的頭像 發表于 01-18 17:08 ?8161次閱讀
    半<b class='flag-5'>監督學習</b>,無<b class='flag-5'>監督學習</b>,遷移<b class='flag-5'>學習</b>,表征<b class='flag-5'>學習</b>以及小樣本<b class='flag-5'>學習</b>

    機器學習中的無監督學習應用在哪些領域

    監督學習|機器學習| 集成學習|進化計算| 非監督學習| 半監督學習| 自監督學習|?無
    發表于 01-20 10:52 ?4919次閱讀
    機器<b class='flag-5'>學習</b>中的無<b class='flag-5'>監督學習</b>應用在哪些領域

    融合零樣本學習和小樣本學習監督學習方法綜述

    融合零樣本學習和小樣本學習監督學習方法綜述 來源:《系統工程與電子技術》,作者潘崇煜等 摘 要:?深度學習模型嚴重依賴于大量人工標注的
    發表于 02-09 11:22 ?2246次閱讀
    融合零樣本<b class='flag-5'>學習</b>和小樣本<b class='flag-5'>學習</b>的<b class='flag-5'>弱</b><b class='flag-5'>監督學習</b>方法綜述

    監督學習解鎖醫學影像洞察力

    數據,以及機器可以從中學習的復雜數據標簽。 今天,被稱為監督學習的深度
    的頭像 發表于 09-30 18:04 ?1392次閱讀
    <b class='flag-5'>弱</b><b class='flag-5'>監督學習</b>解鎖醫學影像洞察力

    監督學習代碼庫存在的問題與挑戰

    ,在ImageNet這一百萬量級的數據上,傳統的監督學習方法可以達到超過88%的準確率。然而,獲取大量有標簽的數據往往費時費力。
    的頭像 發表于 10-18 16:28 ?1263次閱讀