對于現代機器學習系統來說,最大的瓶頸在于訓練過程中對數據龐大的需求。創建大規模的數據集是十分昂貴的過程,需要消耗大量的人力物力來標注數據,并且隨著應用的迭代已有的數據集可能不能滿足實際的需要還需要重新標注甚至創建新的數據集。為了克服工業級大規模數據的瓶頸,世界各地的研究人員在這個方向上進行了深入的努力。近日,來自谷歌斯坦福和布朗大學的研究人員們提出了一種稱為”Snorkel Drybell”的新方法,基于弱監督學習的方法可以再很大程度上緩解大規模工業數據集生成的問題,利用已有的知識迅速的標注出大規模的數據。
研究人員基于開源框架Snorkel開發了這套實驗標注系統,并在實驗中發現這套系統可以獲得與手工標記成千上萬個數據點相同的效果,并揭示了如何為現代機器學習系統創造訓練數據和核心原理。值得一提的是,Snorkel是一套專門基于弱監督創建訓練數據的框架,它能基于內部模型、本體、規則知識圖譜等各種形式的知識為機器學習模型創建大規模的數據。
與傳統手工標注不同,新系統創造出為數據打標的標注函數,程序化地完成數據標記工作。研究人員主要探索了這些標注函數是如何捕獲工程師的經驗,如何基于現有資源啟發式的進行弱監督學習的。
舉個例子,如果我們想識別出與名人相關的內容,一方面可以使用現有的命名實體識別(NER)模型來標注出不包含與名人無關的人的內容來實現這一任務。這就巧妙地將已有的知識資源與簡單的邏輯結合起來,為新的模型創造了訓練數據。更重要的是這一標注函數將在大多數情況下返回None(與名人相關的相對較少),這就意味著在整個數據集中只有少量數據需要打標,我們可以利用這些數據標簽來訓練對于另一任務具有泛化性的新模型。
實驗中的標注函數,將現有知識與簡單的邏輯代碼相結合啟發式的進行數據標注。
自動化的程序標注顯然比人工方法要高效和靈活,但質量卻無法與手工標注媲美。標注函數常常會出現標簽重疊和不一致的情況。這主要是用于標注函數的精度未知、與已有數據的關聯方式也存在不確定性。為了解決這一問題,研究人員利用生成模型來對標記函數的精度和相關性進行可溯源的自動估計,在無需基準訓練數據的情況下將輸出重新賦權并為每一個數據點合成單一概率標簽。此外還可以基于協方差觀察標記函數之間的一致性,并學習出標記函數精度和相關性的參數,更好的解釋標注的輸出情況。
基于多源知識的弱監督學習
在研究Snorkel Drybell的過程中,研究人員使用了網絡內容分類、是否提及特定產品以及實時事件的檢測等生產任務及數據來進行實驗。基于新的框架,可以充分綜合各種信息源和已有資源:
啟發和規則:例如特定領域作者的規則
主題模型、標記器和分類器:例如目標或相關領域的機器學習模型
統計匯總:例如目標領域的相關指標
知識或實體圖譜:例如目標領域的數據庫
在Snorkel DryBell中,為了訓練模型對對Web數據進行內容或事件分類。 用戶無需手工標注,而是編程組織已有資源并自動加權生成新數據集。
研究人員利用MapReduce中的模板來實現資源的組織和數據標簽生成,但結果卻不盡如人意。得到的數據標簽噪聲很大,要么與其他標簽沖突,要么對于目標任務粒度太大。為了解決這一問題研究人員在自動數據清洗和整合上又進行了深入的研究。
對準確度建模以結合&重用現有資源
為了處理標簽中的噪聲,需要將標記函數的輸出基于置信度加權整合為單一的數據點標簽。但最大的難點在于沒有基準數據。所以研究人員引入了生成模型技術,基于無標記數據學習出每一個標記函數的精度。通過標記函數輸出的一致性矩陣并綜合已知的相關性結構來進行學習。在Snorkel DryBell研究人員還實現了一套快速無采樣的建模方法,在tensorflow中處理web級別的數據。通過對標記函數的輸出進行組合與建模,在Snorkel DryBell中實現了高質量的數據標記。事實上,在手工標記的訓練數據可用于比較的兩個應用中,Snorkel DryBell打標的數據分別與12,000和80,000個人工標記數據點在同一模型的訓練中得到了相同的預測精度。
將非服務知識轉移到可服務模型中
在很多情況下可用于生產的服務特征與非服務特征之間也存在重要區別,非服務特征在生產中使用面臨著速度和成本的問題。但非服務特征中可能具有非常豐富的信號,但問題在于如何使用這些信號來進行訓練或輔助服務模型在生成中進行部署呢?
用戶可以自行編寫標簽函數,利用在生產中無法使用的特征歷來組織知識資源(a)例如在生產中使用太慢或太昂貴的聚合統計,內部模型或知識圖 來訓練可服務的生產模型,利用如便宜,實時的網絡信號來進行服務
在Snorkel DryBell中,用戶可以自行編寫標簽函數來組織已有的知識資源,并利用輸出的數據來訓練具有不同的可服務特征的新模型。這種特征交叉遷移將基準數據上的表現平均提高了52%。更重要的是,這種方法將緩慢(昂貴的模型或者聚合統計)、私密(實體或知識圖譜)或者其他不適合部署的特征充分利用起來,并訓練了基于迅速和便捷特征的新模型。這種簡單但強大的方式可以被視為一種全新的遷移學習方法,在不同特征集上的知識遷移代替了在不同數據集間的模型遷移,具有廣泛的應用潛力!
展 望
研究人員將在未來的工作中將其他形式的知識應用于弱監督標簽生成中,并探索Snorkel DryBell在信息復用和跨域知識共享中的應用。
-
分類器
+關注
關注
0文章
152瀏覽量
13175 -
機器學習
+關注
關注
66文章
8382瀏覽量
132444 -
數據集
+關注
關注
4文章
1205瀏覽量
24649
原文標題:谷歌等研究員提出弱監督學習新方法,突破數據瓶頸
文章出處:【微信號:thejiangmen,微信公眾號:將門創投】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論