根據(jù)Gartner公司的數(shù)據(jù),到2020年將會有200億臺網(wǎng)絡連接設備投入使用,這些設備每年將產(chǎn)生超過500 ZB(zettabytes)數(shù)據(jù),也就是需要5000億個1TB硬盤才能放下,隨著科技的進步,預計這一數(shù)字將繼續(xù)大幅增長。對于已經(jīng)進入物聯(lián)網(wǎng)行業(yè)的70%的組織來講,這些數(shù)據(jù)代表了其獨一無二的競爭優(yōu)勢。這些數(shù)據(jù)可以幫助企業(yè)獲得有價值的信息用于開發(fā)創(chuàng)新的AI應用程序,這對于企業(yè)來說是一個巨大的機會。
事實證明,物聯(lián)網(wǎng)數(shù)據(jù)令數(shù)據(jù)科學家、機器學習工程師和企業(yè)領導者一樣興奮。從醫(yī)療保健和農(nóng)業(yè)到教育和交通,蓬勃發(fā)展的物聯(lián)網(wǎng)領域和其他領域一樣是多元化的,涵蓋了新信息的發(fā)現(xiàn)和決策控制。物聯(lián)網(wǎng)數(shù)據(jù)科學打開了創(chuàng)造新數(shù)據(jù)產(chǎn)品的大門。本文將討論一些關于物聯(lián)網(wǎng)數(shù)據(jù)科學的具體特征。
數(shù)據(jù)注意事項
目前,物聯(lián)網(wǎng)成為了新數(shù)據(jù)的重要來源之一,物聯(lián)網(wǎng)數(shù)據(jù)或許可以被看做大數(shù)據(jù)的縮影。如果我們只看一臺設備產(chǎn)生的數(shù)據(jù),那么我們只需要處理很少的數(shù)據(jù)就可以了(即使這些數(shù)據(jù)也一直在變化)。但無數(shù)的分布式設備會產(chǎn)生連續(xù)的數(shù)據(jù)流,所以物聯(lián)網(wǎng)會產(chǎn)生大量的數(shù)據(jù)。物聯(lián)網(wǎng)設備可以收集從音頻到傳感器數(shù)據(jù)等各種類型的信息,并全面覆蓋整體數(shù)據(jù)格式的多樣化。
但是物聯(lián)網(wǎng)數(shù)據(jù)也存在一些獨一無二的特性,使其開發(fā)具有挑戰(zhàn)性。由于采集和傳輸過程中出現(xiàn)錯誤往往會產(chǎn)生噪音,這使得構建、清理和驗收數(shù)據(jù)的過程成為機器學習算法發(fā)揮的關鍵步驟。本質(zhì)上來講,物聯(lián)網(wǎng)數(shù)據(jù)也是高度可變的,這是因為跨各種數(shù)據(jù)收集組件的數(shù)據(jù)流中存在巨大的不一致性,而且存在時間模式。不僅如此,數(shù)據(jù)本身的價值在很大程度上取決于底層機制,數(shù)據(jù)捕獲的頻率以及處理方式。即使來自特定設備的數(shù)據(jù)被認為是值得信賴的,我們?nèi)孕枰紤]到即使在相似條件下不同設備的行為也可能不同。因此在收集培訓數(shù)據(jù)時捕捉所有可能的情景在實踐中是不可行的。
半監(jiān)督學習
然而,物聯(lián)網(wǎng)數(shù)據(jù)的一個最顯著的特征在于其粗糙性:因為物聯(lián)網(wǎng)設備通過各種復雜的傳感器收集數(shù)據(jù),所產(chǎn)生的數(shù)據(jù)通常非常原始。這意味著,在提取業(yè)務價值并構建強大的AI應用程序之前,主要的數(shù)據(jù)處理是必要的。實際上,將有意義的信號從噪聲中分離出來并將這些非結(jié)構化數(shù)據(jù)流轉(zhuǎn)化為有用的結(jié)構化數(shù)據(jù),是構建智能物聯(lián)網(wǎng)應用程序最重要的一步。
大量物聯(lián)網(wǎng)應用需要使用監(jiān)督機器學習,這是一類機器學習算法,需要在模型可以被訓練之前標記數(shù)據(jù)。由于手動標記大型數(shù)據(jù)集是一項耗時、容易出錯且價格昂貴的任務,因此機器學習專業(yè)人員通常首先轉(zhuǎn)向標記為開源的數(shù)據(jù)集,或者從少量數(shù)據(jù)開始標記。然而,物聯(lián)網(wǎng)數(shù)據(jù)的難點來自其特殊性:因為這些數(shù)據(jù)通常是獨一無二的,所以不能保證現(xiàn)有的開源數(shù)據(jù)集隨著可獲得,并且工程師們有必要標記他們自己的數(shù)據(jù)。這正是高品質(zhì),適應性強的眾包標簽平臺所能提供的幫助。
但是,歸因于物聯(lián)網(wǎng)數(shù)據(jù)的可變性,標記一個小的隨機樣本可能不夠。考慮到這一點,這些是在算法訓練中利用標記和未標記數(shù)據(jù)的半督查學習策略的完美環(huán)境。特別是主動學習是一種非常合適的方法,允許機器學習科學家獲得類似的算法精確度,其中算法被允許向群眾查詢智能選擇的訓練實例的子集的標簽,是標簽成本的一小部分。
群體感知
在機器學習方面,物聯(lián)網(wǎng)發(fā)展的一個非常有趣的方面是群體感知的出現(xiàn)。群體感知包括兩種形式:自愿的,當用戶自愿提供信息時,以及在沒有明確干預用戶的情況下自動收集數(shù)據(jù)。這是物聯(lián)網(wǎng)數(shù)據(jù)不僅可以促進物聯(lián)網(wǎng)應用程序的開發(fā)或改進的一種方式,而且還可以用作其他非物聯(lián)網(wǎng)應用程序的輸入。
物聯(lián)網(wǎng)實際上允許以前所未有的方式收集非常獨特的數(shù)據(jù)集。由于每個設備生成的數(shù)據(jù)通常都是人為的,因此用戶可以標記或驗證它。收集最接近用戶位置的數(shù)據(jù)也變得可能:這正是Google要求用戶拍攝他們正在用餐的餐廳的照片,或者回答關于便利設施的一些問題的目的。這是第一次可以以大數(shù)據(jù)規(guī)模收集人工生成的數(shù)據(jù)。
-
物聯(lián)網(wǎng)
+關注
關注
2904文章
44306瀏覽量
371471 -
機器學習
+關注
關注
66文章
8382瀏覽量
132444
原文標題:物聯(lián)網(wǎng)機器學習的機遇和挑戰(zhàn)
文章出處:【微信號:SSDFans,微信公眾號:SSDFans】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論