2018年,在微軟(Microsoft Build)一架無人機(jī)飛過管道,檢查管道是否有泄漏或其他損壞。值得注意的是,無人機(jī)的視覺檢查模型使用實(shí)際數(shù)據(jù)和模擬數(shù)據(jù)進(jìn)行了訓(xùn)練。使用合成數(shù)據(jù)幫助機(jī)器學(xué)習(xí)模型了解異常值,讓微軟的研究人員能夠更快地訓(xùn)練這款模型,且不需要像其他情況下那樣在進(jìn)行數(shù)據(jù)采集飛行上花費(fèi)很多。
如今,這項(xiàng)技術(shù)終于開始普及了。今年4月,一家初創(chuàng)公司為其合成傳感器數(shù)據(jù)籌集到337萬美元,而另一家初創(chuàng)公司發(fā)表了一篇關(guān)于如何使用模擬數(shù)據(jù)訓(xùn)練模型來識別機(jī)場跑道上的飛機(jī)的論文。
談到機(jī)器學(xué)習(xí)項(xiàng)目時,殼牌首席數(shù)據(jù)科學(xué)家丹·杰文斯對使用模擬數(shù)據(jù)感到非常興奮,因?yàn)樗兄跇?gòu)建模型的同時還可以檢測一些少見的問題。他說:“我認(rèn)為這是一種非常有趣的方法,可以獲取我們正在努力解決的有關(guān)邊緣案例的信息。盡管我們有很多數(shù)據(jù),但同時我們也面臨重大問題是,那就是,我們通常對于要發(fā)現(xiàn)的問題,我們只有很少的例子來支持。
在石油行業(yè),工廠和管道的腐蝕是巨大的挑戰(zhàn),因?yàn)樗赡軐?dǎo)致災(zāi)難性的故障。企業(yè)會小心翼翼不讓任何東西腐蝕管道,但這也意味著機(jī)器學(xué)習(xí)模型不能用于現(xiàn)實(shí)世界的腐蝕實(shí)例。因此,他們使用合成數(shù)據(jù)來提供幫助。例如,殼牌公司也在使用合成數(shù)據(jù),試圖解決人們在加油站吸煙的問題。因?yàn)閿z像機(jī)并不總能捕捉到吸煙者的畫面,有時候離得太遠(yuǎn)或者沒有面對攝像頭,所以在這個研究中并沒有很多現(xiàn)成的案例;因此,公司努力將模擬合成數(shù)據(jù)與真實(shí)數(shù)據(jù)結(jié)合起來,建立計算機(jī)視覺模型。“我們感興趣的幾乎總是‘邊緣案例’,不是一般的標(biāo)準(zhǔn),而且容易檢測到與標(biāo)準(zhǔn)圖案不符的邊緣,很難檢測出想要的具體內(nèi)容。”
與此同時,另外一家AI公司也在試圖了解更多關(guān)于合成數(shù)據(jù)的準(zhǔn)確性。該公司發(fā)表的論文《稀有飛機(jī):合成數(shù)據(jù)起飛》闡述了研究人員如何將停放在機(jī)場的飛機(jī)的衛(wèi)星圖像與機(jī)器生成的合成數(shù)據(jù)相結(jié)合。當(dāng)僅使用合成數(shù)據(jù)時,該模型的準(zhǔn)確率只有55%左右,而當(dāng)僅使用真實(shí)數(shù)據(jù)時準(zhǔn)確率則躍升至73%。但是通過將訓(xùn)練樣本的10%作為真實(shí)數(shù)據(jù),其余部分使用合成數(shù)據(jù),模型的準(zhǔn)確率達(dá)到了69%。
人工智能專家認(rèn)為合成數(shù)據(jù)將成為大生意。使用這些數(shù)據(jù)的公司需要考慮到他們的假數(shù)據(jù)可能會扭曲模型,但如果他們能做到這一點(diǎn),他們就能以比依賴真實(shí)數(shù)據(jù)更快、更低的成本獲得強(qiáng)健的模型。
因此,即使物聯(lián)網(wǎng)傳感器正在釋放數(shù)拍字節(jié)級別的數(shù)據(jù),也不可能對所有數(shù)據(jù)進(jìn)行注釋并將其用于訓(xùn)練模型。因?yàn)檫@些數(shù)據(jù)可能并不是你真正想要計算機(jī)尋找的情況。換言之,預(yù)計合成和模擬數(shù)據(jù)的浪潮將繼續(xù)到來。
-
人工智能
+關(guān)注
關(guān)注
1791文章
46872瀏覽量
237593 -
合成
+關(guān)注
關(guān)注
0文章
16瀏覽量
13776 -
大模擬數(shù)據(jù)
+關(guān)注
關(guān)注
0文章
2瀏覽量
5325
發(fā)布評論請先 登錄
相關(guān)推薦
評論