數(shù)據(jù)標(biāo)注是大多數(shù)人工智能的基礎(chǔ),它決定了機器學(xué)習(xí)和深度學(xué)習(xí)模型的質(zhì)量。今天的數(shù)據(jù)呈現(xiàn)指數(shù)級的爆發(fā),比如僅在2018年,就產(chǎn)生了超過30 ZB的數(shù)據(jù)。而在在任何人工智能項目中,對于數(shù)據(jù)科學(xué)家而言,數(shù)據(jù)問題都是其中的癥結(jié)所在。
什么是數(shù)據(jù)標(biāo)注?
訓(xùn)練機器學(xué)習(xí)和深度學(xué)習(xí)模型,需要豐富的數(shù)據(jù),以便將其用于部署,訓(xùn)練和調(diào)整模型。訓(xùn)練機器學(xué)習(xí)和深度學(xué)習(xí)模型需要大量經(jīng)過仔細標(biāo)注的數(shù)據(jù)。標(biāo)注原始數(shù)據(jù)并準(zhǔn)備將其應(yīng)用于機器學(xué)習(xí)模型和其他AI工作流,被稱為數(shù)據(jù)標(biāo)注。根據(jù)相關(guān)統(tǒng)計,數(shù)據(jù)整理在AI項目中消耗了80%以上的時間。
數(shù)據(jù)如何標(biāo)注?
如今,大多數(shù)數(shù)據(jù)都沒有標(biāo)注。帶標(biāo)簽的數(shù)據(jù),意味著標(biāo)注或注釋目標(biāo)模型的數(shù)據(jù),以便可以預(yù)測。通常,數(shù)據(jù)標(biāo)注包括數(shù)據(jù)標(biāo)注,注釋,審核,分類,轉(zhuǎn)錄和處理。
標(biāo)注的數(shù)據(jù)突出顯示某些特征,并根據(jù)這些特征對其進行分類,可以通過模型分析其模式以預(yù)測新的目標(biāo)。例如,對于自動駕駛汽車中的計算機視覺,AI專業(yè)人員或數(shù)據(jù)標(biāo)注者可以使用視頻標(biāo)注工具來指示路牌的位置,并通過行人和其他車輛的位置來訓(xùn)練模型。
數(shù)據(jù)標(biāo)注中包含的一系列任務(wù):
1.豐富數(shù)據(jù)的工具
2.質(zhì)量保證
3.流程迭代
4.管理數(shù)據(jù)標(biāo)簽
5.培訓(xùn)新的數(shù)據(jù)標(biāo)簽
6.項目計劃
7.成功指標(biāo)
8.流程運作
AI專業(yè)人員的數(shù)據(jù)標(biāo)簽挑戰(zhàn)?
在典型的AI項目中,專業(yè)人員在進行數(shù)據(jù)標(biāo)注時會遇到以下幾個方面的挑戰(zhàn)。
1.數(shù)據(jù)標(biāo)簽質(zhì)量低下。數(shù)據(jù)標(biāo)簽質(zhì)量低可能有很多原因。其中最突出的原因之一是任何企業(yè)或工作流程確實三個決定因素:人員,流程和技術(shù)。
2.無法擴展數(shù)據(jù)標(biāo)注操作。當(dāng)數(shù)據(jù)量不斷增長并且業(yè)務(wù)或項目需要擴展其容量時,由于大多數(shù)企業(yè)都在內(nèi)部標(biāo)記數(shù)據(jù),因此它們通常也難以擴展其數(shù)據(jù)標(biāo)注任務(wù)。
3.難以承受的成本和不存在的結(jié)果。企業(yè)和AI項目經(jīng)理通常雇用高薪數(shù)據(jù)科學(xué)家和AI專業(yè)人士或一組業(yè)余人員來處理數(shù)據(jù)標(biāo)簽,而企業(yè)需要承擔(dān)高昂的人工成本,當(dāng)然企業(yè)也會面臨數(shù)據(jù)標(biāo)簽不確定所帶來的問題,所以合適的專業(yè)人員至關(guān)重要。
4.質(zhì)量保證。進行質(zhì)量檢查可以為數(shù)據(jù)標(biāo)注過程提供重要價值,尤其是在機器學(xué)習(xí)模型測試和驗證的迭代階段。
誰來標(biāo)注數(shù)據(jù)?
相關(guān)調(diào)查顯示,2019年,企業(yè)在數(shù)據(jù)標(biāo)簽上的支出超過17億美元。到2024年,這一數(shù)字將達到41億美元。進行數(shù)據(jù)標(biāo)注工作,除了雇傭?qū)I(yè)的數(shù)據(jù)科學(xué)家和AI專家之外,還可以考慮通過其他方式。
雇員。這包括雇用包括AI專業(yè)人員在內(nèi)的全職或兼職員工,參與AI項目的各個方面,其中之一是數(shù)據(jù)標(biāo)注。
托管團隊。他們是經(jīng)驗豐富,且訓(xùn)練有素的數(shù)據(jù)標(biāo)簽團隊。
承包商。他們包括自由職業(yè)者和臨時工。
眾包。企業(yè)可以使用第三方平臺一次性尋找數(shù)據(jù)標(biāo)注團隊。
-
人工智能
+關(guān)注
關(guān)注
1791文章
46872瀏覽量
237599 -
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8378瀏覽量
132417 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5493瀏覽量
120980
發(fā)布評論請先 登錄
相關(guān)推薦
評論