(來源: 第一財經日報 劉佳 在此特別鳴謝?。?/p>
我們先看一下數據,據IDC統計,全球每年生產的數據量將從2016年的16.1ZB增至2025年的163ZB。
“抬頭是山,低頭是煤?!痹谏轿鱾鹘y煤礦工作8年, 整天盯在電腦屏幕前監測礦井瓦斯濃度的郭梅從來沒有想過,有一天自己的工作會和人工智能有了聯系。
兩年前,因為孩子來省會城市太原上學,郭梅在附近求職,做起了數據標注。同樣是盯在電腦屏幕前,現在郭梅每天的工作是給圖片、文本或者聲音進行標注,再把它們交給機器訓練和學習。從一開始每天只能標注兩三百張,到現在的日均完成1300多張,郭梅按件計酬的收入逐漸提升,已高于當地平均收入水平。
人工智能行業里有句話:有多少智能,背后就有多少人工。像郭梅一樣,AI數據標注師成為了隨著人工智能發展而出現的新興就業崗位。2020年2月,“人工智能訓練師”正式成為新職業并納入國家職業分類目錄。
他們被稱為人工智能背后的人。數據采集和標注是他們的主要工作,目的就是要教會AI認識數據,轉化成AI能消化和吸收的“語言”。
這項工作看起來簡單枯燥,但意義非常?!熬拖褚惠v車沒有汽油走不了,數據就是人工智能發展的燃料。有了我們的數據,機器(算法)不斷迭代,就能推動人工智能往更好的方向發展?!?從事數據標注的山西麟諾公司總經理李應維對第一財經表示。
“從沒想過做人工智能”
二十出頭的李宇龍從未親眼見過自動駕駛汽車,但他的工作卻和自動駕駛的AI算法息息相關。
他曾經在生產電子類產品的工廠工作,轉做AI數據標注后,老板交給他的第一個項目就是“車道線打點”。
簡單來說,就是給無人駕駛進行車道線標注。當無人車行駛到一段路時,會自動連續拍攝圖片,李宇龍要做的,就是對圖片上車輛所行駛的車道旁邊兩側的線進行標注,識別虛線還是實線,匹配所對應的屬性,從而告訴人工智能虛線車輛可以進行變道,實線不可以進行變道。而標注的難點,在于交會和分岔。
他把自己的工作比作“幼教”,當他拿出一個紅蘋果給機器并教會它識別,再拿一個綠蘋果給它時,因為顏色差異,機器就無法認出了。李宇龍的工作就是不斷地幫助機器識別不同的顏色、大小,甚至是被咬了一口的蘋果或是壞蘋果,直到隨便拿出一個蘋果,它都能認出來。
李宇龍告訴第一財經記者,數據標注的工作是“按件計酬”,他的日均收入在300元左右。數據顯示,2019年,太原市的城鎮居民全年人均可支配收入36362元。他說,自己的工資水平在整個基地標注師日均收入中處于中等水平,“據我了解,有人日均收入甚至能破千?!?/p>
對于自己的工作,李宇龍說,剛開始接觸時,只把它看作一個重復性的工作,并沒有想太多。直到后來接觸項目多了,涉及的領域包括教育、安防、金融、交通醫療和電商等,每天都在挑戰學習能力,也會想要更深入了解自己標注的內容可以應用到的行業。雖然還沒有坐過無人車,但他說,現在看到無人駕駛的時候,會想到這里面也包含了自己的標注成果。
像李宇龍、郭梅的工作一樣,在每一間數據標注的辦公室里,都是類似的工作場景:一排排電腦屏幕前,年輕的數據標注師根據各自分配的任務,對文本、圖片、語音和視頻做標記、標重點、打標簽、框對象、做注釋等方式對數據集作出標注,他們可能在為無人車標注車道線、紅綠燈,也可能是在為肺部影像標注病毒數據。
是不是“AI富士康”?
數據標注產業促進了不少城鎮和農村就業,在河南、河北、貴州等地,還出現了一些特色的“數據標注村”。
據IDC統計,全球每年生產的數據量將從2016年的16.1ZB猛增至2025年的163ZB,其中80%~90%是非結構化數據,這些數據經過清洗與標注才能被喚醒價值。在我國,每年需要進行標注的語音數據超過200萬小時,圖片則有數億張,這就產生了源源不斷的清洗與標注需求。李應維對第一財經記者說, 他預計明年企業的用工將翻一倍,從160多人擴展到300人左右。
李應維公司所在的百度(山西)人工智能基礎數據產業基地,已經成為中國人員和產值規模第一的單體數據標注基地。AI數據標注師從業人員超過2000人,實現營業收入超億元,企業入駐35家。該基地計劃在未來5年培養5萬名AI數據標注師,并引入更多AI合作伙伴。
不過,數據標注師看上去是人工智能領域一個“入門”工種:技術門檻低,招工人群范圍廣泛。他們通過每天數千次的重復動作,和最前沿科技的人工智能產生聯系。也因此,外界給這個行業貼上了“AI富士康”的標簽。
數據標注帶來技術紅利,但如果人工智能發展到一定程度,甚至有可能夠取代數據標注師的工作。
艾瑞咨詢在一份人工智能相關報告指出,隨著算法需求越來越旺盛,依賴人工標注不能滿足市場需求,因此增強數據處理平臺持續學習能力,由機器持續學習人工標注,提升預標注和自動標注能力對人工的替代率將成趨勢。此外,隨著 AI對數據的要求越來越高,數據標注行業也正逐步進入精細化階段。
百度(山西)人工智能基礎數據產業基地負責人尉赤認為,數據標注是一個很好的入門,進來之后有機會更深度參與到產業鏈協作當中,例如后續當數據標注越來越機器化,人工和自動化之間要有機的協同,這也對員工提出了更高要求。
此外,當數據標注越來越機器化,人工智能訓練師是一個轉換工種的機會,標注員們現在標注數據,未來可能向數據治理、數據解決方案設計和項目管理等方向發展。
-
數據
+關注
關注
8文章
6892瀏覽量
88828 -
AI
+關注
關注
87文章
30146瀏覽量
268421 -
人工智能
+關注
關注
1791文章
46859瀏覽量
237582
發布評論請先 登錄
相關推薦
評論