技術(shù)將逐漸成為高質(zhì)量數(shù)據(jù)的“第一生產(chǎn)力”。
“人工智能會改變世界,那誰會改變?nèi)斯ぶ悄埽俊敝嬎銠C(jī)科學(xué)家李飛飛曾多次發(fā)問。
回看人工智能60多年的發(fā)展歷史,大部分時間里,研究者對這個問題給出的答案恐怕都是“模型”。
直到2012年,在ImageNet大規(guī)模視覺識別挑戰(zhàn)(ILSVRC)上,杰弗里·辛頓帶領(lǐng)團(tuán)隊創(chuàng)造了深度學(xué)習(xí)的“ImageNet時刻”。“數(shù)據(jù)”第一次站在人工智能舞臺的聚光燈下。
某種程度上,大模型的智能涌現(xiàn),是ImageNet在自然語言理解(NLP)領(lǐng)域“復(fù)制”成功的結(jié)果。
過去半年,在國內(nèi)外逐漸解開“大模型謎團(tuán)”的過程中,數(shù)據(jù)、算法、算力這“三駕馬車”在人工智能中扮演的角色正在被重新分配。技術(shù)驅(qū)動的高質(zhì)量數(shù)據(jù),正在成為驅(qū)動模型能力提升的最關(guān)鍵要素。與之相伴的AI數(shù)據(jù)服務(wù)行業(yè)也迎來了全新的時代。
1.大模型時代,“數(shù)據(jù)為王”?
大模型時代,整個數(shù)據(jù)服務(wù)行業(yè)都在面臨一次“翻新”。
正如汽油需要從原油中提煉才能供汽車使用一樣,AI產(chǎn)業(yè)鏈條中,大多數(shù)據(jù)為非結(jié)構(gòu)化數(shù)據(jù),AI公司通過數(shù)據(jù)標(biāo)注獲得結(jié)構(gòu)化數(shù)據(jù),以此“喂養(yǎng)”算法進(jìn)行AI訓(xùn)練,最終生成的模型數(shù)據(jù)可用于各種場景,從而激發(fā)數(shù)據(jù)的AI價值。因此,數(shù)據(jù)標(biāo)注一直是人工智能深度學(xué)習(xí)路徑下不可或缺的存在。
“大模型時代,數(shù)據(jù)為王。”這是部分行業(yè)觀察者給出的一則判斷。當(dāng)前的AI大模型訓(xùn)練過程中,算法端逐漸向Transformer神經(jīng)網(wǎng)絡(luò)“收斂”,算力端依賴于具備大規(guī)模并行計算能力的AI服務(wù)器集群,數(shù)據(jù)端則需要涵蓋巨量數(shù)據(jù)的大規(guī)模數(shù)據(jù)集持續(xù)投喂。
必須承認(rèn),大模型的智能涌現(xiàn)是三大要素彼此交織的工程學(xué)勝利。但某種程度上,算力決定了模型能力的“下限”,而在實際應(yīng)用場景中,數(shù)據(jù)質(zhì)量決定了模型能力的“上限”。
數(shù)據(jù)是直接影響AI大模型落地效果的關(guān)鍵因素。相比于模型算法和底層算力,高質(zhì)量數(shù)據(jù)更為稀缺。
大模型時代,所謂“高質(zhì)量”數(shù)據(jù),也有了更豐富的含義。
Mckinsey Global Institute研究報告表明:深度學(xué)習(xí)模型對訓(xùn)練數(shù)據(jù)的數(shù)據(jù)量、多樣性和更新速度方面提出較高要求。具體而言,約1/3的算法模型每月至少更新一次,約1/4的算法模型每日至少更新一次。算法模型的持續(xù)更新,將進(jìn)一步拓展各領(lǐng)域訓(xùn)練數(shù)據(jù)的需求空間。
大模型的研發(fā)和應(yīng)用鏈路更長。簡單來看,大模型訓(xùn)練包含“模型方案設(shè)計-數(shù)據(jù)采集-數(shù)據(jù)清洗-數(shù)據(jù)標(biāo)注-數(shù)據(jù)質(zhì)檢-模型訓(xùn)練-模型測試-模型評估”八大環(huán)節(jié)。
其中,“數(shù)據(jù)采集-數(shù)據(jù)清洗-數(shù)據(jù)標(biāo)注-數(shù)據(jù)質(zhì)檢”四步是AI基礎(chǔ)數(shù)據(jù)服務(wù)的關(guān)鍵技術(shù)流程;在模型訓(xùn)練環(huán)節(jié),大模型也對預(yù)訓(xùn)練數(shù)據(jù)、微調(diào)數(shù)據(jù)(SFT/RLHF)需求量更大且對質(zhì)量要求更高;在模型評估和應(yīng)用環(huán)節(jié),模型評估標(biāo)準(zhǔn)、測試數(shù)據(jù)集,以及應(yīng)用階段的Prompt工程成為基礎(chǔ)數(shù)據(jù)服務(wù)企業(yè)面臨的新挑戰(zhàn)。
需求端的變化重構(gòu)了數(shù)據(jù)服務(wù)領(lǐng)域原有的游戲規(guī)則,傳統(tǒng)數(shù)據(jù)標(biāo)注行業(yè)“作坊式”的工作模式和工作效率越來越無法滿足激增的“工業(yè)化”數(shù)據(jù)需求。
基礎(chǔ)數(shù)據(jù)服務(wù)企業(yè)一方面要夯實交付能力,提升數(shù)據(jù)質(zhì)量和作業(yè)效率;同時還要開拓各類算法、AI輔助等技術(shù),以彌補(bǔ)重人力投入帶來的高成本、低效率等問題。
長久來看,基礎(chǔ)數(shù)據(jù)服務(wù)需要一條更完善、更高效的“智能流水線”,來匹配大模型時代的新需求。
2.給數(shù)據(jù)建一套“智能流水線”
國外一家初創(chuàng)企業(yè)已經(jīng)走在前列。
ChatGPT爆火后,AI數(shù)據(jù)服務(wù)商Scale AI被當(dāng)作“站在OpenAI背后的公司”而備受關(guān)注。
自2016年成立以來,Scale AI在最初四年專注為人工智能/機(jī)器學(xué)習(xí)模型所需要的數(shù)據(jù)做標(biāo)注。在之后的時間,Scale AI逐漸向下游擴(kuò)展,開發(fā)自有模型,并逐步進(jìn)入人工智能產(chǎn)業(yè)鏈的更多環(huán)節(jié)。
2020年,成立5年的Scale AI突破了1億美元的ARR,成為有史以來最快達(dá)到這一里程碑的公司之一。
ScaleAI爆發(fā)性成長的根源在于,它顛覆了數(shù)據(jù)標(biāo)注行業(yè)作為“勞動密集產(chǎn)業(yè)”的歷史,并以一己之力將行業(yè)推向“技術(shù)密集型”產(chǎn)業(yè)。
商業(yè)世界中,時代更替、優(yōu)勝劣汰的故事屢見不鮮,國內(nèi)也開始浮現(xiàn)一個聲音——誰是“中國的Scale AI”?
中國基礎(chǔ)數(shù)據(jù)服務(wù)市場大致有互聯(lián)網(wǎng)企業(yè)、初創(chuàng)企業(yè)及傳統(tǒng)數(shù)據(jù)服務(wù)商三類玩家。
其中,傳統(tǒng)數(shù)據(jù)服務(wù)商大多“重人力,輕技術(shù)”,多依賴眾包或外包模式起家,延續(xù)一直以來的“人海戰(zhàn)術(shù)”,能夠滿足部分低端需求,具備部分AI輔助標(biāo)注能力,但整體欠缺算法能力。
創(chuàng)業(yè)公司則“重技術(shù),輕人力”,從智能化標(biāo)注工具的小賽道切入,較成熟的創(chuàng)業(yè)公司建有自己的數(shù)據(jù)標(biāo)注基地,逐漸形成全棧式交付能力。
相比之下,互聯(lián)網(wǎng)企業(yè)雖然不算入局最早的,卻是起點(diǎn)最高的。互聯(lián)網(wǎng)企業(yè)有充足的資金、人才和技術(shù)儲備,能夠強(qiáng)勢整合平臺資源,加注技術(shù)研發(fā),是近年來AI數(shù)據(jù)服務(wù)領(lǐng)域發(fā)展勢頭最猛的力量。
三大玩家均在不同程度“對標(biāo)”ScaleAI,向人工智能產(chǎn)業(yè)鏈下游延伸,并拉開數(shù)據(jù)采標(biāo)的智能化變革。然而,真正擁有一套完整智能化流水線的玩家卻不多。
火山引擎,已經(jīng)率先展開探索。
據(jù)火山引擎AI數(shù)據(jù)中心負(fù)責(zé)人金亮介紹,火山引擎AI數(shù)據(jù)服務(wù)已經(jīng)給數(shù)據(jù)搭建了一套“智能化流水線”,即智能化標(biāo)注平臺。該平臺包含兩大能力套件——智能作業(yè)套件及智能管理套件。
智能作業(yè)套件基于標(biāo)注領(lǐng)域的模型,建設(shè)了機(jī)標(biāo)、預(yù)標(biāo)、輔標(biāo)的智能作業(yè)能力矩陣,以模型能力部分替代和全部替代人工標(biāo)注作業(yè);輔以模型持續(xù)優(yōu)化流程及智能評估、調(diào)度能力,保障整體模型覆蓋度和提效表現(xiàn)。
作業(yè)套件沉淀了多種標(biāo)注模板,包含ASR,NLP,CV等全品類的模板覆蓋。如ASR的短語音標(biāo)注、長語音標(biāo)注、圖像的關(guān)鍵點(diǎn)、矩形框,點(diǎn)云、2/3D融合標(biāo)注、連續(xù)幀、離散幀等標(biāo)準(zhǔn)模板,能夠保障數(shù)據(jù)安全、平臺操作便捷且可定制化。項目經(jīng)理只需要簡單配置一下,便可以執(zhí)行任何類型的任務(wù)。
平臺集成了預(yù)標(biāo)注與邊標(biāo)邊訓(xùn)和主動學(xué)習(xí)式的模型,用各類模型輔助甚至代替部分人工操作。同時根據(jù)不同的項目階段,選擇適合的模型能力接入相應(yīng)的項目階段。
例如,在數(shù)據(jù)標(biāo)注初期,火山引擎AI數(shù)據(jù)服務(wù)利用模型過濾大量數(shù)據(jù),即進(jìn)行模型預(yù)標(biāo),減少人工作業(yè)的數(shù)據(jù)量。模型預(yù)標(biāo)后,只需抽取置信度不高的少量數(shù)據(jù),由標(biāo)注員進(jìn)行確認(rèn)或修改即可。既完成交付,也能夠給模型提供反饋,持續(xù)提升模型性能。
此外,火山引擎AI數(shù)據(jù)服務(wù)還會利用模型進(jìn)行糾錯,即標(biāo)注員提交的結(jié)果會過一遍模型,兩者相差過大模型會進(jìn)行糾錯,避免標(biāo)注員提交質(zhì)量顯著偏低的結(jié)果。在質(zhì)檢作業(yè)時,模型可以輔助篩選需重點(diǎn)質(zhì)檢任務(wù)或直接完成數(shù)據(jù)的驗收,最終可實現(xiàn)約20%-40%的效率提升。
智能管理套件則基于NLP和對話模型的交付助理GPT、作業(yè)助理GPT等助理能力,通過模型的場景優(yōu)化和策略引擎,實現(xiàn)管理過程中的智能預(yù)警和干預(yù),以及業(yè)務(wù)知識的個性化查詢,提升整體管理效率,降低培訓(xùn)成本。
此外,金亮表示,基于智能化標(biāo)注平臺,火山引擎AI數(shù)據(jù)服務(wù)團(tuán)隊也摸索了一套“人機(jī)結(jié)合”的作業(yè)模式。“我們把復(fù)雜的業(yè)務(wù)通過技術(shù)拆解成最小單元,把每一個小業(yè)務(wù)變成簡單的業(yè)務(wù),做機(jī)器標(biāo)注解決,若干個簡單的任務(wù),最后通過技術(shù)進(jìn)行合并,讓使用者都能低門檻使用火山引擎的標(biāo)注平臺。”金亮說。
在無數(shù)次實戰(zhàn)中,火山引擎AI數(shù)據(jù)服務(wù)已經(jīng)形成完整的一站式服務(wù)能力體系。
AI鏈路上,火山引擎AI數(shù)據(jù)服務(wù)可支持?jǐn)?shù)據(jù)采集、清洗、標(biāo)注、格式處理、數(shù)據(jù)管理、模型訓(xùn)練與運(yùn)維、模型評測等AI基建能力;
算法技術(shù)上,其可支持CV、智能語音、NLP等機(jī)器學(xué)習(xí)/深度學(xué)習(xí)算法,及LLM、SD等類別的大模型訓(xùn)練數(shù)據(jù);
服務(wù)類型上,可提供高質(zhì)量的定制化采標(biāo)服務(wù)、模型優(yōu)化和迭代、預(yù)標(biāo)模型定制化、智能化數(shù)據(jù)服務(wù)平臺等產(chǎn)品服務(wù);
應(yīng)用場景上,可覆蓋行業(yè)95%以上的業(yè)務(wù)場景,應(yīng)用于泛互、社交娛樂、媒體咨詢、自動駕駛、智能金融、智能家居、推薦理解、智慧醫(yī)療等垂類場景。
2021年火山引擎AI數(shù)據(jù)服務(wù)迎來了第一家客戶——國內(nèi)某top級別的自動駕駛解決方案商。 客戶要求的項目類型是圖像BEV算法標(biāo)注(即“鳥瞰圖的標(biāo)注”,基于圖像/Lidar/多模態(tài)數(shù)據(jù)的3D檢測與分割任務(wù)),并要求交付圖片準(zhǔn)確率要達(dá)到98%以上。 為實現(xiàn)超預(yù)期交付,項目經(jīng)理直接帶著團(tuán)隊到客戶現(xiàn)場駐場,參與客戶車輛測試路跑數(shù)十公里,想盡各種辦法,最大程度貼合客戶真實的業(yè)務(wù)場景,為客戶量身定制質(zhì)量管理方案。最終,該項目達(dá)到了99.6%的交付準(zhǔn)確率。 超客戶預(yù)期的高質(zhì)量交付結(jié)果幫助客戶將自動泊車指數(shù)提升了304%。也正因如此,首家客戶和火山引擎在AI數(shù)據(jù)服務(wù)上的合作一直持續(xù)到了今天。 接下來的兩年中,火山引擎AI數(shù)據(jù)服務(wù)成長迅速。 目前,火山引擎AI數(shù)據(jù)服務(wù)也面向火山方舟提供多項服務(wù)。 火山方舟是火山引擎發(fā)布的大模型服務(wù)平臺,面向企業(yè)提供模型精調(diào)、評測、推理等全方位的平臺服務(wù)(MaaS,即Model-as-a-Service)。目前,“火山方舟”集成了百川智能、出門問問、復(fù)旦大學(xué)MOSS、IDEA研究院、瀾舟科技、MiniMax、智譜AI(以拼音首字母排序)等多家AI科技公司及科研院所的大模型。 “企業(yè)使用大模型,首先要解決安全與信任問題”,火山引擎總裁譚待表示,“火山方舟”實現(xiàn)了大模型安全互信計算,為企業(yè)客戶確保數(shù)據(jù)資產(chǎn)安全。基于“火山方舟”獨(dú)特的多模型架構(gòu),企業(yè)可同步試用多個大模型,選用更適合自身業(yè)務(wù)需要的模型組合。 火山引擎AI數(shù)據(jù)服務(wù)已經(jīng)向火山方舟提供包括RLHF多輪對話訓(xùn)練、SFT階段數(shù)據(jù)精調(diào)標(biāo)注、RM排序數(shù)據(jù)精調(diào)訓(xùn)練、問答改寫精調(diào)標(biāo)注、文本大模型綜合標(biāo)注模板及Prompt工程指令庫等服務(wù)。 火山引擎AI數(shù)據(jù)服務(wù)正在探索一條以技術(shù)為主引擎的高質(zhì)量數(shù)據(jù)道路。
3.技術(shù),高質(zhì)量數(shù)據(jù)的“第一生產(chǎn)力”
三年前,整個“數(shù)據(jù)”行業(yè)迎來一次歷史性轉(zhuǎn)折。 2020年4月,中共中央、國務(wù)院發(fā)布《關(guān)于構(gòu)建更加完善的要素市場化配置體制機(jī)制的意見》,將數(shù)據(jù)作為與土地、勞動力、資本、技術(shù)并列的生產(chǎn)要素,要求“加快培育數(shù)據(jù)要素市場”。 一時間,各種聲音開始解讀——這一變化究竟意味著什么? 相關(guān)政策指出,數(shù)據(jù)要素涉及數(shù)據(jù)生產(chǎn)、采集、存儲、加工、分析、服務(wù)等多個環(huán)節(jié),是驅(qū)動數(shù)字經(jīng)濟(jì)發(fā)展的“助燃劑”。換言之,數(shù)據(jù)要真正成為生產(chǎn)要素,意味著數(shù)據(jù)不能是“一盤散沙”,而需要以“數(shù)據(jù)”為中心,生長出一條完整的產(chǎn)業(yè)鏈。 如今,數(shù)字經(jīng)濟(jì)已然行至水深處,不少領(lǐng)域甚至開始走入“無人區(qū)”。此時此刻,人工智能,則是讓數(shù)字經(jīng)濟(jì)走出無人區(qū),通往開闊地帶的一把鎖;高質(zhì)量的數(shù)據(jù)養(yǎng)料,則是打開這把鎖的一把密鑰。 在數(shù)據(jù)的“智能流水線”背后,是一整套體系的系統(tǒng)性升級。 基礎(chǔ)設(shè)施層,基于云服務(wù)的AI訓(xùn)練全棧式服務(wù),可以充分銜接AI基礎(chǔ)數(shù)據(jù)服務(wù)及模型訓(xùn)練過程;平臺層,工具鏈及AI標(biāo)注平臺為模型訓(xùn)練整體提效;工具層,各類AI輔助標(biāo)注工具提高各環(huán)節(jié)服務(wù)質(zhì)量,最終實現(xiàn)模型訓(xùn)練過程中的快速迭代。 火山引擎AI數(shù)據(jù)中心負(fù)責(zé)人金亮告訴「甲子光年」,目前AI標(biāo)注工具正處于半自動化狀態(tài),能夠?qū)崿F(xiàn)簡單的數(shù)據(jù)標(biāo)注。但未來,隨著生成式AI技術(shù)的發(fā)展,AI對語音、語義、圖像分割等理解能力實現(xiàn)重要突破,AI標(biāo)注工具則能實現(xiàn)AI全自動化/半自動化高交互的終極狀態(tài)。 回看AI數(shù)據(jù)服務(wù)的發(fā)展歷程,整個行業(yè)都正在經(jīng)歷從無序到有序,從勞動密集型產(chǎn)業(yè)到技術(shù)密集型產(chǎn)業(yè)的華麗蛻變。如今,率先布局智能化數(shù)據(jù)生產(chǎn)線的火山引擎AI數(shù)據(jù)服務(wù),則已經(jīng)取得先發(fā)優(yōu)勢,技術(shù)將逐漸成為高質(zhì)量數(shù)據(jù)的“第一生產(chǎn)力”。
-
數(shù)據(jù)采集
+關(guān)注
關(guān)注
38文章
5903瀏覽量
113514 -
智能化
+關(guān)注
關(guān)注
15文章
4819瀏覽量
55246 -
人工智能
+關(guān)注
關(guān)注
1791文章
46846瀏覽量
237537 -
大模型
+關(guān)注
關(guān)注
2文章
2323瀏覽量
2479
原文標(biāo)題:大模型時代,如何搭建數(shù)據(jù)的“智能化流水線” ?|甲子光年
文章出處:【微信號:jazzyear,微信公眾號:甲子光年】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論