這是一個(gè)真實(shí)的故事。
今天Reddit機(jī)器學(xué)習(xí)板塊最火的話題,莫過于一個(gè)“亡于AI”的帖子,作者分享了發(fā)生在自己公司的一個(gè)故事:
在A公司有一支傳統(tǒng)的X團(tuán)隊(duì),他們使用本地ERP工具和傳統(tǒng)編程語言進(jìn)行高級分析,整個(gè)工作流程非常流暢,工具也非常有效,都是基于非常深入的業(yè)務(wù)和領(lǐng)域?qū)I(yè)知識而設(shè)計(jì)的。
隨后來了一支Y團(tuán)隊(duì)。這是一個(gè)全新的、充滿雄心的數(shù)據(jù)科學(xué)團(tuán)隊(duì),他們認(rèn)為,X團(tuán)隊(duì)的工具不夠fashion,完全可以用幾個(gè)R腳本 + 一個(gè)定制的 ML 平臺,直接干掉 X 團(tuán)隊(duì)現(xiàn)在使用的工具。
Y團(tuán)隊(duì)的模型非常簡單,甚至有點(diǎn)過于簡單了。但看起來,明顯比X團(tuán)隊(duì)使用的計(jì)量經(jīng)濟(jì)模型更加 “fashion”,加上 Y 團(tuán)隊(duì)頂著“機(jī)器學(xué)習(xí)”和 “數(shù)據(jù)科學(xué)”的 光環(huán),因此領(lǐng)導(dǎo)層決定讓 Y 團(tuán)隊(duì)對現(xiàn)有的相關(guān)分析平臺進(jìn)行大規(guī)模的改造。
但是,Y團(tuán)隊(duì)并沒有類似這種大規(guī)模轉(zhuǎn)型的經(jīng)驗(yàn),而且他們還拒絕與X隊(duì)合作。最終,作者預(yù)測這個(gè)項(xiàng)目的結(jié)局很可能是走向失敗的,并會在整個(gè)財(cái)務(wù)和人員的角度,對整個(gè)公司造成嚴(yán)重傷害。
在當(dāng)前環(huán)境下,數(shù)據(jù)科學(xué)社區(qū)帶出來的風(fēng)氣,對AI的盲目崇拜,也是導(dǎo)致上述現(xiàn)象頻發(fā)的原因。
今天新智元將A公司的慘痛教訓(xùn)詳細(xì)還原,以警醒AI從業(yè)者。
X團(tuán)隊(duì):工具老派,專業(yè)知識夠硬
A公司已經(jīng)存在幾十年了,它不是其領(lǐng)域中最大的公司,但也備受尊敬。自90 年代以來,風(fēng)險(xiǎn)分析和投資組合優(yōu)化一直是A公司業(yè)務(wù)的核心,他們有一支由 30名左右的分析師組成的大型團(tuán)隊(duì),每天都在執(zhí)行這些任務(wù)。
這些分析師使用由大型ERP公司 (SAP、Teradata、Oracle、JD Edwards 等) 或大型技術(shù)咨詢公司 (德勤、埃森哲、普華永道、凱捷等) 與內(nèi)部工程團(tuán)隊(duì)合作為他們實(shí)施的ERP解決方案。
使用的工具都是老一套的:在預(yù)置型服務(wù)器甚至大型機(jī)上運(yùn)行經(jīng)典的 RDBMS,使用 COBOL 編寫的代碼,F(xiàn)ortran 語言,ABAP 或 SPSS 之類的專有工具…… 你懂的。但模型和分析函數(shù)相當(dāng)復(fù)雜,與已發(fā)表的學(xué)術(shù)論文相比,它們令人驚訝地處于前沿。最重要的是,它們與公司的企業(yè)生態(tài)系統(tǒng)非常吻合,并且是基于多年深厚的領(lǐng)域知識磨練而成的。
他們擁有一支由幾名工程師 (從上述軟件和咨詢公司挖來的) 和產(chǎn)品經(jīng)理 (從使用這些軟件的經(jīng)驗(yàn)豐富的分析師和管理人員中挖來,或從商業(yè)競爭對手挖來的) 組成的技術(shù)團(tuán)隊(duì)來維護(hù)和運(yùn)行該軟件。
這些人的技術(shù)可能是老派的,但總的來說,他們非常非常了解這個(gè)領(lǐng)域和公司的整體架構(gòu)。他們指導(dǎo)公司進(jìn)行了幾次大規(guī)模的升級和遷移,而且總是能按時(shí)交付,沒有太多的開銷。
雖然有幾次他們出了bug,但他們知道如何快速解決。事實(shí)上,在所處的行業(yè)利基市場中,他們以其專業(yè)知識而聞名,并與他們不得不打交道的各種供應(yīng)商保持著非常好的關(guān)系。
有趣的是,盡管每天都要使用統(tǒng)計(jì)建模和優(yōu)化算法進(jìn)行處理,但參與其中的分析師、工程師或產(chǎn)品經(jīng)理都沒有自稱為數(shù)據(jù)科學(xué)家或機(jī)器學(xué)習(xí)專家。這主要是一種文化傳統(tǒng):他們所獲得的專業(yè)知識早于 2010 年左右開始的數(shù)據(jù)科學(xué) / ML 的炒作,并且他們的大部分技能是使用專有的企業(yè)工具而不是當(dāng)今流行的開源工具獲得的。
他們中的一些人接受過正式的統(tǒng)計(jì)培訓(xùn),但大多數(shù)人來自工程或領(lǐng)域背景,并在工作中學(xué)習(xí)了統(tǒng)計(jì)學(xué)。讓我們稱這支團(tuán)隊(duì)為 “X 團(tuán)隊(duì)”。
Y團(tuán)隊(duì):試圖用AI解決所有數(shù)據(jù)問題
在2010年代中期左右,A公司開始出現(xiàn)一些嚴(yán)重的令人焦慮的問題:盡管對于這樣規(guī)模的一家公司來說它做得很好了,但整體經(jīng)濟(jì)和人口發(fā)展趨勢正在縮小其客戶群,一些所謂的破壞者開發(fā)出了一個(gè)新的應(yīng)用程序和業(yè)務(wù)模式,開始嚴(yán)重侵蝕他們的收入。
必須采取適當(dāng)?shù)拇胧﹣戆矒峁蓶|和投資者。A公司已經(jīng)有了一個(gè)不錯的網(wǎng)站和一個(gè)相當(dāng)時(shí)髦的應(yīng)用程序,還有什么可以做的呢?領(lǐng)導(dǎo)層決定,現(xiàn)在是時(shí)候讓人工智能 (AI) 和機(jī)器學(xué)習(xí) (ML) 成為公司業(yè)務(wù)的核心部分了。
這時(shí)候,一位雄心勃勃的經(jīng)理——沒有科學(xué)或工程背景,只是幾年前簡短地玩過一個(gè)推薦系統(tǒng)——被選為創(chuàng)建數(shù)據(jù)科學(xué)團(tuán)隊(duì)的負(fù)責(zé)人,組建起一支 “Y 團(tuán)隊(duì)”。
Y團(tuán)隊(duì)主要由內(nèi)部員工組成,他們決心要成為數(shù)據(jù)科學(xué)家,并在加入團(tuán)隊(duì)之前完成了 Coursera 認(rèn)證或 Galvanize 新兵訓(xùn)練營,此外還有一些剛獲得博士或碩士學(xué)位的新人。他們不喜歡學(xué)術(shù)界,想要在工業(yè)界一展身手。而且他們都是非常聰明的人,會寫很棒的博客文章,也會發(fā)表鼓舞人心的 TED 演講,但總體而言,他們幾乎沒有任何實(shí)際的行業(yè)經(jīng)驗(yàn)。
就像現(xiàn)在流行的那樣,這個(gè)團(tuán)隊(duì)是數(shù)據(jù)科學(xué)組織的一部分,繞過 CIO 和任何技術(shù)或商業(yè)副總裁,直接向 CEO 和董事會匯報(bào),因?yàn)锳公司想在即將召開的股東大會上宣稱這個(gè)團(tuán)隊(duì)是 “數(shù)據(jù)驅(qū)動” 和 “AI 驅(qū)動” 的。
在之前3到4年的時(shí)間里,Y 團(tuán)隊(duì)開發(fā)了一些 Python 和 R 腳本。他們的架構(gòu)經(jīng)驗(yàn)基本就是將 Flask 連接到 S3 bucket 或 Redshift tables,其中幾位更有資源的人學(xué)習(xí)如何將他們的模型插入到 Tableau 或如何啟動 Kuberneties pod。但他們并不擔(dān)心:前面提到的經(jīng)理(現(xiàn)在的團(tuán)隊(duì)主管),是一個(gè)玩公司政治和自我推銷的高手。
不管 Y 團(tuán)隊(duì)生產(chǎn)的可操作的成果有多少,或者他們部署到生產(chǎn)中的代碼有多少,他總是支持他們,并確保他們有充足的資金。
事實(shí)上,他現(xiàn)在已經(jīng)制定了一個(gè)宏偉的計(jì)劃,即建立一個(gè)通用機(jī)器學(xué)習(xí)平臺,用來解決公司的所有數(shù)據(jù)問題。
但是,真正的問題才剛開始。
沖突產(chǎn)生:互相看不對眼,拒絕溝通和合作
Y 團(tuán)隊(duì)中一些頭腦清醒的成員,在搜索了他們的行業(yè)名稱和 “數(shù)據(jù)科學(xué)” 這個(gè)詞后,意識到貝葉斯模型是風(fēng)險(xiǎn)分析的主要解決方案,而且已經(jīng)有一個(gè)漂亮的 R 語言工具包可以用,他們在 R-Bloggers.com 研究了相關(guān)的教程。
其中一位成員甚至在 Kaggle 數(shù)據(jù)競賽平臺上提交了一個(gè) Bayesian 分類器內(nèi)核 (在排行榜上排名第 203 位),并渴望將他的新發(fā)現(xiàn)的專業(yè)知識應(yīng)用到實(shí)際問題中。
他們將這個(gè)想法提交給他們的主管,主管認(rèn)為這是ML平臺的一個(gè)完美用例。他們立即開始工作,完全沒有費(fèi)心去了解A公司是否有人已經(jīng)在做風(fēng)險(xiǎn)分析。因?yàn)樗麄兊慕M織是獨(dú)立的,所以他們在獲得資金之前并不需要和任何人核查這些問題。
盡管他們所做的本質(zhì)上只是一個(gè)樸素貝葉斯分類器,但為了給董事會留下深刻印象,他們在項(xiàng)目名稱中加上了ML這個(gè)術(shù)語。
然而,隨著他們工作的進(jìn)展,緊張的氣氛開始凸顯。
他們要求數(shù)據(jù)倉庫和CA分析團(tuán)隊(duì)為他們構(gòu)建 pipeline,最終這個(gè)項(xiàng)目的消息傳到了 X 團(tuán)隊(duì)耳中。X團(tuán)隊(duì)最初很興奮:他們愿意竭誠與 Y 團(tuán)隊(duì)合作,并希望在自己熟悉的工具包中添加 ML。產(chǎn)品負(fù)責(zé)人和分析師也完全支持:他們看到了加入這個(gè)數(shù)據(jù)科學(xué)熱潮的機(jī)會,而這時(shí)他們不停地聽到的熱詞。
但由于傲慢和不安全感混合在一起的奇怪情緒,Y 團(tuán)隊(duì)拒絕與 X 團(tuán)隊(duì)合作,也拒絕與 X 團(tuán)隊(duì)分享任何長期目標(biāo),即使他們?nèi)チ斯镜钠渌块T就他們創(chuàng)建的新模型做演示和教程展示。
X 團(tuán)隊(duì)生氣了:從他們對 Y 團(tuán)隊(duì)模型的觀察來看,Y 團(tuán)隊(duì)的方法幼稚得無可救藥,在生產(chǎn)中幾乎沒有擴(kuò)大規(guī)模或可持續(xù)發(fā)展的可能性,而他們確切地知道如何幫助 Y 團(tuán)隊(duì)實(shí)現(xiàn)這一點(diǎn)。考慮到他們對 DevOps 和持續(xù)交付的熟悉程度,將模型部署到生產(chǎn)環(huán)境中需要幾天的時(shí)間。
盡管他們自己的技術(shù)已經(jīng)過時(shí)了,但 X 團(tuán)隊(duì)還是足夠聰明,能夠?qū)⑵洳迦氲浆F(xiàn)有的架構(gòu)中。此外,該模型的輸出并沒有考慮公司的業(yè)務(wù)將如何使用它,或如何將它傳遞到下游系統(tǒng),并且為了讓模型被采用,產(chǎn)品所有者可能付出大量精力。
但是 Y 團(tuán)隊(duì)不聽,他們的領(lǐng)導(dǎo)拒絕任何溝通的嘗試,更不用說合作了。Y 團(tuán)隊(duì)表現(xiàn)出來的態(tài)度是:“我們是最先進(jìn)的 ML 團(tuán)隊(duì),你們是傳統(tǒng)的服務(wù)器。我們不需要你的意見。“Y團(tuán)隊(duì)似乎完全無視領(lǐng)域知識,或者更糟的是,他們認(rèn)為所有這些領(lǐng)域知識只需要掌握一些業(yè)務(wù)指標(biāo)的定義就夠了。
X 團(tuán)隊(duì)感到沮喪,試圖向領(lǐng)導(dǎo)層表達(dá)他們的擔(dān)憂。但是,盡管他們掌握著 A 公司的業(yè)務(wù)流程中重要的一環(huán),但他們只是一個(gè)幾十人左右的團(tuán)隊(duì),而且他們與最高管理層也隔了好幾層,在這個(gè)擁有1000名員工的強(qiáng)大組織中,他們的聲音不可能被管理層聽到。
與此同時(shí),Y團(tuán)隊(duì)里這位勢不可擋的主管正在做他最擅長的事情:玩弄公司政治。盡管他的團(tuán)隊(duì)實(shí)際交付的東西很少,但他已經(jīng)說服董事會,所有的分析和優(yōu)化任務(wù)現(xiàn)在都應(yīng)該遷移到尚未交付的 ML 平臺上。
由于大多數(shù)領(lǐng)導(dǎo)已經(jīng)知道 X 團(tuán)隊(duì)和 Y 團(tuán)隊(duì)的目標(biāo)存在重疊,他的觀點(diǎn)不再是 Y 團(tuán)隊(duì)要有新的洞察力,而是他們將以更準(zhǔn)確的基于云的ML工具取代基于統(tǒng)計(jì)學(xué)的工具。
盡管學(xué)術(shù)文獻(xiàn)中沒有支持樸素貝葉斯方法比 X 團(tuán)隊(duì)使用的計(jì)量經(jīng)濟(jì)學(xué)方法更好的觀點(diǎn),更不用說貝葉斯優(yōu)化肯定會比生產(chǎn)中運(yùn)行的 QP 求解器更好的怪異觀點(diǎn)了。
等死,還是找死?
X 團(tuán)隊(duì)不知道,最初的貝葉斯風(fēng)險(xiǎn)分析項(xiàng)目現(xiàn)已發(fā)展成為一項(xiàng)價(jià)值數(shù)百萬美元的重大改革計(jì)劃,包括最終取代 X 團(tuán)隊(duì)支持的所有工具和功能,以及必要的云遷移,CIO 和幾位業(yè)務(wù)副總裁均已就位。
由于 Y 團(tuán)隊(duì)沒有工程技能,于是打算公司外部找一個(gè)沒有人聽說過的創(chuàng)業(yè)公司,把構(gòu)建平臺的任務(wù)外包給他們。另外,選外包公司要非常慎重,因?yàn)槿绻x擇任何知名的外包公司,老板立馬就會意識到 Y 團(tuán)隊(duì)不行,發(fā)現(xiàn)其實(shí) X 團(tuán)隊(duì)比 Y 團(tuán)隊(duì)更適合這種規(guī)模的遷移。
Y 團(tuán)隊(duì)沒有任何主流 ERP 部署的經(jīng)驗(yàn),更缺乏相關(guān)領(lǐng)域的知識,但他們的任務(wù)卻是從根本上改變 A 公司現(xiàn)有核心業(yè)務(wù)的業(yè)務(wù)流程。他們的模型實(shí)際上比 X 團(tuán)隊(duì)要差,并且與實(shí)際情況真正需要的解決方案相比,他們的體系結(jié)構(gòu)簡單到令人絕望。
更打臉的是,通過貝葉斯分析、以及基于目前所有的證據(jù)都表明一個(gè)更讓他們寒心的事實(shí):Y 團(tuán)隊(duì)成功的可能性等于 0。
也許,該項(xiàng)目最好的是及時(shí)被終止,但仍然損失了超過 5000 萬美元,領(lǐng)導(dǎo)層換血,數(shù)十人被解雇;最壞的結(jié)果無疑就是整個(gè)公司陷入困境。鑒于風(fēng)險(xiǎn)分析和投資組合優(yōu)化對公司 A 的收入流的重要性,它可能不會破產(chǎn),但會失去其大部分業(yè)務(wù)和員工。
古話說得好 “不上ERP等死,上了ERP找死”。錯誤實(shí)施 ERP 導(dǎo)致公司垮掉的大公司并不少見,例如 National Grid US,SuperValu 和 Target Canada。
結(jié)局
Reddit發(fā)帖的作者認(rèn)為,這次崩潰的核心驅(qū)動力確實(shí)來自于對數(shù)據(jù)科學(xué)家、機(jī)器學(xué)習(xí)模型以及 AI 的承諾的盲目信仰,以及在機(jī)器學(xué)習(xí)群體中非常普遍的炒作和自我推銷的整體文化。
對機(jī)器學(xué)習(xí) / 數(shù)據(jù)科學(xué)的過度關(guān)注需要為項(xiàng)目失敗負(fù)責(zé)嗎?
在 Reddit 的評論里,一些人認(rèn)為這個(gè)鍋技術(shù)不應(yīng)該背!完全就是領(lǐng)導(dǎo)者的決策失誤。因?yàn)樵谶@個(gè)案例中,把機(jī)器學(xué)習(xí)、數(shù)據(jù)科學(xué)換成其他任何一種新興的技術(shù),最終的結(jié)局很可能是相同的。
作者也認(rèn)為,不論機(jī)器學(xué)習(xí)也好、數(shù)據(jù)科學(xué)也好,只要能放在正確的場景中,確實(shí)可以正確的得償所愿。將先進(jìn)的機(jī)器學(xué)習(xí)技術(shù)、放在合適的場景中、并將成本控制在合理的范圍內(nèi)卻拉低公司競爭能力的情況,沒有理由發(fā)生。
此外,作者還認(rèn)為,出現(xiàn)這種情況的原因既有公司決策問題,也有對AI的盲目崇拜問題,以下三點(diǎn)可能是公司引入AI之前應(yīng)該警醒的教訓(xùn):
認(rèn)為數(shù)據(jù)科學(xué)團(tuán)隊(duì)?wèi)?yīng)該獨(dú)立運(yùn)作。過度自治導(dǎo)致和公司業(yè)務(wù)、其他團(tuán)隊(duì)脫節(jié)。
由于對機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)的過度炒作,導(dǎo)致人們以為數(shù)據(jù)科學(xué)家是個(gè)全能型人才,啥都會。再有機(jī)器學(xué)習(xí)能力的加持,哇!簡直沒有什么問題是這位數(shù)據(jù)科學(xué)家不能解決的。
過度關(guān)注工具和基礎(chǔ)知識而缺乏深度的經(jīng)驗(yàn)。一個(gè)人可能了解 Python、R、Tensorflow、Shiny 等編程工具;有 Coursera 證書;寫過點(diǎn)贊好幾千的數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)文章,但根本對實(shí)際問題一無所知。如今的數(shù)據(jù)科學(xué)面試題基本都是:解釋 p 值;解釋彈性網(wǎng)絡(luò)回歸;如何在 sklearn 中使用模型… 拜托,任何會打字的人都能在 Stackoverflow 或 Cross-Validated 上查看這些問題的答案。實(shí)際上面試應(yīng)該這樣提問:為什么投資組合優(yōu)化使用 QP 而不是 LP?預(yù)測是如何影響客服水平的?推薦引擎如何決定什么時(shí)候該基于內(nèi)容、何時(shí)使用協(xié)同過濾...
AI有風(fēng)險(xiǎn),引入需謹(jǐn)慎。
-
編程
+關(guān)注
關(guān)注
88文章
3592瀏覽量
93594 -
AI
+關(guān)注
關(guān)注
87文章
30139瀏覽量
268411 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8377瀏覽量
132407
原文標(biāo)題:AI死亡啟示錄
文章出處:【微信號:gh_211d74f707ff,微信公眾號:重慶人工智能】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論