當技術像機器學習一樣被炒作時,就會出現誤解和錯誤概念。以下是對機器學習到底能干些什么和不能干些什么的一個清醒認識。
機器學習正在被證明非常有用,認為它們能夠解決所有的問題以及能夠應用到所有環境中的想法十分具有吸引力。然而,與其他任何工具一樣,機器學習只在特定的領域有用,特別是對于那些一直困擾我們但我們又清楚無法通過雇用充足人員加以解決的問題,或是有著明確目標但又無明確方法得以解決的問題。
每一家企業可能都會以不同的方式利用機器學習的優點。在管理咨詢公司Accenture近期的調查中,42%的企業主管表示,他們認為到2021年,所有的創新活動背后都有人工智能的支持。但是如果能夠清醒地認識到炒作的存在,避免由誤解機器學習的能力而造就的神話,這將會讓我們受益匪淺。
誤區1:機器學習就是人工智能
機器學習和人工智能常常被作為同義詞使用,然而盡管機器學習已經成功由實驗室走入現實世界,但人工智能的覆蓋領域更為廣闊,如計算機視覺、機器人技術、自然語言處理,以及不涉及機器學習的約束補償等解決方案。我們可以把它想象成能讓機器看起來更聰明的東西。有些人所擔心的那種將會與人類競爭甚至是攻擊人類的“人工智能”,上述這些沒有一個是。
我們應當對各種流行詞匯保持清醒和精準認識。機器學習是指學習模式和利用大數據集預測結果。結論可能貌似“智能”,但是實際上它們只是以前所未有的速度和規模展開運算的應用統計學。
誤區2:所有數據都是有用的
我們需要為機器學習提供數據,但是并非所有的數據對機器學習都有用。為了訓練這些系統,我們需要具有代表性的數據,這些數據要涵蓋機器學習系統將要處理的模式和結果。數據中不能有無關的模式(如所有男生都站著而所有女生都坐著的照片,或是所有的汽車都在車庫中而所有的自行車都在泥濘野外的照片)。因為我們創建的機器學習模型將反映那些過于具體的模式,并在我們使用的數據中查找這些模式。所有用于培訓的數據應當被清楚地標記,同時標示出它們的特征,這些特征還要與將要詢問機器學習系統的問題相匹配。這些需要做大量的工作。
不要想當然地認為我們擁有的數據都是干凈、清晰、具有代表性或易于標記的數據。
誤區3:我們總是需要大量的數據
得益于更好的工具、能夠并行處理海量數據的GPU等計算硬件、大量被標記的數據集(如ImageNet和斯坦福大學問答數據集),機器學習在圖像識別、機器閱讀理解、語言翻譯等領域取得了重大進展。借助被稱為“遷移學習”的技術,我們在特定領域內并不需要龐大的數理集才能得出優秀的結果。相反,我們可以教機器學習系統如何學習使用一個龐大的數據集,然后讓它們使用這種能力去學習我們自己的一個要小很多的訓練數據集。這就是Salesforce和微軟Azure自定義視覺API的工作原理:只需要30-50張能夠展示我們想要的分類內容的圖片就能得出優秀結果。
遷移學習可通過相對較少的數據就為我們的問題定制一個預先訓練好的系統。
誤區4:任何人都可以創建一個機器學習系統
目前已經出現了許多針對機器學習的開源工具和架構,以及大量教授我們如何使用它們的培訓課程。但是機器學習仍然是一個極為專業的技術,我們需要知道如何準備數據并將它們拆分用于訓練和測試,需要知道如何選擇最佳的算法和使用何種啟發式算法,以及如何將它們變成一個可靠的生產系統。此外,我們還需要監測系統,確保隨著時間的推移結果保持相關性。無論是市場發生了變化,還是機器學習系統已經足以滿足應對不同類型的客戶,我們都需要不斷檢查,讓模型始終與我們的問題相匹配。
讓機器學習保持適用需要豐富的經驗。如果是剛開始起步,在聘用數據科學和機器學習專家創建定制系統的同時,我們還需要關注能夠從內部代碼調用的預訓練模型的API。
誤區5:數據中的所有模式都有用
哮喘病人、胸痛病人或心臟病病人以及任何年齡在100歲的老人在得了肺炎后的存活率要比我們想象的高。事實上,用于實現住院自動化的簡單的機器學習系統可能會讓他們回家,不讓他們接受住院治療(基于規則的系統使用與神經網絡完全相同的數據進行訓練)。病人有如此高的存活率的原因在于,因為肺炎對這幾類病人非常兇險,因此他們總是能夠立即被安排住院治療。
系統會查看數據中的有效模式,而有些(盡管可以幫助保險公司預測治療成本但是)對于選擇誰該住院來說并不是一個有用的模式。更為危險的是,我們不知道那些無用的反模式在我們的數據集中,除非我們已經知道它們。
在其他的一些情況下,系統會學習一些沒有用的有效模式(例如,一種有爭議的面部識別系統,可以從自拍中準確預測性取向),因為它們沒有清晰明確的解釋(在這種情況下,照片顯示的是社交線索,如姿勢,而非其他一些天生的特征)。
“黑匣子”模型是有效的,但我們不清楚它們學到了什么模式。更為透明和易懂的算法,如廣義加性模型會讓模型學習到什么變得更為清楚,因此我們可以決定這些模式是否對部署有用。
誤區6:強化學習已經為投入使用做好了準備
事實上,目前在用的所有機器學習系統使用的都監督式學習。在大多數情況下,它們訓練的都是已經被明確標記過的數據集,人類參與了這些數據集的準備。組織管理這些數據集費時費力,因此人們對非監督式學習,特別是對于強化學習(RL)更為感興趣。在強化學習中,代理會不斷摸索嘗試,與它們的環境進行交互,接收由正確行為帶來的獎勵。DeepMind的AlphaGo系統在使用監督式學習的同時使用了強化學習才最終擊敗了與之對弈的圍棋高手。卡內基梅隆大學的Libratus也是在使用了強化學習加上其他兩種人工智能技術才最終在一對一不限注德州撲克中擊敗了世界頂級選手。研究人員目前正在對強化學習展開廣泛的測試,領域涵蓋了從機器人技術到安全軟件測試等各個方面。
強化學習目前在研究領域之外并不常見。谷歌通過讓DeepMind學習如何更為高效的降溫為數據中心節約了電力。微軟通過一個名為上下文老虎機(Contextual Bandits)的強化學習算法為MSN.com網站訪問者呈現個性化的新聞頭條。問題在于現實世界的環境很少有比較輕松的發現性獎勵并且能夠立即進行反饋,特別是代理在事情發生之前采取多種行動則屬于誘騙獎勵。
誤區7:機器學習沒有偏見
由于機器學習是從數據中學習,因此它們會復制數據集中的所有偏見。搜索首席執行官的圖片可能會顯示的都是男性白種人首席執行官的照片。之所以會這樣,是因為與非男性白種人相比,擔任首席執行官的男性白種人要多。這表明機器學習也會放大這種偏見。
被經常用于訓練圖像識別系統的COCO數據集中有男性和女性照片,但是更多的女性照片的背景中有廚房設備,而男性照片的背景中更多的是計算機鍵盤和鼠標或者是網球拍和滑雪板。如果依靠COCO訓練系統,它們會更為強烈地將男性與計算機硬件聯系在一起。
一個機器學習系統還能夠將偏見施加給另一個機器學習系統。利用流行的架構訓練機器學習系統,以一個單詞作為向量展示其中的關系,那么它們學到的可能是“男性相對于女性就像計算機程序員相對于主婦”或“醫生相對于護士就像老板相對于接待員” 這樣的刻板印象。如果我們使用帶有這種偏見的系統進行語言翻譯,如將芬蘭語或土耳其語等性別中立的語言翻譯為區別性別的語言如英語,那么就會出現將“ta是醫生”翻譯成“他是醫生”,將“ta是護士”翻譯成“她是護士”。
在購物網站進行相似物品推薦非常有用,但是當涉及敏感領域并能夠產生一個反饋回路時,那么問題就來了。如果你在Facebook中加入了一個反對接種疫苗的群,Facebook的推薦引擎將會推薦關注各種陰謀論的群或是相信地球是扁平的群。
認識到機器學習中的偏見問題十分重要。如果我們不能在訓練數據集中移除這些偏見,那么我們可以使用能夠調整詞對中性別聯系的技術減少偏見或是向推薦中增加一些無關的項目以避免“過濾氣泡”。
誤區8:機器學習僅被用于做好事
機器學習提升了反病毒工具的能力,它們會關注全新的攻擊行為,一旦出現就能發現它們。同樣的,黑客也在使用機器學習研究反病毒工具的防御能力,通過分析大量的公共數據或是以前成功的釣魚攻擊從而發起大規模針對性更強的釣魚攻擊。
誤區9:機器學習將取代人類
人工智能將會與我們搶飯碗,改我們正在做的工作以及我們的工作方式已經成為了一種普遍的擔心。機器學習則能夠提高效率和合規性同時降低成本。從長遠看,機器學習將在淘汰目前一些崗位的同時創造一些新的工作崗位。由于復雜性或規模性的緣故,許多現在已由機器學習幫助實現自動化的工作在以前要想實現自動化是不可想象的。例如,我們無法雇用充足的人員去看每一張貼在社交媒體上的照片,查看照片中是否有自己公司的品牌的特征。
機器學習已經開始在創造新的工作機遇,如通過預測性維護提升客戶體驗,為業務決策提升建議和支持。與之前的自動化一樣,機器學習能夠解放員工讓他們能夠發揮自己的專業知識和創造力。
-
人工智能
+關注
關注
1791文章
46863瀏覽量
237589 -
機器學習
+關注
關注
66文章
8378瀏覽量
132414
原文標題:推薦 | 關于機器學習這九大誤區你必須知道!
文章出處:【微信號:dkiot888,微信公眾號:鼎酷IOT部落】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論