精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

機器學習專家們每天都在做什么?如何讓機器學習自動化

zhKF_jqr_AI ? 作者:工程師飛燕 ? 2018-07-19 16:01 ? 次閱讀

本文作者是fast.ai的創始人之一Rachel Thomas,它是一名深度學習研究員,主要工作內容是將機器學習技術更容易被其他領域的人員使用。本文介紹了機器學習從業人員的主要工作內容,論智將其編譯如下。

當下,媒體總會用“稀缺”、“高薪”等字眼來描繪機器學習,甚至還有一些夸張的標題宣稱某公司的自動機器學習產品能代替機器學習專家。在TensorFlow DevSummit上,谷歌AI的首席科學家Jeff Dean表示,目前數千萬家公司會產出電子數據,但是缺少會機器學習技術的人才。而我在fast.ai的工作正是讓更多的人學會機器學習技術、讓這種技能變得更易掌握,所以我對這一問題進行了而深入研究。

在思考我們如何讓機器學習自動化,以及如何讓它普及到更多領域的人時,首先要思考的是,機器學習專家們都要做什么?任何能解決機器學習專家緊缺的方法都要回答這樣一個問題:我們是否知道該教授什么知識、用什么工具、或者在哪一部分實現自動化。

這篇文章屬于連載系列的第一篇,這里我們會描述機器學習專家實際上都做些什么。該系列的第二篇文章會解釋什么是自動化機器學習以及什么是神經架構搜索(一些重量級人物曾表明這兩種成果是減少對數據科學家需要的關鍵),最后第三部分將介紹谷歌的自動機器學習產品。

在復雜工作中建立數據產品

很多學術界的機器學習成果都只關注預測模型,但這只是機器學習專業人員平時工作的一部分。明確工作問題、收集并清洗數據、搭建模型、得出結果并監測變化,這些過程通常會以不同形式相互連接,很難單獨拿出來作為研究對象。正如Jeremy Howard等人在Designing great data products中所寫的那樣:“強大的預測模型是解決方案的一個重要部分,但是它并不獨立存在;隨著產品變得越來越復雜,它也知識系統中的一部分。”

谷歌的一個小組寫過一篇名為Machine Learning: The High-Interest Credit Card of Technical Debt的文章,講的是在實際案例中使用機器學習技術時,總會產生復雜的代碼和“技術債”。作者提出了幾種系統層面的交互、風險和反模式:

粘合代碼(glue code):即將數據加入通用包或從中取出的大量代碼

通道森林(pipeline jungles):用機器學習的形式準備數據的系統可能含有多種難題、連接點和采樣步驟,通常在中間文件的輸出處

重新使用輸入信號,如果系統分離可以創造緊耦合裝置

可能改變外部環境的風險也許會改變模型或輸入信號的行為,這種情況很難控制

作者寫道:“真實世界中,機器學習著重關注的就是這類問題的解決……值得注意的是,粘合代碼和通道森林是集成問題的典型癥狀,原因可能是因為將“研究”和“工程”的角色過度分離了……如果學術界知道了在機器學習系統中只有一小部分代碼在起作用,他們一定會驚訝的?!?/p>

當機器學習項目失敗時

機器學習項目失敗的情況有以下這么幾種:

當數據科學團隊搭建了一個從未用過的工具。但是公司的其他部門并不知道他們做了什么,有些數據科學家也并不清除這些成果能否用于實際生產中。

當數據科學家們創造模型的速度快于將其投入生產的速度,就會產生積壓。

數據基礎架構工程師和數據科學家是分開的。通道中沒有數據時,數據科學家會要求數據基礎架構工程師獲取。

當公司最終確定產品X的功能后,他們需要數據科學家收集支持這項決策的數據。數據科學家認為產品經理會忽略那些與決定相反的數據,而產品經理會認為數據科學家忽略商業邏輯。

數據科學團隊面試了一位數學建模、工程技術能力都很好的候選人。確定錄用后加入到垂直應用產品團隊,并需要簡單的商業分析。數據科學家感到很無聊,所學技能根本用不上。

這些問題是我之前在寫公司組織失敗時列出的,但是它們同樣可以看作是太過于關注復雜系統的單一方面。問題在于數據產品之間缺少溝通并且沒有目標。

所以,機器學習專家都怎么做?

如上建議,打造一款機器學習產品是多方面的復雜任務。下面是機器學習專家在工作中需要做的事:

理解語境

找準能從機器學習中受益的區域

與其他相關人員討論機器學習能做什么、不能做什么

讓每個人都了解商業策略、風險和目標

明確目前公司有什么類型的數據

對任務制定合適的框架

了解操作限制

提前確定可能的道德風險,例如你的成果有可能被濫用、或被用于宣傳

確定潛在的偏見和潛在的負面反饋

數據

制作能收集更多不同數據的計劃

將不同來源的數據匯總

處理缺失的或被污染的數據

數據可視化

建立合適的訓練集、驗證集和測試集

建模

選擇使用哪個模型

將資源模型納入約束條件(即最終模型需要在頂尖設備商運行,內存少、延長時間長等等)

選擇超參數(包括架構、損失函數、優化器)

訓練模型,并進行debug。其中包括調參、查看損失函數、訓練錯誤、驗證錯誤是否有改變、監測模型數據、確定錯誤來源、改變數據清洗和處理的方式、改變數據增強方式、添加更多數據、嘗試不同模型、是否過度擬合。

模型生成

創建一個API或網頁app

將模型輸出成想要的格式

計劃模型多久需要重新訓練一次并更新數據

監測

追蹤模型性能

監測輸入數據,確定數據是否會隨時間使得模型失效

與其他人員交流結果

制定計劃,如何監測和應對意外結果

確切地講,并不是每個機器學習人員都會做到上面所有工作,但是這一整個流程是很多機器學習應用所必備的。即使你從事的只是其中的一小部分,了解其他流程也有助于你的工作。

機器學習的兩大難點

對我自己和其他我認識的人來說,機器學習有兩種最耗時費力的步驟:

處理數據格式、不兼容和報錯

訓練特別脆弱的深度學習模型

數據清理真的是機器學習的一部分嗎?是的

處理數據的不一致和報錯經常是混亂費力的過程。人們有時會將機器學習和數據科學分開,因為對機器學習來說,有時會直接用清洗過的數據進行訓練。然而在我的經驗中,數據集清洗和訓練模型是相關的:我經常會在訓練模型的時候發現問題,只能改變輸入數據的預處理方法。

訓練深度學習模型很脆弱

很多新手在一開始訓練模型時會很容易受挫,即使是專家也經常感到沮喪。在NIPS 2017上,Ali Rahimi就曾抱怨深度學習的脆弱性。

這一現象也表明訓練過程并未自動化,如果有某些能穩定訓練深度學習的方法出現,對該領域來說一定是個巨大的進步。此前的dropout、遷移學習等方法都讓訓練變得容易了些,但總體來說穩定的訓練仍然是個需要解決的問題。

給學術研究者

即使你正在研究機器學習的理論,了解從業者的工作內容也是必須的,這可以和研究目標結合起來。正如谷歌工程師D. Sculley等人所說:“技術債是工程師和學者都必須意識到的問題。如果研究出的解決方法只對精確度有微小的提升,卻讓系統復雜性大大增加,那么這一定不是一個明智方案……解決技術債也許不總是誕生新的理論,但卻是創新的重要一環。而發展針對復雜機器學習系統的全面、優雅的解決方案才是真正有意義的工作?!?/p>

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器學習
    +關注

    關注

    66

    文章

    8382

    瀏覽量

    132444
  • 深度學習
    +關注

    關注

    73

    文章

    5493

    瀏覽量

    121000

原文標題:做機器學習是一種怎樣的體驗?詳解機器學習專家的日常工作

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    如何輕松掌握機器學習概念和在工業自動化中的應用

    ,突破傳統自動化技術發展的天花板呢?面對人工智能、機器學習、深度學習、神經網絡……這些深奧的概念,如何快速了解和掌握呢? 今天,給我5分鐘,我告訴你答案!一文
    的頭像 發表于 01-16 09:45 ?3068次閱讀

    你一眼看出工業機器人在干啥

    中心應用機器人進行自動化上下料 機器人和機床結合為一體,直接參與機加工 沖壓(鍛壓)生產線上,幾臺沖壓機器人完成上下料動作 機器人正在安靜地
    發表于 11-01 11:01

    機器學習的相關資料下載

    https://www.toutiao.com/a6712245202418926083/機器學習最重要的應用之一是嵌入式機器視覺領域,各類系統正在從視覺使能系統演進為視覺引導自動化
    發表于 12-14 07:03

    機器學習自動化(AutoML):機器自己煉丹

    機器學習的應用需要大量的人工干預,比如特征提取、模型選擇、參數調節等,深度學習也被戲稱為煉丹術。
    的頭像 發表于 06-21 11:15 ?6905次閱讀

    自動化機器學習是什么情況

    機器學習發展中遇到的問題,一個核心因素是人,而機器學習的工作又有大量的人工干預,如特征提取、模型選擇、參數調節等機器
    發表于 11-04 16:35 ?1397次閱讀

    談談如何將機器學習引入自動化

    今天,筆者嘗試通過一個一般性方法的介紹來談談如何將機器學習引入自動化,同時對機器學習的相關概念做一個梳理。
    的頭像 發表于 10-09 15:55 ?2296次閱讀

    人工智能和機器學習為DevOps帶來了新的自動化功能

    人工智能和機器學習為DevOps帶來了新的自動化功能,為此需要對這些技術如何優化組織運營的示例進行了解。
    的頭像 發表于 10-16 14:31 ?1812次閱讀

    自動機器學習簡述

    自動機器學習(AutoML)的目標就是使用自動化的數據驅動方式來做出上述的決策。用戶只要提供數據,自動機器學習系統
    的頭像 發表于 12-26 10:56 ?944次閱讀

    DB4564_用于STM32微控制器的自動化機器學習(ML)工具

    DB4564_用于STM32微控制器的自動化機器學習(ML)工具
    發表于 11-23 20:28 ?0次下載
    DB4564_用于STM32微控制器的<b class='flag-5'>自動化</b><b class='flag-5'>機器</b><b class='flag-5'>學習</b>(ML)工具

    利用人工智能和機器學習更好地跨行業部署自動化

      人工智能 (AI) 包括廣泛的尖端技術,如機器學習 (ML)、深度學習 (DL)、光學字符識別 (OCR)、語音識別等,與機器人技術相結合,可為多個工業領域的組織創建智能
    的頭像 發表于 12-06 15:58 ?600次閱讀

    工業自動化做什么

    工業自動化做什么的 工業自動化是在工業生產中廣泛采用自動控制、自動調整裝置,用以代替人工操縱機器
    發表于 05-19 10:55 ?1030次閱讀

    機器學習可以分為哪幾類?機器學習技術有哪些?

    機器學習可以分為哪幾類?機器學習技術有哪些 機器學習(Machine Learning,ML)是
    的頭像 發表于 08-17 16:11 ?5540次閱讀

    機器學習和深度學習的區別

    的區別。 1. 機器學習 機器學習是指通過數據使機器能夠自動地學習和改進性能的算法。
    的頭像 發表于 08-17 16:11 ?4168次閱讀

    機器學習發展歷程

    機器學習發展歷程:機器學習發展現狀、機器學習發展前景和機器
    的頭像 發表于 08-17 16:30 ?1753次閱讀

    編程變得簡單:在代碼生成中利用自動化機器人的力量

    編程一直以來都是一項需要深入學習和不斷提升的技能。然而,隨著自動化機器人的出現,編程正在變得越來越簡單。利用自動化機器人的力量,我們能夠快速
    的頭像 發表于 08-21 08:08 ?618次閱讀
    編程變得簡單:在代碼生成中利用<b class='flag-5'>自動化</b><b class='flag-5'>機器</b>人的力量