精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何用數學函數去理解機器學習的過程

倩倩 ? 來源:人人都是產品經理 ? 2020-04-15 15:39 ? 次閱讀

近期也是在做項目的過程中發現,其實AI產品經理不需要深入研究每一種算法,能了解機器學習的過程,這其中用到哪些常用算法,分別使用與解決哪些問題和應用場景,并基于了解的知識,去更好的建立AI產品落地流程、把控項目進度、風險評估,這個才是最關鍵的地方,算法研究交給專業的算法工程師,各司其職,相互配合。

基于最近看的一些文章和書籍,本文將重點分享,如何用數學函數去理解機器學習的過程,以及用數學原理指導產品工作的一些思考。

一、機器學習的本質

機器學習,即學習人類的分析、判斷、解決問題的能力。人的能力如何得來?通過長期的信息輸入,再經過大腦思考,最后輸出對事物的判斷。

那么機器如何學習?通過大量的訓練數據,學習找規律,找到問題的理想最優解。所以,機器學習的本質其實是函數預測,即f:x-》y。

圖片來源:網絡

中學時期,我們常解的數據問題之一便是:求解方程。已知坐標(x1,y1),(x2,y2)…(xn,yn)求解n元n次方程,再將新的x帶入方程對應的y。機器學習的過程可以類比方程求解過程:

樣本數據:已知的坐標集D:(x1,y1),(x2,y2)…(xn,yn);

算法:即求解函數的方法;

模型訓練:最后求解的方程或函數;

評估方法:將新的x帶入方程驗證函數“預測”是否正確。

與普通的函數不同的是,機器學習往往很難求解出完整的方程,通過各種手段求最接近理想情況下的未知項取值。以人臉識別為例,預測函數為:f:X(圖片臉部特征)—》Y(身份),其中f則是通過機器學習后,具有人臉識別能力的模型。使用不同的機器學習方法訓練的模型不同,即對應的函數形式也不同。

機器學習解決的常見四類問題:分類、聚類、排序和推薦

(1)分類問題:一般包括二分類和多分類的問題,二分類即非黑即白,比如垃圾郵件過濾;多分類問題,即有多種類別的輸出結果,比如圖像識別。

(2)聚類問題:在一個集合中,將相似度高的對象組成多個類的過程叫聚類。比如一些新聞類的應用,將未標注的數據通過聚類算法來構建主題。

(3)排序問題:根據相關度、重要度、匹配度等,讓用戶在海量的信息中找到想要的信息,常見的應用場景,如搜索引擎。

(4)推薦問題:典型的應用場景,電商行業的千人千面,根據用戶的購買、收藏等行為,分析用戶的喜好,實現精準營銷。

在理解了機器學習的本質以及常見的問題類型后,下面將介紹機器學習的過程。

二、機器學習的過程

機器學習的過程主要分為三個步驟:樣本準備、算法選取、模型評估。

1. 樣本準備

機器學習,需要先學習才能預測判斷,樣本則是機器學習的信息輸入,樣本的質量很大程度上決定了機器學習的效果。以人臉識別為例,其樣本是大量的人臉圖片。那么,大量的樣本如何獲取?按數據來源分類,可分為內部樣本和外部樣本。

(1)內部樣本

內部樣本數據,一般可基于內部已積累的樣本數據,或通過對產品進行數據標注或者埋點,來收集更多維度的樣本數據。

(2)外部樣本

若數據的量級或豐富度不夠,則可能需要獲取一些外部樣本。比如通過搜索典型的大型公開數據集,或者數據爬取等方式,來獲取一些指定場景的新樣本。

2. 算法選取

在機器學習的過程中,找到接近理想模型(函數)的方法即算法。機器學習的常用算法很多,不同的算法,解決的問題不同,適用的場景也不同。

如下圖,比如解決聚類問題,一般使用無監督學習算法,分類問題,一般使用有監督學習算法:支持向量機SVM、神經網絡等,目前神經網絡依然是研究熱點之一。

(1)神經網絡原理

神經網絡是一種模仿人類思考方式的模型,就像飛機模仿鳥的形態一樣,神經網絡也借鑒了生物學的神經元結構。神經元細胞主要由樹突、軸突和細胞體構成,樹突用于接收信號并傳遞給細胞體,細胞體處理信號,軸突輸出信號。神經網絡結構與此類似,一個典型的單隱含層神經網絡架構如下圖:

圖片來源:網絡

輸入層:接收輸入數據,如圖片、語音特征等;

隱藏層:承載數據特征運算;

輸出層:輸出計算的結果;

其本質是,通過調整內部大量處理單元的連接關系、激勵函數和權重值,實現對理想函數的逼近。

(2)深度學習

深度學習是神經網絡的一種算法,目前在計算機視覺等領域應用十分廣泛,相比單隱藏層神經網絡結構,深度學習神經網絡是一種多隱藏層、多層感知器的學習結構。如下圖所示,增加更多的隱藏層后,網絡能更深入得表示特征,以及具有更強的函數模擬能力,能獲得更好的分類能力。

圖片來源:網絡

深度學習三類經典的神經網絡分別是:深度神經網絡DNN、卷積神經網絡CNN、和循環神經網絡RNN。其中DNN、CNN一般解決計算機視覺、圖像識別等分類問題,RNN適用于自然語言處理等問題。

基于大量的樣本、選取合適的算法進行模型訓練后,下一步則是對模型的預測效果進行評估。

3. 模型評估

模型評估一般可分為兩個階段:實驗階段和上線階段,在實驗階段能達到一定的使用標準指標,才能進入實際上線使用階段。

(1)實驗階段

為了評估模型的可用性,需要對模型的預測能力進行評價,其中很重要的一個評價指標就是準確率,即模型預測和標簽一致的樣本占所有樣本的比例。即選擇不同于訓練數據的,有標簽數據的測試集,輸入模型進行運算,計算預測的準確率,評估模型對于測試集的預測效果是否能模型可用指標。

(2)上線階段

在模型投入使用后,基于上線后的真實數據反饋,評估模型的能力,并基于新的反饋數據,持續迭代優化模型,提高或保持模型的泛化能力。

三、總結與思考

作為產品賦能的一個“工具”,產品化的整個流程可總結為:業務需求-》轉化為業務函數》樣本數據獲取-》選擇合適的算法-》模型訓練-》內部評估-》上線驗證迭代。

其實這個過程,最底層的邏輯還是基于數學建模原理的思路來解決問題,也可用來指導一些日常產品工作中的問題。比如,《增長黑客》中的增長杠桿、北極星指標等方法,其本質也是數據建模的原理。定義業務函數、確定影響因素、權重成本分析、判斷最優解決方案,評估上線反饋形成閉環。

所有,很多問題表面看起來各式各樣、各不相同,但抽象出來可能就是一些學科問題,比如數學、物理、經濟學等,聯想到我前段時間分享的一篇文章《透過《奇葩說》論點,看背后的多元思維模型》中提到的多元思維模型核心觀點——越往深層次思考,越能挖掘事物本質,越接近學科原理。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4599

    瀏覽量

    92643
  • 機器學習
    +關注

    關注

    66

    文章

    8377

    瀏覽量

    132409
  • 數據集
    +關注

    關注

    4

    文章

    1205

    瀏覽量

    24644
收藏 人收藏

    評論

    相關推薦

    傅里葉變換的數學原理

    傅里葉變換的數學原理主要基于一種將函數分解為正弦和余弦函數(或復指數函數)的線性組合的思想。以下是對傅里葉變換數學原理的介紹: 一、基本原理
    的頭像 發表于 11-14 09:27 ?211次閱讀

    eda在機器學習中的應用

    機器學習項目中,數據預處理和理解是成功構建模型的關鍵。探索性數據分析(EDA)是這一過程中不可或缺的一部分。 1. 數據清洗 數據清洗 是機器
    的頭像 發表于 11-13 10:42 ?169次閱讀

    【「時間序列與機器學習」閱讀體驗】時間序列的信息提取

    本章主講時間序列的信息提取,章節中有許多概念定義和數學公式,并配有Python代碼演示,細細品讀與理解動手演練,還是很開拓思維視野的。下面以筆記形式進行展開。 時間序列的信息提取是時間序列分析的一
    發表于 08-17 21:12

    【《時間序列與機器學習》閱讀體驗】+ 時間序列的信息提取

    提高機器學習模型效果與性能的過程。 而我對特征工程的理解就是從一堆數據里找出能表示這堆數據的最小數據集,而這個找出特征數據的過程就是信息提取
    發表于 08-14 18:00

    【「時間序列與機器學習」閱讀體驗】+ 簡單建議

    這本書以其系統性的框架和深入淺出的講解,為讀者繪制了一幅時間序列分析與機器學習融合應用的宏偉藍圖。作者不僅扎實地構建了時間序列分析的基礎知識,更巧妙地展示了機器學習如何在這一領域發揮巨
    發表于 08-12 11:21

    【《時間序列與機器學習》閱讀體驗】+ 了解時間序列

    相等間隔的時間段內依照給定的采樣率對某種潛在過程進行觀測的結果。時間序列數據本質上反映的是某個或者某些隨機變量隨時間不斷變化的趨勢。 因此,時間序列可以簡單的理解為不同時刻采集的一串數據,使用機器
    發表于 08-11 17:55

    【《大語言模型應用指南》閱讀體驗】+ 基礎篇

    的內容,閱讀雖慢,但在這一學習過程中也掌握了許多新知識,為后續章節的閱讀打下基礎,這是一個快樂的學習過程。 基礎篇從人工智能的起源講起,提出了機器
    發表于 07-25 14:33

    如何理解機器學習中的訓練集、驗證集和測試集

    理解機器學習中的訓練集、驗證集和測試集,是掌握機器學習核心概念和流程的重要一步。這三者不僅構成了模型學習
    的頭像 發表于 07-10 15:45 ?3213次閱讀

    深度學習模型訓練過程詳解

    詳細介紹深度學習模型訓練的全過程,包括數據預處理、模型構建、損失函數定義、優化算法選擇、訓練過程以及模型的評估與調優。
    的頭像 發表于 07-01 16:13 ?1092次閱讀

    名單公布!【書籍評測活動NO.35】如何用「時間序列與機器學習」解鎖未來?

    和專業知識,對這一領域進行系統的梳理和總結。然而,將時間序列分析與機器學習技術相結合的書籍卻并不多見。 以上正是《時間序列與機器學習》這本“荔枝書 ”的寫作背景。 本書以
    發表于 06-25 15:00

    深入探討機器學習的可視化技術

    機器學習可視化(簡稱ML可視化)一般是指通過圖形或交互方式表示機器學習模型、數據及其關系的過程。目標是使
    發表于 04-25 11:17 ?373次閱讀
    深入探討<b class='flag-5'>機器</b><b class='flag-5'>學習</b>的可視化技術

    機器學習怎么進入人工智能

    人工智能(Artificial Intelligence,AI)是一門涉及計算機、工程、數學、哲學和認知科學等多個領域的交叉學科,旨在構建智能化計算機系統,使之能夠自主感知、理解學習和決策。如今
    的頭像 發表于 04-04 08:41 ?265次閱讀

    verilog中函數和任務對比

    對比,方便學習理解。 比較 函數 任務 輸入 函數至少需要包含一個輸入,端口類型不能包含inout類型 任務可以沒有或者有多個輸入,且端口聲明可以為inout類型 輸出
    的頭像 發表于 02-12 18:43 ?861次閱讀

    何用Rust過程宏魔法簡化SQL函數呢?

    這是 RisingWave 中一個 SQL 函數的實現。只需短短幾行代碼,通過在 Rust 函數上加一行過程宏,我們就把它包裝成了一個 SQL 函數
    的頭像 發表于 01-23 09:43 ?888次閱讀
    如<b class='flag-5'>何用</b>Rust<b class='flag-5'>過程</b>宏魔法簡化SQL<b class='flag-5'>函數</b>呢?

    何用AI聊天機器人寫出萬字長文

    何用AI聊天機器人寫出萬字長文
    的頭像 發表于 12-26 16:25 ?1032次閱讀