精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

機器學(xué)習(xí)中的代價函數(shù)與交叉熵

lviY_AI_shequ ? 來源:未知 ? 作者:李倩 ? 2018-05-09 15:04 ? 次閱讀

本文將介紹信息量,熵,交叉熵,相對熵的定義,以及它們與機器學(xué)習(xí)算法中代價函數(shù)的定義的聯(lián)系。

1. 信息量

信息的量化計算:

解釋如下:

信息量的大小應(yīng)該可以衡量事件發(fā)生的“驚訝程度”或不確定性:

如果有人告訴我們一個相當不可能的事件發(fā)生了,我們收到的信息要多于我們被告知某個很可能發(fā)?的事件發(fā)?時收到的信息。如果我們知道某件事情?定會發(fā)?,那么我們就不會接收到信息。 也就是說,信息量應(yīng)該連續(xù)依賴于事件發(fā)生的概率分布p(x)。因此,我們想要尋找一個基于概率p(x)計算信息量的函數(shù)h(x),它應(yīng)該具有如下性質(zhì):

h(x) >= 0,因為信息量表示得到多少信息,不應(yīng)該為負數(shù)。

h(x, y) = h(x) + h(y),也就是說,對于兩個不相關(guān)事件x和y,我們觀察到兩個事件x, y同時發(fā)?時獲得的信息應(yīng)該等于觀察到事件各?發(fā)?時獲得的信息之和;

h(x)是關(guān)于p(x)的單調(diào)遞減函數(shù),也就是說,事件x越容易發(fā)生(概率p(x)越大),信息量h(x)越小。

又因為如果兩個不相關(guān)事件是統(tǒng)計獨?的,則有p(x, y) =p(x)p(y)。根據(jù)不相關(guān)事件概率可乘、信息量可加,很容易想到對數(shù)函數(shù),看出h(x)一定與p(x)的對數(shù)有關(guān)。因此,有滿足上述性質(zhì)。

2. 熵(信息熵)

對于一個隨機變量X而言,它的所有可能取值的信息量的期望就稱為熵。熵的本質(zhì)的另一種解釋:最短平均編碼長度(對于離散變量)。

離散變量:

連續(xù)變量:

3. 交叉熵

現(xiàn)有關(guān)于樣本集的2個概率分布p和q,其中p為真實分布,q非真實分布。按照真實分布p來衡量識別一個樣本的熵,即基于分布p給樣本進行編碼的最短平均編碼長度為:

如果使用非真實分布q來給樣本進行編碼,則是基于分布q的信息量的期望(最短平均編碼長度),由于用q來編碼的樣本來自分布p,所以期望與真實分布一致。所以基于分布q的最短平均編碼長度為:

上式CEH(p, q)即為交叉熵的定義。

4. 相對熵

將由q得到的平均編碼長度比由p得到的平均編碼長度多出的bit數(shù),即使用非真實分布q計算出的樣本的熵(交叉熵),與使用真實分布p計算出的樣本的熵的差值,稱為相對熵,又稱KL散度。

KL(p, q) = CEH(p, q) - H(p)=

相對熵(KL散度)用于衡量兩個概率分布p和q的差異。注意,KL(p, q)意味著將分布p作為真實分布,q作為非真實分布,因此KL(p, q) != KL(q, p)。

5. 機器學(xué)習(xí)中的代價函數(shù)與交叉熵

若 p(x)是數(shù)據(jù)的真實概率分布, q(x)是由數(shù)據(jù)計算得到的概率分布。機器學(xué)習(xí)的目的就是希望q(x)盡可能地逼近甚至等于p(x) ,從而使得相對熵接近最小值0. 由于真實的概率分布是固定的,相對熵公式的后半部分(-H(p))就成了一個常數(shù)。那么相對熵達到最小值的時候,也意味著交叉熵達到了最小值。對q(x)的優(yōu)化就等效于求交叉熵的最小值。另外,對交叉熵求最小值,也等效于求最大似然估計(maximum likelihood estimation)。

特別的,在logistic regression中,p:真實樣本分布,服從參數(shù)為p的0-1分布,即X~B(1,p)

p(x = 1) = y

p(x = 0) = 1 - yq:待估計的模型,服從參數(shù)為q的0-1分布,即X~B(1,q)

p(x = 1) = h(x)

p(x = 0) = 1-h(x)

其中h(x)為logistic regression的假設(shè)函數(shù)。兩者的交叉熵為:

對所有訓(xùn)練樣本取均值得:

這個結(jié)果與通過最大似然估計方法求出來的結(jié)果一致。使用最大似然估計方法參加博客Logistic Regression.

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 函數(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    4308

    瀏覽量

    62434
  • 機器學(xué)習(xí)
    +關(guān)注

    關(guān)注

    66

    文章

    8381

    瀏覽量

    132425
  • 交叉熵
    +關(guān)注

    關(guān)注

    0

    文章

    4

    瀏覽量

    2352

原文標題:信息量,熵,交叉熵,相對熵與代價函數(shù)

文章出處:【微信號:AI_shequ,微信公眾號:人工智能愛好者社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    信息是什么?

    2018-04-22 開胃學(xué)習(xí)數(shù)學(xué)系列 - 信息
    發(fā)表于 03-14 10:02

    什么是交叉

    2018-04-22 開胃學(xué)習(xí)數(shù)學(xué)系列 - 交叉
    發(fā)表于 03-21 11:08

    機器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)參數(shù)的代價函數(shù)

    吳恩達機器學(xué)習(xí)筆記之神經(jīng)網(wǎng)絡(luò)參數(shù)的反向傳播算法
    發(fā)表于 05-22 15:11

    交叉的作用原理

    交叉作為損失函數(shù)在神經(jīng)網(wǎng)絡(luò)的作用和幾種常用的交叉損失
    發(fā)表于 06-03 09:10

    機器學(xué)習(xí)的分類器

    各種機器學(xué)習(xí)的應(yīng)用場景分別是什么?例如,k近鄰,貝葉斯,決策樹,svm,邏輯斯蒂回歸和最大模型
    發(fā)表于 09-10 10:53

    大數(shù)據(jù)邊界向量調(diào)節(jié)函數(shù)支持向量機研究

    大數(shù)據(jù)邊界向量調(diào)節(jié)函數(shù)支持向量機研究_林蔚
    發(fā)表于 01-07 19:08 ?0次下載

    采用交叉支持向量機和模糊積分的電網(wǎng)故障診斷_邊莉

    采用交叉支持向量機和模糊積分的電網(wǎng)故障診斷_邊莉
    發(fā)表于 01-08 13:26 ?0次下載

    機器學(xué)習(xí)經(jīng)典損失函數(shù)比較

    所有的機器學(xué)習(xí)算法都或多或少的依賴于對目標函數(shù)最大化或者最小化的過程。我們常常將最小化的函數(shù)稱為損失函數(shù),它主要用于衡量模型的預(yù)測能力。
    的頭像 發(fā)表于 06-13 17:53 ?8531次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>經(jīng)典損失<b class='flag-5'>函數(shù)</b>比較

    機器學(xué)習(xí)的logistic函數(shù)和softmax函數(shù)總結(jié)

    本文簡單總結(jié)了機器學(xué)習(xí)最常見的兩個函數(shù),logistic函數(shù)和softmax函數(shù)。首先介紹兩者的定義和應(yīng)用,最后對兩者的聯(lián)系和區(qū)別進行了總結(jié)
    的頭像 發(fā)表于 12-30 09:04 ?9732次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>的logistic<b class='flag-5'>函數(shù)</b>和softmax<b class='flag-5'>函數(shù)</b>總結(jié)

    基于交叉算法的跟馳模型標定

    的確定性標定方法會導(dǎo)致大量局部最優(yōu)值的出現(xiàn)。在此基礎(chǔ)上,本文提出了基于交叉算法的跟馳模型標定的框架,基于蒙地卡羅與重要樣本策略逐步逼近參數(shù)的最優(yōu)概率密度函數(shù)。實例分別采用合成數(shù)據(jù)與實測數(shù)據(jù)標定智能駕駛模型
    發(fā)表于 01-11 16:23 ?8次下載
    基于<b class='flag-5'>交叉</b><b class='flag-5'>熵</b>算法的跟馳模型標定

    機器學(xué)習(xí)遇上SSD,會擦出怎樣的火花呢?

    判斷一個函數(shù)的好壞,這需要確定一個衡量標準,也就是我們通常說的損失函數(shù)(Loss Function),損失函數(shù)的確定也需要依據(jù)具體問題而定,如回歸問題一般采用歐式距離,分類問題一般采用交叉
    的頭像 發(fā)表于 09-07 16:12 ?2646次閱讀
    當<b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>遇上SSD,會擦出怎樣的火花呢?

    機器學(xué)習(xí)和深度學(xué)習(xí)中分類與回歸常用的幾種損失函數(shù)

    本文將介紹機器學(xué)習(xí)、深度學(xué)習(xí)中分類與回歸常用的幾種損失函數(shù),包括均方差損失 Mean Squared Loss、平均絕對誤差損失 Mean Absolute Error Loss、Hu
    的頭像 發(fā)表于 10-09 16:36 ?6194次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>和深度<b class='flag-5'>學(xué)習(xí)</b>中分類與回歸常用的幾種損失<b class='flag-5'>函數(shù)</b>

    機器學(xué)習(xí)若干典型的目標函數(shù)構(gòu)造方法

    幾乎所有的機器學(xué)習(xí)算法都歸結(jié)為求解最優(yōu)化問題。有監(jiān)督學(xué)習(xí)算法在訓(xùn)練時通過優(yōu)化一個目標函數(shù)而得到模型,然后用模型進行預(yù)測。無監(jiān)督學(xué)習(xí)算法通常通
    的頭像 發(fā)表于 12-26 09:52 ?4229次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>中</b>若干典型的目標<b class='flag-5'>函數(shù)</b>構(gòu)造方法

    機器學(xué)習(xí)交叉驗證方法

    機器學(xué)習(xí)交叉驗證(Cross-Validation)是一種重要的評估方法,它通過將數(shù)據(jù)集分割成多個部分來評估模型的性能,從而避免過擬合或欠擬合問題,并幫助選擇最優(yōu)的超參數(shù)。本文將
    的頭像 發(fā)表于 07-10 16:08 ?903次閱讀

    RNN的損失函數(shù)與優(yōu)化算法解析

    函數(shù)有以下幾種: 交叉損失函數(shù)交叉(Cross Entropy)是一種評估兩個概率分布之
    的頭像 發(fā)表于 11-15 10:16 ?230次閱讀