精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一篇文章講清楚交叉熵和KL散度

深度學習自然語言處理 ? 來源:PaperWeekly ? 作者:康斯坦丁 ? 2022-11-16 15:35 ? 次閱讀

看了很多講交叉熵的文章,感覺都是拾人牙慧,又不得要領。還是分享一下自己的理解,如果看完這篇文章你還不懂這倆概念就來掐死我吧。

1

『先翻譯翻譯,什么叫驚喜』

我們用 表示事件 發生的概率。這里我們先不討論概率的內涵, 只需要遵循直覺: 可以衡量事件 發生時會造成的驚喜(行文需要,請按照中性理解)程度: 概率越低的事件發生所造成的驚喜程度高;概率越高的事件發生所造成的驚喜程度低。 但是概率倒數這一運算的性質不是很好,所以在不改變單調性的情況下,可以將驚喜度(surprisal)定義為:

10ee981e-64f1-11ed-8abf-dac502259ad0.png

這樣定義后產生了另外兩個好處: 1. 確定性事件的驚喜度 = 0; 2. 如果有多個獨立事件同時發生,他們產生的驚喜度可以直接相加。是的,一個事件發生概率的倒數再取對數就是驚喜。

2

信息熵,不過只是驚喜的期望』

驚喜度,在大部分文章里,都叫做信息量,但這個命名只是香農根據他研究對象的需要而做的,對于很多其它的場景,要生搬硬套就會變得非常不好理解了。 信息量 = 驚喜度,那么信息熵呢?看看公式不言自明:

11065166-64f1-11ed-8abf-dac502259ad0.png

或是連續形式:

111e3ccc-64f1-11ed-8abf-dac502259ad0.png

這不就是驚喜度的期望嗎? 換句話說,信息熵描述的是整個事件空間會產生的平均驚喜。 什么情況下,平均驚喜最低呢?確定事件。以某個離散隨機分布為例,整個分布在特定值 為 1,其它處均為 0,此時的信息熵/平均驚喜也為 0。 什么情況下產生的平均驚喜最高呢?自然是不確定越高平均驚喜越高。對于給定均值和方差的連續分布,正態分布(高斯分布)具有最大的信息熵(也就是平均驚喜)。所以再想想為什么大量生活中會看到的隨機事件分布都服從正態分布呢?說明大自然有著創造最大驚喜的傾向,或者說,就是要讓你猜不透。這也是理解熱力學中的熵增定律的另一個角度。

3

『交叉熵,交叉的是古典和貝葉斯學派』

對于概率,比較經典的理解是看做是重復試驗無限次后事件頻率會逼近的值,是一個客觀存在的值;但是貝葉斯學派提出了另一種理解方式:即將概率理解為我們主觀上對事件發生的確信程度。針對同一個隨機變量空間有兩個分布,分別記作和; 是我們主觀認為會發生的概率,下標代表 subjective; 是客觀上會發生的概率,下標 ○ 代表 objective。 這種情況下,客觀上這個隨機事件會給我們造成驚喜的期望應該是:

1132fa68-64f1-11ed-8abf-dac502259ad0.png

這個量 is a.k.a 交叉熵。 再翻譯一下,交叉熵是什么?可以理解為:我們帶著某個主觀認知去接觸某個客觀隨機現象的時候,會產生的平均驚喜度。 那什么時候交叉熵(也就是我們會獲得的平均驚喜度)會大?就是當我們主觀上認為一個事情發生的概率很低很大),但是客觀上發生概率很高很大) 的時候,也就是主觀認知和客觀現實非常不匹配的時候。機器學習當中為啥用交叉熵來當作損失函數應該也就不言自明了。

4

『相對熵,K-L散度』

交叉熵可以衡量我們基于某種主觀認識去感受客觀世界時,會產生的平均驚喜。但是根據上面的分析,即使主觀和客觀完全匹配,這時交叉熵等于信息熵,只要事件仍然隨機而非確定,就一定會給我們造成一定程度的驚喜。那我們要怎么度量主觀認識和客觀之間差異呢?可以用應該用以當前對“世界觀”產生的驚喜期望和完全正確認識事件時產生的驚喜期望的差值來衡量,這個就是相對熵(常稱作 KL-散度),通常寫作:

11443508-64f1-11ed-8abf-dac502259ad0.png

當我們的主觀認知完全匹配客觀現實的時候,KL-散度應該等于 0,其它任何時候都會大于 0。由于存在恒為正這一性質,KL-散度經常用于描述兩個分布是否接近,也就是作為兩個分布之間“距離”的度量;不過由于運算不滿足交換律,所以又不能完全等同于“距離”來理解。 機器學習中通常用交叉熵作為損失函數的原因在與,客觀分布并不隨參數變化,所以即使是優化 KL-散度,對參數求導的時候也只有交叉熵的導數了。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器學習
    +關注

    關注

    66

    文章

    8381

    瀏覽量

    132425
  • 交叉熵
    +關注

    關注

    0

    文章

    4

    瀏覽量

    2352

原文標題:一篇文章講清楚交叉熵和KL散度

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    晶臺DIP6 零交叉可控硅光耦KL304X,峰值擊穿電壓400V,符合ROHS、REACH和無鹵要求

    晶臺KL304X系列由個砷化鎵紅外發光二極管和個單晶硅芯片的零交叉光電雙向晶閘管組成的可控硅光電耦合器,它被設計用于與邏輯系統到110-380伏線路的設計接口,如固態繼電器、工業控
    的頭像 發表于 11-22 09:46 ?52次閱讀
    晶臺DIP6 零<b class='flag-5'>交叉</b>可控硅光耦<b class='flag-5'>KL</b>304X,峰值擊穿電壓400V,符合ROHS、REACH和無鹵要求

    有什么影響?雜從哪里來?

    說到射頻的難點不得不提雜,雜也是射頻被稱為“玄學”的來源。雜也是學習射頻必經的個難點。本篇文章就來講下雜
    的頭像 發表于 11-05 09:59 ?585次閱讀
    雜<b class='flag-5'>散</b>有什么影響?雜<b class='flag-5'>散</b>從哪里來?

    電容的“通交流、阻直流”,終于有人講清楚了!

    “通交阻直”是電容重要的特性之,即電容可以交流電導通,但直流電阻斷。 這是為什么呢? 從理論上來講,電荷是根本不能在電容中流動的。 因為在平行板電容上電后,塊板帶正電,另塊板帶負電,在兩快板
    發表于 10-09 11:43

    交叉滾子導軌-規格型號VR系列

    VR系列交叉滾子導軌的工作原理:東莞兆松交叉滾子使用呈90交叉布置的成排滾柱作為兩個V型導軌條之間的滾動體。滾柱在兩條導軌之間,沿導軌的兩個呈90
    的頭像 發表于 09-03 08:30 ?377次閱讀
    <b class='flag-5'>交叉</b>滾子導軌-規格型號VR系列

    可控硅驅動光電耦合器KL306X 產品規格書

    KL306XDIP6零交叉雙向可控硅驅動光電耦合器1.產品特點Productfeatures?峰值擊穿電壓600V?輸入與輸出間高隔離電壓(Viso=5000Vrms)?零電壓交叉
    發表于 08-20 15:27 ?0次下載

    可控硅驅動光電耦合器KL303X 產品規格書

    KL303XDIP6零交叉雙向可控硅驅動光電耦合器1.產品特點Productfeatures?峰值擊穿電壓250V?輸入與輸出間高隔離電壓(Viso=5000Vrms)?零電壓交叉
    發表于 08-20 15:22 ?0次下載

    高速光耦KL2601&KL2611 產品規格書

    KL2601,KL2611DIP8高速10MBit/s邏輯門光耦1.產品特點Productfeatures?高速10MBit/sHighspeed10Mbit/s?最小10kV/μs共模瞬變抗擾
    發表于 08-20 15:00 ?0次下載

    高速光耦KL220X 產品規格書

    KL2200,KL2201,KL2202DIP8高速低輸入電流邏輯門光耦1.產品特點Productfeatures?最小共模瞬態抗擾1kV/μs?可保證在-40至85℃溫度范圍內運行
    發表于 08-20 14:57 ?0次下載

    KL4N29~33 達林頓光耦 產品規格書

    KL4N29~33DIP6達林頓光耦1.產品特點Productfeatures?KL4NXX系列:KL4N29、KL4N30、KL4N31、
    發表于 08-20 14:51 ?0次下載

    阿里云設備的物模型數據里面始終沒有值是為什么?

    如上圖,不知道講清楚沒有。 IG502自定義TOPIC 上發到阿里云沒問題。采用阿里云物模型的格式來上發就不行。請大佬指教!
    發表于 07-24 07:49

    M8連接器對使用環境有什么要求,文章講清楚!

    M8連接器對使用環境有什么要求?德索精密工業,專業生產M8連接器十八年,歡迎前來采購M8相關產品。任何產品在使用中,或多或少對使用環境都有定的要求,由于統物體在不同環境中的技術機能也會發生改變
    的頭像 發表于 03-18 16:39 ?356次閱讀
    M8連接器對使用環境有什么要求,<b class='flag-5'>一</b><b class='flag-5'>篇</b>文章<b class='flag-5'>講清楚</b>!

    干貨!收藏!講清楚數據治理到底是什么?

    數據治理的兩個目標:個是提質量,個是控安全。通過業務流程優化,規范數據從產生、處理、使用到銷毀的整個生命周期,使得數據在各階段、各流程環節安全可控,合規使用。 數據治理治的是“數據”嗎? 數據
    的頭像 發表于 02-01 10:40 ?425次閱讀
    干貨!收藏!<b class='flag-5'>一</b>文<b class='flag-5'>講清楚</b>數據治理到底是什么?

    工業級連接器如何做到高抗沖擊性?選款定要了解這幾點

    連接器知識分享工業級連接器多用在工廠、車載、戶外等復雜場景下,因而面臨沖擊等應力影響的概率極高。工業級連接器如何做到高抗沖擊性,確保高可靠連接呢?這篇文章講清楚。工業級連接器如何做到高抗沖擊性?LP
    的頭像 發表于 01-06 08:13 ?342次閱讀
    工業級連接器如何做到高抗沖擊性?選款<b class='flag-5'>一</b>定要了解這幾點

    如何確定DDS輸出信號頻譜中的雜

    直接數據頻率合成器(DDS)因能產生頻率捷變且殘留相位噪聲性能卓越而著稱。另外,多數用戶都很清楚DDS輸出頻譜中存在的雜噪聲,比如相位截斷雜以及與相位-幅度轉換過程相關的雜等。此
    發表于 12-15 07:38

    什么是激光斑 激光斑產生原因和原理

    斑的存在往往影響到光學儀器的分辨率。激光器用于全息照明 之后,也發現了激光斑對全息照相分辨率的影響。
    的頭像 發表于 12-04 09:35 ?2528次閱讀
    什么是激光<b class='flag-5'>散</b>斑 激光<b class='flag-5'>散</b>斑產生原因和原理