精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

用PCA還是LDA?特征抽取經典算法大PK

格創東智 ? 2019-01-10 13:40 ? 次閱讀

在之前的格物匯文章中,我們介紹了特征抽取的經典算法——主成分分析(PCA),了解了PCA算法實質上是進行了一次坐標軸旋轉,盡可能讓數據映射在新坐標軸方向上的方差盡可能大,并且讓原數據與新映射的數據在距離的變化上盡可能小。方差較大的方向代表數據含有的信息量較大,建議保留。方差較小的方向代表數據含有的信息量較少,建議舍棄。今天我們就來看一下PCA的具體應用案例和特征映射的另一種方法:線性判別分析(LDA)


PCA案例

機器學習中,所使用的數據往往維數很大,我們需要使用降維的方法來突顯信息含量較大的數據,PCA就是一個很好的降維方法。下面我們來看一個具體的應用案例,為了簡單起見,我們使用一個較小的數據集來展示:


1.jpg


顯而易見,我們數據有6維,維數雖然不是很多但不一定代表數據不可以降維。我們使用sklearn中的PCA算法擬合數據集得到如下的結果:


2.jpg

我們可以看到經過PCA降維后依然生成了新的6個維度,但是數據映射在每一個維度上的方差大小不一樣。我們會對每一個維度上的方差進行歸一化,每一個維度上的方差量我們稱為可解釋的方差量(Explained Variance)。由圖可知,每一個維度上可解釋方差占比為:0.4430,0.2638,0.1231,0.1012,0.0485,0.0204。根據經驗來說我們期望可解釋的方差量累計值在80%以上較好,因此我們可以選擇降維降到3維(82.99%)或者4維(93.11%),括號中的數字為累計可解釋的方差量,最后兩維方差解釋只有7%不到,建議舍去。圖中的柱狀圖表示原維度在新坐標軸上的映射向量大小。在前兩維度上表現如下圖所示:

3.jpg

PCA雖然能實現很好的降維效果,但是它卻是一種無監督的方法。實際上我們更加希望對于有類別標簽的數據(有監督),也能實現降維,并且降維后能更好的區分每一個類。此時,特征抽取的另一種經典算法——線性判別分析(LDA)就閃亮登場了。

LDA簡介

LDA是一種監督學習的降維技術,也就是說它的數據集的每個樣本是有類別輸出的。這點和PCA不同。PCA是不考慮樣本類別輸出的無監督降維技術。LDA的思想可以用一句話概括,就是“投影后類內方差最小,類間方差最大”。什么意思呢? 我們要將數據在低維度上進行投影,投影后希望每一種類別數據的投影點盡可能的接近,而不同類別的數據的類別中心之間的距離盡可能的大。

4.jpg


上圖中提供了兩種投影方式,哪一種能更好的滿足我們的標準呢?從直觀上可以看出,右圖要比左圖的投影效果好,因為右圖的黑色數據和藍色數據各個較為集中,且類別之間的距離明顯。左圖則在邊界處數據混雜。LDA的降維效果更像右圖,它能在新坐標軸上優先區分出兩個類別,它是如何實現的呢?

LDA的原理

LDA的主要思想是“投影后類內方差最小,類間方差最大”。實質上就是很好的區分出兩個類的分布。我們知道衡量數據分布的兩個重要指標是均值和方差,對于每一個類,他們的定義如下:

5.jpg

與PCA一樣,LDA也是對數據的坐標軸進行一次旋轉,假設旋轉的轉移矩陣是w,那么新的旋轉數據可以表示為:

6.jpg

同理,兩個類別的中心點也轉換成了:

7.jpg


文字.jpg


8.jpg


我們求解這個最優化問題,即可求出轉移變換矩陣w,即LDA的最終結果。


PCA vs LDA

LDA用于降維,和PCA有很多相同,也有很多不同的地方,因此值得好好的比較一下兩者的降維異同點。首先我們看看相同點:

1、兩者均可以對數據進行降維

2、兩者在降維時均使用了矩陣特征分解的思想

3、兩者都假設數據符合高斯分布


我們接著看看不同點:

1、LDA是有監督的降維方法,而PCA是無監督的降維方法

2、LDA降維最多降到類別數k-1的維數,而PCA沒有這個限制

3、LDA除了可以用于降維,還可以用于分類

4、LDA選擇分類性能最好的投影方向,而PCA選擇樣本點投影具有最大方差的方向


在某些數據分布下LDA比PCA降維較優(左圖),在某些數據分布下,PCA比LDA降維較優。

9.jpg


好了,以上就是本期格物匯的內容,我們下期見。


本文作者:格創東智 OT團隊(轉載請注明作者及來源)



聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 物聯網
    +關注

    關注

    2903

    文章

    44275

    瀏覽量

    371258
  • PCA
    PCA
    +關注

    關注

    0

    文章

    89

    瀏覽量

    29553
  • LDA
    LDA
    +關注

    關注

    0

    文章

    29

    瀏覽量

    10591
  • 智能制造
    +關注

    關注

    48

    文章

    5481

    瀏覽量

    76261
  • 工業互聯網
    +關注

    關注

    28

    文章

    4299

    瀏覽量

    94050
收藏 人收藏

    評論

    相關推薦

    ADS1299ADS采集數據,ADS可以不抽取看原始得數據嗎?

    1.ADS采集數據,將時域的數據進行FFT變換,得到頻譜里面看似有 Sinc Filter 抽取,不需要抽取是否可以?ADS可以不抽取看原始得數據嗎? 2.這個和手冊上的頻譜不
    發表于 11-20 06:05

    特征工程實施步驟

    數據中提取數值表示以供無監督模型使用的方法(例如,試圖從之前非結構化的數據集中提取結構)。特征工程包括這兩種情況,以及更多內容。數據從業者通常依賴ML和深度學習算法
    的頭像 發表于 10-23 08:07 ?183次閱讀
    <b class='flag-5'>特征</b>工程實施步驟

    求助,AD7190關于Σ-Δ ADC其中的抽取濾波器的數據轉換問題求解

    AD7190可以通過模式寄存器的FS[0:9]設置輸出速率, 0-1023的范圍;此時設置的數據速率選擇位是否就是Σ-Δ ADC抽取濾波器的抽取比? 關于抽取濾波器,此時我設置的為1023,那我是否
    發表于 09-09 06:11

    天翼云,AI取經路上的逐夢人

    息壤一體化智算服務平臺升級,天翼云幫助AI天命人踏上取經
    的頭像 發表于 09-05 16:06 ?2224次閱讀
    天翼云,AI<b class='flag-5'>取經</b>路上的逐夢人

    PCA9655E I / O端口擴展器 I

    電子發燒友網為你提供ON Semiconductor(ON Semiconductor)PCA9655E相關產品參數、數據手冊,更有PCA9655E的引腳圖、接線圖、封裝手冊、中文資料、英文資料,PCA9655E真值表,
    發表于 06-28 16:28
    <b class='flag-5'>PCA</b>9655E I / O端口擴展器 I

    機器學習的經典算法與應用

    關于數據機器學習就是喂入算法和數據,讓算法從數據中尋找一種相應的關系。Iris鳶尾花數據集是一個經典數據集,在統計學習和機器學習領域都經常被用作示例。數據集內包含3類共150條記錄,每類各50個數
    的頭像 發表于 06-27 08:27 ?1576次閱讀
    機器學習的<b class='flag-5'>經典</b><b class='flag-5'>算法</b>與應用

    簡單認識變頻器和PLC/PCA系統

    在工業自動化領域,變頻器和PLC/PCA系統是兩個不可或缺的核心組成部分。變頻器以其對電機轉速和扭矩的精確控制,為工業自動化提供了強大的動力支持;而PLC/PCA系統則以其強大的邏輯處理能力和靈活
    的頭像 發表于 06-25 14:48 ?670次閱讀

    如何使用萬表檢查線路是短路還是接地

    在電氣維修和檢測中,萬表是一種不可或缺的工具。它能夠幫助我們快速準確地判斷電路中的各種問題,如短路、斷路和接地等。本文將詳細介紹如何使用萬表來檢查線路是短路還是接地,并圍繞這一主題展開詳細的討論。
    的頭像 發表于 05-30 14:55 ?2330次閱讀

    藍牙模塊選經典藍牙還是低功耗藍牙?

    energy和Bluetooth smart兩者又有什么區別?我的應用應該選經典藍牙技術還是低功耗藍牙技術?首先,在2010年以前,當我們談論藍牙的時候,就是在說的經典藍牙,因為那個時候還沒有低功耗藍牙
    的頭像 發表于 05-23 17:57 ?1106次閱讀
    藍牙模塊選<b class='flag-5'>經典</b>藍牙<b class='flag-5'>還是</b>低功耗藍牙?

    鉗形表好用還是表好用?

    鉗形表和萬表都是電氣測量中常用的工具,它們各自具有獨特的功能和優勢。選擇鉗形表還是表取決于具體的測量需求、使用場景和個人偏好。
    的頭像 發表于 05-09 17:03 ?4674次閱讀

    聊聊MCU死循環,for(;;)還是while(1)?

    首先,問大家一個問題:你們寫單片機程序【死循環】時,喜歡for(;;)還是while(1)?快來為你喜歡的【死循環】打call,評論區等你哦~一位工程師發現,國外工程師在給demo在做死循環時
    的頭像 發表于 04-29 08:10 ?1212次閱讀
    聊聊MCU死循環,<b class='flag-5'>用</b>for(;;)<b class='flag-5'>還是</b>while(1)?

    STM32控制中常見的PID算法總結

    在很多控制算法當中,PID控制算法又是最簡單,最能體現反饋思想的控制算法,可謂經典中的經典經典
    發表于 12-27 14:07 ?1554次閱讀
    STM32控制中常見的PID<b class='flag-5'>算法</b>總結

    LabVIEW進行癌癥預測模型研究

    )進行非線性數據分類。主成分分析(PCA)和線性判別分析(LDAPCALDA用于降維,減少噪聲,并保留數據的重要特征。在并行
    發表于 12-13 19:04

    四種接近傳感器PK,誰能勝出?

    四種接近傳感器PK,誰能勝出?
    的頭像 發表于 12-07 09:28 ?1629次閱讀
    四種接近傳感器<b class='flag-5'>PK</b>,誰能勝出?

    AD9689芯片DDC抽取濾波器進行多芯片同步時使用什么信號進行復位同步?

    AD9689芯片 DDC抽取濾波器進行多芯片同步時使用什么信號進行復位同步?是sysref信號還是什么?datasheet沒有提供說明。
    發表于 12-07 06:43