精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

由淺入深的對其降維原理進行了詳細總結

lviY_AI_shequ ? 來源:lp ? 2019-03-22 14:01 ? 次閱讀

主成分分析(Principal components analysis,以下簡稱PCA)是最常用的降維方法之一,在數據壓縮和消除冗余方面具有廣泛的應用,本文由淺入深的對其降維原理進行了詳細總結。

目錄

1.向量投影和矩陣投影的含義

2. 向量降維和矩陣降維的含義

3. 基向量選擇算法

4. 基向量個數的確定

5. 中心化的作用

6. PCA算法流程

7. PCA算法總結

1. 向量投影和矩陣投影的含義

如下圖:

向量a在向量b的投影為:

其中,θ是向量間的夾角 。

向量a在向量b的投影表示向量a在向量b方向的信息,若θ=90°時,向量a與向量b正交,向量a無向量b信息,即向量間無冗余信息 。因此,向量最簡單的表示方法是用基向量表示,如下圖:

向量表示方法:

其中,c1是在e1方向的投影,c2是在e2方向的投影,e1和e2是基向量

我們用向量的表示方法擴展到矩陣,若矩陣的秩r(A)=n,

,其中ai(i=1,2,...,n)為n個維度的列向量,那么矩陣A的列向量表示為:

其中,e1,e2,...,en為矩陣A的特征向量 。

若矩陣A是對稱矩陣,那么特征向量為正交向量,我們對上式結合成矩陣的形式:

由上式可知,對稱矩陣A在各特征向量的投影等于矩陣列向量展開后的系數,特征向量可理解為基向量。

2. 向量降維和矩陣降維含義

向量降維可以通過投影的方式實現,N維向量映射為M維向量轉換為N維向量在M個基向量的投影,如N維向量,M個基向量分別為在基向量的投影:

通過上式完成了降維,降維后的坐標為:

矩陣是由多個列向量組成的,因此矩陣降維思想與向量降維思想一樣,只要求得矩陣在各基向量的投影即可,基向量可以理解為新的坐標系,投影就是降維后的坐標,那么問題來了,如何選擇基向量?

3. 基向量選擇算法

已知樣本集的分布,如下圖:

樣本集共有兩個特征x1和x2,現在對該樣本數據從二維降到一維,圖中列了兩個基向量u1和u2,樣本集在兩個向量的投影表示了不同的降維方法,哪種方法好,需要有評判標準:(1)降維前后樣本點的總距離足夠近,即最小投影距離;(2)降維后的樣本點(投影)盡可能的散開,即最大投影方差 。因此,根據上面兩個評判標準可知選擇基向量u1較好。

我們知道了基向量的選擇標準,下面介紹基于這兩個評判標準來推導基向量:

(1)基于最小投影距離

假設有n個n維數據,記為X。現在對該數據從n維降到m維,關鍵是找到m個基向量,假設基向量為{w1,w2,...,wm},記為矩陣W,矩陣W的大小是n×m。

原始數據在基向量的投影:

投影坐標計算公式:

根據投影坐標和基向量,得到該樣本的映射點:

最小化樣本和映射點的總距離:

推導上式,得到最小值對應的基向量矩陣W,推導過程如下:

所以我們選擇的特征向量作為投影的基向量?。

(2) 基于最大投影方差

我們希望降維后的樣本點盡可能分散,方差可以表示這種分散程度。

如上圖所示,表示原始數據,表示投影數據,表示投影數據的平均值。所以最大化投影方差表示為:

下面推導上式,得到相應的基向量矩陣W,推導過程如下:

我們發現(4)式與上一節的(13)式是相同的。

因此,基向量矩陣W滿足下式:

小結:降維通過樣本數據投影到基向量實現的,基向量的個數等于降維的個數,基向量是通過上式求解的。

4. 基向量個數的確定

我們知道怎么求解基向量,但是我們事先確定了基向量的個數,如上節的m個基向量,那么怎么根據樣本數據自動的選擇基向量的個數了?在回答這一問題前,簡單闡述下特征向量和特征值的意義。

假設向量wi,λi分別為的特征向量和特征值,表達式如下:

對應的圖:

由上圖可知,沒有改變特征向量wi的方向,只在wi的方向上伸縮或壓縮了λi倍。特征值代表了在該特征向量的信息分量。特征值越大,包含矩陣的信息分量亦越大。因此,我們可以用λi去選擇基向量個數。我們設定一個閾值threshold,該閾值表示降維后的數據保留原始數據的信息量,假設降維后的特征個數為m,降維前的特征個數為n,m應滿足下面條件:

因此,通過上式可以求得基向量的個數m,即取前m個最大特征值對應的基向量。

投影的基向量:

投影的數據集:

5. 中心化的作用

我們在計算協方差矩陣的特征向量前,需要對樣本數據進行中心化,中心化的算法如下:

中心化數據各特征的平均值為0,計算過程如下:

對上式求平均:

中心化的目的是簡化算法,我們重新回顧下協方差矩陣,以說明中心化的作用 。

,X表示共有n個樣本數。

每個樣本包含n個特征,即:

展開:

為了閱讀方便,我們只考慮兩個特征的協方差矩陣:

由(3)式推導(2)式得:

所以是樣本數據的協方差矩陣,但是,切記必須事先對數據進行中心化處理?。

6. PCA算法流程

1)樣本數據中心化。

2)計算樣本的協方差矩陣

3)求協方差矩陣的特征值和特征向量,并對該向量進行標準化(基向量)。

3)根據設定的閾值,求滿足以下條件的降維數m。

4)取前m個最大特征值對應的向量,記為W。

5)對樣本集的每一個樣本,映射為新的樣本

6)得到映射后的樣本集D'。

7. 核主成分分析(KPCA)介紹

因為可以用樣本數據內積表示:

由核函數定義可知,可通過核函數將數據映射成高維數據,并對該高維數據進行降維:

KPCA一般用在數據不是線性的,無法直接進行PCA降維,需要通過核函數映射成高維數據,再進行PCA降維。

8. PCA算法總結

PCA是一種非監督學習的降維算法,只需要計算樣本數據的協方差矩陣就能實現降維的目的,其算法較易實現,但是降維后特征的可解釋性較弱,且通過降維后信息會丟失一些,可能對后續的處理有重要影響。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • PCA
    PCA
    +關注

    關注

    0

    文章

    89

    瀏覽量

    29559
  • 向量
    +關注

    關注

    0

    文章

    55

    瀏覽量

    11660
  • 降維
    +關注

    關注

    0

    文章

    10

    瀏覽量

    7643

原文標題:主成分分析(PCA)原理總結

文章出處:【微信號:AI_shequ,微信公眾號:人工智能愛好者社區】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    求助,SVM分類時要不要先進行PCA呢?

    大家知道,既然SVM可以較好地解決小樣本、非線性、高數等分類問題,那對于高樣本輸入,需不需要提前進行PCA呢?PCA
    發表于 10-27 20:13

    請問OSTickISR在UCOSII哪個文件進行了定義?

    OSTickISR在UCOSII哪個文件進行了定義,怎么沒有找到?
    發表于 04-02 06:36

    HV857已針對各種應用進行了優化

    EL燈驅動器,它采用Supertex HV857集成電路提供六個EL驅動電路。它們已針對各種應用進行了優化,可以按原樣使用,也可以作為設計特定應用電路的起點
    發表于 07-26 08:39

    對結構體成員進行了賦值

    \n",L->c);為什么這種方式對結構體成員進行了賦值tt *L=aa;這里L除了指向數組首地址為什么還指向結構體的首地址tt aa[]={10,25,34,4,5,88,75};這個數組有沒有指向結構體的首地址
    發表于 03-23 01:11

    使用STlinkUtility v 4.5.0對閃存進行了不受保護的讀取和寫入操作,無法擦除閃存怎么解決?

    您好,我是從事 STM32G07 系列開發板的固件工程師。在使用閃存時,我使用 STlinkUtility v 4.5.0 對閃存進行了不受保護的讀取和寫入操作,此后我無法擦除閃存,因此無法調試和加
    發表于 12-30 08:23

    基于圖論的人臉圖像數據方法綜述

    近幾年基于圖論的方法越來越得到人們的關注,本文針對人臉識別中的核心問題即對高數據進行
    發表于 09-03 16:13 ?0次下載

    C語言字符串操作總結大全(超詳細

    本文對c語言字符串的操作進行了詳細總結分析,需要的朋友可以參考。
    發表于 11-15 14:19 ?2067次閱讀

    對國內的大硅片項目進行了整理核分析

    《推進綱要》發布以來,我國各地開始大興晶圓制造項目。時值歲未,筆者對我國的大硅片項目進行了整理。
    的頭像 發表于 12-27 10:57 ?1.9w次閱讀
    對國內的大硅片項目<b class='flag-5'>進行了</b>整理核分析

    最全最詳細LTC6803使用筆記總結

    本文首先介紹了LTC6803主要特點,其次介紹了LTC6803典型應用電路與指令格式,最后對LTC6803的使用進行了詳細總結
    發表于 05-15 15:37 ?1.8w次閱讀
    最全最<b class='flag-5'>詳細</b>LTC6803使用筆記<b class='flag-5'>總結</b>

    美格智能已對官方網站進行了全新的改版和升級

    目前,全新官網已正式上線啟用,并以客戶需求為導向,對網站整體風格、界面顯示模式、信息展示和資料下載等方面的交互體驗進行了全方位的改進和優化,為用戶帶來實用性與美觀性兼具的人性化視覺感受。
    的頭像 發表于 03-26 08:47 ?2842次閱讀

    Google對Google Camera進行了改進

    工作人員表示,他們已經改善了JIT,OTA速度,甚至對內核調度程序進行了一些更改。他們希望用戶在Android Nougat中注意到所有這些。此外,他們強調,Android Nougat中的Doze light和背景限制將在不久的將來實施。
    的頭像 發表于 04-22 09:27 ?1839次閱讀

    Ascent和IBM合作進行了一項人工智能試驗

    概念驗證采用了AI和自然語言處理功能,“使用了超過23萬個法規字詞,并對進行了解釋并轉換為一系列可口的可操作任務”。
    的頭像 發表于 07-22 09:37 ?1695次閱讀

    三星對Bixby服務進行了重大改進

    同樣,三星還展示了主動降噪技術,該技術再次使用預測分析來消除環境噪聲。在語音助手方面,三星對Bixby服務進行了重大改進。該公司去年推出了可進行智能對話的人類數字化身Neon。
    的頭像 發表于 09-16 17:02 ?2091次閱讀

    TDK Corporation對Micronas嵌入式電機控制器系列產品進行了擴展

    TDK Corporation 對 Micronas 嵌入式電機控制器系列產品進行了擴展,以實現高溫環境應用。HVC 4222F 和 HVC 4422F 專門針對環境溫度要求高達 150 °C 的應用中智能執行器的操作開發研制而成。
    的頭像 發表于 03-05 10:22 ?2254次閱讀

    淺析卷積與池化的對比

    在學習深度學習中卷積網絡過程中,有卷積層,池化層,全連接層等等,其中卷積層與池化層均可以對特征圖,本次實驗針對控制其他層次一致的情況下,使用卷積與池化
    的頭像 發表于 02-17 14:58 ?1043次閱讀
    淺析卷積<b class='flag-5'>降</b><b class='flag-5'>維</b>與池化<b class='flag-5'>降</b><b class='flag-5'>維</b>的對比