精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

這些機器學習分類器性能標準你知道嗎?

自然語言處理愛好者 ? 來源:AIAS編程有道 ? 作者:菊子皮 ? 2020-11-27 10:37 ? 次閱讀

機器學習算法中,在模型訓練出來之后,總會去尋找衡量模型性能的指標。評價指標是針對將相同的數據,使用不同的算法模型,或者輸入不同參數的同一種算法模型,而給出這個算法或者參數好壞的定量指標。在模型評估過程中,往往需要使用多種不同的指標協作評估一個模型的好壞,因為眾多的評價指標中,大部分指標只能片面的反應模型的一部分特點,那么對模型的評估就會比較片面,在算法落地后也會出現很多問題。根據評估指標的反饋進行模型調整,這些都是機器學習在模型評估階段的關鍵問題,也是一名合格的算法工程師應當具備的基本功[文獻1]。

本文參考文獻1, 2,詳細介紹機器學習分類任務的常用評價指標:準確率(Accuracy)、精確率(Precision)、召回率(Recall)、P-R曲線(Precision-Recall Curve)、F1 Score、混淆矩陣(Confuse Matrix)、ROC、AUC。

1 準確率(Accuracy)

準確率定義如下:

也就是被正確分類的樣本個數與總樣本的個數之比,對于二分類來說可以這樣看:

其中(正、負樣本代表兩個不同類別):

真正例(True Positive, TP):標注的數據為正樣本,被模型預測為正的正樣本;

假正例(False Positive, FP):標注的數據為負樣本,被模型預測為正的負樣本;

假負例(False Negative, FN):標注的數據為負樣本,被模型預測為負的正樣本;

真負例(True Negative, TN):標注的數據為正樣本,被模型預測為負的負樣本;

準確率是分類問題中最簡單也是最直觀的評價指標,但存在明顯的缺陷,就是在數據的類別不均衡,特別是一種類別數據特別多另一種類別數據特別少的情況下,準確率就不能客觀評價算法的優劣了。舉個例子:當負樣本占99%時,分類器把所有樣本都預測為負樣本,那么對于這個模型來說可以獲得99%的準確率,所以在樣本數據極度不均衡的時候,選用這種方式去評價一個模型是不可取的。

2 精確率(Precision)

精準率又叫查準率,容易與準確率弄混,請記住這個“精”字,「它是針對一個類別預測結果而言的」,含義是在所有被預測為正的樣本中實際為正的樣本的概率,在預測為正樣本的結果中,有多少把握可以預測正確,因為其他類別的數據也可能被預測成為該類別。以二分類(以下不特殊說明,都以二分類為例介紹)來說其公式如下:

精準率代表對正樣本「結果」中的預測準確程度,而準確率則代表整體的預測準確程度,既包括正樣本,也包括負樣本。

3 召回率(Recall)

召回率又叫查全率,「它是針對原樣本而言的」,即在實際為正的樣本中被預測為正樣本的概率,其公式如下:

精確率和召回率又是一對歡喜冤家(一個查準率,一個查全率)。引用wiki上的圖,來理解一下:

實際中該如何選擇這兩個指標呢?因為精確率和召回率有不同的側重點,并且精確率和召回率是一對此消彼長的度量,精確率高可能原因是原始樣本中正樣本預測為正樣本比較少,負樣本預測為正樣本也比較多,那么這個時候召回率就低了,因為召回率是正樣本預測為正樣本的比率。例如,在預測股票的時候,更關心精準率,假如你買的股票現在有漲有跌,預測這些股票漲的多,那么這就是對我們有用的,因為所預測漲的股票都是你投錢的。而在預測病患的場景下,則更關注召回率,即真的患病的那些人中預測對了情況應該越多越好,即召回率越高越好。

因為兩種精準率和召回率是此消彼長的參數,而在實際情況中,例如推薦系統中有這樣的情形。在給用戶推薦的N個數據中,我們都認為是預測為正的值,那么其中有用戶喜歡的就是預測正樣本預測為正樣本的情形,即TP,其中用戶不喜歡的就是預測負樣本為正樣本的情形,即FP。當準確率比較高的時候,那么類別就比較多,而用戶實際喜歡的并沒有那么多,而當召回率比較高,那么推送的類別少,用戶可能想看更多的類別,推送的又沒有。所以,在實際工程中,往往需要結合兩個指標的結果,去尋找一個平衡點,使綜合性能最大化。

4 P-R曲線

P-R曲線(Precision Recall Curve)是描述精確率/召回率變化的曲線,如下圖所示,橫軸為召回率,縱軸為精確率:

對于一個模型來說,其P-R曲線上的一個點代表著:在某一閾值下,模型將大于該閾值的結果判定為正樣本,小于該閾值的結果判定為負樣本,此時就可以計算出對應的召回率和精確率。改變這個閾值就可以得到一條P-R曲線。那么如何去看一個P-R曲線呢?若一個學習器A的P-R曲線被另一個學習器B的P-R曲線完全包住,則稱:B的性能優于A。若A和B的曲線發生了交叉,則誰的曲線下的面積大,誰的性能更優。但一般來說,曲線下的面積是很難進行估算的,所以衍生出了“平衡點”(Break-Event Point,簡稱BEP),即當P=R時的取值,平衡點的取值越高,性能更優。

5 F1-Score

除了使用P-R曲線去兼顧精準率和召回率一個模型之外,最常見的方法就是F-Measure,又稱F-Score。F-Measure是P和R的加權調和平均,使用最多也就是F1值了,即:

當F1較高時,模型的性能越好。

6 ROC曲線

介紹了這么多指標為什么還要介紹ROC(Receiver Operating Characteristic Curve,又稱接受者操作特征曲線)曲線呢,因為ROC曲線有很多優點,經常作為評估二值分類器最重要的指標之一。如:「當測試集中的正負樣本的分布變化的時候,ROC曲線能夠保持不變」。在輸出為概率分布的分類模型中,如果僅使用準確率、精確率、召回率作為評價指標進行模型對比時,都必須是基于某一個給定閾值的,對于不同的閾值,各模型的Metrics結果也會有所不同,這樣就很難得出一個很置信的結果。需要注意的是P-R曲線是不依賴閾值的,但是在繪制P-R曲線的時候需要閾值。

ROC曲線的橫坐標為假陽性率(False Positive Rate,FPR);縱坐標為真陽性率(True Positive Rate,TPR)。FPR和TPR的計算方法分別為:

其中,FP是所有負樣本中預測為正樣本那些負樣本數目,N是真實負樣本數目。

其中,TP是所有正樣本中預測為正樣本那些正樣本數目,P是真是正樣本數目。

上面定義有點繞,舉個例子:假設有10位疑似癌癥患者,其中有3位很不幸確實患了癌癥(P=3),另外7位不是癌癥患者(N=7)。醫院對這10位疑似患者做了診斷,診斷出3位癌癥患者,其中有2位確實是真正的患者(TP=2)。那么真陽性率TPR=TP/P=2/3。對于7位非癌癥患者來說,有一位很不幸被誤診為癌癥患者(FP=1),那么假陽性率FPR=FP/N=1/7。對于“該醫院”這個分類器來說,這組分類結果就對應ROC曲線上的一個點(1/7,2/3)。(還是有點繞?那就沉下心理一下)。下面就有一個ROC曲線,來欣賞一下。

「那么為什么ROC曲線衡量效果可以不用在意數據的分布呢?」舉個例子:假設總樣本中,90%是正樣本,10%是負樣本。因為TPR只關注90%正樣本中有多少是被預測正確的,而與那10%負樣本毫無關系,同理,FPR只關注10%負樣本中有多少是被預測錯誤的,也與那90%正樣本毫無關系。這樣就避免了樣本不平衡的問題。那么兩者協作起來就能夠很好地衡量一個模型了。

「那么如何繪制ROC曲線呢?」這里也需要我們通過閾值來繪制(「與之前一樣,遍歷所有閾值來繪制整條曲線的」)。當改變閾值時,那么預測出正樣本和負樣本的數目也隨之變化,如下圖:

「知道了如何繪制ROC曲線了,那么怎么去看ROC曲線呢,也就是說如何根據ROC曲線確定一個模型的好壞?即如何根據ROC曲線判斷模型性能?」 FPR(假陽率)表示模型對于負樣本誤判的程度,而TPR(真陽率)表示模型對正樣本召回的程度。可想而知:負樣本誤判的越少越好,正樣本召回的越多越好。所以總結一下就是TPR越高,同時FPR越低(即ROC曲線越陡),那么模型的性能就越好。可參考如下動態圖進行理解:

也就是說:在進行模型的性能比較時,若一個模型A的ROC曲線被另一個模型B的ROC曲線完全包住,則稱B的性能優于A。若A和B的曲線發生了交叉,則誰的曲線下的面積大,誰的性能更優。下面再次借用文獻2中的圖片演示ROC曲線不隨樣本數目的變化而變化的動圖,如下:

當然,我們也不可能總是通過看圖去比較幾個模型的性能,那么問題就來了,如何將圖形進行量化呢?

7 AUC值

AUC(Area Under Curve)指的是ROC曲線下的面積大小,該值能夠量化地反映基于ROC曲線衡量出的模型性能。計算AUC值只需要沿著ROC橫軸做積分就可以了。由于ROC曲線一般都處于y=x這條直線的上方(如果不是的話,只要把模型預測的概率反轉成1?p就可以得到一個更好的分類器),所以AUC的取值一般在0.5~1之間。AUC越大,說明分類器越可能把真正的正樣本排在前面,分類性能越好。具體計算方法可參考文獻[3]。

8 混淆矩陣

混淆矩陣(Confusion Matrix)也稱錯誤矩陣,通過它可以直觀地觀察到算法的效果。它的每一列是樣本的預測分類,每一行是樣本的真實分類(反過來也可以),顧名思義,它反映了分類結果的混淆程度。混淆矩陣i行j列的原始是原本是類別i卻被分為類別j的樣本個數,計算完之后還可以對之進行可視化,可看看文獻[2]中的混淆矩陣圖片演示:

9 多分類

最基本的內容是二分類,多分類也可以拆分為多個二分類進行。在了解二分類的基礎上,我們來看看如何衡量一個多分類模型的性能了,畢竟實際的問題屬于多分類的概率是比較大的。

估算模型全局性能的方法有兩種:宏平均(macro-average)和微平均(micro-average)。綜合來看宏平均會比微平均更可靠一些,因為微平均受稀有類別影響更大。宏平均平等對待每一個類別,所以它的值主要受到稀有類別的影響,而微平均平等考慮數據集中的每一個樣本,所以它的值受到常見類別的影響比較大。

簡單來說,宏平均就是先算出每個混淆矩陣的P值和R值,然后取得平均P值macro-P和平均R值macro-R,再算出F1值。微平均則是計算出混淆矩陣的平均TP、FP、TN、FN,接著進行計算P、R,進而求出F1值。同理可以使用這兩種方式計算出其他的衡量指標。這兩種計算公式如下:

原文標題:機器學習分類器性能標準(Accuracy、Precision、Recall、P-R曲線、F1等)你是否真的懂了?

文章出處:【微信公眾號:自然語言處理愛好者】歡迎添加關注!文章轉載請注明出處。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    6892

    瀏覽量

    88828
  • 機器學習
    +關注

    關注

    66

    文章

    8377

    瀏覽量

    132409

原文標題:機器學習分類器性能標準(Accuracy、Precision、Recall、P-R曲線、F1等)你是否真的懂了?

文章出處:【微信號:NLP_lover,微信公眾號:自然語言處理愛好者】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    這些電源常用仿真軟件,知道嗎

    ,便于工程師驗證分析。 電源仿真為電源系統開發帶來很多便利 : ▍電源的設計與分析: 在電源方案制定過程中,可利用電源仿真手段輔助電源電路設計與分析,提升電源方案的制定效率與設計可靠性; ▍電源性能
    發表于 10-25 14:20

    電源的這些常識知道嗎

    因為電源部件是消耗品,導致電源有一定的使用壽命。因此,使用一定時間后,我們或多或少會出現一些異常現象。一些簡單的學生可以簡單地自己解決。然而,許多情況下,涉及技術問題的人無法開始。這時,我們需要知道
    的頭像 發表于 09-26 13:58 ?197次閱讀

    PCB打樣不簡單:這些特殊工藝知道嗎

    打樣不僅涉及標準的工藝流程,還包含多種特殊工藝,以滿足不同設計需求和應用場景。本文將深入探討PCB打樣中的幾種特殊工藝,包括金手指處理、阻抗控制、盲孔與埋孔技術、厚
    的頭像 發表于 09-18 13:39 ?681次閱讀
    PCB打樣不簡單:<b class='flag-5'>這些</b>特殊工藝<b class='flag-5'>你</b><b class='flag-5'>知道嗎</b>?

    深度學習中的時間序列分類方法

    時間序列分類(Time Series Classification, TSC)是機器學習和深度學習領域的重要任務之一,廣泛應用于人體活動識別、系統監測、金融預測、醫療診斷等多個領域。隨
    的頭像 發表于 07-09 15:54 ?707次閱讀

    SMT貼片加工中的這些問題,知道嗎

    SMT貼片加工作為現代電子制造中的關鍵技術,在實踐過程中可能遭遇各種挑戰。本文將探討這些問題,并提供有效的解決策略,以幫助讀者更有效地應對SMT貼片加工中的困難,下面由深圳佳金源錫膏廠家來講解一下
    的頭像 發表于 05-09 16:51 ?606次閱讀
    SMT貼片加工中的<b class='flag-5'>這些</b>問題,<b class='flag-5'>你</b><b class='flag-5'>知道嗎</b>?

    這些磁棒電感發熱解決方法知道幾個

    這些磁棒電感發熱解決方法知道幾個 gujing 編輯:谷景電子 磁棒電感在使用中發熱是比較普遍的問題之一,但假如發熱嚴重就需要及時進行處理,不然就會影響到設備的性能和運作。所以,磁棒
    的頭像 發表于 03-06 22:10 ?371次閱讀

    電抗這些特點知道嗎

    電抗是一種用于電力系統中的重要設備,它可以用來改善電力質量、穩定電壓和提高系統的效率。下面薩頓斯(STS)和大家一起來了解電抗的使用說明以及安裝要點。
    的頭像 發表于 01-30 11:36 ?611次閱讀
    電抗<b class='flag-5'>器</b>的<b class='flag-5'>這些</b>特點<b class='flag-5'>你</b>都<b class='flag-5'>知道嗎</b>

    烘缸軸頭磨損的原因大家知道嗎

    電子發燒友網站提供《烘缸軸頭磨損的原因大家知道嗎.docx》資料免費下載
    發表于 01-23 09:53 ?0次下載

    回饋電子負載的正確使用方法,知道嗎

    回饋電子負載的正確使用方法,知道嗎? 回饋電子負載是一種用來模擬電路負載的儀器,它能夠向電路提供可控的電流或電壓,以測試電路的性能和穩定性。在電子設計、電路調試和故障排除等領域,回饋電子負載被廣泛
    的頭像 發表于 01-18 14:32 ?757次閱讀

    太陽能光伏發電原理及優點,知道嗎

    太陽能光伏發電原理及優點,知道嗎? 太陽能光伏發電是一種利用太陽能將其轉化為電能的發電方式。它基于光伏效應,即當光線照射到半導體材料上時,會激發出電子,從而形成電流。 光伏發電的原理是基于半導體
    的頭像 發表于 12-29 15:17 ?1288次閱讀

    SMT絲印技術的歷史發展的四個階段,知道嗎

    SMT絲印技術的歷史發展的四個階段,知道嗎
    的頭像 發表于 12-27 10:15 ?861次閱讀

    LED沒有燈絲是靠什么發光的,知道嗎

    LED沒有燈絲是靠什么發光的,知道嗎? LED是一種半導體材料制成的電子元件,它通過電流在半導體材料中的復合和重新結合而發光,而不像傳統的白熾燈泡需要依靠燈絲來發光。在這篇文章中,我將為您詳細介紹
    的頭像 發表于 12-20 11:16 ?1079次閱讀

    運算放大器的種類都有哪些?知道嗎

    運算放大器的種類都有哪些?知道嗎
    的頭像 發表于 12-13 15:14 ?742次閱讀
    運算放大器的種類都有哪些?<b class='flag-5'>你</b><b class='flag-5'>知道嗎</b>?

    5大高精密多層pcb的特點知道嗎

    5大高精密多層pcb的特點知道嗎
    的頭像 發表于 12-08 16:10 ?866次閱讀

    肖特基二極管4大特性,知道嗎

    肖特基二極管4大特性,知道嗎
    的頭像 發表于 12-07 16:29 ?682次閱讀
    肖特基二極管4大特性,<b class='flag-5'>你</b>都<b class='flag-5'>知道嗎</b>?