精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

教你如何處理不平衡數據集

電子工程師 ? 來源:fqj ? 2019-06-07 11:27 ? 次閱讀

分類是機器學習最常見的問題之一,處理它的最佳方法是從分析和探索數據集開始,即從探索式數據分析(Exploratory Data Analysis,EDA)開始。除了生成盡可能多的數據見解和信息,它還用于查找數據集中可能存在的任何問題。在分析用于分類的數據集時,類別不平衡是常見問題之一。

什么是數據不平衡(類別不平衡)?

數據不平衡通常反映了數據集中類別的不均勻分布。例如,在信用卡欺詐檢測數據集中,大多數信用卡交易類型都不是欺詐,僅有很少一部分類型是欺詐交易,如此以來,非欺詐交易和欺詐交易之間的比率達到50:1。本文中,我將使用來自Kaggle的信用卡欺詐交易數據數據集,你可以從這里下載

首先,我們先繪制類分布圖,查看不平衡情況。

教你如何處理不平衡數據集

如你所見,非欺詐交易類型數據數量遠遠超過欺詐交易類型。如果我們在不解決這個類別不平衡問題的情況下訓練了一個二分類模型,那么這個模型完全是有偏差的,稍后我還會向你演示它影響特征相關性的過程并解釋其中的原因。

現在,我們來介紹一些解決類別不平衡問題的技巧,你可以在這里找到完整代碼的notebook。

重采樣(過采樣和欠采樣)

教你如何處理不平衡數據集

這聽起來很直接。欠采樣就是一個隨機刪除一部分多數類(數量多的類型)數據的過程,這樣可以使多數類數據數量可以和少數類(數量少的類型)相匹配。

對多數類進行欠采樣

對數據集進行欠采樣之后,我重新畫出了類型分布圖(如下),可見兩個類型的數量相等。

教你如何處理不平衡數據集

平衡數據集(欠采樣)

第二種重采樣技術叫過采樣,這個過程比欠采樣復雜一點。它是一個生成合成數據的過程,試圖學習少數類樣本特征隨機地生成新的少數類樣本數據。對于典型的分類問題,有許多方法對數據集進行過采樣,最常見的技術是SMOTE(Synthetic Minority Over-sampling Technique,合成少數類過采樣技術)。簡單地說,就是在少數類數據點的特征空間里,根據隨機選擇的一個K最近鄰樣本隨機地合成新樣本。

還記得我說過不平衡的數據會影響特征相關性嗎?讓我向您展示處理不平衡類問題前后的特征相關性。

重采樣之后:

請注意,現在特征相關性更明顯了。在解決不平衡問題之前,大多數特征并沒有顯示出相關性,這肯定會影響模型的性能。除了會關系到整個模型的性能,特征性相關性還會影響ML模型的性能,因此修復類別不平衡問題非常重要。

集成方法(采樣器集成)

在機器學習中,集成方法會使用多種學習算法和技術,以獲得比單獨使用其中一個算法更好的性能(是的,就像一個民主投票系統)。當使用集合分類器時,bagging方法變得流行起來,它通過構建多個分類器在隨機選擇的不同數據集上進行訓練。在scikit-learn庫中,有一個名叫“Bagging Classifier”的集成分類器,然而這個分類器不能訓練不平衡數據集。當訓練不平衡數據集時,這個分類器將會偏向多數類,從而創建一個有偏差的模型。

為了解決這個問題,我們可以使用imblearn庫中的BalancedBaggingClassifier。它允許在訓練集成分類器中每個子分類器之前對每個子數據集進行重采樣。

因此,BalancedBaggingClassifier除了需要和Scikit Learn BaggingClassifier相同的參數以外,還需要2個參數sampling_strategy和replacement來控制隨機采樣器的執行。

使用集合采樣器訓練不平衡數據集

這樣,您就可以訓練一個分類器來處理類別不平衡問題,而不必在訓練前手動進行欠采樣或過采樣。總之,每個人都應該知道,建立在不平衡數據集上的ML模型會難以準確預測稀有點和少數點,整體性能會受到限制。因此,識別和解決這些點的不平衡對生成模型的質量和性能是至關重要的。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器學習
    +關注

    關注

    66

    文章

    8377

    瀏覽量

    132406
  • 數據分析
    +關注

    關注

    2

    文章

    1427

    瀏覽量

    34012

原文標題:一文教你如何處理不平衡數據集(附代碼)

文章出處:【微信號:BigDataDigest,微信公眾號:大數據文摘】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    如何理解矢量測量中“平衡”與“不平衡

    在矢量測試中,經常需要測量信號的不平衡性,會遇到相關的幾個名詞:Balance(平衡),Unbalance(不平衡/非平衡)和Imbalance(
    發表于 03-29 10:51 ?2736次閱讀
    如何理解矢量測量中“<b class='flag-5'>平衡</b>”與“<b class='flag-5'>不平衡</b>

    不平衡型AFC電路

    不平衡型AFC電路 如圖不平衡型AFC電路,它由鑒相器,比較鋸齒波形成電路,
    發表于 08-05 23:52 ?1689次閱讀
    <b class='flag-5'>不平衡</b>型AFC電路

    不平衡數據上的Relief特征選擇算法_菅小艷

    不平衡數據上的Relief特征選擇算法_菅小艷
    發表于 01-08 10:40 ?1次下載

    基于主動學習不平衡多分類AdaBoost改進算法

    ,基于不確定性動態間隔的樣本選擇策略,降低訓練不平衡性;最后,利用代價敏感方法對多分類AdaBoost算法進行改進,對不同的類別給予不同的錯分代價,調整樣本權重更新速度,強迫弱分類器關注小類樣本。在臨床經胸超聲心動圖(TTE)測量
    發表于 11-30 17:12 ?3次下載

    手把手教你解決-深度學習訓練數據不平衡問題

    當我們解決任何機器學習問題時,我們面臨的最大問題之一是訓練數據不平衡不平衡數據的問題在于學術界對于相同的定義、含義和可能的解決方案存在分歧。我們將嘗試用圖像分類問題來解開訓練
    的頭像 發表于 07-24 13:34 ?8382次閱讀

    三相電壓不平衡產生原因_三相電壓不平衡的治理措施

    電力系統中三相電壓不平衡產生的主要原因是負荷的不平衡和系統阻抗的不平衡。其中負荷的不平衡是造成三相電壓不平衡的主要原因,比較明顯的單相負荷由
    的頭像 發表于 10-28 16:43 ?2.5w次閱讀

    三相不平衡有哪些處理方法

    在三相交流系統中,三相電壓或電流在幅值上相同或相位差為120度,反之則判斷為三相不平衡不平衡問題的處理有負荷補償、負荷相序平衡、配網重構等方式來
    的頭像 發表于 11-22 17:47 ?2.2w次閱讀

    為什么三相變頻電源出現不平衡?如何處理

      為什么三相變頻電源會出現不平衡:   (1)在配電網側,存在大量不平衡的單相負載,導致配電站的區域。在大多數地區,三相不平衡程度不同。   (2)用戶用電過程的隨機性和不確定性,以及日益增加
    的頭像 發表于 03-24 09:52 ?1759次閱讀
    為什么三相變頻電源出現<b class='flag-5'>不平衡</b>?如<b class='flag-5'>何處理</b>?

    電機轉子不平衡對電機質量的影響大嗎

    轉子不平衡對電機質量的影響有哪些?小編將分析轉子機械不平衡產生的振動和噪聲問題。
    發表于 08-30 10:51 ?809次閱讀

    三相不平衡是什么意思?三相電壓不平衡怎么處理

    三相不平衡是什么意思?三相電壓不平衡怎么處理?? 三相不平衡是指三相電壓或電流的幅度或相位不同,這會導致電力系統的不穩定、效率低下、設備壽命短等問題。在三相電力系統中,三相電壓應該相等
    的頭像 發表于 09-25 17:36 ?3770次閱讀

    三相電壓不平衡是什么原因造成的?三相不平衡會跳閘嗎?

    三相電壓不平衡是什么原因造成的?三相不平衡會跳閘嗎?三相不平衡度允許范圍? 三相電壓不平衡是指三相電源電壓之間的差異,通常是由電源系統出現故障或不良設計引起的。
    的頭像 發表于 09-25 17:36 ?6887次閱讀

    I/Q不平衡的來源 IQ信道之間的不平衡會造成什么影響呢?

    字通信中,I/Q不平衡可能導致信號失真、干擾甚至數據丟失,特別是在高速數據傳輸和高頻率應用中。 I/Q不平衡的來源可以分類為硬件和軟件因素。硬件因素包括電子元器件毛刺、電纜或傳輸線路失
    的頭像 發表于 10-31 09:34 ?1077次閱讀

    為什么三相變頻電源出現不平衡?如何處理

    為什么三相變頻電源出現不平衡?如何處理? 三相變頻電源出現不平衡的原因有很多,主要包括電源輸入問題、電源負載問題和控制系統問題等。下面將詳細探討這些問題以及如何處理。 首先,電源輸入問
    的頭像 發表于 11-16 11:06 ?2028次閱讀

    三相電壓不平衡對電路的影響

    三相電壓不平衡對電路的影響 三相電壓不平衡是指三相電網中三個相電壓的幅值和相位不一致,造成電壓波形不對稱的情況。常見的三相電壓不平衡情況包括電壓幅值不平衡、相位
    的頭像 發表于 12-11 17:16 ?2417次閱讀

    三相不平衡最佳解決辦法 三相不平衡多少范圍內是合理的

    三相不平衡最佳解決辦法 在電力系統中,三相不平衡是指三個相之間電壓或電流不相等的現象。當三相不平衡的情況發生時,可能會導致線路過載、設備壽命縮短、電能損耗增加等問題。因此,解決三相不平衡
    的頭像 發表于 02-06 10:07 ?2961次閱讀