精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

重點介紹數據科學領域需要知道的五大關鍵概念

如意 ? 來源:讀芯術微信公眾號 ? 作者:讀芯術微信公眾號 ? 2020-09-30 15:44 ? 次閱讀

本文將重點介紹一些數據科學領域的關鍵概念,掌握它們對于你今后的職業生涯大有益處。這些概念或許你已經了解,或許你還未掌握。不論你現在是否清楚,筆者的目的是向你專業地解釋為何它們至關重要。

多重共線性、獨熱編碼、欠采樣和過采樣、誤差度量以及敘事能力,這是筆者在想到專業數據科學家日常工作時首先想到的關鍵概念。敘事能力或許算是技能和概念的結合,但筆者在此還是想強調它在數據科學家工作中的重要性。我們開始吧!

多重共線性

多重共線性雖然看起來又長又拗口,拆開來看還是易于理解的。“多重”指數量多,“共線性”則意味著線性相關。多重共線性可以描述為在回歸模型中,兩個或多個解釋變量解釋相似信息或高度相關。這一概念之所以引起關注,有以下幾個原因。

對于某些建模技術來說,多重共線性可能導致過擬合,最終降低模型性能。冗余數據時有出現,模型中的所有特征或屬性并非都是有必要的。因此,可以采用某些方法來找到應該被刪除的特征,正是它們導致了多重共線性。

方差膨脹系數(VIF)

相關矩陣

數據科學家們經常使用這兩種技術,尤其是相關矩陣和相關圖——通常用某種熱圖進行可視化,而VIF則不太為人所知。VIF值越高,該特征對回歸模型的用處就越小。

獨熱編碼

獨熱編碼是模型中的一種特征轉換形式,你可以通過編碼來數值化地體現類別特征。盡管類別特征本身有文本值,但是獨熱編碼會將這些信息轉置,以便每個值都成為特征,行中的觀察值記為0或1。例如,假設我們有分類變量gender,獨熱編碼后的數字表示如下(之前表示為gender,之后表示為male/female):

重點介紹數據科學領域需要知道的五大關鍵概念

獨熱編碼處理前后對比

如果你不僅要使用數字化的特征,還需要使用文本/類別特征創建數字表示,那么此轉換非常有用。

采樣

當你擁有的數據不足時,可以使用過采樣作為一種補償。假設在處理一個分類問題時,有一個如下例所示的少數類:

如你所見,class_1的類只有少量數據,這意味著你的數據集是不平衡的,也就是所謂的少數類。

有幾種過采樣方法。其中一種叫做SMOTE,即合成少數類過采樣技術(Synthetic Minority Over-samplingTechnique)。SMOTE的實現方式之一是采用K近鄰(K-neighbor)算法來找到最近的點以合成樣本。也有類似的技術反其道而行之,進行欠采樣。

當類或回歸數據中有離群值時,如果你希望確保模型運行在最能體現數據集的采樣結果之上,那么這些技術便能派上用場。

誤差度量

在數據科學中,有很多用于分類模型和回歸模型的誤差度量。以下是一些可以專門用于回歸模型的方法:

重點介紹數據科學領域需要知道的五大關鍵概念

對回歸模型來說,上述誤差度量中最常用的兩種是MSE(均方誤差)和RMSE(均方根誤差):

MSE:平均絕對誤差回歸損失(引自sklearn)

RMSE:均方根誤差回歸損失(引自sklearn)

對于分類模型來說,可以用精度和ROC曲線下的面積(AUC,Area Under the Curve)來評價模型的性能。

敘事能力

敘事概念的重要性怎么強調都不為過。它可以被定義成一種概念或技能,但定義本身并不重要。重要的是,如何在商業環境中展現出自己解決問題的能力。許多數據科學家總是只關注模型的精度,但卻無法理解整個商業過程。該過程包括:

業務是什么?

問題是什么?

為何需要數據科學?

數據科學在其中的目標是什么?

何時能得到可用結果?

如何應用我們的結果?

我們的結果有什么影響?

如何分享我們的結果和整個過程?

上述問題與模型本身或提升精度無關,重點是如何使用數據來解決公司的問題。與利益相關者和非技術領域的同事相熟對此是大有助益的,在運行基礎模型之前,你需要和產品經理一道評估問題,和數據工程師一起收集數據。在模型過程結束時,你將向關鍵人員介紹結果,這些人最喜歡看可視化結果,因此掌握呈現和交流的技能也是有益的。

對于數據科學家和機器學習工程師來說,有許多需要掌握的關鍵概念。本文介紹的5點,你了解了嗎?
責編AJX

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    6892

    瀏覽量

    88828
  • 數字化
    +關注

    關注

    8

    文章

    8610

    瀏覽量

    61640
  • 數據科學
    +關注

    關注

    0

    文章

    165

    瀏覽量

    10045
收藏 人收藏

    評論

    相關推薦

    工業物聯網實施應考慮的五大關鍵要素

    擁有成本,加快設備部署進度,還能為各種應用提供更穩定的端對端功能。:工業物聯網(IIoT)實施的五大關鍵要素
    發表于 10-12 10:06

    智能穿戴產業的五大關鍵技術

    系統的設備,只要該系統是這個系統平臺協議中的成員,就能夠獲取相應的數據與服務。以上五大關鍵技術,不僅是智能穿戴產業發展的關鍵技術,也是整個物聯網時代的關鍵技術,不僅決定著智能穿戴產業的
    發表于 05-09 06:20

    蘋果未來五大超級產品概念

    蘋果未來五大超級產品概念
    發表于 02-02 10:04 ?1203次閱讀

    五大關鍵詞解讀2010年半導體照明產業發展熱點

    五大關鍵詞解讀2010年半導體照明產業發展熱點   ?? 在2010年3月全國兩會期間,LED照明成為代表們的熱議焦點,中國發改委副主任解振華指出,2010年將加快節
    發表于 11-01 16:14 ?745次閱讀

    施耐德電機智能城市五大關鍵領域解決方案

    施耐德電機智能城市的五大關鍵領域方案,將助力將臺灣打造成具有智能能源管理,智能交通,智能公共服務管理,智能樓宇,水智能管理等。
    發表于 11-29 18:13 ?1290次閱讀

    決定人工智能發展的風向標五大關鍵之問

    人工智能發展如何脫虛入實?人才與核心技術瓶頸如何取得突破?法律倫理責任如何界定?將會砸了誰的飯碗?背后的算法歧視如何解決?梳理過去一年人工智能發展,理性看待目前的階段,這五大關鍵之問可能將是人工智能發展的風向標。
    的頭像 發表于 01-11 09:19 ?3150次閱讀

    微服務五大關鍵好處揭秘

    在過去40 年里,軟件開發的世界日新月異,微服務日趨流行。本文為我們揭示了微服務的五大關鍵好處,看它們是如何幫助我們提升軟件質量并適應新的業務需求。
    的頭像 發表于 02-09 08:39 ?1.1w次閱讀
    微服務<b class='flag-5'>五大關鍵</b>好處揭秘

    一文看懂LTE五大關鍵技術和日常維護

    本文首先介紹了LTE的概念及系統架構,其次介紹了LTE演進目標及五大關鍵技術,最后介紹了華為DBS3900產品及DBS3900日常維護。
    的頭像 發表于 05-23 09:09 ?3.9w次閱讀
    一文看懂LTE<b class='flag-5'>五大關鍵</b>技術和日常維護

    細談智能穿戴的五大關鍵技術

    在物聯網時代,智能穿戴承載著人與“機”之間的“溝通”,并扮演著物聯網控制中心這樣一個角色。正如計算機與智能手機產業在技術升級過程中,產品不斷迭代更新一樣,智能穿戴產品也進入了快速迭代的過程。在這個過程中,有五大關鍵技術將決定著智能穿戴產業發展的進程和方向。
    發表于 07-11 16:57 ?9949次閱讀

    智能工廠的五大關鍵領域及特征

    智能工廠代表了高度互聯和智能化的數字時代,工廠的智能化通過互聯互通、數字化、大數據、智能裝備與智能供應鏈五大關鍵領域得以體現。
    發表于 10-16 08:35 ?2635次閱讀

    智能工廠五大關鍵領域及其特征體現

    智能工廠代表了高度互聯和智能化的數字時代,工廠的智能化通過互聯互通、數字化、大數據、智能裝備與智能供應鏈五大關鍵領域得以體現。
    的頭像 發表于 10-08 10:47 ?5187次閱讀

    ADI在線研討會:精密數模轉換器的五大關鍵技術規格

    本研討會視頻介紹了精密數模轉換器(DAC)的五大關鍵技術規格:分辨率與精度、總非調整誤差、輸出噪聲、緩沖以及最終動態性能。本研討會將帶您深入了解DAC,及其技術規格會如何對系統級性能產生影響。
    的頭像 發表于 06-20 06:19 ?3066次閱讀
    ADI在線研討會:精密數模轉換器的<b class='flag-5'>五大關鍵</b>技術規格

    制造業創新中心政策體系形成,主要聚集在五大關鍵領域

    領域分布看,已建成的創新中心聚焦于基礎材料、核心器件、關鍵工藝、重大裝備以及軟件等5個領域。國家制造業創新中心面向我國制造業創新發展的重大需求,充分匯聚行業創新力量,對五大關鍵
    的頭像 發表于 06-16 15:49 ?3876次閱讀
    制造業創新中心政策體系形成,主要聚集在<b class='flag-5'>五大關鍵</b><b class='flag-5'>領域</b>

    挑選高低溫試驗箱的五大關鍵因素:讓你輕松選擇最適合的設備

    挑選高低溫試驗箱的五大關鍵因素:讓你輕松選擇最適合的設備
    的頭像 發表于 09-04 14:39 ?965次閱讀
    挑選高低溫試驗箱的<b class='flag-5'>五大關鍵</b>因素:讓你輕松選擇最適合的設備

    成就更好5G的五大關鍵.zip

    成就更好5G的五大關鍵
    發表于 01-13 09:07 ?2次下載