欧美激情αV一区二区三区_人妻少妇精品久久久久久_五月天综合在线_久久天堂AV女色优精品

本文將重點介紹一些數據科學領域的關鍵概念，掌握它們對于你今后的職業生涯大有益處。這些概念或許你已經了解，或許你還未掌握。不論你現在是否清楚，筆者的目的是向你專業地解釋為何它們至關重要。

多重共線性、獨熱編碼、欠采樣和過采樣、誤差度量以及敘事能力，這是筆者在想到專業數據科學家日常工作時首先想到的關鍵概念。敘事能力或許算是技能和概念的結合，但筆者在此還是想強調它在數據科學家工作中的重要性。我們開始吧！

多重共線性

多重共線性雖然看起來又長又拗口，拆開來看還是易于理解的。“多重”指數量多，“共線性”則意味著線性相關。多重共線性可以描述為在回歸模型中，兩個或多個解釋變量解釋相似信息或高度相關。這一概念之所以引起關注，有以下幾個原因。

對于某些建模技術來說，多重共線性可能導致過擬合，最終降低模型性能。冗余數據時有出現，模型中的所有特征或屬性并非都是有必要的。因此，可以采用某些方法來找到應該被刪除的特征，正是它們導致了多重共線性。

方差膨脹系數（VIF）

相關矩陣

數據科學家們經常使用這兩種技術，尤其是相關矩陣和相關圖——通常用某種熱圖進行可視化，而VIF則不太為人所知。VIF值越高，該特征對回歸模型的用處就越小。

獨熱編碼

獨熱編碼是模型中的一種特征轉換形式，你可以通過編碼來數值化地體現類別特征。盡管類別特征本身有文本值，但是獨熱編碼會將這些信息轉置，以便每個值都成為特征，行中的觀察值記為0或1。例如，假設我們有分類變量gender，獨熱編碼后的數字表示如下（之前表示為gender，之后表示為male/female）：

重點介紹數據科學領域需要知道的五大關鍵概念

獨熱編碼處理前后對比

如果你不僅要使用數字化的特征，還需要使用文本/類別特征創建數字表示，那么此轉換非常有用。

采樣

當你擁有的數據不足時，可以使用過采樣作為一種補償。假設在處理一個分類問題時，有一個如下例所示的少數類：

如你所見，class_1的類只有少量數據，這意味著你的數據集是不平衡的，也就是所謂的少數類。

有幾種過采樣方法。其中一種叫做SMOTE，即合成少數類過采樣技術（Synthetic Minority Over-samplingTechnique）。SMOTE的實現方式之一是采用K近鄰（K-neighbor）算法來找到最近的點以合成樣本。也有類似的技術反其道而行之，進行欠采樣。

當類或回歸數據中有離群值時，如果你希望確保模型運行在最能體現數據集的采樣結果之上，那么這些技術便能派上用場。

誤差度量

在數據科學中，有很多用于分類模型和回歸模型的誤差度量。以下是一些可以專門用于回歸模型的方法：

重點介紹數據科學領域需要知道的五大關鍵概念

對回歸模型來說，上述誤差度量中最常用的兩種是MSE（均方誤差）和RMSE（均方根誤差）：

MSE：平均絕對誤差回歸損失（引自sklearn）

RMSE：均方根誤差回歸損失（引自sklearn）

對于分類模型來說，可以用精度和ROC曲線下的面積（AUC，Area Under the Curve）來評價模型的性能。

敘事能力

敘事概念的重要性怎么強調都不為過。它可以被定義成一種概念或技能，但定義本身并不重要。重要的是，如何在商業環境中展現出自己解決問題的能力。許多數據科學家總是只關注模型的精度，但卻無法理解整個商業過程。該過程包括：

業務是什么？

問題是什么？

為何需要數據科學？

數據科學在其中的目標是什么？

何時能得到可用結果？

如何應用我們的結果？

我們的結果有什么影響？

如何分享我們的結果和整個過程？

上述問題與模型本身或提升精度無關，重點是如何使用數據來解決公司的問題。與利益相關者和非技術領域的同事相熟對此是大有助益的，在運行基礎模型之前，你需要和產品經理一道評估問題，和數據工程師一起收集數據。在模型過程結束時，你將向關鍵人員介紹結果，這些人最喜歡看可視化結果，因此掌握呈現和交流的技能也是有益的。

對于數據科學家和機器學習工程師來說，有許多需要掌握的關鍵概念。本文介紹的5點，你了解了嗎？
責編AJX

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴