特征工程是用數學轉換的方法將原始輸入數據轉換為用于機器學習模型的新特征。特征工程提高了機器學習模型的準確度和計算效率,體現在以下五個方面
1、把原始數據轉換成與目標相關的數據
我們可以使用特征工程對原始數據進行轉換,使其更接近目標變量,轉換后的特征對目標更有預測性。在這種情況下,雖然未加工輸入出現在原始數據集中,但如果將轉換后的特征作為輸入,則機器學習將提高預測的準確性。
2、引入額外的數據源
特征工程可以使從業者向機器學習模型引入額外的數據源。對于首次注冊的用戶,我們可以猜測該用戶的終生價值。在眾多指標中,我們可以捕捉每個用戶的地理位置。雖然這個數據可以直接作為分類特征(例如,IP地址和郵政編碼)提供,但模型基于這些來確定位置信息仍存在困難。
通過第三方的人口統計數據,我們可以做的更好。例如,這將允許我們計算每個用戶區域的平均收入和人口密度,并把這些因素直接插入到訓練集中?,F在,這些預測性因素立即變得更容易推斷,而不是依賴模型從原始位置數據推斷這種微妙的關系。更進一步,位置信息轉換成收入和人口密度的特征工程,可使我們估計這些位置衍生出的特征哪一個更為重要。
3、使用非結構化的數據源
特征工程可使我們在機器學習模型中使用非結構化的數據源。許多數據源本質上并不是結構化的特征向量。非結構化數據,如文本、時間序列、圖像、視頻、日志數據和點擊流等,占創建數據的絕大多數。特征工程使從業者從上述原始數據流中產生機器學習的特征向量。
4、創建更容易解釋的特征
特征工程使機器學習的從業者能夠創建更易于解釋和實用的特征。通常,使用機器學習發現數據中的模式,對于產生精確的預測十分有用,但會遇到模型的可解釋性和模型的最終應用的一些限制。這些情況下,在驅動數據生成、鏈接原始數據和目標變量的過程中,產生更有指示性的新特征,這樣更有價值。
5、用大特征集提高創造性
特征工程使得我們可以扔進大量的特征,觀察它們代表了什么。我們能創建盡可能多的數據,觀察在訓練模型中哪些更有預測力。這使得機器學習的從業者在創建和測試特征時擺脫僵化心理,并能夠發現新的趨勢和模式。
雖然當幾十個甚至上百個特征用于訓練機器學習模型時,過擬合成為一個問題,但嚴謹的特征選擇算法,可減少特征使其易于管理。例如,我們可以自主選擇前10個特征的預測,與所有1000個特征的預測是一樣好,還是優于后者。
特征工程
引自《機器學習實戰》
在機器學習應用領域中,特征工程扮演著非常重要的角色,可以說特征工程是機器學習應用的基礎。在機器學習業界流傳著這樣一句話:“數據和特征決定了機器學習算法的上限,而模型和算法只是不斷逼近而已。”在機器學習應用中,特征工程介于“數據”和“模型”之間,特征工程是使用數據的專業領域知識創建能夠使機器學習算法工作的特征的過程,而好的數據勝于多的數據。美國計算機科學家Peter Norvig有兩句經典名言:“基于大量數據的簡單模型勝于少量數據的復雜模型。”以及“更多的數據勝于聰明的算法,而好的數據勝于多的數據?!币虼?,特征工程的前提是收集足夠多的數據,其次是從大量數據中提取關鍵信息并表示為模型所需要的形式。合適的特征可以讓模型預測更加容易,機器學習應用更有可能成功。
引自《美團機器學習》
在監督機器學習過程中,我們使用數據教自動系統如何做出準確的決策。機器學習算法被設計成發現模式和歷史訓練數據間的聯系;它們從數據中學習并將學習結果編碼到模型中,從而對新數據的重要屬性做出準確的預測。因此,訓練數據是機器學習中的基本問題。有了高質量的數據,就可以捕捉到細微的差別和關聯關系,從而建立高保真的預測系統。相反,若訓練數據質量不佳,則再好的機器學習算法也無濟于事。
-
機器學習
+關注
關注
66文章
8306瀏覽量
131838
發布評論請先 登錄
相關推薦
評論