機器學習是一個復雜的領域,其最大的挑戰之一是構建可以預測新數據結果的模型。構建一個完全擬合訓練數據的模型很容易,但真正的考驗是它是否可以準確預測新數據的結果。
本文深入探討了過擬合和泛化的概念,并探討了它們與偏差與方差權衡的關系。我們還將討論避免過度擬合和在模型中找到偏差和方差之間最佳平衡的技術。
過擬合
在機器學習中,過度擬合是當模型變得過于復雜并開始過于接近訓練數據時發生的常見問題。這意味著該模型可能無法很好地推廣到新的、看不見的數據,因為它基本上記住了訓練數據,而不是真正學習底層模式或關系。用技術術語來說,考慮一個回歸模型,它需要線性關系,而是使用多項式表示。
當模型太擅長從訓練數據中學習,但不擅長泛化到新數據時,就會發生過度擬合。這可能是深度學習模型的一個特殊問題,深度學習模型有許多參數可以調整以適應訓練數據。
欠擬合
欠擬合與機器學習中的過擬合相反。在欠擬合的情況下(見下圖最左邊的圖表),我們基本上指的是模型對于手頭的任務來說太簡單的情況。換句話說,模型沒有必要的復雜性來捕獲數據中的基礎模式。在技術術語中,考慮一個回歸模型,它需要一個多項式方程,而是使用線性關系表示。
考慮欠擬合的另一種方法是考慮預測房價的例子。如果我們要創建一個僅考慮房屋大小而忽略其他重要因素(如臥室數量)的模型,那么該模型可能會欠擬合數據。發生這種情況是因為模型沒有考慮所有相關信息,因此無法準確預測房價。
欠擬合模型往往具有高偏差和低方差,這意味著它在訓練和測試數據中都會犯很多錯誤。這是因為模型無法捕獲數據之間的關系,因此無法做出準確的預測。
金發姑娘區和最佳模型復雜性
最佳模型復雜性是機器學習模型既不太簡單也不太復雜,但恰到好處地適合它正在處理的數據的最佳點。如果模型過于簡單,它可能無法捕獲數據中的所有重要模式和關系,并可能導致欠擬合。另一方面,如果模型太復雜,它可能會開始記住訓練數據,而不是學習底層模式,這可能導致過度擬合。
找到最佳模型復雜性的目標是在模型擬合和模型復雜性之間取得平衡,其中模型足夠簡單,可以很好地推廣到新數據,但又足夠復雜,可以捕獲訓練數據中的重要模式。
在本文的其余部分,我們將重點介紹可用于找到最佳模型復雜性的不同技術,例如從簡單模型開始并逐漸增加其復雜叉驗證以評估不同數據子集上的模型,以及使用正則化技術來防止過度擬合。
但首先,讓我們首先解釋機器學習中兩個非常重要的概念,即偏差和方差。
機器學習中的偏差和方差之間的差異
想象一下,嘗試創建一個模型來根據房屋的大小預測房屋的價格。我們有一個包含 100 間房屋及其相應價格和大小的數據集。為了進行預測,我們決定使用僅考慮房屋大小的線性回歸模型。
現在,創建模型時可能會出現兩個問題:偏差和方差。當模型過于簡單且無法準確捕獲數據中的模式時,就會發生偏差。在這種情況下,如果我們使用只有一個特征(大?。┑木€性模型,該模型可能無法準確預測房屋的價格,從而導致高偏差。
另一方面,當模型過于復雜并且過度擬合數據時,就會發生方差,這意味著它與訓練數據擬合得太近,但在新的、看不見的數據上表現不佳。在這種情況下,如果我們要使用具有許多特征(例如大小平方、大小立方等)的高階多項式模型,它可能會過度擬合數據,從而導致高方差。
如上圖所示,高方差往往會分散模型的輸出,因為模型過于復雜并且與訓練數據擬合得太近。從本質上講,該模型捕獲了訓練數據中的噪聲,而不是基礎模式。
而在高偏差的情況下,模型傾向于為幾乎所有輸入值產生相似的輸出,這與輸入和輸出之間的真實關系相去甚遠。最佳模型復雜性在于這兩個錯誤之間的平衡,正如我們將在權衡部分看到的那樣,模型具有足夠的靈活性來捕獲數據中的基礎模式,但又不會過度擬合訓練數據的噪聲或特性。
什么是偏差-方差權衡?
偏差-方差權衡是指在偏差和方差之間建立可以很好地推廣到新數據的模型所需的平衡。過于簡單的模型將具有高偏差但低方差,而過于復雜的模型將具有低偏差但高方差。目標是找到適當的復雜程度,以最小化偏差和方差,從而生成一個可以準確地泛化到新數據的模型。
為了在偏差和方差之間取得平衡,我們希望找到模型復雜度的最佳水平,使其能夠準確預測房屋價格,同時很好地推廣到新數據。這可以通過創建誤差與模型復雜性圖來完成,該圖顯示了模型在不同復雜度級別的性能。通過分析此圖,我們可以確定模型復雜度的最佳水平,其中偏差和方差權衡是平衡的。
繪制誤差與模型復雜性的圖形首先要構建一系列具有不同復雜程度的模型。例如,如果我們要創建一個線性回歸模型,我們可以從一個只有一個特征的簡單模型開始,然后逐漸包含更多特征以使模型更加復雜。
然后,我們將在部分數據上訓練每個模型,并在單獨的測試集上評估其性能。為了測量測試集上的預測誤差,我們可以使用均方誤差(MSE)或平均絕對誤差(MAE)等指標。
訓練和評估每個模型后,我們可以根據模型復雜性繪制測試誤差。生成的圖形通常顯示 U 形曲線,其中誤差隨著模型復雜性的增加而減小,從而減少了偏差。但是,隨著模型變得過于復雜并開始過度擬合數據,誤差最終會再次開始增加,從而增加方差。
要確定偏差和方差的最佳復雜度,請在圖形上查找檢驗誤差最低的點(如圖形中間的虛線所示)。這一點表示此特定問題的偏差和方差之間的最佳平衡。
了解機器學習中的泛化
泛化是模型在新數據上表現良好的能力。泛化良好的模型能夠對新數據做出準確的預測,如果我們想在現實世界中使用該模型,這一點很重要。另一方面,泛化效果不佳的模型在訓練的數據上可能表現良好,但可能無法對新數據做出準確的預測。這是一個問題,因為這意味著該模型在實踐中可能沒有用。
當我們訓練機器學習模型時,我們希望它不僅能夠對我們用來訓練它的數據做出準確的預測,而且能夠對它以前從未見過的新數據做出準確的預測。這是因為,在現實世界中,我們并不總是可以訪問用于訓練模型的完全相同的數據,而是新的首次看到的數據點。因此,訓練模型不僅要很好地擬合訓練數據,而且要很好地泛化到新數據,這一點很重要。
解決過度擬合的正則化技術
各種正則化技術通過在損失函數中添加懲罰項來幫助防止過度擬合,這會阻止模型變得過于復雜。
常用的正則化有兩種類型:L1(套索)和 L2(脊)正則化。
套索回歸(L1 正則化)
雖然所有三種方法都為損失函數增加了一個懲罰項,但在套索回歸的情況下,正則化方法向損失函數添加一個與模型參數的絕對(模塊)值成比例的懲罰項。
這種方法鼓勵模型對不重要的特征給予較少的權重,因為它具有將某些參數驅動為零的效果,這有助于特征選擇。這意味著它可以幫助確定哪些特征是最重要的,并丟棄其余特征。這在處理高維數據集時非常有用,其中有許多功能可供選擇。
套索回歸在自變量數遠大于樣本數的高維數據集中特別有用。在這些情況下,套索回歸可以幫助識別最重要的變量并減少噪聲的影響。
套索回歸在自變量數遠大于樣本數的高維數據集中特別有用。在這些情況下,套索回歸可以幫助識別最重要的變量并減少噪聲的影響。
嶺回歸(L2 正則化)
嶺回歸是另一種類型的線性回歸,可用于處理機器學習模型中的過擬合。它類似于套索回歸,因為它在損失函數中添加了一個懲罰項(正則化項),但它不是像套索回歸那樣使用系數的絕對值,而是使用系數的平方。
這具有將不太重要的變量的系數縮小到零的效果,但與套索回歸不同,嶺回歸不會將它們精確設置為零。這意味著嶺回歸不能像套索回歸那樣執行特征選擇,但它更適合所有特征在某種程度上都很重要的情況。
嶺回歸在處理具有高度共線性(特征之間的相關性)的數據集時特別有用。在這種情況下,模型可能無法確定哪些特征重要,哪些特征不重要,從而導致過度擬合。通過在損失函數中添加懲罰項,嶺回歸可以幫助減少過度擬合并使模型更加準確。
彈性網絡回歸
彈性網絡回歸通過使用嶺回歸和套索回歸的技術,結合了兩全其美的優勢。通過將嶺回歸和套索回歸懲罰項添加到損失函數中,彈性凈回歸可以同時執行特征選擇和特征收縮,這使得它比單獨使用任何一種技術都更加靈活和強大。
L1 正則化項嘗試將模型中的某些系數設置為零,這對于特征選擇很有用。這意味著它可以識別有助于預測目標變量并排除不太重要的特征的最重要特征。
另一方面,L2 正則化項有助于控制模型中系數的大小。這對于特征收縮很有用,這意味著它可以減少不太重要的特征對模型性能的影響。
彈性網絡回歸在處理具有大量特征和高度多重共線性的數據集時特別有用,在這些數據集中,模型可能難以區分重要和不重要的特征。通過識別和縮小不太重要的特征,彈性凈回歸可以幫助減少過度擬合并提高模型的泛化性能。
解決過度擬合的交叉驗證技術
交叉驗證
是一種技術,可用于通過評估機器學習模型在有限數據量上的性能來解決過度擬合問題。基本思想是將數據拆分為訓練集和測試集,然后在訓練集上擬合模型并在測試集上評估其性能。
K 折疊交叉驗證
一種流行的交叉驗證技術是 k 折交叉驗證,其中數據被分成 k 個大小相等的部分。模型在零件的 k-1 上訓練,并在其余部分進行測試。此過程重復 k 次,每個部分用于測試一次,并且性能在所有迭代中平均。
留一交叉驗證
留一交叉驗證是另一種技術,其中將單個數據點作為測試集省略,并在剩余數據點上訓練模型。請注意,留一交叉驗證是 k 折疊交叉驗證的特例,其中 k 等于數據集中的數據點數。對于每次迭代,將省略單個數據點作為測試集,并在其余數據點上訓練模型。對每個數據點重復此過程,并計算平均性能。
如何選擇合適的模型復雜性
為機器學習模型選擇正確的復雜性對其性能至關重要。過于簡單的模型將無法捕獲數據的復雜性并且擬合不足,而過于復雜的模型將過度擬合數據,并且在新數據上表現不佳。
要選擇最佳模型復雜性,請從簡單模型開始,逐漸增加復雜性,直到獲得滿意的結果。將數據拆分為訓練集、驗證集和測試集,并使用驗證集選擇最佳模型復雜性。使用交叉驗證來評估模型在不同數據子集上的性能。
最后,使用 L1、L2 和彈性網絡等正則化技術來防止過度擬合。關鍵是平衡模型擬合和復雜性,評估性能并防止過度擬合,以便模型可以很好地泛化到新數據。
?
審核編輯:郭婷
評論
查看更多