一、沒有免費午餐定理
1995年,D.H.Wolpert等人提出沒有免費午餐定理(No Free Lunch Theorem)。該定理具體描述為:任何一個預測函數,如果在一些訓練樣本上表現好,那么必然在另一些訓練樣本上表現不好,如果不對數據在特征空間的先驗分布有一定假設,那么表現好與表現不好的情況一樣多。因此,沒有一個機器學習算法在任何情況下表現均優。
二、未假設先驗分布的預測
假設一臺計算機只有兩個存儲單元,并假設計算機的存儲單元不是屬于第一類就是屬于第二類。當已知一個存儲單元屬于第一類,預測另一個存儲單元的類別。該預測問題可能包含兩種情況:
(1)第一個和第二個存儲單元均屬于第一類。
(2)第一個存儲單元屬于第一類,第二個存儲單元屬于第二類。
若沒有假設兩種情況的先驗概率分布(即默認兩種情況先驗概率相同),則兩種情況出現的概率相同。此時,無論預測第二個存儲單元屬于哪種類別,正確或錯誤預測的概率均為50%。
當假設計算機的存儲單元為三個或三個以上時,正確或錯誤預測每個存儲單元的概率均為50%(如圖一所示,圖一中圓圈代表第一類,叉代表第二類)。
圖一,圖片來源:中國慕課大學《機器學習概論》 因此,即使增加已知存儲單元類別的個數,正確或錯誤預測每個未知存儲單元的概率也為50%。
圖片來源:中國慕課大學《機器學習概論》 綜上,可得到推論:無論計算機的存儲單元有多少,無論已知多少個類別信息,如果默認各種情況先驗概率相同,正確預測的概率均為50%。即默認各種情況先驗概率相同的情況下,所有的機器學習算法與隨機猜測的結果相同。 三、假設先驗分布的預測 如圖二所示,如果預測圖中問號處的圖形,則多數人可能預測偏上的問號是圈,偏下的問號是叉。該預測與所有流行的機器學習算法做出的預測相同。
圖二,圖片來源:中國慕課大學《機器學習概論》 機器學習算法偏向做出上述預測的原因是開發人員在設計機器學習算法時假設:在特征空間上距離接近的樣本屬于同一類別的概率更高?;诖思僭O,圖二中問號處圖形的各種情況先驗概率不同。偏上的問號是圓圈的先驗概率高,是叉的先驗概率低;偏下的問號是叉的先驗概率高,是圓圈的先驗概率低。
四、先驗假設是否準確的討論 先驗假設不一定準確,下文舉例說明。
例一:假設明天太陽會照常升起。該假設基于人們數千次或數萬次看見太陽升起,基于過去的書籍中對太陽升起的多次記錄,基于如萬有引力的論證,并通過類比推廣得出。此種方式得出的假設不能保證基于該假設的預測結果準確率達到100%。
例二:圖二的預測中,如果圓圈代表花朵,叉代表蜜蜂,那么偏上的問號處可能是蜜蜂,該蜜蜂落入花叢中,并通知其他蜜蜂到此地采蜜。
圖片來源:中國慕課大學《機器學習概論》
審核編輯 :李倩
-
算法
+關注
關注
23文章
4600瀏覽量
92646 -
計算機
+關注
關注
19文章
7424瀏覽量
87719 -
云機器學習
+關注
關注
0文章
2瀏覽量
1825
原文標題:機器學習相關介紹(5)——沒有免費午餐定理
文章出處:【微信號:行業學習與研究,微信公眾號:行業學習與研究】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論