機器學習已經變得日益重要,幾乎像電力一樣融入了所有產品的日常中。如何利用機器學習開發出更好的產品,如何成為一名合格的機器學習產品經理可能是很多人都想知道答案的問題。我們在先前的文章中介紹了機器學習最適宜處理的問題以及作為產品經理在構建機器學習產品時需要掌握的技能。那么在了解了機器學習的能力學會了技術之后,我們還需要來談一談這個領域常見的誤區和前任踩過的坑。
當與的數據科學家或工程師溝通的時候,以下幾點關于機器學習的常識性概念是需要注意的。作為一名產品經理,通常情況下沒有很深的學術造詣,但在于團隊進行溝通和推動項目的過程中,基本概念的理解和邏輯需要清晰和正確的。
數據問題
數據缺失
相信每個人對于機器學習的數據需求都是毋庸置疑的。(在這里提到這個問題有點不太適宜,尤其是在這樣一個談論機器學習的博客中提及)然而,在市場中與其他公司進行業余往來和交流的過程中,作者發現有許多希望以智能軟件系統和機器學習為解決策略的公司卻沒有數據。如果你沒有數據,是不能應用機器學習的;你的數據可以來源于本公司的積累,公開獲取或者是合作公司的數據。如果沒有數據,就無從談起機器學習。這也是作為篩選評價人工智能創業公司的一個重要指標:有一些公司宣稱自己有很炫酷的人工智能科技卻沒有數據來驅動這項算法,那么你就要謹慎的審視這家公司了。
數據量小
現今流行的各種機器學習算法都依賴于大數據,并且在數據量大的時候工作效果更好。當數據量較小的時候,你也可以運用機器學習算法,但是一定要注意以下兩點:所選用的模型不受局外點的影響;所選模型沒有過度復雜。當數據量有限的時候,選用統計方法比選用機器學習方法往往更加切實有效。比如大部分的醫療臨床案列樣本量都較小,這個時候選用數據科學來直接分析十分有效。
稀疏數據
有時候,即使你有龐大的數據量,實際可用的數據卻往往是十分稀疏的。比如在亞馬遜平臺上,有成百上千的買家和琳瑯滿目的商品。每個買家只買其中幾樣產品,對于大部分的產品來說你無法找到評價。對于購買量極少的商品來說,更加難找到評價和反饋。當使用稀疏數據進行計算時,必須仔細選擇你所使用的模型和工具,離線算法可能會提供低于標準的結果,用稀疏數據計算效率也較低,因為數據集中大部分內容是空白的。
高維度數據
如你的數據有多種屬性,那么對于模型中的計算和存儲資源的消耗是非常大的。高維度數據需要進行降維運算才可以在機器學習模型中應用。在降維的過程中也要十分小心以確保沒有丟掉信息。知道到底是哪一個維度的信息對結果起到決定性作用,是基于對數據的敏感性和直覺。產品經理們應該在數據選擇的階段就參與工程師和數據科學家們的討論。在這個階段中可以獲得產品的直覺和靈感。比如,我們嘗試預測一個視頻的質量,你可以分析視頻的點擊率,也可以分析視頻的參與度,當一個視頻的點擊度較高的時候,其實并不一定代表該視頻質量高,人們可能只是心不在焉的點開它,但其實把精力關注與瀏覽另一個頁面。所以你在分析時也許會希望再加入其它的維度。
數據清洗
你不能直接把現成的數據拿來套用在機器學習模型上,一個機器學習模型的有效性很大程度上取決于數據質量。數據質量并非指數據特征的豐富性,而是指如何對它進行清洗和處理。你是否移除掉了異常數據,是否對所有域進行了歸一化操作,這些都會對你的模型產生影響。數據對模型的影響是:成也蕭何敗也蕭何。只有正確整潔的數據才是得到正確結果的重要保障!
擬合問題
過擬合
為了更好的解釋過擬合,我們來看看下面這個故事。在2007年經濟危機的時候產生了基金暴跌的現象,看上去不不可能的事件最后卻是真的,許多認為不可被撼動的假設最后都被嚴重擾動。
三天之內,算法產生了嚴重的擾動,對沖基金損失慘重。本文的作者當時在一家量化對沖基金工作工作。當時,這家公司相較于它們的競爭對手來說損失相對較小。為什么呢?另外一家基金公司相對較新,成立較晚,它們用來訓練模型的數據是在2007年前面幾年開始的,而那個時候數據從來沒有跌過。因此,但它們看到數據暴跌時,模型不知該如何反應。而作者的公司經歷過1998年的盧布危機,當時為此付出了代價,但隨后并改進了算法使其適應了暴跌的行情。因此,它的損失沒有其他公司那樣嚴重。
這個故事講了一個過擬合的極端實例,對于門外漢來說,事后的優化會多于事前的預測。在這個。例子中競爭對手的模型基于如下的假設而成立:股票市場景氣。因此,當經濟危機發生時,它不能做出正確的預測,造成了慘痛的損失。
我們如何避免過擬合呢?確保你的模型在更加廣泛的數據集中進行驗證,并且回過頭來想想你的假設,如果在經濟有嚴重波動,用戶行為發生變化的時候,它們是否還成立呢?
欠擬合
欠擬合源于你的模型相對于數據而言過于簡單。比如,你想試著預測買家是否會在某家超市購買蛋糕粉。購買蛋糕粉的行為是一個隨機行為,諸如可支配收入,蛋糕粉的價錢,附近的競爭者等因素均會對最后的決策造成影響,但是,如果你不將其他諸如雇傭率,通貨膨脹率,其他零售商的發展等經濟行為考慮在內,那么你是不能正確預測在這家超市購買蛋糕粉的行為的。如果你的模型表現欠佳,嘗試著回顧你是否找到了足夠的數據來分析問題,你是否可以通過其他方法和角度,加入一些更有效的數據來解決此問題?
計算成本
當建立機器學習產品時,另外一個容易被忽略的領域是計算成本。利用AWS和Azure這樣的服務,可以幫助提升計算能力。然而,在某種程度上,你需要平衡計算成本和模型復雜度,以及預測結果之間的代價。比如,你不可能存儲產品中的每一個數據,你也不可能每次都提供最新的預測。知道你的工程師團隊如何平衡計算代價和機器學習模型的準確性的問題,將會幫助你更好的理解產品的性能。
-
人工智能
+關注
關注
1791文章
46854瀏覽量
237551 -
機器學習
+關注
關注
66文章
8377瀏覽量
132407 -
大數據
+關注
關注
64文章
8863瀏覽量
137295
原文標題:想開發機器學習產品,先鏟平這三個障礙~
文章出處:【微信號:thejiangmen,微信公眾號:將門創投】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論