引言
Google的自駕車和機器人得到了很多新聞,但公司的真正未來是機器學習,這種技術使計算機變得更智能,更個性化。-Eric Schmidt (Google Chairman)
我們可能生活在人類歷史上最具影響力的時期——計算從大型主機到PC移動到云計算的時期。 但是使這段時期有意義的不是發生了什么,而是在未來幾年里我們的方式。
這個時期令像我這樣的一個人興奮的就是,隨著計算機的推動,工具和技術的民主化。 今天,作為數據科學家,我可以每小時為幾個玩偶構建具有復雜算法的數據處理機。 但到達這里并不容易,我已經度過了許多黑暗的日日夜夜。
誰可以從本指南中獲益最多
我今天發布的可能是我創造的最有價值的指南。
創建本指南背后的理念是簡化全球有抱負的數據科學家和機器學習愛好者的旅程。 本指南能夠使你在研究機器學習問題的過程中獲取經驗。 我提供了關于各種機器學習算法以及R&Python代碼的高級理解以及運行它們,這些應該足以使你得心順手。
?
我故意跳過了這些技術背后的統計數據,因為你不需要在開始時就了解它們。 所以,如果你正在尋找對這些算法的統計學理解,你應該看看別的文章。 但是,如果你正在尋找并開始構建機器學習項目,那么這篇文章給你帶來極大好處。
3類機器學習算法(廣義上)
監督學習
工作原理:該算法由一組目標/結果變量(或因變量)組成,該變量將根據給定的一組預測變量(獨立變量)進行預測。 使用這些變量集,我們生成一個將輸入映射到所需輸出的函數。 訓練過程繼續進行執行,直到模型達到培訓數據所需的準確度水平。 監督學習的例子:回歸,決策樹,隨機森林,KNN,邏輯回歸等
無監督學習
如何工作:在這個算法中,我們沒有任何目標或結果變量來預測/估計。 用于不同群體的群體聚類和用于不同群體的客戶進行特定干預。 無監督學習的例子:Apriori算法,K-means。
加強學習:
工作原理:使用這種算法,機器受到學習和訓練,作出具體決定。 它以這種方式工作:機器暴露在一個環境中,它連續不斷地使用試錯。 該機器從過去的經驗中學習,并嘗試捕獲最好的知識,以做出準確的業務決策。 加強學習示例:馬爾可夫決策過程
常見機器學習算法
以下是常用機器學習算法的列表。 這些算法幾乎可以應用于任何數據問題:
線性回歸
邏輯回歸
決策樹
SVM
樸素貝葉斯
KNN
K-Means
隨機森林
降維算法
Gradient Boost&Adaboost
1.線性回歸
它用于基于連續變量來估計實際價值(房屋成本,電話數量,總銷售額等)。在這里,我們通過擬合最佳線來建立獨立變量和因變量之間的關系。這個最佳擬合線被稱為回歸線,由線性方程Y = a * X + b表示。
理解線性回歸的最好方法是回想童年的經歷。比如,你要求五年級的孩子通過體重來從小到大排序班里的學生,而事先不告訴學生們的體重!你認為孩子會做什么?他/她很可能在身高和體格上分析人物的體重,并使用這些可視參數的組合進行排列。這是現實生活中的線性回歸!孩子實際上已經弄清楚,身高和體格將有一個關系與體重相關聯,看起來就像上面的等式。
在這個方程式中:
Y-因變量
a - 斜率
X - 自變量
b - 截距
這些系數a和b是基于最小化數據點和回歸線之間的距離的平方差之和導出的。
看下面的例子。這里我們確定了線性方程y = 0.2811x + 13.9的最佳擬合線。現在使用這個方程,我們可以找到一個人(身高已知)的體重。
?
線性回歸主要有兩種類型:簡單線性回歸和多元線性回歸。 簡單線性回歸的特征在于一個自變量。 而且,多元線性回歸(顧名思義)的特征是多個(多于1個)自變量。 在找到最佳擬合線的同時,可以擬合多項式或曲線回歸線,這些被稱為多項式或曲線回歸。
評論
查看更多