目前,聚類算法被廣泛應用于用戶畫像、廣告推薦、新聞推送和圖像分割等等。聚類算法是機器學習中一種“數據探索”的分析方法,它幫助我們在大量的數據中探索和發現數據的結構。那么機器學習中的聚類算法有哪幾種呢?下面我將為大家一一介紹常見的幾種聚類算法,分別是高斯聚類模型、基于密度的聚類算法、凝聚層次聚類和均值漂移算法。
1、高斯聚類模型
事實上,GMM 和 k-means 很像,不過 GMM 是學習出一些概率密度函數來,簡單地說,k-means 的結果是每個數據點被 assign 到其中某一個 cluster 了,而 GMM 則給出這些數據點被 assign 到每個 cluster 的概率,又稱作 soft assignment 。
2、基于密度的聚類算法
基于密度的聚類算法最大的優點在于無需定義類的數量,其次可以識別出局外點和噪聲點、并且可以對任意形狀的數據進行聚類。DBSCAN同樣是基于密度的聚類算法,但其原理卻與均值漂移大不相同:首先從沒有被遍歷的任一點開始,利用鄰域距離epsilon來獲取周圍點;如果鄰域內點的數量滿足閾值則此點成為核心點并以此開始新一類的聚類;其鄰域內的所有點也屬于同一類,將所有的鄰域內點以epsilon為半徑進行步驟二的計算;重復步驟二、三直到變量完所有核心點的鄰域點;此類聚類完成,同時又以任意未遍歷點開始步驟一到四直到所有數據點都被處理;最終每個數據點都有自己的歸屬類別或者屬于噪聲。
3、K均值聚類
這一最著名的聚類算法主要基于數據點之間的均值和與聚類中心的聚類迭代而成。它主要的優點是十分的高效,由于只需要計算數據點與劇類中心的距離,其計算復雜度只有O(n)。其工作原理主要分為以下四步:首先我們需要預先給定聚類的數目同時隨機初始化聚類中心。我們可以初略的觀察數據并給出較為準確的聚類數目;每一個數據點通過計算與聚類中心的距離了來分類到最鄰近的一類中;根據分類結果,利用分類后的數據點重新計算聚類中心;重復步驟二三直到聚類中心不再變化。
4、凝聚層次聚類
層次聚類法主要有自頂向下和自底向上兩種方式。其中自底向上的方式,最初將每個點看作是獨立的類別,隨后通過一步步的凝聚最后形成獨立的一大類,并包含所有的數據點。這會形成一個樹形結構,并在這一過程中形成聚類。
5、均值漂移算法
這是一種基于滑動窗口的均值算法,用于尋找數據點中密度最大的區域。其目標是找出每一個類的中心點,并通過計算滑窗內點的均值更新滑窗的中心點。最終消除臨近重復值的影響并形成中心點,找到其對應的類別。其工作原理主要是以下幾點:首先以隨機選取的點為圓心r為半徑做一個圓形的滑窗。其目標是找出數據點中密度最高點并作為中心;在每個迭代后滑動窗口的中心將為想著較高密度的方向移動;連續移動,直到任何方向的移動都不能增加滑窗中點的數量,此時滑窗收斂;將上述步驟在多個滑窗上進行以覆蓋所有的點。當過個滑窗收斂重疊時,其經過的點將會通過其滑窗聚類為一個類。
以上就是機器學習中常見的五種聚類算法,大家都了解了嗎?如果還想深入學習聚類算法的相關內容,比如原理、算法效果的衡量標準以及基于Kmeans算法進行改進的優化方法,可以上博學谷官網進行有關課程的在線學習。希望大家通過課程可以學會使用聚類算法進行數據分析,挖掘商業價值。
-
算法
+關注
關注
23文章
4599瀏覽量
92643 -
聚類
+關注
關注
0文章
146瀏覽量
14205 -
機器學習
+關注
關注
66文章
8377瀏覽量
132408
發布評論請先 登錄
相關推薦
評論