精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于距離的聚類算法K-means的設計實現

云深之無跡 ? 來源:云深之無跡 ? 作者:云深之無跡 ? 2022-07-18 09:19 ? 次閱讀

K-means 算法是典型的基于距離的聚類算法,采用距離作為相似性的評價指標,兩個對象的距離越近,其相似度就越大。而簇是由距離靠近的對象組成的,因此算法目的是得到緊湊并且獨立的簇。

假設要將對象分成 k 個簇,算法過程如下:

(1) 隨機選取任意 k 個對象作為初始聚類的中心(質心,Centroid),初始代表每一個簇;

(2) 對數據集中剩余的每個對象根據它們與各個簇中心的距離將每個對象重新賦給最近的簇;

(3) 重新計算已經得到的各個簇的質心;

(4) 迭代步驟(2)-(3)直至新的質心與原來的質心相等或小于設定的閾值,算法結束。

注意!

(1) 在 K-means 算法 k 值通常取決于人的主觀經驗;

(2) 距離公式常用歐氏距離和余弦相似度公式,前者是根據位置坐標直接計算的,主要體現個體數值特征的差異,而后者更多體現了方向上的差異而不是位置上的,cosθ越接近 1 個體越相似,可以修正不同度量標準不統一的問題;

(3) K-means 算法獲得的是局部最優解,在算法中,初始聚類中心常常是隨機選擇的,一旦初始值選擇的不好,可能無法得到有效的聚類結果。

對于一堆數據,K 值(簇數)的最優解如何確定呢?常見的有“肘”方法

(Elbow method)和輪廓系數法(Silhouette Coeffient):

① “肘”方法:核心指標是 SSE(sum of the squared errors,誤差平方和),即所有樣本的聚類誤差(累計每個簇中樣本到質心距離的平方和),隨著 K 的增大每個簇聚合度會增強,SSE 下降幅度會增大,隨著 K 值繼續增大 SSE 的下降幅度會減少并趨于平緩,SSE 和 K 值的關系圖會呈現成一個手肘的形狀,此肘部對應的 K 值就是最佳的聚類數。

② 輪廓系數法:結合聚類的凝聚度(Cohesion)和分離度(Separation)來考慮,凝聚度為樣本與同簇其他樣本的平均距離,分離度為樣本與最近簇中所有樣本的平均距離,該值處于-1~1 之間,值越大表示聚類效果越好。

以 iris 數據為例:

poYBAGLUtSOAJKcwAAFOOJv4bLs862.jpg

代碼實現

poYBAGLUtTuADjHJAACKef0dKCo616.jpg

由圖看出拐點在 K=2 處,K=3 次之,iris 實際數據分成了三類。



審核編輯:劉清
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4551

    瀏覽量

    92017
  • python
    +關注

    關注

    53

    文章

    4753

    瀏覽量

    84070

原文標題:Python實現所有算法-K-means

文章出處:【微信號:TT1827652464,微信公眾號:云深之無跡】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    Web文檔k-means算法的改進

    Web文檔k-means算法的改進 介紹了Web文檔中普遍使用的、基于分割的
    發表于 09-19 09:17 ?1027次閱讀
    Web文檔<b class='flag-5'>聚</b><b class='flag-5'>類</b>中<b class='flag-5'>k-means</b><b class='flag-5'>算法</b>的改進

    K-means+算法研究綜述

    介紹了K-means 算法的目標函數、算法流程,并列舉了一個實例,指出了數據子集的數目K、初
    發表于 05-07 14:09 ?27次下載
    <b class='flag-5'>K-means</b>+<b class='flag-5'>聚</b><b class='flag-5'>類</b><b class='flag-5'>算法</b>研究綜述

    基于離散量改進k-means初始中心選擇的算法

    傳統kmeans算法由于初始中心的選擇是隨機的,因此會使結果不穩定。針對這個問題,提出一種基于離散量改進
    發表于 11-20 10:03 ?2次下載

    基于密度的K-means算法數目中應用

    針對傳統的K-means算法無法預先明確數目,對初始中心選取敏感且易受離群孤點影響導致
    發表于 11-25 11:35 ?0次下載

    K均值算法的MATLAB實現

    K-means算法是最簡單的一種算法算法的目的是使各個樣本與所在
    發表于 12-01 14:07 ?2w次閱讀
    <b class='flag-5'>K</b>均值<b class='flag-5'>聚</b><b class='flag-5'>類</b><b class='flag-5'>算法</b>的MATLAB<b class='flag-5'>實現</b>

    K-Means算法改進及優化

    局部最優出現錯誤的結果。針對傳統的k-means算法初始中心的缺點,本文提出了p-
    發表于 12-05 18:32 ?0次下載
    <b class='flag-5'>K-Means</b><b class='flag-5'>算法</b>改進及優化

    基于布谷鳥搜索的K-means算法

    針對原始K-means算法受初始中心影響過大以及容易陷入局部最優的不足,提出一種基于改進
    發表于 12-13 17:24 ?3次下載

    大數據處理的優化抽樣K-means算法

    針對大數據環境下K-means算法精度不足和收斂速度慢的問題,提出一種基于優化抽樣
    發表于 12-22 15:47 ?4次下載
    大數據處理的優化抽樣<b class='flag-5'>聚</b><b class='flag-5'>類</b><b class='flag-5'>K-means</b><b class='flag-5'>算法</b>

    基于距離最大化和缺失數據的填充算法

    通過對基于K-means的缺失值填充算法的改進,文中提出了基于距離最大化和缺失數據
    發表于 01-09 10:56 ?0次下載
    基于<b class='flag-5'>距離</b>最大化和缺失數據<b class='flag-5'>聚</b><b class='flag-5'>類</b>的填充<b class='flag-5'>算法</b>

    K-Means算法的簡單介紹

    K-Means是十大經典數據挖掘算法之一。K-Means和KNN(K鄰近)看上去都是K打頭,但卻是不同種類的
    發表于 07-05 14:18 ?4838次閱讀

    如何使用K-Means算法改進的特征加權算法詳細資料概述

    聚類分析是將研究對象分為相對同質的群組的統計分析技術,聚類分析的核心就是發現有用的對象簇。K-means算法由于具有出色的速度和良好的可擴展性,一直備受廣大學者的關注。然而,傳統的
    發表于 12-20 10:28 ?10次下載

    集成簇內和簇間距離的加權k-means方法

    文本演化分析、圖像、社區發現等。然而在過程中,大部分現有的k-
    發表于 04-28 16:43 ?1次下載
    集成簇內和簇間<b class='flag-5'>距離</b>的加權<b class='flag-5'>k-means</b><b class='flag-5'>聚</b><b class='flag-5'>類</b>方法

    K-MEANS算法概述及工作原理

    K-means 是一種算法,且對于數據科學家而言,是簡單且熱門的無監督式機器學習(ML)算法之一。
    的頭像 發表于 06-06 11:53 ?3763次閱讀

    K-means算法指南

    技術領域中,K-means可能是最常見和經常使用的技術之一。K-means使用迭代細化方法,基于用戶定義的集群數量(由變量K表示)和數
    的頭像 發表于 10-28 14:25 ?1255次閱讀

    大學課程 數據分析 實戰之K-means算法(2)算法代碼

    繼續講解! 程序來啦! 最后看一下程序示例!看看如何用K-means算法實現數據的過程。程序很簡單,側重讓大家了解和掌握
    的頭像 發表于 02-11 07:20 ?387次閱讀