精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Python數據挖掘:WordCloud詞云配置過程及詞頻分析

馬哥Linux運維 ? 來源:未知 ? 作者:李倩 ? 2018-09-14 14:55 ? 次閱讀

這篇文章是學習了老曹的微信直播,感覺WordCloud對我的《Python數據挖掘課程》非常有幫助,希望這篇基礎文章對你有所幫助,同時自己也是詞云的初學者,強烈推薦老曹的博客供大家學習。如果文章中存在不足或錯誤的地方,還請海涵~

一. 安裝WordCloud

在使用WordCloud詞云之前,需要使用pip安裝相應的包。

pip install WordCloud

pip install jieba

其中WordCloud是詞云,jieba是結巴分詞工具。 問題:在安裝WordCloud過程中,你可能遇到的第一個錯誤如下。

error: Microsoft Visual C++ 9.0 is required. Get it from http://asa.ms/vcpython27

解決方法也很簡單,下載VCForPython27安裝(Microsoft Visual C++ Compiler for Python 2.7)。但是在微軟下載總是沒響應。 這是最大的問題,下面我自己提供一個CSDN的地址供大家下載。下載完成,可以進行安裝響應的庫函數。 資源地址:http://download.csdn.net/detail/eastmount/9788218

安裝完成之后,可以正常運行代碼啦。

二. 簡單詞云代碼

下面這部分代碼參考老曹的,希望對你有所幫助。 老曹說:什么是詞云呢?詞云又叫文字云,是對文本數據中出現頻率較高的“關鍵詞”在視覺上的突出呈現,形成關鍵詞的渲染形成類似云一樣的彩色圖片,從而一眼就可以領略文本數據的主要表達意思。 代碼如下:

運行結果如下所示:

這是中文編碼問題,下面講解解決方法。

三. 中文編碼錯誤及解決

在WordCloud安裝的目錄下找到WordCloud.py文件,對源碼進行修改。

編輯wordcloud.py,找到FONT_PATH,將DroidSansMono.ttf修改成msyh.ttf。這個msyh.ttf表示微軟雅黑中文字體。

注意,此時運行代碼還是報錯,因為需要在同一個目錄下放置msyh.ttf字體文件供程序調用,如下圖所示,這是原來的字體DroidSansMono.ttf。

此時的運行結果如下所示,這是分析CSDN多篇博客的主題,"閱讀"和"評論"比較多。

也可以采用下面的代碼:

wordcloud = WordCloud(font_path = 'MSYH.TTF').fit_words(word)

四. 照片背景的詞云代碼

下面進一步深入,假設存在一個圖 "sss3.png",核心代碼如下:

運行結果如下圖所示,顯示我和寶寶我倆最近兩月的聊天記錄。

一弦一柱思華年,一co一ding夢嚴賢。 希望文章對你有所幫助,尤其是結合數據庫做數據分析的人。還是那句話,如果剛好需要這部分知識,你就會覺得非常有幫助,否則只是覺得好玩,這也是在線筆記的作用。如果文章中存在不足或錯誤的地方,還請海涵~

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據挖掘
    +關注

    關注

    1

    文章

    406

    瀏覽量

    24212
  • python
    +關注

    關注

    56

    文章

    4783

    瀏覽量

    84474

原文標題:Python數據挖掘:WordCloud詞云配置過程及詞頻分析

文章出處:【微信號:magedu-Linux,微信公眾號:馬哥Linux運維】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    計算數據挖掘

    想要自學計算和數據挖掘想問下這些方面有哪些內容該從何開始求大神們指教謝謝
    發表于 04-19 00:07

    python數據分析的類庫

    Python之所以這么流行,這么好用,就是因為Python提供了大量的第三方的庫,開箱即用,非常方便,而且還免費哦,學Python的同學里估計有30%以上是為了做數據分析師或者
    發表于 05-10 15:18

    怎么有效學習Python數據分析

    過程。對于新手,如何學好python,這些很關鍵:Part1:能掌握好Python關鍵代碼以及Pandas、Numpy、Matplotlib、Seaborn這四個基本工具包,便能獨立完成一些簡單的
    發表于 06-28 15:18

    靈玖軟件:NLPIR智能挖掘系統專注中文處理

    和氣象學。大數據提出了數據庫和數據分析研究了隆重的挑戰。應對大數據的挑戰,文本處理是不可或缺的一部分。大數據與人們以各種方式連接的媒介。尤其
    發表于 01-21 11:39

    xpath運用基本方法和生成

    xpath解析頁面以及分析
    發表于 02-27 13:52

    Python生成的淘寶評論云圖

    Python——對淘寶評論詞頻統計并生成云圖
    發表于 11-04 06:12

    NLPIR大數據語義分析系統的使用手冊

    統計信息輸出文件 文件統計結果包括:文檔名、總詞頻、總詞數、用戶詞典總詞頻與用戶詞典 總詞數。批量分詞 對原始語料進行分詞、自動識別人名地名機構名等未登錄、新詞標注以及 詞性標注。可在分析
    發表于 11-14 17:04

    數據挖掘之基于關聯挖掘的商品銷售分析

    數據挖掘:基于關聯挖掘的商品銷售分析
    發表于 06-09 08:32

    LabVIEW生成酷炫的(wordcloud)效果

    通過LabVIEW調用Pythonwordcloud和matplotlib庫,實現如下圖所示的效果
    發表于 12-27 22:54

    基于關鍵相似度的用戶挖掘研究

    在Web挖掘極度盛行的今天,收集大量網絡數據已經不是問題,而如何在海量數據中抽取去噪后的有用數據成為要解決的關鍵問題。本文研究將網站用戶的搜索關鍵
    發表于 12-13 10:15 ?0次下載

    基于詞頻統計的關鍵提取方法

    在TF-IDF算法基礎上,提出新的基于詞頻統計的關鍵提取方法。利用段落標注技術,對處于不同位置的詞語給予不同的位置權重,對分詞結果中詞頻較高的同詞性詞語進行詞語相似度計算,合并相似度較高的詞語
    發表于 12-15 15:29 ?13次下載
    基于<b class='flag-5'>詞頻</b>統計的關鍵<b class='flag-5'>詞</b>提取方法

    python統計詞頻的三種方法

    python統計詞頻的三種方法方法。
    發表于 05-25 14:33 ?2次下載

    python數據挖掘與機器學習

    用的數據挖掘和機器學習工具。 一、數據挖掘 數據挖掘是指從大量
    的頭像 發表于 08-17 16:29 ?1289次閱讀

    python數據挖掘案例

    Python數據挖掘的強大功能。 一、金融領域 1.股票價格預測 股票市場是一個復雜的系統,而股票價格的預測對于投資者來說常常是至關重要的。Python
    的頭像 發表于 08-17 16:29 ?1645次閱讀

    Dynaconf 輕松實現 Python 動態配置管理

    ) **如果你用Python的目的是數據分析,可以直接安裝Anaconda: Python數據分析挖掘好幫手—Anaconda ,它內置了
    的頭像 發表于 10-30 15:02 ?850次閱讀