這篇文章是學習了老曹的微信直播,感覺WordCloud對我的《Python數據挖掘課程》非常有幫助,希望這篇基礎文章對你有所幫助,同時自己也是詞云的初學者,強烈推薦老曹的博客供大家學習。如果文章中存在不足或錯誤的地方,還請海涵~
一. 安裝WordCloud
在使用WordCloud詞云之前,需要使用pip安裝相應的包。
pip install WordCloud
pip install jieba
其中WordCloud是詞云,jieba是結巴分詞工具。 問題:在安裝WordCloud過程中,你可能遇到的第一個錯誤如下。
error: Microsoft Visual C++ 9.0 is required. Get it from http://asa.ms/vcpython27
解決方法也很簡單,下載VCForPython27安裝(Microsoft Visual C++ Compiler for Python 2.7)。但是在微軟下載總是沒響應。 這是最大的問題,下面我自己提供一個CSDN的地址供大家下載。下載完成,可以進行安裝響應的庫函數。 資源地址:http://download.csdn.net/detail/eastmount/9788218
安裝完成之后,可以正常運行代碼啦。
二. 簡單詞云代碼
下面這部分代碼參考老曹的,希望對你有所幫助。 老曹說:什么是詞云呢?詞云又叫文字云,是對文本數據中出現頻率較高的“關鍵詞”在視覺上的突出呈現,形成關鍵詞的渲染形成類似云一樣的彩色圖片,從而一眼就可以領略文本數據的主要表達意思。 代碼如下:
運行結果如下所示:
這是中文編碼問題,下面講解解決方法。
三. 中文編碼錯誤及解決
在WordCloud安裝的目錄下找到WordCloud.py文件,對源碼進行修改。
編輯wordcloud.py,找到FONT_PATH,將DroidSansMono.ttf修改成msyh.ttf。這個msyh.ttf表示微軟雅黑中文字體。
注意,此時運行代碼還是報錯,因為需要在同一個目錄下放置msyh.ttf字體文件供程序調用,如下圖所示,這是原來的字體DroidSansMono.ttf。
此時的運行結果如下所示,這是分析CSDN多篇博客的主題,"閱讀"和"評論"比較多。
也可以采用下面的代碼:
wordcloud = WordCloud(font_path = 'MSYH.TTF').fit_words(word)
四. 照片背景的詞云代碼
下面進一步深入,假設存在一個圖 "sss3.png",核心代碼如下:
運行結果如下圖所示,顯示我和寶寶我倆最近兩月的聊天記錄。
一弦一柱思華年,一co一ding夢嚴賢。 希望文章對你有所幫助,尤其是結合數據庫做數據分析的人。還是那句話,如果剛好需要這部分知識,你就會覺得非常有幫助,否則只是覺得好玩,這也是在線筆記的作用。如果文章中存在不足或錯誤的地方,還請海涵~
-
數據挖掘
+關注
關注
1文章
406瀏覽量
24212 -
python
+關注
關注
56文章
4783瀏覽量
84474
原文標題:Python數據挖掘:WordCloud詞云配置過程及詞頻分析
文章出處:【微信號:magedu-Linux,微信公眾號:馬哥Linux運維】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論