什么是sklearn
Sklearn原稱是Scikit learn,是機器學習領域中最知名的python模塊之一,是基于Python語言的機器學習的工具。他主要建立在NumPy,SciPy,matplotlib之上,提供簡單高效,用于數據挖掘,數據分析等的工具,最重要的是,他是開源的,基于BSD許可證,可以商業使用。這樣子,就給了我們無限的想象。
sklearn與tensorflow優劣勢
目前,在社區中,tensorflow會比較火,很多同學會問,為什么不用tensorflow,這兩個有什么區別,我想,主要從以下這方面來做對比
1、sklearn主要定位是一種通用的機器學習的學習庫,tf主要定位還是深度學習。
2、特征工程上,sklearn提供了例如維度壓縮、特征選擇等,但是這樣子并不代表這tf就比sklearn弱。在傳統的機器學習中,sklearn需要使用者自行對數據進行數據處理,例如進行特征選擇,維度壓縮,轉換格式等,但是tf可以在開始進行數據訓練的過程中,自行從數據中提取有效的特征,從而減少人為的干預。
3、易用性及封裝度上,sklearn更高,這點上,我想很多用過的人都清楚,不做累贅描述。
4、面對項目的不同,sklearn更適合中小型,特別是數據量不大的項目,此時更需要手動者對數據進行處理,并且選擇合適模型的項目,這些計算是可以在CPU直接計算的,沒有什么硬件要求。相對的,tf的應用領域上,往往更加注重數據量較大,一般情況下需要GPU進行加速運算。目前很多公司并沒有很大量的數據,在選擇上,可以作為參考。
機器學習有幾種方式
針對sklearn來講,經常用到的主要有:數據預處理、分類、回歸、分監督分類(聚類),模型選擇,數據降維
應用領域有哪些
目前,sklearn在應用中,主要有四類算法:聚類,分類,回歸,降維
聚類:即非監督學習的方式,例如我有一堆人,這堆數據是沒有男孩或者女孩這些標簽的,此時我需要給這堆數據進行聚類,根據一些身體特征,分成兩類,并標記為男孩,女孩。
分類/回歸:監督學習的方式,還是那堆人,但是已經分好類了,男孩,女孩,此時來了一個新人,我根據這個新人的特征,給他歸類。
降維:如果按照字面意思來理解,那就有問題,當數據集有很多屬性的時候,我們此時需要把100個屬性變成10個,并不是挑出10個,而是壓縮成10個,這10個屬性,就集合了100個屬性特征,簡單理解,就是重要的特征就拿起來,不重要的就吸收了。
至此結束,在下一章節中,我們將會介紹怎么來開發一個機器學習應用。
-
機器學習
+關注
關注
66文章
8377瀏覽量
132409 -
tensorflow
+關注
關注
13文章
328瀏覽量
60499 -
sklearn
+關注
關注
0文章
2瀏覽量
3394
發布評論請先 登錄
相關推薦
評論