Kaggle是互聯(lián)網(wǎng)上最著名的數(shù)據(jù)科學(xué)競賽平臺之一,今年3月8日,這家機構(gòu)被谷歌收購,6月6日又宣布用戶數(shù)量超過了100萬人。最近,這一社區(qū)首次進行了機器學(xué)習(xí)/數(shù)據(jù)科學(xué)現(xiàn)狀調(diào)查。在超過16,000名從業(yè)者的詳盡答卷中,我們可以一窺目前業(yè)內(nèi)的發(fā)展趨勢。有趣的是,Kaggle也將調(diào)查結(jié)果封裝成了匿名數(shù)據(jù)集以供大家自行分析。
有史以來第一次,Kaggle對人工智能領(lǐng)域進行了全行業(yè)深度調(diào)查,試圖全面了解數(shù)據(jù)科學(xué)和機器學(xué)習(xí)概況。本次調(diào)查收到了超過16,000份回復(fù),眾多受調(diào)查者的數(shù)據(jù)向我們提供了有關(guān)從業(yè)者人群、業(yè)界最新動態(tài)以及如何進入該行業(yè)的洞見。以下報告包括本次調(diào)查的所有主要結(jié)果,其中包含的主要內(nèi)容有:
雖然Python很可能是機器學(xué)習(xí)最常用的編程語言,但統(tǒng)計學(xué)家更多地使用R語言。
平均而言,數(shù)據(jù)科學(xué)家的年齡在30歲左右,但是這個數(shù)字在不同的國家有所不同。例如,印度的受訪者要比澳大利亞的平均年輕9歲。
有關(guān)被調(diào)查者教育程度,最普遍的學(xué)位是碩士,但是工資最高的($150k+)人群中,擁有博士學(xué)位的人稍稍多一點。
Kaggle已經(jīng)公開了該調(diào)查的匿名數(shù)據(jù)集,以供大家進行探究:https://www.kaggle.com/kaggle/kaggle-survey-2017。
如何定義數(shù)據(jù)工作者?
觀察數(shù)據(jù)從業(yè)者的方式有很多,但本文將從有關(guān)數(shù)據(jù)科學(xué)從業(yè)者的工作和背景的人口統(tǒng)計學(xué)信息開始。
調(diào)查對象的年齡
如圖可見,本次調(diào)查對象的平均年齡大約30歲,但這個值在各個國家之間有變動。例如印度的調(diào)查對象的平均年齡就比澳大利亞的小了9歲。
你目前的就業(yè)狀況如何?
受調(diào)查者中,有65.7%表示自己有全職工作。
你的職位是什么?
盡管我們把數(shù)據(jù)科學(xué)家定義為使用代碼分析數(shù)據(jù)的人,我們發(fā)現(xiàn)數(shù)據(jù)科學(xué)領(lǐng)域可涵蓋的工作非常多。比如在伊朗和馬來西亞,數(shù)據(jù)科學(xué)從業(yè)者最流行的工作頭銜是「科學(xué)家或者研究者」。
你的全職年薪是多少?
中位數(shù)$55,441,不過由于很多人沒有全職工作(收入為0),所以這一數(shù)字不甚準(zhǔn)確。盡管在我們的調(diào)查中「補償和福利」的重要性排序稍微比「職業(yè)發(fā)展機遇」的低一點,不過知道什么是合理的補償依然不錯。在美國,一般機器學(xué)習(xí)工程師帶回家最多的是培根。
131個回復(fù)由于超出最大值而沒有顯示出來,但它們被算進了中位數(shù)。
你的最高學(xué)歷是什么?
因此,你需要再獲得一個學(xué)位嗎?通常來講,數(shù)據(jù)科學(xué)從業(yè)者中最普遍的學(xué)歷是碩士,但是獲取最高薪水($150K-$200K和$200k+)的那些人多是有著博士學(xué)位。
被調(diào)查者的平均水平是數(shù)據(jù)科學(xué)家職稱,30歲左右,碩士學(xué)歷,年薪$55,000左右。但實際情況并不如此平均。這些最初的幾個人口統(tǒng)計學(xué)問題只是展示了復(fù)雜的Kaggle數(shù)據(jù)科學(xué)社區(qū)在年齡、性別、國籍、工作職稱、薪水、經(jīng)驗和學(xué)歷方面的表層差異。
數(shù)據(jù)科學(xué)家的工作內(nèi)容是什么?
我們把數(shù)據(jù)科學(xué)家定義為寫代碼以分析數(shù)據(jù)的一群人。他們的日常工作內(nèi)容是什么?以下是我們的調(diào)查結(jié)果。
工作中使用什么數(shù)據(jù)科學(xué)方法?
Logistic回歸是工作之中最為常用的數(shù)據(jù)科學(xué)方法,不過神經(jīng)網(wǎng)絡(luò)使用更為頻繁的國家安全領(lǐng)域除外。總的來說,數(shù)據(jù)科學(xué)中更常見的還是使用經(jīng)典的機器學(xué)習(xí)算法,簡單的線性與非線性分類器是數(shù)據(jù)科學(xué)中最常見的算法,而功能強大的集成方法也十分受歡迎。我們看到目前神經(jīng)網(wǎng)絡(luò)模型的使用頻率要高于支持向量機,這可能是近來多層感知機要比使用帶核函數(shù)的SVM更加廣泛的表現(xiàn)。
工作中使用最多的語言是什么?
Python是數(shù)據(jù)科學(xué)家最常用的語言,也是最常用的數(shù)據(jù)分析工具。不過,還有很多數(shù)據(jù)科學(xué)家仍然保持著對R語言的忠誠。
以上僅展示了15個回答,還有38個回答被隱藏。
在工作中常用的數(shù)據(jù)類型是什么?
關(guān)系型數(shù)據(jù)是開發(fā)者在工作中最常用的數(shù)據(jù)類型,因為大多數(shù)產(chǎn)業(yè)工程師都十分關(guān)注于這種關(guān)系型數(shù)據(jù)。而學(xué)術(shù)研究者和國防安全產(chǎn)業(yè)則更注重于文本與圖像。
如何分享工作中的代碼?
盡管很多受訪者(58.4%)使用Git在工作分享他們的代碼。但大公司中的開發(fā)者更傾向于將代碼保留在本地,并通過像Email那樣的文件共享軟件來分享他們的代碼。而初創(chuàng)公司可能需要在云中共享以保持更加敏捷的反應(yīng)。
工作中遇到的障礙主要是什么?
臟數(shù)據(jù)(dirtydata)顯然是排在了第一位,也就是說數(shù)據(jù)科學(xué)家一般最常見的困擾就是需要對數(shù)據(jù)進行大量的預(yù)處理工程。除了數(shù)據(jù)預(yù)處理工程以外,還有很多問題困擾著數(shù)據(jù)科學(xué)家,比如說眾多的機器學(xué)習(xí)算法各有各的擅長領(lǐng)域,所以理解它們的性能也會有一些困難。不過我們注意到向其他人解釋數(shù)據(jù)科學(xué)是什么也會困擾著數(shù)據(jù)科學(xué)家,解決辦法可以是推薦機器之心呀。
上圖僅展示了前面的15個回答,還有7個回答沒有展示。
此外,如果你們點擊選擇條件,那么就能按照條件過濾回答。很多行業(yè)的受訪者表示他們?nèi)鄙贁?shù)據(jù)科學(xué)相關(guān)的人才,所以數(shù)據(jù)科學(xué)家目前是十分幸運的。
數(shù)據(jù)科學(xué)家新手如何入行?
當(dāng)開始一個新的職業(yè)生涯的時候,看看別人的成功秘訣是很有幫助的。我們調(diào)查了在數(shù)據(jù)科學(xué)行業(yè)工作的人們,詢問他們是如何做到的。以下是我們最喜歡的幾條建議:
你們會推薦數(shù)據(jù)科學(xué)家新手最先學(xué)哪門語言?
每一位數(shù)據(jù)科學(xué)家都有自己的對選擇第一門語言的想法。事實證明,那些僅使用Python或R語言的人們做出了正確的選擇。不過如果你問一下使用過R和Python的人們,他們有兩倍的可能會推薦Python給你。
你們使用哪些數(shù)據(jù)科學(xué)學(xué)習(xí)資源?
數(shù)據(jù)科學(xué)是一個快速變化的領(lǐng)域,有很多有價值的資源可以幫助你學(xué)習(xí)并保持業(yè)內(nèi)的頂尖位置,從而不斷提升你的競爭力。已經(jīng)在數(shù)據(jù)科學(xué)領(lǐng)域中工作的人們會更多使用StackOverflowQ&A,Conferences和Podcasts,以對不斷涌入這個領(lǐng)域的人們保持自己的優(yōu)勢。如果想要發(fā)布內(nèi)容或開源軟件,請時刻記住剛進入這個領(lǐng)域的人們通常更多使用官方的文檔和觀看Youtube視頻。
你們在哪里獲取開源數(shù)據(jù)?
沒有數(shù)據(jù),就沒有數(shù)據(jù)科學(xué)。當(dāng)需要學(xué)習(xí)數(shù)據(jù)科學(xué)技巧的時候,知道如何找到干凈的開源數(shù)據(jù)集用于練習(xí)和開發(fā)項目相當(dāng)重要。很高興得知我們的數(shù)據(jù)集聚合器(datasetaggregators,https://www.kaggle.com/datasets)正發(fā)展為數(shù)據(jù)科學(xué)社區(qū)成員中最頻繁使用的工具。
你們怎么找工作,怎么找到的?
找工作的時候,可能到公司網(wǎng)站上,或在指定技術(shù)方向的招聘信息上,但是根據(jù)已經(jīng)在數(shù)據(jù)科學(xué)領(lǐng)域工作的人們的經(jīng)驗,這些方式是最差的選擇。而直接聯(lián)系招聘者或建立自己的網(wǎng)絡(luò)以進入這個領(lǐng)域才是他們的首選。
Note:少于50名受訪者的組別被合并進了「Other」類中。其中一些柱狀圖為了美觀而做了縮放處理,希望查看所有問題和結(jié)果的原始數(shù)據(jù)可訪問:https://www.kaggle.com/amberthomas/kaggle-2017-survey-results。
-
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8382瀏覽量
132444 -
python
+關(guān)注
關(guān)注
56文章
4783瀏覽量
84474
原文標(biāo)題:Kaggle首份機器學(xué)習(xí)大調(diào)查:最常用的算法、語言竟然是......
文章出處:【微信號:jingzhenglizixun,微信公眾號:機器人博覽】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論