如果你是一個(gè)數(shù)據(jù)科學(xué)的求職者,那么你一定想知道在你的簡(jiǎn)歷上應(yīng)該寫些什么技能會(huì)有更大的概率接到面試。如果你想進(jìn)入這個(gè)領(lǐng)域,你可能已經(jīng)多次想要知道哪些技術(shù)可以成為一個(gè)有吸引力的候選人。
本篇將告訴你答案。
▍機(jī)器學(xué)習(xí)工程師所需的語言更加多樣化
作為熱門語言,Python成為機(jī)器學(xué)習(xí)工程師的首選語言并不令人驚訝。此外,由于需要從頭開始實(shí)現(xiàn)算法并在大數(shù)據(jù)環(huán)境中部署ML模型,因此C ++和Scala等相關(guān)語言也很重要。 總的來說,與其他兩個(gè)角色相比,語言的需求似乎更加分散??偟膩碚f,機(jī)器學(xué)習(xí)工程師的主要語言是:Python,Scala,Java,C ++,Lua,SQL,Javascript,Matlab,CSS和C#。
▍成為一名數(shù)據(jù)工程師,SQL是必須的技能
數(shù)據(jù)工程師常常處理數(shù)據(jù)庫,而SQL是數(shù)據(jù)庫的語言,所以SQL是數(shù)據(jù)工程師必備的語言。Python雖然很重要,但對(duì)于數(shù)據(jù)工程師而言,Scala和Java更為重要,因?yàn)檫@些語言可以幫助他們處理更大的數(shù)據(jù)。
總的來水,數(shù)據(jù)工程師的主要語言是:SQL,Scala,Java,Python和Lua。
▍Scala是數(shù)據(jù)科學(xué)中第二大進(jìn)口語言
當(dāng)我們對(duì)比不同的角色時(shí),驚奇的發(fā)現(xiàn),Scala不是第二個(gè)就是第三個(gè)。 所以我們可以說數(shù)據(jù)科學(xué)中的前三種語言是Python,SQL和Scala。如果你正在考慮學(xué)習(xí)一門新語言,也可以考慮使用Scala。
▍Spark是除數(shù)據(jù)工程師之外的首選大數(shù)據(jù)技能
僅對(duì)于數(shù)據(jù)工程師而言,Hadoop比Spark更多,但總的來說,Spark絕對(duì)是首先應(yīng)該學(xué)習(xí)的大數(shù)據(jù)框架。Cassandra對(duì)工程師而言比科學(xué)家更重要,而Storm似乎只與數(shù)據(jù)工程師有關(guān)。
總的來說,數(shù)據(jù)科學(xué)的大數(shù)據(jù)技術(shù)是:Spark,Hadoop,Kafka,Hive。
數(shù)據(jù)工程師的職位描述中幾乎沒有提到深度學(xué)習(xí)框架,因此該角色幾乎是不需要DL框架的。而更多使用DL框架的是機(jī)器學(xué)習(xí)工程師,這表明了機(jī)器學(xué)習(xí)工程師更多地是處理機(jī)器學(xué)習(xí)建模,而不僅僅是部署模型。另外,TensorFlow在深度學(xué)習(xí)的領(lǐng)域中是占據(jù)著主導(dǎo)地位的。盡管Keras作為高級(jí)深度學(xué)習(xí)框架在數(shù)據(jù)科學(xué)家中也是非常受歡迎的,但它幾乎與機(jī)器學(xué)習(xí)工程師沒什么關(guān)系,這也表明ML從業(yè)者們大多都使用較低級(jí)別的框架,比如TensorFlow。
總的來說,數(shù)據(jù)科學(xué)中最重要的幾個(gè)深度學(xué)習(xí)框架是:TensorFlow,Torch,Caffee,MXNet。
▍AWS是云計(jì)算平臺(tái)的主導(dǎo)
▍計(jì)算機(jī)視覺是機(jī)器學(xué)習(xí)中大部分需求的來源
對(duì)于一般數(shù)據(jù)科學(xué)家而言,自然語言處理是最大的ML應(yīng)用領(lǐng)域,其次是計(jì)算機(jī)視覺,語音識(shí)別,欺詐檢測(cè)和推薦系統(tǒng)。但對(duì)于機(jī)器學(xué)習(xí)工程師而言,最大的需求卻來自計(jì)算機(jī)視覺,而自然語言處理則一直是第二。另一方面,不論是計(jì)算機(jī)視覺還是自然語言處理,與數(shù)據(jù)工程師都沒什么關(guān)系。
如果你想成為一個(gè)數(shù)據(jù)科學(xué)家,可以選擇各種類型的項(xiàng)目,根據(jù)你想要進(jìn)入的領(lǐng)域展示專業(yè)知識(shí),但對(duì)于機(jī)器學(xué)習(xí)工程師而言,計(jì)算機(jī)視覺則是最佳選擇。
▍Tableau是必會(huì)的可視化工具
可視化工具主要是數(shù)據(jù)科學(xué)家所需要的,很少會(huì)有人提到數(shù)據(jù)工程師和機(jī)器學(xué)習(xí)工程師。 盡管如此,Tableau可是說是所有角色的首選。但對(duì)于數(shù)據(jù)科學(xué)家而言,Shiny,Matplotlib,ggplot和Seaborn也同樣得重要。
▍每個(gè)人都必須會(huì)Git,而Docker僅適用于工程師
下面,我們將使用詞云來探索上面提到的每個(gè)角色最常用的一些關(guān)鍵詞,然后結(jié)合相應(yīng)的技能為所有數(shù)據(jù)科學(xué)角色構(gòu)建理想的描述。
▍數(shù)據(jù)科學(xué)家:更關(guān)注機(jī)器學(xué)習(xí)
數(shù)據(jù)科學(xué)家一直被視為需要統(tǒng)計(jì),分析,機(jī)器學(xué)習(xí)和商業(yè)知識(shí)的全方位專業(yè)。然而,現(xiàn)在從詞云比重看來,數(shù)據(jù)科學(xué)家們更多地關(guān)注機(jī)器學(xué)習(xí)而不是其他的一些東西。
▍機(jī)器學(xué)習(xí)工程師:研究,系統(tǒng)設(shè)計(jì)和構(gòu)建的
與數(shù)據(jù)科學(xué)家相比,機(jī)器學(xué)習(xí)工程師會(huì)有一個(gè)更集中的組合,包括研究,設(shè)計(jì)和工程。顯然,解決方案,產(chǎn)品,軟件和系統(tǒng)是主要的主題。當(dāng)然,伴隨著這些,有研究,算法,ai,深度學(xué)習(xí)和計(jì)算機(jī)視覺。從詞云看出,商業(yè),管理,客戶等術(shù)語也很重要,這可以在項(xiàng)目的進(jìn)一步迭代中進(jìn)一步研究。
▍數(shù)據(jù)工程師才是真正的專家
與機(jī)器學(xué)習(xí)工程師相比,數(shù)據(jù)工程師擁有更加專注的產(chǎn)品組合。顯然,重點(diǎn)是通過設(shè)計(jì)和開發(fā)pipelines來支持產(chǎn)品,系統(tǒng)和解決方案。 對(duì)于數(shù)據(jù)工程師來說,比較高的要求包括了專業(yè)技能,數(shù)據(jù)庫,測(cè)試,環(huán)境和質(zhì)量。機(jī)器學(xué)習(xí)也同樣很重要,因?yàn)閜ipelines主要用于支持機(jī)器學(xué)習(xí)模型部署數(shù)據(jù)需求。
▍Python現(xiàn)在是數(shù)據(jù)科學(xué)的首選語言
有很多人爭(zhēng)論:Python和R,哪個(gè)是數(shù)據(jù)科學(xué)的首選語言。市場(chǎng)需求報(bào)告告訴我們Python是現(xiàn)代的領(lǐng)導(dǎo)者。同樣值得注意的是,R比SAS更少提及。因此,如果您正在考慮進(jìn)入數(shù)據(jù)科學(xué),可以將你的學(xué)習(xí)重點(diǎn)放在Python上。而SQL作為數(shù)據(jù)庫語言,是數(shù)據(jù)科學(xué)家第二重要的語言。 由于數(shù)據(jù)科學(xué)家職業(yè)的廣泛性,其他語言也扮演著重要角色。
總的來說,數(shù)據(jù)科學(xué)家的主要語言是:Python,SQL,Scala,Lua,Java,SAS,R,C ++和Matlab。
結(jié)語
這就是數(shù)據(jù)科學(xué)技能分析的全部了??戳吮酒嘈趴梢詭椭懔私庹衅刚吒⒅厥裁醇寄埽钪匾氖强梢詭椭阕龀鲇嘘P(guān)如何定制簡(jiǎn)歷和學(xué)習(xí)哪些技術(shù)的決策。
-
SQL
+關(guān)注
關(guān)注
1文章
760瀏覽量
44077 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8378瀏覽量
132415 -
python
+關(guān)注
關(guān)注
56文章
4782瀏覽量
84456
原文標(biāo)題:數(shù)據(jù)科學(xué)大佬的簡(jiǎn)歷上都有哪些技能?
文章出處:【微信號(hào):AI_shequ,微信公眾號(hào):人工智能愛好者社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論