這些數據科學技(jì)能(néng),才是老闆們最想要的
作者:  來源: 雪晴數據網  發表時間:2016-3-15  點擊:3935

這是一(yī)個(gè)好消息,如果你希望在2016年(nián)找一(yī)份數據科學的工(gōng)作在該領域職位空缺的數量正在不斷增加,企業(yè)希望利用大數據來獲得競争優勢。但事(shì)實上(shàng),找一(yī)份夢寐以求的數據科學工(gōng)作就(jiù)意味著(zhe)你要具備一(yī)些技(jì)能(néng)的組合,你可能(néng)會(huì)驚訝學習哪些技(jì)能(néng)是雇主所最需要的。

  最近,人們在CrowdFlower上(shàng)針對Linkedin的3490個(gè)數據科學職位做了分析,并對最常出現的21個(gè)技(jì)能(néng)進行了排序。有些結果并不那麽令人驚訝—SQL排在最前,而其它的結果可能(néng)是數據科學領域不斷發展的領先指标。

  如上(shàng)所述,SQL是最常見(jiàn)的技(jì)能(néng),在Linkedin發布的所有數據科學工(gōng)作中占比達到(dào)了57%。Hadoop排在第二,占比49%。這并不出乎CrowdFlower公司CEO和創始人LukasBiewald的意料。CrowdFlower是美國(guó)矽谷一(yī)家從(cóng)事(shì)衆包數據處理的公司。

  “SQL和Hadoop排在前兩位并沒什麽驚訝的,因為(wèi)它們本身就(jiù)是存儲數據的技(jì)術(shù)”Biewald告訴Datanami(本文轉譯自(zì)該網站)。“每個(gè)數據科學家必須知道如何獲取數據。如果你不知如何獲取數據,那你什麽都做不了。”

  在所有數據科學的招聘信息中,python是排在第三名的技(jì)能(néng)。在CrowdFlower去年(nián)關于數據科學家哪些技(jì)能(néng)是最重要的調查中,python排在R的後面。但在本次招聘信息的調查中(這無疑是更具有前瞻性的範圍),python作為(wèi)數據科學的一(yī)項關鍵性技(jì)能(néng)占比達到(dào)了39%。相(xiàng)比之下(xià),R是32%。

  相(xiàng)比R來說,為(wèi)什麽現在越來越多(duō)的雇主正在尋找具備python技(jì)能(néng)的數據科學家?Biewald提出了自(zì)己的看(kàn)法:“python的工(gōng)具集越來越好。已經有很多(duō)基于python的統計工(gōng)具”。“還(hái)有一(yī)個(gè)認識是數據科學不僅僅是統計學”。

  設想一(yī)下(xià),數據科學家80%的時間花費(fèi)在數據清理和數據準備上(shàng),而隻有20%的時間是用來做分析。這或許可以解釋python突然出現的原因。

  “我認為(wèi)Python是做數據清理的語言,而R是做分析的”,Biewald說到(dào)。在創辦CrowdFlower之前,他負責領導Yahoo的搜索相(xiàng)關團隊。“由于數據科學更多(duō)的是做數據清洗和準備,python正變得越來越重要。它無疑是将數據整理成适合做分析的數據格式最好的語言”。

  事(shì)實上(shàng),Java排在第四位讓人有點摸不著(zhe)頭腦(nǎo)。因為(wèi)Java本身不是數據科學所要求的掌握一(yī)門(mén)語言,當你在java中寫Hadoop的時候,它的高(gāo)配就(jiù)顯得有道理了。其它跟Hadoop相(xiàng)關的工(gōng)具都排在前10,包括Hive(31%),MapReduce(22%)和Pig(16%)。

  對于這份CrowdFlower從(cóng)Linkedin編輯過來的職位列表,多(duō)少有些遺漏。ApacheSpark,在上(shàng)面給出的數據科學技(jì)能(néng)要求中沒有出現過。Scala也沒有出現過,它是在Spark框架内處理數據的主要途徑之一(yī)。

  這可能(néng)是因為(wèi)Spark還(hái)比較前沿,大家對它知之甚少。“現在周圍對它有很多(duō)炒作,但可能(néng)還(hái)是太早了”Biewald說到(dào)。“在CrowdFlower,我們已經開(kāi)始使用它了。我認為(wèi)這門(mén)技(jì)術(shù)很棒,但在企業(yè)真正使用它的時候會(huì)有些滞後”。

  Spark和Scala可能(néng)是數據科學的未來(它們在Alphabet[NASDAQ:GOOGL]公司中得到(dào)大力支持,矽谷的許多(duō)高(gāo)科技(jì)公司也在廣泛的使用它們)。但不是每個(gè)數據科學項目或團隊都需要走在技(jì)術(shù)的最前沿才能(néng)實現他們的大數據成果。“令人驚訝的是現在很多(duō)人都在尋找數據科學家,但是我認為(wèi)他們中的很多(duō)人是不想走在最前沿的”Biewald說到(dào)。

  這份CrowdFlower列表中包含了許多(duō)知名的數據分析工(gōng)具,包括SAS(占比16%),SPSS(10%),Matlab(10%)和Stata(占比3%)。Biewald認為(wèi)這些工(gōng)具仍是有價值的并且在未來一(yī)段時間内還(hái)會(huì)繼續使用。但是他希望它們的市(shì)場份額逐漸被那些專門(mén)為(wèi)大數據設計的新工(gōng)具所奪走。

  “數據科學的角色大于統計學家”他說。“在我們的腦(nǎo)海裡(lǐ),這些舊(jiù)的語言更多(duō)的是建立在統計學家的基礎上(shàng),它們隻是對少量的數據進行分析。而排名在前的Hadoop,python和Java則可以運行TB級的數據。你可以用SAS,SPSS,Matlab來做大數據分析,但這不是它們設計的目的”。

  不是每個(gè)人都同意“數據科學”或“數據科學家”應該做什麽以及應該掌握什麽樣技(jì)能(néng)的定義。事(shì)實上(shàng),一(yī)些人反對使用術(shù)語“科學”,而甯願用諸如“應用統計”的短語。(想起了哈佛商業(yè)評論稱應用統計學家是21世紀最性感的職業(yè))但在Biewald和其他人眼中,處理數據的能(néng)力和統計分析的能(néng)力同等重要。這就(jiù)是他對數據科學家進一(yī)步給出的定義。

  “在過去,我們處理幾千條記錄的時候不是特别難。但是,當數據量達到(dào)數十億條記錄的時候我們就(jiù)需要真本事(shì)來得到(dào)一(yī)個(gè)規範的格式,以便我們進一(yī)步做回歸或機(jī)器(qì)學習”他說。“對于這種情況,我想要聘請的是一(yī)名掌握python或者是C、Perl、Ruby亦或是一(yī)門(mén)更多(duō)做數據處理而不是做數據分析的語言的數據科學家”。

服務項目

維保運維服務

信息系統集成服務

機(jī)房搬遷服務

 
 
 
QQ 在線客服
QQ 在線客服
 
電(diàn)話:
0531-88818533
客服QQ
2061058957
1905215487