最近幾年(nián)大數據的概念比較火,越來越多(duō)的人感受到(dào)數據的價值,許多(duō)公司都開(kāi)始招聘數據分析相(xiàng)關的職位。但如果你去看(kàn)看(kàn)國(guó)内的高(gāo)校,會(huì)發現沒有一(yī)所大學開(kāi)有數據分析專業(yè)的,職位的成熟度還(hái)不夠。相(xiàng)比之下(xià),從(cóng)2003年(nián)興起的互聯網産品經理職位,就(jiù)成熟一(yī)些,至少你可以找到(dào)大量的書,教你如何成為(wèi)一(yī)名産品經理。而數據分析領域就(jiù)沒這麽幸運了,相(xiàng)關的書籍雖然也有,但總覺得還(hái)沒到(dào)火候。
都有哪些人想要成為(wèi)數據分析師(shī)
從(cóng)我看(kàn)到(dào)想要成為(wèi)數據分析師(shī)的人大緻有三類:
第一(yī)類是非計算(suàn)機(jī)專業(yè)的在校生(shēng),不知道怎麽回事(shì),反正就(jiù)是對數據感興趣了,然後想畢業(yè)之後從(cóng)事(shì)相(xiàng)關工(gōng)作,但對職位要求、該做什麽準備一(yī)無所知,處于懵懂(dǒng)期;
第二類是互聯網公司的産品經理和運營經理,及少數的市(shì)場經理。這些人在實際工(gōng)作中,發現确實數據很有用,但對自(zì)己的數據分析能(néng)力感到(dào)不滿意,進而想做出提升;
第三類是傳統企業(yè)的業(yè)務人員(yuán),也是不知道怎麽就(jiù)對數據感興趣了,想要從(cóng)事(shì)數據分析相(xiàng)關的崗位,但缺少時間系統學習,工(gōng)作經曆又(yòu)不足以支撐自(zì)己跳到(dào)數據分析職位。
對于不同的背景,采用一(yī)樣的方法去訓練,顯然是不合理的。我先來講解一(yī)下(xià)數據相(xiàng)關的角色以及職責,說不定你認識清楚了就(jiù)不想成為(wèi)數據分析師(shī)了,就(jiù)可以不用往下(xià)看(kàn)了。如果還(hái)有信心,那我就(jiù)介紹一(yī)下(xià)要學習的基礎内容,然後再介紹進階的内容。
數據相(xiàng)關的角色
圍繞數據分析,主要有六種角色。從(cóng)平台建設線上(shàng),包括:
數據平台工(gōng)程師(shī):負責數據平台的研發,牽涉到(dào)從(cóng)數據采集到(dào)分析的相(xiàng)關組件(jiàn)開(kāi)發。
數據挖掘工(gōng)程師(shī):利用機(jī)器(qì)學習/數據挖掘相(xiàng)關技(jì)術(shù),研發算(suàn)法模型,用于個(gè)性化推薦、用戶畫(huà)像、精準廣告等。
數據産品經理:把數據相(xiàng)關的需求抽象為(wèi)數據平台的功能(néng)産品。
從(cóng)數據流向的角度,包括:
ETL工(gōng)程師(shī):把工(gōng)程團隊的模塊産生(shēng)的數據,不管是日志(zhì)、數據表,還(hái)是埋點的數據,進行清洗、轉換,建模成利于數據分析的數據。ETL是Extract–Transform–Load的縮寫。
數據分析師(shī):利用ETL工(gōng)程師(shī)處理好的數據,滿足業(yè)務人員(yuán)的數據需求。
業(yè)務人員(yuán):産品、運營、市(shì)場、管理層等,因為(wèi)産品改進、運營活動、商業(yè)決策等,有數據需求。
數據分析師(shī)的職責範圍
通(tōng)過上(shàng)面的角色劃分,我們可以清楚數據分析師(shī)在整個(gè)數據版圖中的位置。數據分析師(shī)一(yī)方面要和業(yè)務人員(yuán)打交道,滿足業(yè)務人員(yuán)的數據需求,另一(yī)方面,要借助ETL工(gōng)程師(shī)建模好的數據,以及數據平台工(gōng)程師(shī)開(kāi)發的平台,來更高(gāo)效的完成工(gōng)作。
有些公司在人員(yuán)緊缺的情況下(xià),會(huì)把ETL工(gōng)程師(shī)要做的工(gōng)作,也安排給數據分析師(shī),這樣對數據分析師(shī)的開(kāi)發能(néng)力和建模能(néng)力,就(jiù)會(huì)有更高(gāo)的要求。最後一(yī)點是提供洞察,前面的工(gōng)作更多(duō)的是被動的,數據分析師(shī)還(hái)要主動的發現數據中的異常,将這些異常指導業(yè)務。
看(kàn)了這些工(gōng)作内容,可能(néng)并不會(huì)覺得特别高(gāo)大上(shàng)。我曾經有個(gè)組員(yuán),幹了一(yī)年(nián)多(duō)的數據統計工(gōng)作,覺得整天寫腳本太枯燥了,堅決要求再也不做相(xiàng)關工(gōng)作了。其實數據分析師(shī)如果做的不好,就(jiù)會(huì)發現自(zì)己無非是在“取數”。業(yè)務人員(yuán)提了需求,然後把要的數據給提取出來,自(zì)己就(jiù)是一(yī)個(gè)流水(shuǐ)線工(gōng)人,沒有一(yī)點成就(jiù)感。
這裡(lǐ)發揮一(yī)下(xià)抽象能(néng)力,就(jiù)可能(néng)把一(yī)些重複的“取數”工(gōng)作給解決掉,用機(jī)器(qì)代替人工(gōng)。所以理解業(yè)務,提供自(zì)己的思考與抽象,很重要。
數據分析師(shī)的基本要求
對數據感興趣:是不是看(kàn)到(dào)一(yī)行行的數字就(jiù)頭大,選擇直接跳過?還(hái)是願意花些時間研究這些數字背後意味著(zhe)什麽?如果你看(kàn)蘋果的發布會(huì)的話,會(huì)看(kàn)到(dào)喬布斯的幻燈片裡(lǐ)出現最多(duō)的就(jiù)是數字,賣了多(duō)少部,分了多(duō)少錢(qián),厚度減少到(dào)多(duō)少毫米之類的,他相(xiàng)信數字簡單明了。
如果對數據不感興趣,這個(gè)角色一(yī)定不适合你。
良好的理解和抽象能(néng)力:把業(yè)務人員(yuán)說的隻言片語,抽象為(wèi)明确的數據需求,清楚怎麽從(cóng)基礎數據中實現出來。還(hái)有把一(yī)些重複性的需求,抽象出模式來,用機(jī)器(qì)來替代。
良好的表達能(néng)力:數據分析師(shī)有個(gè)天然的優勢,能(néng)夠直接和老闆打交道,這就(jiù)要求你能(néng)站在老闆的層面來表達。把一(yī)堆堆的數據,很好的呈現給業(yè)務人員(yuán),幫助他們做出正确的決策。
快速動手能(néng)力:業(yè)務人員(yuán)提的數據需求,巴不得下(xià)一(yī)秒(miǎo)都拿到(dào)。
興趣是可以培養的,既然願意看(kàn)這篇文章,說明有興趣。理解、表達、動手能(néng)力,是要有意識的訓練。數據分析的專業(yè)能(néng)力,是可以通(tōng)過學習提升的。
數據分析師(shī)要學習的内容
統計學:我看(kàn)一(yī)些人推薦了不少統計學的專業(yè)書籍,直接把人吓跑了。我自(zì)己就(jiù)大學時候學過《概率論與數理統計》,其他統計相(xiàng)關的内容也沒怎麽看(kàn)過。對于互聯網的數據分析來說,并不需要掌握太複雜(zá)的統計理論。所以隻要按照(zhào)本科教材,學一(yī)下(xià)統計學就(jiù)夠了。
一(yī)是讓你相(xiàng)信統計本身是一(yī)門(mén)科學,這不是星座算(suàn)命。
二是在研究數據時,知道一(yī)些特征是負責統計學規律的。我在剛參加工(gōng)作時,看(kàn)到(dào)百度知道過億的用戶訪問,但每天訪問的量波動不超過3%,感覺太神奇了。
編程能(néng)力:學會(huì)一(yī)門(mén)編程語言,會(huì)讓你處理數據的效率大大提升。如果你隻會(huì)在Excel上(shàng)複制粘貼,動手能(néng)力是不可能(néng)快的。我比較推薦Python,上(shàng)手比較快,寫起來比較優雅。
數據庫:數據分析師(shī)經常和數據庫打交道,不掌握數據庫的使用可不行。學會(huì)如何建表和使用SQL語言進行數據處理,可以說是必不可少的技(jì)能(néng)。
數據倉庫:許多(duō)人分不清楚數據庫和數據倉庫的差異,簡單來說,數據倉庫記錄了所有曆史數據,專門(mén)設計為(wèi)方便數據分析人員(yuán)高(gāo)效使用的。
數據分析方法:對于互聯網數據分析人員(yuán)來說,可以看(kàn)一(yī)下(xià)《精益創業(yè)》和《精益數據分析》,掌握常用的數據分析方法,然後再根據自(zì)己公司的産品調整,靈活組合。
數據分析工(gōng)具:SAS、Matlab、SPSS這些工(gōng)具經常有人推薦,我要說的是在互聯網公司一(yī)般都用不上(shàng)。
做可視化的Tableau,統計分析的友(yǒu)盟、百度統計,還(hái)有像我們神策分析等。
這些工(gōng)具本身不一(yī)定能(néng)滿足你的所有需求,但會(huì)讓數據分析變的更高(gāo)效。我自(zì)己整理過一(yī)個(gè)豆瓣書列,有興趣的可以看(kàn)看(kàn):數據分析師(shī)豆列。上(shàng)面的内容學習後,隻能(néng)說成為(wèi)一(yī)名合格的數據分析師(shī)。
要成為(wèi)高(gāo)級數據分析師(shī)的話,一(yī)方面是要強化對業(yè)務的理解,最好是做到(dào)通(tōng)過數據分析幫助公司決策方向,或者說促進企業(yè)快速增長(cháng)。另一(yī)方面,要加強機(jī)器(qì)學習/數據挖掘的專業(yè)知識學習,将機(jī)器(qì)學習成為(wèi)數據分析的手段。比如預測用戶的流失,對用戶進行自(zì)動分類等。你能(néng)提供的價值就(jiù)大不相(xiàng)同了。最後,要強調的是,數據分析師(shī)是一(yī)個(gè)實踐的職位,要在實際項目中不斷的訓練,才能(néng)成為(wèi)高(gāo)手。