商業(yè)領域的數據科學家和偵探類似:去探索未知的事(shì)物(wù)。不過,當他們在這個(gè)旅程中冒險的時候,他們很容易落入陷阱。所以要明白(bái),這些錯(cuò)誤是如何造成的,以及如何避免。
“錯(cuò)誤是發現的入口。”——JamesJoyce(著(zhe)名的愛爾蘭小(xiǎo)說家)。
這在大多(duō)數情況下(xià)是正确的,但是對于數據科學家而言,犯錯(cuò)誤能(néng)夠幫助他們發現新的數據發展趨勢和找到(dào)數據的更多(duō)模式。說到(dào)這兒,有一(yī)點很重要:要明白(bái)數據科學家有一(yī)個(gè)非常邊緣的錯(cuò)誤。數據科學家是經過大量考察後才被錄用的,錄用成本很高(gāo)。組織是不能(néng)承受和忽視數據科學家不好的數據實踐和重複錯(cuò)誤的成本的。數據科學的錯(cuò)誤和不好的數據實踐會(huì)浪費(fèi)數據科學家的職業(yè)生(shēng)涯。數據科學家追蹤所有實驗數據是至關重要的,從(cóng)錯(cuò)誤中吸取教訓,避免在未來數據科學項目中犯錯(cuò)。
福爾摩斯有一(yī)句名言是如何定義偵探的,而數據科學家在商業(yè)中的角色就(jiù)類似偵探。
“我是福爾摩斯,我的工(gōng)作就(jiù)是發現别人不知道的。”
企業(yè)要想保持競争力,它必須比大數據分析做的更多(duō)。不去評估他們手中的數據質量,他們想要的結果,他們預計從(cóng)這種數據分析中獲得多(duō)少利潤,這将很難正确地找出哪些數據科學項目能(néng)夠盈利,哪些不能(néng)。當發生(shēng)數據科學錯(cuò)誤時,一(yī)次是可以接受的,考慮到(dào)有一(yī)個(gè)學習曲線,但是如果這些錯(cuò)誤發生(shēng)在兩次以上(shàng),這會(huì)增加企業(yè)成本。
避免常見(jiàn)的數據科學錯(cuò)誤:
1、相(xiàng)關關系和因果關系之間的混亂
對于每個(gè)數據科學家來說,相(xiàng)關性和因果關系的錯(cuò)誤會(huì)導緻成本事(shì)件(jiàn),最好的例子是《魔鬼經濟學》的分析,關于因果關系的相(xiàng)關性錯(cuò)誤,導緻伊利諾斯州給本州的學生(shēng)發書,因為(wèi)根據分析顯示家裡(lǐ)有書的學生(shēng)在學校能(néng)直接考的更高(gāo)分。進一(yī)步分析顯示,在家裡(lǐ)有幾本書的學生(shēng)在學業(yè)上(shàng)能(néng)表現的更好,即使他們從(cóng)來沒有讀(dú)過這些書。
這改變了之前的假設和洞察:父母通(tōng)常買書的家庭,能(néng)營造愉快的學習環境。
大部分的數據科學家在處理大數據時假設相(xiàng)關關系直接影響因果關系。使用大數據來理解兩個(gè)變量之間的相(xiàng)關性通(tōng)常是一(yī)個(gè)很好的實踐方法,但是,總是使用“因果”類比可能(néng)導緻虛假的預測和無效的決定。要想實現利用大數據的最好效果,數據科學家必須理解相(xiàng)關關系和根源的區别。關聯往往是指同時觀察X和Y的變化,而因果關系意味著(zhe)X導緻Y。在數據科學,這是兩個(gè)完全不同的事(shì)情,但是許多(duō)數據科學家往往忽視了它們的區别。基于相(xiàng)關性的決定可能(néng)足以采取行動,我們不需要知道原因,但這還(hái)是完全依賴于數據的類型和要解決的問題。
每位數據科學家都必須懂(dǒng)得——“數據科學中相(xiàng)關關系不是因果關系”。如果兩個(gè)關系出現彼此相(xiàng)關的情況,也不意味著(zhe)是一(yī)個(gè)導緻了另一(yī)個(gè)的産生(shēng)。
2、沒有選擇合适的可視化工(gōng)具
大部分的數據科學家專心學習于分析的技(jì)術(shù)方面。他們不能(néng)通(tōng)過使用不同的可視化技(jì)術(shù)理解數據,即那些可以令他們更快獲得洞察力的技(jì)術(shù)。如果數據科學家不能(néng)選擇合适的可視化發展模型,監控探索性數據分析和表示結果,那麽即使是最好的機(jī)器(qì)學習模型,它的價值也會(huì)被稀釋。事(shì)實上(shàng),許多(duō)數據科學家根據他們的審美選擇圖表類型,而不是考慮數據集的特征。這個(gè)可以通(tōng)過定義可視化的目标避免。
即使數據科學家開(kāi)發了一(yī)個(gè)最優秀和最好的機(jī)器(qì)學習模型,它也不會(huì)大叫說“尤裡(lǐ)卡”——所有這些所需要的是結果的有效可視化,可以理解數據模式的不同,和意識到(dào)它的存在可以被利用來獲得商業(yè)成果。常言道“一(yī)張圖片勝過1000個(gè)單詞。”——數據科學家不僅要熟悉自(zì)己常用的數據可視化工(gōng)具,也要理解數據有效可視化的原理,用令人信服的方式獲得結果。
解決任何數據科學問題的至關重要一(yī)步,就(jiù)是要獲得該數據是關于什麽的洞察力,通(tōng)過豐富的可視化表達,可以形成分析基礎和建立相(xiàng)應模型。
3、沒有選擇适當的模型-驗證周期
科學家認為(wèi),建立了一(yī)個(gè)成功的機(jī)器(qì)學習模型,就(jiù)是獲得了最大程度的成功。但是,這隻是成功了一(yī)半,它必須要确保模型的預測發揮作用。許多(duō)數據科學家經常忘記或者傾向性的忽視這樣的事(shì)實,就(jiù)是他們的數據必須在指定的時間間隔進行反複驗證。一(yī)些數據科學家經常犯的一(yī)個(gè)普遍性錯(cuò)誤:如果和觀察到(dào)的數據吻合,就(jiù)認為(wèi)預測模型是理想的。已建立的模型的預測效果可以因為(wèi)模型的關系在不斷變化而瞬間消失。為(wèi)了避免這種情況,數據科學家最好的解決方式就(jiù)是每個(gè)小(xiǎo)時都對含有新數據的數據模型進行評分,或者基于模型的關系變化快慢(màn)逐日逐月(yuè)評分。
由于幾個(gè)因素,模型的預測能(néng)力往往會(huì)變弱,因此數據科學家需要确定一(yī)個(gè)常數,用以确保模型的預測能(néng)力不能(néng)低(dī)于可接受的水(shuǐ)平。有實例即數據科學家可以重建數據模型。能(néng)建立幾個(gè)模型和解釋變量的分布總是更好的,而不是考慮單個(gè)模型是最好的。
為(wèi)了保留已建模型的預測效果和有效性,選擇叠代周期是非常重要的,如果做不到(dào),可能(néng)會(huì)導緻錯(cuò)誤的結果。
4、無問題/計劃的分析
數據科學協會(huì)主席MichaelWalker說:“數據科學的最高(gāo)級用途就(jiù)是設計實驗,提出正确的問題和收集正确的數據集,一(yī)切工(gōng)作都要根據科學的标準。然後你将獲得結果,并解釋它。”
數據科學是一(yī)個(gè)結構化的過程,以明确的目标開(kāi)始,随後出現一(yī)些假設的問題,最終實現我們的目标。數據科學家往往站在數據之上(shàng)而不考慮那些需要分析回答的問題。數據科學項目必須要有項目目标和完美的建模目标。數據科學家們如果不知道他們想要什麽——最終得到(dào)的分析結果将會(huì)是他們不想要的。
大多(duō)數數據科學項目最終是回答“是什麽”的問題,這是因為(wèi)數據科學家通(tōng)過手頭的問題作分析而不遵循做分析的理想路(lù)徑。數據科學是使用大數據回答所有關于“為(wèi)什麽”的問題。數據科學家應該通(tōng)過整合以前未被整合的數據集,主動分析給與的數據集,回答以前沒人解答的問題。
為(wèi)了避免這種情況,數據科學家應該集中精力獲得正确的分析結果,這可以通(tōng)過明确實驗,變量和數據準确性和清晰明白(bái)他們想要從(cóng)數據中獲得什麽實現。這将簡化以往通(tōng)過滿足假設的統計方法來回答商業(yè)問題的過程。引用伏爾泰的一(yī)句話——“判斷一(yī)個(gè)人,是通(tōng)過他的問題而不是他的答案。”——先确定明确的問題是及其重要的,能(néng)夠實現任何企業(yè)的數據科學目标。
5、僅關心數據
根據博思艾倫咨詢公司的數據科學家KirkBorne,“人們忘記在數據的使用,保護以及統計産生(shēng)的問題如認為(wèi)相(xiàng)關關系就(jiù)是因果關系會(huì)産生(shēng)倫理問題。人們忘記了如果你處理的數據足夠長(cháng),它就(jiù)會(huì)告訴你任何事(shì),如果你有大量的數據,那麽你就(jiù)可以找到(dào)相(xiàng)關關系。如果人們擁有大數據他們會(huì)相(xiàng)信他們看(kàn)到(dào)的任何事(shì)情”。
數據科學家常常因為(wèi)得到(dào)來自(zì)多(duō)個(gè)數據源的數據而興奮,并開(kāi)始創建圖表和可視化來做分析報(bào)告,忽視發展所需的商業(yè)智慧。這對任何組織來說都是危險的事(shì)情。數據科學家經常給與數據太多(duō)決策制定的權力。他們不夠重視發展自(zì)身商業(yè)智慧,不明白(bái)分析如何令企業(yè)獲益。數據科學家應該不僅僅讓數據說話,而且善于運用自(zì)身的智慧。數據應該是影響決策的因素而不是數據科學項目決策制定的最終聲音(yīn)。企業(yè)雇傭的數據科學家應該是可以将領域知識和技(jì)術(shù)特長(cháng)結合起來的,這是避免錯(cuò)誤的理想情況。
6、忽視可能(néng)性
數據科學家經常傾向性忘記方案的可能(néng)性,這将導緻作出更多(duō)的錯(cuò)誤決策。數據科學家經常犯錯(cuò),因為(wèi)他們經常說,如果企業(yè)采取了X操作一(yī)定會(huì)實現Y目标。對于特定的問題這沒有唯一(yī)的答案,因此要确認數據科學家從(cóng)不同可能(néng)性中所做的選擇。對指定問題存在不止一(yī)個(gè)可能(néng)性,它們在某種程度是不确定的。情景規劃和可能(néng)性理論是數據科學的兩個(gè)基本核心,不應該被忽視,應該用以确認決策制定的準确性頻率。
7、建立一(yī)個(gè)錯(cuò)誤人口數量的模型
如果一(yī)個(gè)數據項目的目的是建立一(yī)個(gè)客戶影響力模式的模型,但是他們僅僅考慮那些具有高(gāo)度影響力的客戶的行為(wèi)數據,這不是對的做法。建立該模型不僅要考慮那些具有高(gāo)度影響力的客戶的行為(wèi)數據,也要考慮那些不怎麽有影響力但是具有潛在影響力的客戶的行為(wèi)數據。低(dī)估任何一(yī)邊人口的預測力量都可能(néng)導緻模型的傾斜或者一(yī)些重要變量的重要性下(xià)降。
這些都是數據科學家在做數據科學時常見(jiàn)的錯(cuò)誤。如果你能(néng)想到(dào)的任何其他常見(jiàn)的數據科學錯(cuò)誤,我們很樂意在下(xià)面的評論聽到(dào)你的想法。(責編:pingxiaoli)
微信掃一(yī)掃
關注昊雲訂閱号