為(wèi)何企業(yè)無法從(cóng)數據科學中真正獲得價值?
作者:九次方大數據  來源:九次方大數據  發表時間:2017-1-10  點擊:3180

當今企業(yè)擁有越來越多(duō)的數據,但這些數據并沒有完全被轉化成可操作的信息。在過去的幾年(nián)裡(lǐ),我和我的MIT調查小(xiǎo)組一(yī)直在尋找一(yī)個(gè)基本問題的答案:如何讓企業(yè)通(tōng)過機(jī)器(qì)學習,将蘊藏于其數據儲存内的潛能(néng)全部釋放(fàng)出來。

當我們與不同行業(yè)的合作夥伴一(yī)起設計基于機(jī)器(qì)學習的解決方案時,我們發現已有的解決方案通(tōng)常情況下(xià)是不适合的,這是為(wèi)什麽呢(ne)?

  首先,每當我們問到(dào)機(jī)器(qì)學習專家們(專長(cháng)于預測模型訓練和測試的數據科學家們),在工(gōng)作中最困難的部分,被一(yī)次次提及的答案是——“數據雜(zá)亂無章”。一(yī)開(kāi)始,從(cóng)字面意思上(shàng)理解,我們認為(wèi)這是一(yī)個(gè)經典的數據問題——數據缺失或者數據庫之間缺乏一(yī)緻性。随著(zhe)我們的進一(yī)步挖掘,我們意識到(dào)該問題和經典的數據問題略有不同,兩者面臨的數據形式有一(yī)定的區别。企業(yè)的原始數據(Rawdata),甚至是幹淨數據(Cleandata:在Rawdata的基礎上(shàng),進一(yī)步處理後得到(dào)的數據)量多(duō)且複雜(zá),即使是專家,第一(yī)眼也很難理解這些數據。因為(wèi)這樣的數據有太多(duō)的數據表和字段,同時數據的粒度又(yòu)非常高(gāo)(例如,在線點擊流每一(yī)次點擊都會(huì)生(shēng)成新數據、傳感器(qì)每秒(miǎo)會(huì)進行125次的數據收集)。而機(jī)器(qì)學習專家們通(tōng)常習慣使用聚合過後的,有用的數據,例如一(yī)個(gè)用戶訪問過的網站數目,而不是用戶在某個(gè)網站上(shàng)的行為(wèi)數據表。

  與此同時,我們經常聽到(dào)商業(yè)專家抱怨“我們有大量的數據,但沒有通(tōng)過這些數據做成任何事(shì)”。更深入的調查顯示這種說法也不完全對。而這種挫敗感主要來源于兩個(gè)方面。

  一(yī)方面是由于時間問題。由于機(jī)器(qì)學習中,理解、規劃及處理數據等一(yī)系列過程所需要花費(fèi)的時間,機(jī)器(qì)學習專家常常更加關注流程的後面部分——嘗試不同的模型或者在問題制定完成後,調整模型參數,而不是針對不同的商業(yè)問題制定新的預測模型。因此,當商業(yè)專家想到(dào)某個(gè)新的問題時,機(jī)器(qì)學習專家無法做到(dào)總是及時跟上(shàng)他們的步伐。

  另一(yī)方面,經常來說,機(jī)器(qì)學習專家并沒有圍繞著(zhe)“産生(shēng)商業(yè)價值”,這一(yī)建模的最終目标,來展開(kāi)工(gōng)作。在大部分情況下(xià),預測模型旨在提高(gāo)效率、增加收益或者減少支出。但實際上(shàng),建立模型的工(gōng)作者卻很少問這樣的問題“這個(gè)預測模型提供的價值是什麽?我們又(yòu)該如何去量化其價值?”。思考這一(yī)價值導向的問題常常會(huì)改變最初的問題規劃(problemformulation),通(tōng)常情況下(xià)比建模後期再進行過程調整更加有用。最近在一(yī)個(gè)機(jī)器(qì)學習愛好者小(xiǎo)組中,我向約150名觀衆進行了調查,當問到(dào)“有多(duō)人建立過機(jī)器(qì)學習模型?”大約有三分之一(yī)的人舉了手。緊接著(zhe),當我問到(dào)“有多(duō)少人真正應用自(zì)己建立的模型産生(shēng)價值,并量化模型産出價值?”時,所有人的手都放(fàng)下(xià)了。

  換句話說,機(jī)器(qì)學習專家更傾向于将時間花在構建模型上(shàng),而不是處理海量數據集或者将商業(yè)問題轉化為(wèi)預測問題。無獨有偶,當前的技(jì)術(shù)環境,無論是商業(yè)還(hái)是學術(shù),關注點都在實現更加複雜(zá)的模型(LVM潛變量模型)、模型學習算(suàn)法(分布式計算(suàn)),或者微調(貝葉斯優化)。本質上(shàng),這些都屬于數據科學項目後期的過程。然而,按照(zhào)我們的經驗,我們認為(wèi)這些關注點并不是最恰當的。

  如果公司想要從(cóng)數據中獲得價值,需要将重點放(fàng)在加速對數據的人為(wèi)理解,在短時間内調整可構建的模型問題數量以及預測這些模型所的成效。在與公司的合作中,我們得出結論,想要通(tōng)過機(jī)器(qì)學習帶來真正的改變,需要将重點放(fàng)在以下(xià)四個(gè)方面:

  堅持簡單的模型

  簡單的模型,例如邏輯回歸、基于随機(jī)森林或者決策樹的模型。這些模型已經足夠解決手頭上(shàng)的任務。關鍵是減少數據采集時間,盡早進行第一(yī)個(gè)簡單預測模型的開(kāi)發。

  探索更多(duō)的問題

  數據科學家需要有能(néng)夠快速而簡單的定義和探索多(duō)個(gè)預測模型的能(néng)力。公司應該探索更多(duō)的商業(yè)問題,為(wèi)每一(yī)個(gè)商業(yè)問題建立一(yī)個(gè)簡單的預測模型,并評估其價值,而不是用超級複雜(zá)的機(jī)器(qì)學習模型去探索僅僅一(yī)個(gè)商業(yè)問題。

  從(cóng)數據樣本中而不是全部的數據中學習

  不要過多(duō)的關注如何使用分布式計算(suàn)讓任何一(yī)個(gè)處理模型都能(néng)進行大數據處理,而是在能(néng)夠從(cóng)子樣本數據中導出相(xiàng)似結論的技(jì)術(shù)上(shàng)進行投資。規避大量計算(suàn)資源的使用,将會(huì)給予我們更多(duō)的空間去探索更多(duō)的假設。

  關注自(zì)動化

  為(wèi)減少第一(yī)個(gè)預測模型産生(shēng)的時間和加快探索的速度,公司必須能(néng)夠自(zì)動化處理在正常情況下(xià)需要人工(gōng)完成的過程。通(tōng)過在不同數據問題上(shàng)的反複探索,我們發現很多(duō)時候都在使用相(xiàng)似的數據處理技(jì)術(shù),無論是将數據轉化為(wèi)有用的聚合數據,還(hái)是為(wèi)預測模型準備數據。是時候流水(shuǐ)線化這些任務,開(kāi)發算(suàn)法和軟件(jiàn),使這些過程能(néng)夠自(zì)動化完成。

  專注于上(shàng)述四個(gè)目标,準确理解數據科學家如何與數據交互,以及項目瓶頸之所在,幫助我們成功啓動了MIT的“TheHuman-DataInteractionProject”項目。

  我們的目标是快速探索預測模型,并将這些模型應用于解決真實企業(yè)中的實際問題。這些模型簡單,同時自(zì)動化讓非專業(yè)的用戶也能(néng)夠在幾個(gè)小(xiǎo)時内建立成百甚至上(shàng)千個(gè)預測模型。而這在今天,通(tōng)常需要花費(fèi)專家們一(yī)整個(gè)月(yuè)的時間才能(néng)做到(dào)。文章來源于網絡,版權歸原作者所有.如果侵犯了您的權益,請來信告知,我們會(huì)盡快處理)

獲取更多(duō)專業(yè)資訊

微信掃一(yī)掃

服務項目

維保運維服務

信息系統集成服務

機(jī)房搬遷服務

 
 
 
QQ 在線客服
QQ 在線客服
 
電(diàn)話:
0531-88818533
客服QQ
2061058957
1905215487