大數據與統計新思維

作者：admin 來源： 36大數據發表時間：2016-6-21 點擊：3654

譯著(zhe)《大數據時代》(英國(guó)ViktorMayer-Schǒnberger，KennethCukier著(zhe))和《駕馭大數據》(美國(guó)BillFranks著(zhe))，以及我國(guó)學者塗子沛、郭曉科的《大數據》等幾本書引起了廣泛的關注，其他各種媒體關于大數據的讨論也層出不窮，大數據已成為(wèi)流行語。有人認為(wèi)，大數據是一(yī)場新的革命，将橫掃一(yī)切領域，重構世界。不少國(guó)家已将大數據作為(wèi)國(guó)家發展戰略，而商業(yè)領域更是将其視為(wèi)下(xià)一(yī)個(gè)投資的寶庫。毫無疑問，大數據時代已經來臨，它正在悄悄地改變著(zhe)人們的行為(wèi)與思維，難以阻擋，無法抗拒。在計算(suàn)機(jī)科學、電(diàn)子商務等領域已率先在大數據技(jì)術(shù)開(kāi)發與應用方面做出不俗成就(jiù)的時候，以數據為(wèi)研究對象的統計學該如何應對?無動于衷還(hái)是盲目追從(cóng)?正确的态度應該是理性對待、積極跟進、改變思維、謀求發展。

一(yī)：對大數據的初步認識

　　到(dào)底什麽是大數據，不同的學科領域、不同行業(yè)的從(cóng)業(yè)人員(yuán)肯定會(huì)有不同的理解。與傳統意義上(shàng)的數據相(xiàng)比，大數據的“大”與“數據”都有了新的含義，絕不僅僅是體量的問題，更重要的是數據的内涵問題。或許，“大”與“數據”根本就(jiù)不能(néng)分開(kāi)，隻有把“大數據”當作一(yī)個(gè)整體概念來理解才有意義。那麽從(cóng)統計學的角度，我們該如何來理解大數據?筆者認為(wèi)大數據不是基于人工(gōng)設計、借助傳統方法而獲得的有限、固定、不連續、不可擴充的結構型數據，而是基于現代信息技(jì)術(shù)與工(gōng)具可以自(zì)動記錄、儲存和連續擴充的、大大超出傳統統計記錄與儲存能(néng)力的一(yī)切類型的數據。有人用4V(Volume，Variety、Velocity和Value)來形容大數據的特征，最根本之處就(jiù)是數字化基礎上(shàng)的數據化。通(tōng)俗地說，大數據就(jiù)是一(yī)切可記錄信号的集合。

　　如果說，傳統統計研究的數據是有意收集的結構化的樣本數據，那麽現在我們面對的數據則是一(yī)切可以記錄和存儲、源源不斷擴充、超大容量的各種類型的數據。樣本數據與大數據的這種區别，具有什麽樣的統計學意義?我們知道，樣本數據是按照(zhào)特定研究目的、依據抽樣方案獲得的格式化的數據，不僅數據量有限，而且如果過程偏離方案，數據就(jiù)不能(néng)滿足要求。基于樣本數據所進行的分析，其空間十分有限———通(tōng)常無法滿足多(duō)層次、多(duō)角度的需要，若遇到(dào)抽樣方案事(shì)先未曾考慮到(dào)的問題，數據的不可擴充性缺點就(jiù)暴露無疑。而大數據是一(yī)切可以通(tōng)過現代信息技(jì)術(shù)記錄和量化的數據，不僅所蘊含的信息量巨大，而且不受各種框框的限制———任何種類的數據都來者不拒、也無法抵拒。不難發現，大數據相(xiàng)比于樣本數據的最大優點是，具有巨大的數據選擇空間，可以進行多(duō)維、多(duō)角度的數據分析。更為(wèi)重要的是，由于大數據的大體量與多(duō)樣性，樣本不足以呈現的某些規律，大數據可以體現;樣本不足以捕捉的某些弱小(xiǎo)信息，大數據可以覆蓋;樣本中被認為(wèi)異常的值，大數據得以認可。這将極大地提高(gāo)我們認識現象的能(néng)力，避免丢失很多(duō)重要的信息，避免失去很多(duō)決策選擇的機(jī)會(huì)。

　　這裡(lǐ)，我們自(zì)然就(jiù)想到(dào)了大量觀察與大數據這兩個(gè)概念中的“大”的區别。對于傳統的統計研究方法而言，大量觀察法是基礎，是收集數據的基本理論依據，其主要思想是要對足夠量的個(gè)體進行調查觀察，以确保有足夠的微觀基礎來消除或削弱個(gè)體差異對整體特征的影響，足以歸納出關于總體的數量規律。所以，這裡(lǐ)的“大”是足夠的意思。大量觀察法的極端情況就(jiù)是普查，但限于各種因素不能(néng)經常進行，所以一(yī)般情況下(xià)隻能(néng)進行抽樣調查，這就(jiù)需要精确計算(suàn)最小(xiǎo)的樣本量。基于大量觀察法獲得的樣本數據才符合大數法則或大數定律，才能(néng)用以推斷總體。而大數據則指不限量的數據，是基于現代信息技(jì)術(shù)的一(yī)切可以記錄的全體數據，其特征之一(yī)就(jiù)是盡量多(duō)地包含數據，它與樣本容量無關，隻與信息來源的數量與儲存容量有關。因此，這裡(lǐ)的“大”是全體的意思。

　　可見(jiàn)，統計學的研究對象沒有變，變的是數據的來源、體量、類型、速度與量化的方式。這種變化對統計研究帶來了什麽樣的挑戰?《大數據時代》提出了三個(gè)最顯著(zhe)的變化:一(yī)是樣本等于總體，二是不再追求精确性，三是相(xiàng)關分析比因果分析更重要。這些觀點具有很強的震撼力，迫使我們對現有的統計研究思維進行反思。盡管這些觀點值得進一(yī)步商榷，但至少告訴我們這樣一(yī)個(gè)道理:統計研究對象的基礎變了，統計思維也要跟著(zhe)變化，否則統計研究的對象隻是全部數據的5%，而且越來越少，那又(yòu)怎麽能(néng)說統計學是一(yī)門(mén)關于數據的科學呢(ne)?又(yòu)怎麽去完善和發展開(kāi)展數據分析研究的統計方法論呢(ne)?

二：統計思維的變化

　　改變統計思維，是大數據時代的必然要求。否則，統計學科就(jiù)有可能(néng)被大數據的潮流所吞沒，至少會(huì)被邊緣化，失去一(yī)次重要的參與推動曆史變革的機(jī)遇。當然，統計思維的變化應該以一(yī)個(gè)永恒不變的主題為(wèi)前提，那就(jiù)是通(tōng)過數據分析去揭示事(shì)物(wù)的真相(xiàng)，這個(gè)真相(xiàng)就(jiù)是事(shì)物(wù)的生(shēng)存規律、聯系規律和發展規律。也就(jiù)是說，數據分析要以數據背後的數據去還(hái)原事(shì)物(wù)的本來面目，以達到(dào)求真的目的。如果說，我們原來限于各種條件(jiàn)隻能(néng)根據有限的樣本數據去實現這個(gè)目的，那麽現在我們則可以在很多(duō)方面借助大數據去實現這個(gè)目的，關鍵就(jiù)看(kàn)我們開(kāi)展數據分析的能(néng)力有多(duō)大，或者說利用大數據、從(cóng)一(yī)切數據中提取有價值信息的能(néng)力有多(duō)大———因為(wèi)大數據無疑增加了統計分析的難度，而這又(yòu)首先取決于我們統計思維能(néng)否适應大數據時代的變化。正如邁爾–舍恩伯格所說:大數據發展的核心動力就(jiù)是人類測量、記錄和分析世界的渴望。

　　那麽，統計思維應該發生(shēng)怎樣的變化?筆者認為(wèi)主要要有如下(xià)三大變化:

　　(一(yī))認識數據的思維要變化

　　前面已經提到(dào)，與傳統數據相(xiàng)比，大數據不僅體量大、變化快，而且其來源、類型和量化方式都發生(shēng)了根本性的變化，使得數據雜(zá)亂、多(duō)樣、不規整。

　　首先，從(cóng)來源上(shàng)看(kàn)，傳統的數據收集因為(wèi)具有很強的針對性，因此數據的提供者大多(duō)是确定的，身份特征是可識别的，有的還(hái)可以進行事(shì)後核對。但大數據通(tōng)常來源于物(wù)聯網，不是為(wèi)了特定的數據收集目的而産生(shēng)，而是人們一(yī)切可記錄的信号(當然，任何信号的産生(shēng)都有其目的，但它們是發散的)，并且身份識别十分困難。從(cóng)某種意義上(shàng)講，大數據來源的微觀基礎是很難追溯的。

　　其次，從(cóng)類型上(shàng)看(kàn)，傳統數據基本上(shàng)是結構型數據，即定量數據加上(shàng)少量專門(mén)設計的定性數據，格式化，有标準，可以用常規的統計指标或統計圖表加以表現。但大數據更多(duō)的是非結構型數據、半結構型數據或異構數據，包括了一(yī)切可記錄、可存儲的信号，多(duō)樣化、無标準、難以用傳統的統計指标或統計圖表加以表現。同時，不同的網絡信息系統有不同的數據識别方式，相(xiàng)互之間也沒用統一(yī)的數據分類标準。再者，現在有的數據庫是非關系型的數據庫，不需要預先設定記錄結構即可自(zì)動包容大量各種各樣的數據。

　　第三，從(cóng)量化方式上(shàng)看(kàn)，傳統數據的量化處理已經有一(yī)整套較為(wèi)完整的方式與過程，量化的結果可直接用于各種運算(suàn)與分析。但大數據中大量的非結構化數據如何量化(結構化)、如何從(cóng)中提取信息、如何與結構化數據對接是一(yī)個(gè)嶄新的問題。正如Franks所說:“幾乎沒有哪種分析過程能(néng)夠直接對非結構化數據進行分析，也無法直接從(cóng)非結構化的數據中得出結論。”更為(wèi)重要的是，“量化”的含義恐怕也不一(yī)樣了，即此“量化”不一(yī)定等同于彼“量化”，量化結果的表現形式自(zì)然也不相(xiàng)同。顯然，我們不能(néng)套用已有的方式去量化非結構化數據。

　　可以說，大數據是雜(zá)亂、不規整、良莠不齊的，但我們不能(néng)因此而回避它、拒絕它，隻能(néng)接納它、包容它。我們需要将統計研究的對象範圍從(cóng)結構型數據擴展到(dào)一(yī)切數據，需要重新思考數據的定義和分類方法，并以此為(wèi)基礎發展和創新統計分析方法。從(cóng)某種意義上(shàng)講，沒有無用的數據，隻有未被欣賞的數據，關鍵是我們從(cóng)哪個(gè)角度看(kàn)數據。

　　(二)收集數據的思維要變化

　　收集數據是開(kāi)展統計分析的前提，“沒有黏土(tǔ)，如何做磚?”以往，收集統計數據的思維是先确定統計分析研究的目的，然後需要什麽數據就(jiù)收集什麽數據，所以要精心設計調查方案，嚴格執行每個(gè)流程，但往往是投入大而數據量有限。現在，我們擁有了大數據，就(jiù)等于擁有了超大量可選擇的數據———備選“黏土(tǔ)”的體量與種類都極大地增加了，所要做的最重要的工(gōng)作就(jiù)是比較與選擇，因此我們的思維應該是如何充分利用大數據，凡是大數據源中能(néng)找到(dào)的數據就(jiù)不再需要進行專門(mén)的調查。

　　但是，由于大數據來源與種類的多(duō)樣性，以及數據增加的快速性，我們在享受數據的豐富性的同時也不得不面臨這樣一(yī)些困境:存儲能(néng)力夠不夠，分析能(néng)力夠不夠(是否及時、充分)，如何甄别數據的真僞，如何選擇關聯物(wù)，如何提煉和利用數據，如何确定分析節點?現在TB級的數據庫已經很多(duō)，PB級的數據庫也不少見(jiàn)，以後還(hái)會(huì)出現EB、甚至ZB、YB級的數據庫。今天的大數據，明天就(jiù)不再是大數據。這樣一(yī)來，電(diàn)子存儲能(néng)力能(néng)否跟得上(shàng)數據增加的速度就(jiù)成為(wèi)首要的問題。如果讓數據庫自(zì)動更新就(jiù)有可能(néng)失去一(yī)些寶貴的數據信息，而到(dào)了一(yī)定級别以後擴充存儲容量或對數據進行拷貝，其代價是十分巨大的，因此我們不得不對數據進行分類、篩選，有針對地删除那些垃圾數據、不重要或次重要的數據。如果說以前有針對地獲得數據叫做收集，那麽今後有選擇地删除數據就(jiù)意味著(zhe)收集。也就(jiù)是說，大數據時代的數據收集将更多(duō)的是從(cóng)已有的超大量數據中進行再過濾、再選擇。因此，我們要做好丢棄一(yī)部分數據的準備。

　　當然，并不是任何數據都可以從(cóng)現成的大數據中獲得，這裡(lǐ)存在一(yī)個(gè)針對性、安全性和成本比較問題。因此，我們既要繼續采用傳統的方式方法去收集特定需要的數據，又(yòu)要善于利用現代網絡信息技(jì)術(shù)和各種數據源去收集一(yī)切相(xiàng)關的數據，并善于從(cóng)大數據中進行再過濾、再選擇。問題在于什麽是無用的或不重要的數據?該如何過濾與選擇數據?這就(jiù)需要對已經存在的數據進行重要性分析、真僞别和關聯物(wù)定位。

　　此外，大的數據庫可能(néng)需要将信息分散在不同的硬盤或電(diàn)腦(nǎo)上(shàng)，這樣一(yī)來，在不能(néng)同步更新數據信息的情況下(xià)如何選擇、調用和匹配數據又(yòu)是一(yī)個(gè)問題。因此從(cóng)某種意義上(shàng)講，從(cóng)大數據中收集數據就(jiù)是識别、整理、提煉、汲取(删除)、分配和存儲元數據的過程。

　　(三)分析數據的思維要變化

　　基于上(shàng)述兩個(gè)變化，數據分析的思維必然要跟著(zhe)變化，那就(jiù)是要主動利用現代信息技(jì)術(shù)與各種軟件(jiàn)工(gōng)具從(cóng)大數據中挖掘出有價值的信息，并在這個(gè)過程中豐富和發展統計分析方法。

　　關于數據分析思維的變化，特别需要強調三點:

　　第一(yī)，傳統的統計分析過程是“定性—定量—再定性”，第一(yī)個(gè)定性是為(wèi)了找準定量分析的方向，主要靠經驗判斷，這在數據短缺、分析運算(suàn)手段有限的情況下(xià)很重要。現在我們是在大數據中找礦，直接依賴數據分析做出判斷，因此基礎性的工(gōng)作就(jiù)是找到(dào)“定量的回應”，這在存儲能(néng)力大為(wèi)增強、分析技(jì)術(shù)與分析速度大為(wèi)提高(gāo)的今天，探測“定量的回應”變得越來越簡單，所要做的就(jiù)是直接從(cóng)各種“定量的回應”中找出那些真正的、重要的數量特征和數量關系，得出可以作為(wèi)判斷或決策依據的結論，因此統計分析的過程可以簡化為(wèi)“定量—定性”，從(cóng)而大大提高(gāo)得到(dào)新的定性結論的可能(néng)性。

　　第二，傳統的統計實證分析，一(yī)般都要先根據研究目的提出某種假設，然後通(tōng)過數據的收集與分析去驗證該假設是否成立，其分析思路(lù)是“假設—驗證”，但這種驗證往往由于受到(dào)假設的局限、指标選擇的失當、所需數據的缺失而得不出真正的結論。特别是，一(yī)旦假設本身不科學、不符合實際，那麽分析結論就(jiù)毫無用處、甚至扭曲事(shì)實真相(xiàng)。事(shì)實證明，很多(duō)這樣的實證分析純粹是為(wèi)了湊合假設。現在，我們有了大數據，可以不受任何假設的限制而從(cóng)中去尋找關系、發現規律，然後再加以總結、形成結論。也就(jiù)是說，分析的思路(lù)是“發現—總結”。這将極大地豐富統計分析的資源與空間，有助于發現更多(duō)意外的“發現”。

　　第三，傳統的統計推斷分析，通(tōng)常是基于分布理論，以一(yī)定的概率為(wèi)保證，根據樣本特征去推斷總體特征，其邏輯關系是“分布理論—概率保證—總體推斷”，推斷的評判标準與具體樣本無關，但推斷是否正确卻取決于樣本的好壞。現在，大數據強調的是全體數據，總體特征不再需要根據分布理論進行推斷，隻需進行計數或計量處理即可。不僅如此，還(hái)可以根據全面數據和實際分布來判斷其中出現某類情況的可能(néng)性有多(duō)大，其邏輯關系變成了“實際分布—總體特征—概率判斷”，也即概率不再是事(shì)先預設，而是基于實際分布得出的判斷。按照(zhào)邁爾-舍恩伯格的觀點，這個(gè)概率判斷就(jiù)可用于預測了。

　　伴随著(zhe)上(shàng)述三大變化，統計分析評價的标準又(yòu)該如何變化?傳統統計分析的評價标準無非兩個(gè)方面，一(yī)是可靠性評價，二是有效性評價，而這兩種評價都因抽樣而生(shēng)。所謂可靠性評價是指用樣本去推斷總體有多(duō)大的把握程度，是以概率來度量的———有時表現為(wèi)置信水(shuǐ)平，有時表現為(wèi)顯著(zhe)性水(shuǐ)平。特别是在假設檢驗和模型拟合度評價中，顯著(zhe)性水(shuǐ)平怎麽定是一(yī)個(gè)難題，一(yī)直存在争議，因為(wèi)所參照(zhào)的分布類型不同其統計量就(jiù)不同，顯著(zhe)性評價的臨界值就(jiù)不同，而臨界值又(yòu)與顯著(zhe)性水(shuǐ)平的高(gāo)低(dī)直接相(xiàng)關。然而在大數據的背景下(xià)，大數據在一(yī)定程度上(shàng)就(jiù)是全體數據，我們可以對全體數據進行計數或計量分析，這就(jiù)不存在以樣本推斷總體的問題了，那麽這時還(hái)有沒有可靠性的問題?還(hái)要不要确定置信水(shuǐ)平?怎麽确定?依據是什麽?如何比較來自(zì)不同容量數據庫的分析結論的可靠性?

　　所謂有效性評價指的是真實性，即誤差大小(xiǎo)。這裡(lǐ)又(yòu)有兩個(gè)相(xiàng)關的概念:準确性與精确性。準确性一(yī)般是指一(yī)個(gè)觀察值與真實值的吻合程度，通(tōng)常情況下(xià)是無法做出測度的;而精确性一(yī)般指樣本統計量分布的離散程度，以抽樣分布的标準差來衡量。很顯然，精确性是針對樣本數據而言的。也就(jiù)是說樣本數據既有精确性問題又(yòu)有準确性問題，樣本數據中的誤差既包括抽樣誤差也可能(néng)包括非抽樣誤差。抽樣誤差可以基于抽樣分布理論進行計算(suàn)和控制，而非抽樣誤差隻能(néng)通(tōng)過各種方式加以識别或判斷，但多(duō)數情況下(xià)由于樣本量不是太大而可以得到(dào)較好的防範。但對于大數據，由于它是全體數據，因而不再有抽樣誤差問題，隻有非抽樣誤差問題，也就(jiù)是說大數據的真實性隻表現為(wèi)準确性而非精确性。然而由于大數據是超大量數據，再加上(shàng)混雜(zá)性與多(duō)樣性，因此其非抽樣誤差很難防範與控制，這就(jiù)使得準确性評價問題變得更為(wèi)困難———如何測度?标準怎樣?

三：積極應對大數據

　　面對大數據，我們唯有積極應對，别無選擇。如何應對，需要考慮以下(xià)幾個(gè)方面:

　　(一(yī))需要改變總體、個(gè)體乃至樣本的定義方式

　　傳統的統計分析，是先有總體，再有數據，即必須先确定總體範圍和個(gè)體單位，再收集個(gè)體數據，分析總體。但對大數據來說，情況完全不同了，是先有數據，再有總體。從(cóng)某種意義上(shàng)說，大數據的産生(shēng)系統多(duō)數是非總體式的，即無事(shì)先定義的目标總體，隻有與各個(gè)時點相(xiàng)對應的事(shì)後總體，原因就(jiù)在于個(gè)體是不确定的，是變化著(zhe)的，是無法事(shì)先編制名錄庫的，這與傳統的總體與個(gè)體有很大的不同。更為(wèi)複雜(zá)的是，事(shì)後個(gè)體的識别也很困難，因為(wèi)同一(yī)個(gè)個(gè)體可能(néng)有多(duō)個(gè)不同的網絡符号或稱謂，而不同網絡系統的相(xiàng)同符号(稱謂)也未必就(jiù)是同一(yī)個(gè)個(gè)體，而且還(hái)經常存在個(gè)體異位的情況(即某一(yī)個(gè)體利用另一(yī)個(gè)體的符号完成某種行為(wèi))，因此我們對于大數據往往是隻見(jiàn)“數據”的外形而不見(jiàn)“個(gè)體”的真容。但對大數據的分析，仍然有一(yī)個(gè)總體口徑問題，依然需要識别個(gè)體身份。這就(jiù)需要我們改變總體與個(gè)體的定義方式———盡管它們的内涵沒有變。與此對應，如果要從(cóng)大數據庫中提取樣本數據，那麽樣本的定義方式也需要改變。當然，考慮到(dào)大數據的流動變化性，任何時點的總體都可以被理解為(wèi)一(yī)個(gè)截面樣本。

　　(二)需要改變對不确定性的認識

　　衆所周知，統計學是為(wèi)了認識和研究事(shì)物(wù)的不确定性而産生(shēng)的，因為(wèi)無論是自(zì)然現象還(hái)是社會(huì)經濟現象，都時時處處充滿著(zhe)因個(gè)體的差異性而引起的不确定性，因為(wèi)在大多(duō)數情況下(xià)我們缺乏足夠的信息或缺乏足夠的知識去利用有效信息，而人們總是期望通(tōng)過量化事(shì)物(wù)的不确定性去發現規律、揭示真相(xiàng)，認識不确定性背後的必然性。要研究不确定性就(jiù)需要收集數據，在隻能(néng)進行抽樣觀測的情況下(xià)，這種不确定性就(jiù)表現為(wèi)如何獲得樣本、如何推斷總體(包括估計與檢驗)和如何構建模型等方面。對于大數據，仍然存在著(zhe)個(gè)體的差異性，區别隻在于它包括了一(yī)定條件(jiàn)下(xià)的所有個(gè)體，而不是随機(jī)獲得的一(yī)個(gè)樣本。這樣，大數據的不确定性就(jiù)不再是樣本的獲取與總體的推斷，而是數據的來源、個(gè)體的識别、信息的量化、數據的分類、關聯物(wù)的選擇、節點的确定，以及結論的可能(néng)性判斷等方面。可以說，大數據的不确定性隻來自(zì)于其來源的多(duō)樣性與混雜(zá)性，以及由于個(gè)體的可變性所引起的總體多(duō)變性，而不是同類個(gè)體之間的差異性———因為(wèi)我們已經掌握了一(yī)定條件(jiàn)下(xià)的完全信息。

　　(三)需要建立新的數據梳理與分類方法

　　大數據的多(duō)樣性與混雜(zá)性，以及先有數據、後有總體的特點，原有的數據梳理與分類方法将受到(dào)諸多(duō)的限制。傳統的數據梳理與分類是按照(zhào)預先設定的方案進行的，标志(zhì)與指标的關系、分類标識與分組規則等都是結構化的，既是對有針對性地收集的數據的加工(gōng)，也是統計分析的組成部分。但對于大數據，由于新的網絡語言、新的信息内容、新的數據表現形式不斷出現，使得會(huì)産生(shēng)哪些種類的信息、有哪些可以利用的分類标識、不同标識之間是什麽關系、類與類之間的識别度有多(duō)大、信息與個(gè)體之間的對應關系如何等，都無法事(shì)先加以嚴格設定或控制，往往需要事(shì)後進行補充或完善。面對超大量的數據，我們從(cóng)何下(xià)手?隻能(néng)從(cóng)數據本身入手，從(cóng)觀察數據分布特征入手。這就(jiù)需要采用不同的數據梳理與分類方法。否則，要想尋找到(dào)能(néng)有效開(kāi)展數據分析的路(lù)徑是不可能(néng)的。因此根據大數據的特點，創新與發展數據的梳理與分類方法，是有效開(kāi)展大數據分析的重要前提。這裡(lǐ)需要強調的是，能(néng)否建立起能(néng)自(zì)動進行初步的數據梳理與分類的簡單模型?因為(wèi)從(cóng)技(jì)術(shù)上(shàng)講，我們已經具備了一(yī)定的對大數據進行多(duō)次叠代建模的算(suàn)法。

　　(四)需要強化結構化數據與非結構化數據的對接研究

　　有效實現結構化數據與非結構化數據的對接，是數據概念拓展的必然結果。盡管大數據是超大量數據，但大數據不能(néng)涵蓋所有的數據，因此傳統意義上(shàng)的結構化數據與大數據中的非結構化數據必将長(cháng)期并存。大數據時代的來臨，使得數據收集、存儲與分析的能(néng)力大為(wèi)增強，而且步伐越來越快，但出于針對性與安全性考慮，總有一(yī)些結構化數據要通(tōng)過專門(mén)的方式去收集而不能(néng)依賴于公共網絡系統(例如政府統計數據，專題研究數據)。這樣，如何既能(néng)有針對性地收集所需的結構化數據，又(yòu)能(néng)從(cóng)大量非結構化數據中挖掘出有價值的信息，使兩者相(xiàng)輔相(xiàng)成、有機(jī)結合，就(jiù)成了一(yī)個(gè)新的課題，值得探讨的問題包括非結構化數據如何結構化或結構化數據能(néng)否采用非結構化的表現形式等。通(tōng)過特定的方法，實現結構化數據與非結構化數據的轉化與對接是完全可能(néng)的。但要實現這種對接，必須要增強對各種類型數據進行測度與描述的能(néng)力，否則大數據分析就(jiù)沒有全面牢固的基礎。如果說傳統的基于樣本數據的統計分析側重于推斷，那麽基于大數據的統計分析需要更加關注描述。

　　(五)需要轉變抽樣調查的功能(néng)

　　對于傳統的數據收集而言，抽樣調查是最重要的方式。盡管樣本隻是總體中的很小(xiǎo)一(yī)部分，但由于依據科學的抽樣理論，科學設計的抽樣調查能(néng)夠确保數據的精确度和可靠性。但抽樣調查畢竟存在著(zhe)信息量有限、不可連續擴充、前期準備工(gōng)作要求高(gāo)等缺陷，很難滿足日益增長(cháng)的數據需求。現在有了大數據，我們應該利用一(yī)切可以利用的、盡量多(duō)的數據來進行分析而不是僅局限于樣本數據。但這是否意味著(zhe)抽樣調查可以退出曆史舞台呢(ne)?筆者認為(wèi)還(hái)為(wèi)時過早，在信息化、數字化、物(wù)聯網還(hái)不能(néng)全覆蓋的情況下(xià)，仍然還(hái)有很多(duō)數據信息需要通(tōng)過抽樣調查的方式去獲取。與此同時，盡管我們可以對大數據進行全體分析，但考慮到(dào)成本與效率因素，在很多(duō)情況下(xià)抽樣分析仍然是不錯(cuò)的或明智的選擇。當然，抽樣調查也要适當轉變其功能(néng)以便進一(yī)步拓展其應用空間:一(yī)是可以把抽樣調查獲得的數據作為(wèi)大數據分析的對照(zhào)基礎與驗證依據;二是可以把抽樣調查作為(wèi)數據挖掘、快速進行探測性分析的工(gōng)具———從(cóng)混雜(zá)的數據中尋找規律或關系的線索。

　　(六)需要歸納推斷法與演繹推理法并用

　　哲人培根說過“知識就(jiù)是力量”。統計研究的任務就(jiù)是為(wèi)了發現新的知識，歸納法則是發現新知識的基本方法。因此，歸納推斷法成為(wèi)最主要的統計研究方法，使得我們能(néng)夠從(cóng)足夠多(duō)的個(gè)體信息中歸納出關于總體的特征。當然，歸納推斷的依據通(tōng)常是樣本數據，即在歸納出樣本特征的基礎上(shàng)再推斷總體。對于大數據，我們依然要從(cóng)中去發現新的知識，依然要通(tōng)過具體的個(gè)體信息去歸納出一(yī)般的總體特征，因此歸納法依然是大數據分析的主要方法。正如C.R.勞指出:“‘從(cóng)數據中提取一(yī)切信息’或者‘歸納和揭示’作為(wèi)統計分析的目的一(yī)直沒有改變。”但是，大數據是一(yī)個(gè)信息寶庫，光(guāng)重視一(yī)般特征的歸納與概括是不夠的，還(hái)需要分析研究子類信息乃至個(gè)體信息，以及某些特殊的、異常的信息———或許它(們)代表著(zhe)一(yī)種新生(shēng)事(shì)物(wù)或未來的發展方向，還(hái)需要通(tōng)過已掌握的分布特征和相(xiàng)關知識與經驗去推理分析其他更多(duō)、更具體的規律，去發現更深層次的關聯關系，去對某些結論做出判斷，這就(jiù)需要運用演繹推理法。演繹法可以幫助我們充分利用已有的知識去認識更具體、細小(xiǎo)的特征，形成更多(duō)有用的結論。隻要歸納法與演繹法結合得好，我們就(jiù)既可以從(cóng)大數據的偶然性中發現必然性，又(yòu)可以利用全面數據的必然性去觀察偶然性、認識偶然性、甚至利用偶然性，從(cóng)而提高(gāo)駕馭偶然性的能(néng)力。

　　(七)需要相(xiàng)關分析與因果分析并重

　　《大數據時代》認為(wèi)，我們隻須從(cóng)大數據中知道“是什麽”就(jiù)夠了，沒必要知道“為(wèi)什麽”，并且指出“通(tōng)過給我們找到(dào)一(yī)個(gè)現象的良好的關聯物(wù)，相(xiàng)關關系可以幫助我們捕捉現在和預測未來”以及“建立在相(xiàng)關關系分析法基礎上(shàng)的預測是大數據的核心”。毫無疑問，從(cóng)超大量數據中發現各種真實存在的相(xiàng)關關系，是人們認識和掌控事(shì)物(wù)、繼而做出預測判斷的重要途徑，而大數據時代新的分析工(gōng)具和思路(lù)可以讓我們發現很多(duō)以前難以發現或不曾注意的事(shì)物(wù)之間的聯系，因此大力開(kāi)展相(xiàng)關分析是大數據時代的重要任務。但是，我們僅僅停留于知道“是什麽”是不夠的，還(hái)必須知道“為(wèi)什麽”，正所謂“既要知其然，更要知其所以然”，隻有這樣才能(néng)更好地理解“是什麽”———為(wèi)什麽需要把手電(diàn)筒與蛋撻放(fàng)在一(yī)起。隻有知道原因、背景的數據才是真正的數據。因此探求“是什麽”背後的原因始終是人類探索世界的動力，因果分析是人類永恒的使命。哲學家德谟克利特早就(jiù)指出:“與其做波斯國(guó)王，還(hái)不如找到(dào)一(yī)種因果關系。”如果我們隻知道相(xiàng)關關系而不知道因果關系，那麽數據分析的深度隻有一(yī)半，一(yī)旦出現問題或疑問就(jiù)無從(cóng)下(xià)手。而如果我們知道了因果關系，就(jiù)可以更好地利用相(xiàng)關關系，就(jiù)可以更好地掌握預測未來的主動權，就(jiù)可以幫助我們更科學地進行決策。當然，因果分析是困難的，正因為(wèi)困難，所以要以相(xiàng)關分析為(wèi)基礎，要更進一(yī)步利用好大數據。相(xiàng)關分析與因果分析不是互相(xiàng)對立的，而是互補的，兩者必須并重。

　　(八)需要統計技(jì)術(shù)與雲計算(suàn)技(jì)術(shù)融合

　　盡管用于收集和分析數據的統計技(jì)術(shù)已相(xiàng)對成熟、自(zì)成體系，但其所能(néng)處理的數據量是有限的，面對不可同日而語的大數據、特别是其中大量的非結構化數據，恐怕單憑一(yī)己之力是難以勝任的，隻能(néng)望“數”興歎。首先遇到(dào)的問題就(jiù)是計算(suàn)能(néng)力問題，這就(jiù)要求我們在不斷創新與發展統計技(jì)術(shù)的同時，還(hái)要緊緊依靠現代信息技(jì)術(shù)、特别是雲計算(suàn)技(jì)術(shù)。雲計算(suàn)技(jì)術(shù)主要包括虛拟化、分布式處理、雲終端、雲管理、雲安全等技(jì)術(shù)，或者說以編程模型、數據存儲、數據管理、虛拟化、雲計算(suàn)平台管理等技(jì)術(shù)最為(wèi)關鍵。借助雲計算(suàn)技(jì)術(shù)可以将網格計算(suàn)、分布式計算(suàn)、并行計算(suàn)、效用計算(suàn)、網絡存儲、虛拟化、負載均衡等傳統計算(suàn)機(jī)技(jì)術(shù)與現代網絡技(jì)術(shù)融合起來，把多(duō)個(gè)計算(suàn)實體整合成一(yī)個(gè)具有強大計算(suàn)能(néng)力的系統，并借助SaaS、PaaS、IaaS、MSP等商業(yè)模式把它分布到(dào)終端用戶手中。雲計算(suàn)的核心理念就(jiù)是不斷提高(gāo)“雲”處理能(néng)力來減少用戶終端的處理負擔，使用戶終端簡化成一(yī)個(gè)單純的輸入輸出設備，并能(néng)按需享受強大的“雲”計算(suàn)處理能(néng)力。可見(jiàn)，統計技(jì)術(shù)與雲計算(suàn)技(jì)術(shù)的融合是一(yī)種優勢互補，隻有這樣統計技(jì)術(shù)才能(néng)在大數據時代一(yī)展身手、有所作為(wèi)，才能(néng)真正把統計思想在數據分析中得到(dào)體現，實現統計分析研究的目的。

　　數據創造統計，流量創新分析。由于各個(gè)應用領域的不斷變化，特别是數據來源與類型的不斷變化，使得統計學還(hái)難以成為(wèi)一(yī)門(mén)真正成熟的科學。因此，在數據分析的世界裡(lǐ)，不斷提高(gāo)駕馭數據的能(néng)力是統計學發展的終身動力。

微信掃一(yī)掃

關注昊雲訂閱号

獲取更多(duō)專業(yè)資訊

上(shàng)條新聞：AT&T如何成為(wèi)美國(guó)物(wù)聯網市(shì)場老大？

下(xià)條新聞：“互聯網+”的數據地圖：溝壑的顯現與超車的可能(néng)

服務項目

維保運維服務

信息系統集成服務

機(jī)房搬遷服務