譯著(zhe)《大數據時代》(英國(guó)ViktorMayer-Schǒnberger,KennethCukier著(zhe))和《駕馭大數據》(美國(guó)BillFranks著(zhe)),以及我國(guó)學者塗子沛、郭曉科的《大數據》等幾本書引起了廣泛的關注,其他各種媒體關于大數據的讨論也層出不窮,大數據已成為(wèi)流行語。有人認為(wèi),大數據是一(yī)場新的革命,将橫掃一(yī)切領域,重構世界。不少國(guó)家已将大數據作為(wèi)國(guó)家發展戰略,而商業(yè)領域更是将其視為(wèi)下(xià)一(yī)個(gè)投資的寶庫。毫無疑問,大數據時代已經來臨,它正在悄悄地改變著(zhe)人們的行為(wèi)與思維,難以阻擋,無法抗拒。在計算(suàn)機(jī)科學、電(diàn)子商務等領域已率先在大數據技(jì)術(shù)開(kāi)發與應用方面做出不俗成就(jiù)的時候,以數據為(wèi)研究對象的統計學該如何應對?無動于衷還(hái)是盲目追從(cóng)?正确的态度應該是理性對待、積極跟進、改變思維、謀求發展。
一(yī):對大數據的初步認識
到(dào)底什麽是大數據,不同的學科領域、不同行業(yè)的從(cóng)業(yè)人員(yuán)肯定會(huì)有不同的理解。與傳統意義上(shàng)的數據相(xiàng)比,大數據的“大”與“數據”都有了新的含義,絕不僅僅是體量的問題,更重要的是數據的内涵問題。或許,“大”與“數據”根本就(jiù)不能(néng)分開(kāi),隻有把“大數據”當作一(yī)個(gè)整體概念來理解才有意義。那麽從(cóng)統計學的角度,我們該如何來理解大數據?筆者認為(wèi)大數據不是基于人工(gōng)設計、借助傳統方法而獲得的有限、固定、不連續、不可擴充的結構型數據,而是基于現代信息技(jì)術(shù)與工(gōng)具可以自(zì)動記錄、儲存和連續擴充的、大大超出傳統統計記錄與儲存能(néng)力的一(yī)切類型的數據。有人用4V(Volume,Variety、Velocity和Value)來形容大數據的特征,最根本之處就(jiù)是數字化基礎上(shàng)的數據化。通(tōng)俗地說,大數據就(jiù)是一(yī)切可記錄信号的集合。
如果說,傳統統計研究的數據是有意收集的結構化的樣本數據,那麽現在我們面對的數據則是一(yī)切可以記錄和存儲、源源不斷擴充、超大容量的各種類型的數據。樣本數據與大數據的這種區别,具有什麽樣的統計學意義?我們知道,樣本數據是按照(zhào)特定研究目的、依據抽樣方案獲得的格式化的數據,不僅數據量有限,而且如果過程偏離方案,數據就(jiù)不能(néng)滿足要求。基于樣本數據所進行的分析,其空間十分有限———通(tōng)常無法滿足多(duō)層次、多(duō)角度的需要,若遇到(dào)抽樣方案事(shì)先未曾考慮到(dào)的問題,數據的不可擴充性缺點就(jiù)暴露無疑。而大數據是一(yī)切可以通(tōng)過現代信息技(jì)術(shù)記錄和量化的數據,不僅所蘊含的信息量巨大,而且不受各種框框的限制———任何種類的數據都來者不拒、也無法抵拒。不難發現,大數據相(xiàng)比于樣本數據的最大優點是,具有巨大的數據選擇空間,可以進行多(duō)維、多(duō)角度的數據分析。更為(wèi)重要的是,由于大數據的大體量與多(duō)樣性,樣本不足以呈現的某些規律,大數據可以體現;樣本不足以捕捉的某些弱小(xiǎo)信息,大數據可以覆蓋;樣本中被認為(wèi)異常的值,大數據得以認可。這将極大地提高(gāo)我們認識現象的能(néng)力,避免丢失很多(duō)重要的信息,避免失去很多(duō)決策選擇的機(jī)會(huì)。
這裡(lǐ),我們自(zì)然就(jiù)想到(dào)了大量觀察與大數據這兩個(gè)概念中的“大”的區别。對于傳統的統計研究方法而言,大量觀察法是基礎,是收集數據的基本理論依據,其主要思想是要對足夠量的個(gè)體進行調查觀察,以确保有足夠的微觀基礎來消除或削弱個(gè)體差異對整體特征的影響,足以歸納出關于總體的數量規律。所以,這裡(lǐ)的“大”是足夠的意思。大量觀察法的極端情況就(jiù)是普查,但限于各種因素不能(néng)經常進行,所以一(yī)般情況下(xià)隻能(néng)進行抽樣調查,這就(jiù)需要精确計算(suàn)最小(xiǎo)的樣本量。基于大量觀察法獲得的樣本數據才符合大數法則或大數定律,才能(néng)用以推斷總體。而大數據則指不限量的數據,是基于現代信息技(jì)術(shù)的一(yī)切可以記錄的全體數據,其特征之一(yī)就(jiù)是盡量多(duō)地包含數據,它與樣本容量無關,隻與信息來源的數量與儲存容量有關。因此,這裡(lǐ)的“大”是全體的意思。
可見(jiàn),統計學的研究對象沒有變,變的是數據的來源、體量、類型、速度與量化的方式。這種變化對統計研究帶來了什麽樣的挑戰?《大數據時代》提出了三個(gè)最顯著(zhe)的變化:一(yī)是樣本等于總體,二是不再追求精确性,三是相(xiàng)關分析比因果分析更重要。這些觀點具有很強的震撼力,迫使我們對現有的統計研究思維進行反思。盡管這些觀點值得進一(yī)步商榷,但至少告訴我們這樣一(yī)個(gè)道理:統計研究對象的基礎變了,統計思維也要跟著(zhe)變化,否則統計研究的對象隻是全部數據的5%,而且越來越少,那又(yòu)怎麽能(néng)說統計學是一(yī)門(mén)關于數據的科學呢(ne)?又(yòu)怎麽去完善和發展開(kāi)展數據分析研究的統計方法論呢(ne)?
二:統計思維的變化
改變統計思維,是大數據時代的必然要求。否則,統計學科就(jiù)有可能(néng)被大數據的潮流所吞沒,至少會(huì)被邊緣化,失去一(yī)次重要的參與推動曆史變革的機(jī)遇。當然,統計思維的變化應該以一(yī)個(gè)永恒不變的主題為(wèi)前提,那就(jiù)是通(tōng)過數據分析去揭示事(shì)物(wù)的真相(xiàng),這個(gè)真相(xiàng)就(jiù)是事(shì)物(wù)的生(shēng)存規律、聯系規律和發展規律。也就(jiù)是說,數據分析要以數據背後的數據去還(hái)原事(shì)物(wù)的本來面目,以達到(dào)求真的目的。如果說,我們原來限于各種條件(jiàn)隻能(néng)根據有限的樣本數據去實現這個(gè)目的,那麽現在我們則可以在很多(duō)方面借助大數據去實現這個(gè)目的,關鍵就(jiù)看(kàn)我們開(kāi)展數據分析的能(néng)力有多(duō)大,或者說利用大數據、從(cóng)一(yī)切數據中提取有價值信息的能(néng)力有多(duō)大———因為(wèi)大數據無疑增加了統計分析的難度,而這又(yòu)首先取決于我們統計思維能(néng)否适應大數據時代的變化。正如邁爾–舍恩伯格所說:大數據發展的核心動力就(jiù)是人類測量、記錄和分析世界的渴望。
那麽,統計思維應該發生(shēng)怎樣的變化?筆者認為(wèi)主要要有如下(xià)三大變化:
(一(yī))認識數據的思維要變化
前面已經提到(dào),與傳統數據相(xiàng)比,大數據不僅體量大、變化快,而且其來源、類型和量化方式都發生(shēng)了根本性的變化,使得數據雜(zá)亂、多(duō)樣、不規整。
首先,從(cóng)來源上(shàng)看(kàn),傳統的數據收集因為(wèi)具有很強的針對性,因此數據的提供者大多(duō)是确定的,身份特征是可識别的,有的還(hái)可以進行事(shì)後核對。但大數據通(tōng)常來源于物(wù)聯網,不是為(wèi)了特定的數據收集目的而産生(shēng),而是人們一(yī)切可記錄的信号(當然,任何信号的産生(shēng)都有其目的,但它們是發散的),并且身份識别十分困難。從(cóng)某種意義上(shàng)講,大數據來源的微觀基礎是很難追溯的。
其次,從(cóng)類型上(shàng)看(kàn),傳統數據基本上(shàng)是結構型數據,即定量數據加上(shàng)少量專門(mén)設計的定性數據,格式化,有标準,可以用常規的統計指标或統計圖表加以表現。但大數據更多(duō)的是非結構型數據、半結構型數據或異構數據,包括了一(yī)切可記錄、可存儲的信号,多(duō)樣化、無标準、難以用傳統的統計指标或統計圖表加以表現。同時,不同的網絡信息系統有不同的數據識别方式,相(xiàng)互之間也沒用統一(yī)的數據分類标準。再者,現在有的數據庫是非關系型的數據庫,不需要預先設定記錄結構即可自(zì)動包容大量各種各樣的數據。
第三,從(cóng)量化方式上(shàng)看(kàn),傳統數據的量化處理已經有一(yī)整套較為(wèi)完整的方式與過程,量化的結果可直接用于各種運算(suàn)與分析。但大數據中大量的非結構化數據如何量化(結構化)、如何從(cóng)中提取信息、如何與結構化數據對接是一(yī)個(gè)嶄新的問題。正如Franks所說:“幾乎沒有哪種分析過程能(néng)夠直接對非結構化數據進行分析,也無法直接從(cóng)非結構化的數據中得出結論。”更為(wèi)重要的是,“量化”的含義恐怕也不一(yī)樣了,即此“量化”不一(yī)定等同于彼“量化”,量化結果的表現形式自(zì)然也不相(xiàng)同。顯然,我們不能(néng)套用已有的方式去量化非結構化數據。
可以說,大數據是雜(zá)亂、不規整、良莠不齊的,但我們不能(néng)因此而回避它、拒絕它,隻能(néng)接納它、包容它。我們需要将統計研究的對象範圍從(cóng)結構型數據擴展到(dào)一(yī)切數據,需要重新思考數據的定義和分類方法,并以此為(wèi)基礎發展和創新統計分析方法。從(cóng)某種意義上(shàng)講,沒有無用的數據,隻有未被欣賞的數據,關鍵是我們從(cóng)哪個(gè)角度看(kàn)數據。
(二)收集數據的思維要變化
收集數據是開(kāi)展統計分析的前提,“沒有黏土(tǔ),如何做磚?”以往,收集統計數據的思維是先确定統計分析研究的目的,然後需要什麽數據就(jiù)收集什麽數據,所以要精心設計調查方案,嚴格執行每個(gè)流程,但往往是投入大而數據量有限。現在,我們擁有了大數據,就(jiù)等于擁有了超大量可選擇的數據———備選“黏土(tǔ)”的體量與種類都極大地增加了,所要做的最重要的工(gōng)作就(jiù)是比較與選擇,因此我們的思維應該是如何充分利用大數據,凡是大數據源中能(néng)找到(dào)的數據就(jiù)不再需要進行專門(mén)的調查。
但是,由于大數據來源與種類的多(duō)樣性,以及數據增加的快速性,我們在享受數據的豐富性的同時也不得不面臨這樣一(yī)些困境:存儲能(néng)力夠不夠,分析能(néng)力夠不夠(是否及時、充分),如何甄别數據的真僞,如何選擇關聯物(wù),如何提煉和利用數據,如何确定分析節點?現在TB級的數據庫已經很多(duō),PB級的數據庫也不少見(jiàn),以後還(hái)會(huì)出現EB、甚至ZB、YB級的數據庫。今天的大數據,明天就(jiù)不再是大數據。這樣一(yī)來,電(diàn)子存儲能(néng)力能(néng)否跟得上(shàng)數據增加的速度就(jiù)成為(wèi)首要的問題。如果讓數據庫自(zì)動更新就(jiù)有可能(néng)失去一(yī)些寶貴的數據信息,而到(dào)了一(yī)定級别以後擴充存儲容量或對數據進行拷貝,其代價是十分巨大的,因此我們不得不對數據進行分類、篩選,有針對地删除那些垃圾數據、不重要或次重要的數據。如果說以前有針對地獲得數據叫做收集,那麽今後有選擇地删除數據就(jiù)意味著(zhe)收集。也就(jiù)是說,大數據時代的數據收集将更多(duō)的是從(cóng)已有的超大量數據中進行再過濾、再選擇。因此,我們要做好丢棄一(yī)部分數據的準備。
當然,并不是任何數據都可以從(cóng)現成的大數據中獲得,這裡(lǐ)存在一(yī)個(gè)針對性、安全性和成本比較問題。因此,我們既要繼續采用傳統的方式方法去收集特定需要的數據,又(yòu)要善于利用現代網絡信息技(jì)術(shù)和各種數據源去收集一(yī)切相(xiàng)關的數據,并善于從(cóng)大數據中進行再過濾、再選擇。問題在于什麽是無用的或不重要的數據?該如何過濾與選擇數據?這就(jiù)需要對已經存在的數據進行重要性分析、真僞别和關聯物(wù)定位。
此外,大的數據庫可能(néng)需要将信息分散在不同的硬盤或電(diàn)腦(nǎo)上(shàng),這樣一(yī)來,在不能(néng)同步更新數據信息的情況下(xià)如何選擇、調用和匹配數據又(yòu)是一(yī)個(gè)問題。因此從(cóng)某種意義上(shàng)講,從(cóng)大數據中收集數據就(jiù)是識别、整理、提煉、汲取(删除)、分配和存儲元數據的過程。
(三)分析數據的思維要變化
基于上(shàng)述兩個(gè)變化,數據分析的思維必然要跟著(zhe)變化,那就(jiù)是要主動利用現代信息技(jì)術(shù)與各種軟件(jiàn)工(gōng)具從(cóng)大數據中挖掘出有價值的信息,并在這個(gè)過程中豐富和發展統計分析方法。
關于數據分析思維的變化,特别需要強調三點:
第一(yī),傳統的統計分析過程是“定性—定量—再定性”,第一(yī)個(gè)定性是為(wèi)了找準定量分析的方向,主要靠經驗判斷,這在數據短缺、分析運算(suàn)手段有限的情況下(xià)很重要。現在我們是在大數據中找礦,直接依賴數據分析做出判斷,因此基礎性的工(gōng)作就(jiù)是找到(dào)“定量的回應”,這在存儲能(néng)力大為(wèi)增強、分析技(jì)術(shù)與分析速度大為(wèi)提高(gāo)的今天,探測“定量的回應”變得越來越簡單,所要做的就(jiù)是直接從(cóng)各種“定量的回應”中找出那些真正的、重要的數量特征和數量關系,得出可以作為(wèi)判斷或決策依據的結論,因此統計分析的過程可以簡化為(wèi)“定量—定性”,從(cóng)而大大提高(gāo)得到(dào)新的定性結論的可能(néng)性。
第二,傳統的統計實證分析,一(yī)般都要先根據研究目的提出某種假設,然後通(tōng)過數據的收集與分析去驗證該假設是否成立,其分析思路(lù)是“假設—驗證”,但這種驗證往往由于受到(dào)假設的局限、指标選擇的失當、所需數據的缺失而得不出真正的結論。特别是,一(yī)旦假設本身不科學、不符合實際,那麽分析結論就(jiù)毫無用處、甚至扭曲事(shì)實真相(xiàng)。事(shì)實證明,很多(duō)這樣的實證分析純粹是為(wèi)了湊合假設。現在,我們有了大數據,可以不受任何假設的限制而從(cóng)中去尋找關系、發現規律,然後再加以總結、形成結論。也就(jiù)是說,分析的思路(lù)是“發現—總結”。這将極大地豐富統計分析的資源與空間,有助于發現更多(duō)意外的“發現”。
第三,傳統的統計推斷分析,通(tōng)常是基于分布理論,以一(yī)定的概率為(wèi)保證,根據樣本特征去推斷總體特征,其邏輯關系是“分布理論—概率保證—總體推斷”,推斷的評判标準與具體樣本無關,但推斷是否正确卻取決于樣本的好壞。現在,大數據強調的是全體數據,總體特征不再需要根據分布理論進行推斷,隻需進行計數或計量處理即可。不僅如此,還(hái)可以根據全面數據和實際分布來判斷其中出現某類情況的可能(néng)性有多(duō)大,其邏輯關系變成了“實際分布—總體特征—概率判斷”,也即概率不再是事(shì)先預設,而是基于實際分布得出的判斷。按照(zhào)邁爾-舍恩伯格的觀點,這個(gè)概率判斷就(jiù)可用于預測了。
伴随著(zhe)上(shàng)述三大變化,統計分析評價的标準又(yòu)該如何變化?傳統統計分析的評價标準無非兩個(gè)方面,一(yī)是可靠性評價,二是有效性評價,而這兩種評價都因抽樣而生(shēng)。所謂可靠性評價是指用樣本去推斷總體有多(duō)大的把握程度,是以概率來度量的———有時表現為(wèi)置信水(shuǐ)平,有時表現為(wèi)顯著(zhe)性水(shuǐ)平。特别是在假設檢驗和模型拟合度評價中,顯著(zhe)性水(shuǐ)平怎麽定是一(yī)個(gè)難題,一(yī)直存在争議,因為(wèi)所參照(zhào)的分布類型不同其統計量就(jiù)不同,顯著(zhe)性評價的臨界值就(jiù)不同,而臨界值又(yòu)與顯著(zhe)性水(shuǐ)平的高(gāo)低(dī)直接相(xiàng)關。然而在大數據的背景下(xià),大數據在一(yī)定程度上(shàng)就(jiù)是全體數據,我們可以對全體數據進行計數或計量分析,這就(jiù)不存在以樣本推斷總體的問題了,那麽這時還(hái)有沒有可靠性的問題?還(hái)要不要确定置信水(shuǐ)平?怎麽确定?依據是什麽?如何比較來自(zì)不同容量數據庫的分析結論的可靠性?
所謂有效性評價指的是真實性,即誤差大小(xiǎo)。這裡(lǐ)又(yòu)有兩個(gè)相(xiàng)關的概念:準确性與精确性。準确性一(yī)般是指一(yī)個(gè)觀察值與真實值的吻合程度,通(tōng)常情況下(xià)是無法做出測度的;而精确性一(yī)般指樣本統計量分布的離散程度,以抽樣分布的标準差來衡量。很顯然,精确性是針對樣本數據而言的。也就(jiù)是說樣本數據既有精确性問題又(yòu)有準确性問題,樣本數據中的誤差既包括抽樣誤差也可能(néng)包括非抽樣誤差。抽樣誤差可以基于抽樣分布理論進行計算(suàn)和控制,而非抽樣誤差隻能(néng)通(tōng)過各種方式加以識别或判斷,但多(duō)數情況下(xià)由于樣本量不是太大而可以得到(dào)較好的防範。但對于大數據,由于它是全體數據,因而不再有抽樣誤差問題,隻有非抽樣誤差問題,也就(jiù)是說大數據的真實性隻表現為(wèi)準确性而非精确性。然而由于大數據是超大量數據,再加上(shàng)混雜(zá)性與多(duō)樣性,因此其非抽樣誤差很難防範與控制,這就(jiù)使得準确性評價問題變得更為(wèi)困難———如何測度?标準怎樣?
三:積極應對大數據
面對大數據,我們唯有積極應對,别無選擇。如何應對,需要考慮以下(xià)幾個(gè)方面:
(一(yī))需要改變總體、個(gè)體乃至樣本的定義方式
傳統的統計分析,是先有總體,再有數據,即必須先确定總體範圍和個(gè)體單位,再收集個(gè)體數據,分析總體。但對大數據來說,情況完全不同了,是先有數據,再有總體。從(cóng)某種意義上(shàng)說,大數據的産生(shēng)系統多(duō)數是非總體式的,即無事(shì)先定義的目标總體,隻有與各個(gè)時點相(xiàng)對應的事(shì)後總體,原因就(jiù)在于個(gè)體是不确定的,是變化著(zhe)的,是無法事(shì)先編制名錄庫的,這與傳統的總體與個(gè)體有很大的不同。更為(wèi)複雜(zá)的是,事(shì)後個(gè)體的識别也很困難,因為(wèi)同一(yī)個(gè)個(gè)體可能(néng)有多(duō)個(gè)不同的網絡符号或稱謂,而不同網絡系統的相(xiàng)同符号(稱謂)也未必就(jiù)是同一(yī)個(gè)個(gè)體,而且還(hái)經常存在個(gè)體異位的情況(即某一(yī)個(gè)體利用另一(yī)個(gè)體的符号完成某種行為(wèi)),因此我們對于大數據往往是隻見(jiàn)“數據”的外形而不見(jiàn)“個(gè)體”的真容。但對大數據的分析,仍然有一(yī)個(gè)總體口徑問題,依然需要識别個(gè)體身份。這就(jiù)需要我們改變總體與個(gè)體的定義方式———盡管它們的内涵沒有變。與此對應,如果要從(cóng)大數據庫中提取樣本數據,那麽樣本的定義方式也需要改變。當然,考慮到(dào)大數據的流動變化性,任何時點的總體都可以被理解為(wèi)一(yī)個(gè)截面樣本。
(二)需要改變對不确定性的認識
衆所周知,統計學是為(wèi)了認識和研究事(shì)物(wù)的不确定性而産生(shēng)的,因為(wèi)無論是自(zì)然現象還(hái)是社會(huì)經濟現象,都時時處處充滿著(zhe)因個(gè)體的差異性而引起的不确定性,因為(wèi)在大多(duō)數情況下(xià)我們缺乏足夠的信息或缺乏足夠的知識去利用有效信息,而人們總是期望通(tōng)過量化事(shì)物(wù)的不确定性去發現規律、揭示真相(xiàng),認識不确定性背後的必然性。要研究不确定性就(jiù)需要收集數據,在隻能(néng)進行抽樣觀測的情況下(xià),這種不确定性就(jiù)表現為(wèi)如何獲得樣本、如何推斷總體(包括估計與檢驗)和如何構建模型等方面。對于大數據,仍然存在著(zhe)個(gè)體的差異性,區别隻在于它包括了一(yī)定條件(jiàn)下(xià)的所有個(gè)體,而不是随機(jī)獲得的一(yī)個(gè)樣本。這樣,大數據的不确定性就(jiù)不再是樣本的獲取與總體的推斷,而是數據的來源、個(gè)體的識别、信息的量化、數據的分類、關聯物(wù)的選擇、節點的确定,以及結論的可能(néng)性判斷等方面。可以說,大數據的不确定性隻來自(zì)于其來源的多(duō)樣性與混雜(zá)性,以及由于個(gè)體的可變性所引起的總體多(duō)變性,而不是同類個(gè)體之間的差異性———因為(wèi)我們已經掌握了一(yī)定條件(jiàn)下(xià)的完全信息。
(三)需要建立新的數據梳理與分類方法
大數據的多(duō)樣性與混雜(zá)性,以及先有數據、後有總體的特點,原有的數據梳理與分類方法将受到(dào)諸多(duō)的限制。傳統的數據梳理與分類是按照(zhào)預先設定的方案進行的,标志(zhì)與指标的關系、分類标識與分組規則等都是結構化的,既是對有針對性地收集的數據的加工(gōng),也是統計分析的組成部分。但對于大數據,由于新的網絡語言、新的信息内容、新的數據表現形式不斷出現,使得會(huì)産生(shēng)哪些種類的信息、有哪些可以利用的分類标識、不同标識之間是什麽關系、類與類之間的識别度有多(duō)大、信息與個(gè)體之間的對應關系如何等,都無法事(shì)先加以嚴格設定或控制,往往需要事(shì)後進行補充或完善。面對超大量的數據,我們從(cóng)何下(xià)手?隻能(néng)從(cóng)數據本身入手,從(cóng)觀察數據分布特征入手。這就(jiù)需要采用不同的數據梳理與分類方法。否則,要想尋找到(dào)能(néng)有效開(kāi)展數據分析的路(lù)徑是不可能(néng)的。因此根據大數據的特點,創新與發展數據的梳理與分類方法,是有效開(kāi)展大數據分析的重要前提。這裡(lǐ)需要強調的是,能(néng)否建立起能(néng)自(zì)動進行初步的數據梳理與分類的簡單模型?因為(wèi)從(cóng)技(jì)術(shù)上(shàng)講,我們已經具備了一(yī)定的對大數據進行多(duō)次叠代建模的算(suàn)法。
(四)需要強化結構化數據與非結構化數據的對接研究
有效實現結構化數據與非結構化數據的對接,是數據概念拓展的必然結果。盡管大數據是超大量數據,但大數據不能(néng)涵蓋所有的數據,因此傳統意義上(shàng)的結構化數據與大數據中的非結構化數據必将長(cháng)期并存。大數據時代的來臨,使得數據收集、存儲與分析的能(néng)力大為(wèi)增強,而且步伐越來越快,但出于針對性與安全性考慮,總有一(yī)些結構化數據要通(tōng)過專門(mén)的方式去收集而不能(néng)依賴于公共網絡系統(例如政府統計數據,專題研究數據)。這樣,如何既能(néng)有針對性地收集所需的結構化數據,又(yòu)能(néng)從(cóng)大量非結構化數據中挖掘出有價值的信息,使兩者相(xiàng)輔相(xiàng)成、有機(jī)結合,就(jiù)成了一(yī)個(gè)新的課題,值得探讨的問題包括非結構化數據如何結構化或結構化數據能(néng)否采用非結構化的表現形式等。通(tōng)過特定的方法,實現結構化數據與非結構化數據的轉化與對接是完全可能(néng)的。但要實現這種對接,必須要增強對各種類型數據進行測度與描述的能(néng)力,否則大數據分析就(jiù)沒有全面牢固的基礎。如果說傳統的基于樣本數據的統計分析側重于推斷,那麽基于大數據的統計分析需要更加關注描述。
(五)需要轉變抽樣調查的功能(néng)
對于傳統的數據收集而言,抽樣調查是最重要的方式。盡管樣本隻是總體中的很小(xiǎo)一(yī)部分,但由于依據科學的抽樣理論,科學設計的抽樣調查能(néng)夠确保數據的精确度和可靠性。但抽樣調查畢竟存在著(zhe)信息量有限、不可連續擴充、前期準備工(gōng)作要求高(gāo)等缺陷,很難滿足日益增長(cháng)的數據需求。現在有了大數據,我們應該利用一(yī)切可以利用的、盡量多(duō)的數據來進行分析而不是僅局限于樣本數據。但這是否意味著(zhe)抽樣調查可以退出曆史舞台呢(ne)?筆者認為(wèi)還(hái)為(wèi)時過早,在信息化、數字化、物(wù)聯網還(hái)不能(néng)全覆蓋的情況下(xià),仍然還(hái)有很多(duō)數據信息需要通(tōng)過抽樣調查的方式去獲取。與此同時,盡管我們可以對大數據進行全體分析,但考慮到(dào)成本與效率因素,在很多(duō)情況下(xià)抽樣分析仍然是不錯(cuò)的或明智的選擇。當然,抽樣調查也要适當轉變其功能(néng)以便進一(yī)步拓展其應用空間:一(yī)是可以把抽樣調查獲得的數據作為(wèi)大數據分析的對照(zhào)基礎與驗證依據;二是可以把抽樣調查作為(wèi)數據挖掘、快速進行探測性分析的工(gōng)具———從(cóng)混雜(zá)的數據中尋找規律或關系的線索。
(六)需要歸納推斷法與演繹推理法并用
哲人培根說過“知識就(jiù)是力量”。統計研究的任務就(jiù)是為(wèi)了發現新的知識,歸納法則是發現新知識的基本方法。因此,歸納推斷法成為(wèi)最主要的統計研究方法,使得我們能(néng)夠從(cóng)足夠多(duō)的個(gè)體信息中歸納出關于總體的特征。當然,歸納推斷的依據通(tōng)常是樣本數據,即在歸納出樣本特征的基礎上(shàng)再推斷總體。對于大數據,我們依然要從(cóng)中去發現新的知識,依然要通(tōng)過具體的個(gè)體信息去歸納出一(yī)般的總體特征,因此歸納法依然是大數據分析的主要方法。正如C.R.勞指出:“‘從(cóng)數據中提取一(yī)切信息’或者‘歸納和揭示’作為(wèi)統計分析的目的一(yī)直沒有改變。”但是,大數據是一(yī)個(gè)信息寶庫,光(guāng)重視一(yī)般特征的歸納與概括是不夠的,還(hái)需要分析研究子類信息乃至個(gè)體信息,以及某些特殊的、異常的信息———或許它(們)代表著(zhe)一(yī)種新生(shēng)事(shì)物(wù)或未來的發展方向,還(hái)需要通(tōng)過已掌握的分布特征和相(xiàng)關知識與經驗去推理分析其他更多(duō)、更具體的規律,去發現更深層次的關聯關系,去對某些結論做出判斷,這就(jiù)需要運用演繹推理法。演繹法可以幫助我們充分利用已有的知識去認識更具體、細小(xiǎo)的特征,形成更多(duō)有用的結論。隻要歸納法與演繹法結合得好,我們就(jiù)既可以從(cóng)大數據的偶然性中發現必然性,又(yòu)可以利用全面數據的必然性去觀察偶然性、認識偶然性、甚至利用偶然性,從(cóng)而提高(gāo)駕馭偶然性的能(néng)力。
(七)需要相(xiàng)關分析與因果分析并重
《大數據時代》認為(wèi),我們隻須從(cóng)大數據中知道“是什麽”就(jiù)夠了,沒必要知道“為(wèi)什麽”,并且指出“通(tōng)過給我們找到(dào)一(yī)個(gè)現象的良好的關聯物(wù),相(xiàng)關關系可以幫助我們捕捉現在和預測未來”以及“建立在相(xiàng)關關系分析法基礎上(shàng)的預測是大數據的核心”。毫無疑問,從(cóng)超大量數據中發現各種真實存在的相(xiàng)關關系,是人們認識和掌控事(shì)物(wù)、繼而做出預測判斷的重要途徑,而大數據時代新的分析工(gōng)具和思路(lù)可以讓我們發現很多(duō)以前難以發現或不曾注意的事(shì)物(wù)之間的聯系,因此大力開(kāi)展相(xiàng)關分析是大數據時代的重要任務。但是,我們僅僅停留于知道“是什麽”是不夠的,還(hái)必須知道“為(wèi)什麽”,正所謂“既要知其然,更要知其所以然”,隻有這樣才能(néng)更好地理解“是什麽”———為(wèi)什麽需要把手電(diàn)筒與蛋撻放(fàng)在一(yī)起。隻有知道原因、背景的數據才是真正的數據。因此探求“是什麽”背後的原因始終是人類探索世界的動力,因果分析是人類永恒的使命。哲學家德谟克利特早就(jiù)指出:“與其做波斯國(guó)王,還(hái)不如找到(dào)一(yī)種因果關系。”如果我們隻知道相(xiàng)關關系而不知道因果關系,那麽數據分析的深度隻有一(yī)半,一(yī)旦出現問題或疑問就(jiù)無從(cóng)下(xià)手。而如果我們知道了因果關系,就(jiù)可以更好地利用相(xiàng)關關系,就(jiù)可以更好地掌握預測未來的主動權,就(jiù)可以幫助我們更科學地進行決策。當然,因果分析是困難的,正因為(wèi)困難,所以要以相(xiàng)關分析為(wèi)基礎,要更進一(yī)步利用好大數據。相(xiàng)關分析與因果分析不是互相(xiàng)對立的,而是互補的,兩者必須并重。
(八)需要統計技(jì)術(shù)與雲計算(suàn)技(jì)術(shù)融合
盡管用于收集和分析數據的統計技(jì)術(shù)已相(xiàng)對成熟、自(zì)成體系,但其所能(néng)處理的數據量是有限的,面對不可同日而語的大數據、特别是其中大量的非結構化數據,恐怕單憑一(yī)己之力是難以勝任的,隻能(néng)望“數”興歎。首先遇到(dào)的問題就(jiù)是計算(suàn)能(néng)力問題,這就(jiù)要求我們在不斷創新與發展統計技(jì)術(shù)的同時,還(hái)要緊緊依靠現代信息技(jì)術(shù)、特别是雲計算(suàn)技(jì)術(shù)。雲計算(suàn)技(jì)術(shù)主要包括虛拟化、分布式處理、雲終端、雲管理、雲安全等技(jì)術(shù),或者說以編程模型、數據存儲、數據管理、虛拟化、雲計算(suàn)平台管理等技(jì)術(shù)最為(wèi)關鍵。借助雲計算(suàn)技(jì)術(shù)可以将網格計算(suàn)、分布式計算(suàn)、并行計算(suàn)、效用計算(suàn)、網絡存儲、虛拟化、負載均衡等傳統計算(suàn)機(jī)技(jì)術(shù)與現代網絡技(jì)術(shù)融合起來,把多(duō)個(gè)計算(suàn)實體整合成一(yī)個(gè)具有強大計算(suàn)能(néng)力的系統,并借助SaaS、PaaS、IaaS、MSP等商業(yè)模式把它分布到(dào)終端用戶手中。雲計算(suàn)的核心理念就(jiù)是不斷提高(gāo)“雲”處理能(néng)力來減少用戶終端的處理負擔,使用戶終端簡化成一(yī)個(gè)單純的輸入輸出設備,并能(néng)按需享受強大的“雲”計算(suàn)處理能(néng)力。可見(jiàn),統計技(jì)術(shù)與雲計算(suàn)技(jì)術(shù)的融合是一(yī)種優勢互補,隻有這樣統計技(jì)術(shù)才能(néng)在大數據時代一(yī)展身手、有所作為(wèi),才能(néng)真正把統計思想在數據分析中得到(dào)體現,實現統計分析研究的目的。
數據創造統計,流量創新分析。由于各個(gè)應用領域的不斷變化,特别是數據來源與類型的不斷變化,使得統計學還(hái)難以成為(wèi)一(yī)門(mén)真正成熟的科學。因此,在數據分析的世界裡(lǐ),不斷提高(gāo)駕馭數據的能(néng)力是統計學發展的終身動力。
微信掃一(yī)掃
關注昊雲訂閱号
獲取更多(duō)專業(yè)資訊