大數(shù)據(jù)時(shí)代的“小數(shù)據(jù)”
- 時(shí)間:2014-07-02
- 來(lái)源:
遠(yuǎn)光軟件(來(lái)源:CIO時(shí)代網(wǎng) 作者:佚名)
如今,CIO們都已經(jīng)接受了“大數(shù)據(jù)”的概念,另一個(gè)概念也逐漸受到關(guān)注:小數(shù)據(jù)。
這兩者看似是相對(duì)立的兩端,但是這不完全正確。小數(shù)據(jù)往往指數(shù)據(jù)量;而大數(shù)據(jù)當(dāng)然也包含了數(shù)據(jù)量,但是也包含了多樣性,時(shí)效性,特定的技術(shù)或者其他概念。
Kirk Borne,是美國(guó)喬治梅森大學(xué)的天體物理學(xué)和計(jì)算機(jī)科學(xué)的教授, 他認(rèn)為這兩者的區(qū)別是很重要的。Borne有關(guān)大數(shù)據(jù)的課程專注于大數(shù)據(jù)的屬性和先進(jìn)的分析技術(shù), 而這些也幾乎總是可以應(yīng)用于小數(shù)據(jù)。但是后者卻可以使學(xué)生進(jìn)行實(shí)驗(yàn),磨練他們?cè)跀?shù)據(jù)分析上的技能。而大數(shù)據(jù)則會(huì)快速把他們淹沒。
隨著CIO們斟酌著“多少數(shù)據(jù)是太多的數(shù)據(jù)”這個(gè)問(wèn)題時(shí),小數(shù)據(jù)在企業(yè)界因?yàn)轭愃频脑驗(yàn)樽约簶淞⒚暋?Borne,前美國(guó)航空航天局員工,還曾為哈勃太空望遠(yuǎn)鏡團(tuán)隊(duì)工作10年,在接受TechTarget專訪時(shí)討論了有關(guān)什么是小數(shù)據(jù),以及它和大數(shù)據(jù)概念如何相互融合。
問(wèn):您最近會(huì)在一些會(huì)議上討論小數(shù)據(jù)和大數(shù)據(jù)的對(duì)比。讓我們先從定義開始:什么是大數(shù)據(jù),什么是小數(shù)據(jù)?
Kirk Borne:定義小數(shù)據(jù)相對(duì)容易點(diǎn),因?yàn)樗旧暇褪悄隳茉诠P記本電腦上完成的數(shù)據(jù)。大數(shù)據(jù) – 則更復(fù)雜。我現(xiàn)在正在推廣這樣一個(gè)定義:大數(shù)據(jù)就是一切能夠被量化和被追蹤的。關(guān)于這一點(diǎn),我的意思是我們現(xiàn)在幾乎對(duì)于一切都在進(jìn)行測(cè)量和量化 – 通過(guò)社交媒體,智能高速公路,智能城市,移動(dòng)醫(yī)療,電子醫(yī)療記錄,監(jiān)控?cái)z像頭無(wú)處不在,這也涉及到大數(shù)據(jù)所帶來(lái)的隱私問(wèn)題。所有可以被測(cè)量的一切,我們都在進(jìn)行測(cè)量。而我們不僅只是進(jìn)行一次測(cè)量,我們還跟蹤它如何隨時(shí)間而變化。
問(wèn):為什么大數(shù)據(jù)如此難以定義?
Borne:你肯定看過(guò)瞎子摸象的動(dòng)畫片。每個(gè)人對(duì)于它是什么都有不同的定義,因?yàn)橛腥嗣降氖峭龋腥嗣降氖潜亲樱腥嗣降氖俏舶汀?duì)于‘大象',每個(gè)人都有不同的描述和定義。這就是我們的難處。人們希望大數(shù)據(jù)是一個(gè)概念,但是這是行不通的。
問(wèn):小數(shù)據(jù)適合人使用,而大數(shù)據(jù)適合機(jī)器使用。這一區(qū)別定義合理嗎?
Borne:是的。這是一種概括的說(shuō)法。小數(shù)據(jù),是你學(xué)習(xí)時(shí)使用的數(shù)據(jù)。關(guān)于學(xué)習(xí),我指的是兩件事情:第一,教育概念里的學(xué)習(xí)。所以,當(dāng)我教授課程時(shí),我一直使用小數(shù)據(jù),我從來(lái)沒有使用過(guò)大容量意義上的大數(shù)據(jù),因?yàn)槿绻@樣,學(xué)生們就會(huì)花費(fèi)一整個(gè)學(xué)期學(xué)習(xí)如何移動(dòng)數(shù)據(jù),而沒有時(shí)間學(xué)習(xí)任何運(yùn)算方法。第二,當(dāng)你在一個(gè)企業(yè)內(nèi),你想知道使用哪些合適的數(shù)據(jù)能夠,追蹤客戶,或者向客戶提供推薦,或者知道客戶的偏好。或者說(shuō),有一個(gè)網(wǎng)絡(luò)安全分析問(wèn)題,你需要檢測(cè)出漏洞或黑客攻擊。所以,你進(jìn)行這些實(shí)驗(yàn),找出你所需要測(cè)量的數(shù)據(jù) - 這就是小數(shù)據(jù)。
一旦你學(xué)會(huì)了這一模型……那么你使用它,在機(jī)器上運(yùn)行完整的數(shù)據(jù)流。機(jī)器,本質(zhì)上,使用你通過(guò)小數(shù)據(jù)得出的模型或者技能,在大數(shù)據(jù)流上進(jìn)行運(yùn)算。所以,小數(shù)據(jù)適合人使用,而大數(shù)據(jù)適合機(jī)器使用。
問(wèn):可視化技術(shù)在小數(shù)據(jù)與大數(shù)據(jù)的討論中如何起到作用?
Borne:讓我給你舉個(gè)例子。當(dāng)你第一次使用任何地圖服務(wù)時(shí),你會(huì)先看到一個(gè)世界地圖。你沒有真正獲得任何數(shù)據(jù);你只是看到了地球的圖片。當(dāng)你不斷放大到一個(gè)特定的地點(diǎn),它只提供給你這個(gè)特定地點(diǎn)的信息。當(dāng)你不斷放大,你將獲得越來(lái)越高分辨率的數(shù)據(jù)。當(dāng)你放大到分辨率最大可能值時(shí),你就能看到自家的后院。這只不過(guò)是大數(shù)據(jù)的一個(gè)子集。是的,這一部分是’小數(shù)據(jù)‘,但是你真正所作的是,建立了一個(gè)分級(jí)數(shù)據(jù)結(jié)構(gòu),使你能夠一層一層的放大。你可以左右移動(dòng),在同樣分辨率下看到其他房子或者小區(qū)。可視化的強(qiáng)大就在這里。當(dāng)你鍵入這個(gè)分級(jí)數(shù)據(jù)結(jié)構(gòu)的某一特定數(shù)據(jù)時(shí),可以說(shuō),你只是看到了冰山一角。 但是當(dāng)你想移動(dòng)到另一邊時(shí),你就可以獲得同樣分辨率數(shù)據(jù)集下的其他特定數(shù)據(jù)。你仍然可以訪問(wèn)整個(gè)數(shù)據(jù)集。
如果是小數(shù)據(jù),你只是下載了一張地圖,比如你自己城市的一個(gè)高分辨率地圖,然后在地圖上進(jìn)行數(shù)據(jù)分析。