論大數據分析的正確方法 應理智對待
- 時間:2013-11-29
- 來源:
遠光軟件(來源:CIO時代網 作者:chenjian)
據統計,從人類文明開始到2003年,人類共創造了5TB(兆億字節)的信息。現在,同樣的數據量僅需兩天就能夠被創造出來,且速度仍在加快。如此龐大的數據量使數據分析復雜化,而大數據中的非結構化數據將加深這種復雜度。
這種情況下,我們需要清楚:什么樣的數據應被保存。如果從整體性出發,數據采集和存貯算不上大數據,對海量數據進行分析計算之后的結果才有實際價值。這亦是大數據的價值所在。
關于大數據數量,業內一種較為激進的觀點認為,“大數據”的叫法存在問題,因為數據只有“大”是沒有用處的。雖然數據無處不在,但唯有復用性強和可轉化成有用抽象信息的數據才更有價值。
即使我們的數據搜集、處理能力逐漸增強,仍然要堅持“不是任何數據都重要”這一準則。對企業來講,具體需遵循兩點,一是堅持數據廣泛性,對內掌握企業內部分析數據,對外摸準用戶喜好和習慣;二是堅持數據關鍵性,從最重要處著手,把握數據復用性,達到最大價值又使成本最優化。
《哈佛商業評論》近期發表了一篇題為“更大的數據會導致更好的決策嗎?”的文章,這篇文章提出警告,把重點放在量的方面將導致大錯誤。如今很多企業試圖通過龐大的數據量獲得利益,但只有少數企業真正取得成功,這是過分注重數據“量”帶來的弊端。
大數據分析之數據質量與數據分享
我們知道,要保證分析結果的準確性,必須確保被分析數據真實有效,至少絕大部分數據樣本要有質量保證。但在大量數據從數據源匯聚而來的過程中,難免有以次充好的數據混入。
在某網購時,賣家信用等級是買家購買與否的重要參考。為了提高產品銷售量,刷信用等級成了業內公開的秘密,伴隨著部分賣家弄虛作假、違規提高信用等級的過程,將產生大量失真數據,在欺騙消費者的同時,也會直接影響后期數據分析結果。
其次,中國互聯網產業中,“數據割據”現象較嚴重,即掌握大量核心數據的幾大互聯網巨頭各自為戰,不愿分享。他們都意識到數據對于未來企業競爭力的重要性,因此不會將自己手中的數據籌碼輕易示人。
CMIC認為,在大數據洪流洶涌襲來的當下,信息的流動才是重中之重,互聯網巨頭們的數據割據思維嚴重阻礙著整個產業的發展。尤其對于那些擁有大數據分析技術卻無大數據源的中下游企業來說,面臨“巧婦難為無米之炊”的窘境。