大數(shù)據(jù)不是傳統(tǒng)的BI
- 時(shí)間:2014-12-01
- 來源:
遠(yuǎn)光軟件(來源:中國軟件網(wǎng) 作者:佚名)
提到大數(shù)據(jù),總能和BI扯上千絲萬縷的關(guān)系,而且提大數(shù)據(jù)的也基本都是BI的從業(yè)人員;怎么說,大數(shù)據(jù)也是源于數(shù)據(jù)分析。但這并不表示,大數(shù)據(jù)就是數(shù)據(jù)分析,至少不全是。這點(diǎn)的區(qū)別也就注定了大數(shù)據(jù)不能單純是數(shù)據(jù)分析的思路了。
1、 從集到散。
傳統(tǒng)的BI,是以數(shù)據(jù)統(tǒng)計(jì)為基礎(chǔ)。但是不論是什么統(tǒng)計(jì),都是想抽取一個(gè)或一組數(shù)值去說明一個(gè)問題。不論原始的數(shù)據(jù)有多少,都會(huì)盡量的去提取歸納,以期望用最少的數(shù)據(jù)去說明問題,從幾個(gè)數(shù)據(jù)中得到的檢驗(yàn)結(jié)果(例如合格率的抽檢)時(shí)這樣,從幾千萬,幾億數(shù)據(jù)中提取到的用戶訪問量,瀏覽量,交易量也是這樣。在BI看來,是否找到了一個(gè)最能說明問題的數(shù)據(jù)是一個(gè)分析好壞的關(guān)鍵。
這么做當(dāng)然沒錯(cuò),但是僅僅找到問題是不夠的,如果要分析問題,那么還要再次提取數(shù)據(jù),在進(jìn)行新一輪的分析。
而大數(shù)據(jù)呢,從現(xiàn)在看來還是做著和BI一樣的事情,但是如果加大的數(shù)據(jù)的規(guī)模,增加數(shù)據(jù)的種類,隨著數(shù)據(jù)量的上升,需要付出的成本幾乎是在幾何級數(shù)的上升,而BI的分析結(jié)果的獲利都無法做到線性的上升,一個(gè)公司最應(yīng)該關(guān)心的數(shù)據(jù),年度,半年度,季度,月度,周數(shù)據(jù)中早已包含了,這中間可以產(chǎn)生變化的數(shù)據(jù)并不是很多。而更短或者更局部的一些數(shù)據(jù),對一個(gè)公司所能產(chǎn)生的影響甚小。如果再單獨(dú)的從聚合的角度去用大數(shù)據(jù),往往很難收回成本。
而我們可以看到,數(shù)據(jù)時(shí)可以應(yīng)用到小問題上的,當(dāng)數(shù)據(jù)達(dá)到一定規(guī)模以后,我們同樣能解決一個(gè)用戶需要什么,因?yàn)獒槍σ粋€(gè)用戶的數(shù)據(jù)已經(jīng)足夠多了。而當(dāng)這些數(shù)據(jù)變化的時(shí)候,同樣代表著用戶需求的變化,這樣,通過對用戶數(shù)據(jù)的分析,主動(dòng)為用戶推薦其最需要的服務(wù)成了可能。
2、 從后到前
傳統(tǒng)的BI解決的多是結(jié)果的問題,雖然也有預(yù)測,但是也基本是基于結(jié)果的預(yù)測。一般情況都是先有數(shù)據(jù),然后根據(jù)對數(shù)據(jù)的分析,得到結(jié)果。如在A/B test這樣的應(yīng)用中,必然是先有一個(gè)想法在那里,數(shù)據(jù)要做的是給這個(gè)想法量化,去衡量結(jié)果與想法之間的差異有多大。
當(dāng)然,作為一個(gè)驗(yàn)證來說,通常最好的結(jié)果是和設(shè)計(jì)之初的想法一致,雖然偶爾會(huì)有一些幸運(yùn)的意外,但是這個(gè)及其少見。也就是說,往往這個(gè)驗(yàn)證,在設(shè)計(jì)者本身已經(jīng)有很準(zhǔn)確的判斷的情況下,不產(chǎn)生新的價(jià)值。而另一個(gè)矛盾的事情出現(xiàn)了,如果設(shè)計(jì)者本身就不專業(yè),則很難用到這種方法,甚至用這類方法的成本,往往比請一個(gè)專業(yè)的設(shè)計(jì)師更高。所以BI這么高大上的方法,往往是大型公司為一個(gè)已經(jīng)很專業(yè)的人才加上一個(gè)保險(xiǎn)而已。
大數(shù)據(jù)是并不存在這樣的先后關(guān)系的,它只是根據(jù)一定的數(shù)據(jù)給出一個(gè)或者幾個(gè)相對優(yōu)化的結(jié)果,數(shù)據(jù)產(chǎn)生的同時(shí),也是數(shù)據(jù)應(yīng)用的同時(shí)。例如用戶當(dāng)前最需要什么服務(wù),這是的定價(jià)在什么價(jià)格才是利益最大化的,不同于之前BI的分析是,這幾乎都是在提出一個(gè)新的假設(shè),例如數(shù)據(jù)分析的結(jié)果是用戶最需要的是吃飽肚子,但是用戶有可能為了去看他感興趣的球賽而選擇餓肚子,但是這并不重要。大數(shù)據(jù)的目的是給出優(yōu)化過的選擇方向,以期望用戶能選擇其中的服務(wù),當(dāng)然,最好的結(jié)果是每次的推薦都被用戶選擇。
3、 從被動(dòng)到主動(dòng)
基本上BI的分析針對用戶來說都是BI是被動(dòng)的而用戶是主動(dòng)的,即使是用戶想要的結(jié)果,也必須是用戶自己主動(dòng)收集,整理,分析,查看等等的一系列行為。而一般的情況下,無論是公司內(nèi)部還是用戶本身,都不希望看到數(shù)據(jù)。大部分人都數(shù)據(jù)太不敏感了,甚至是看到數(shù)據(jù)就頭痛,我相信如果不是看在錢的面子上,很多人臉KPI數(shù)據(jù)都不會(huì)去看一眼。
BI的被動(dòng)還表現(xiàn)在,除了報(bào)警系統(tǒng)以外,基本都是人在找數(shù)據(jù)。每天的數(shù)據(jù)就是靜靜的躺在那里,只有碰到愿意用它,并且會(huì)用他的人才能發(fā)揮作用,否者只是躺在服務(wù)器里的一堆數(shù)據(jù)而已。
而大數(shù)據(jù)要比這個(gè)主動(dòng)得多,你可以把他理解成一個(gè)針對不同人的報(bào)警系統(tǒng),幾乎所有的節(jié)點(diǎn)都可以接收報(bào)警,當(dāng)數(shù)據(jù)產(chǎn)生了變化以后,如果有必要,就可以主動(dòng)的向?qū)?yīng)的節(jié)點(diǎn)發(fā)送信息,以前往其對應(yīng)的相應(yīng)。
當(dāng)用戶響應(yīng)以后,新的數(shù)據(jù)很可能產(chǎn)生下一輪的警報(bào),這樣的循環(huán)可以讓一個(gè)用戶和他的數(shù)據(jù)活起來。
4、 分析價(jià)值到數(shù)據(jù)價(jià)值。
我們知道,在BI的工作中,最值錢的并不是數(shù)據(jù)本身,而往往是數(shù)據(jù)的分析師,他們的分析方法,分析模型是整個(gè)分析中最核心的部分,而系統(tǒng)只是實(shí)現(xiàn)途徑罷了,系統(tǒng)中所有的分析結(jié)果,都必須是數(shù)據(jù)分析師教給工程師,再由工程師來實(shí)現(xiàn)的。
這樣的系統(tǒng)中,如果存在通用性,那么挖走一個(gè)數(shù)據(jù)分析師,或者是實(shí)現(xiàn)的工程師,則幾乎是可以“偷”走整個(gè)系統(tǒng)。
而大數(shù)據(jù)卻并不是這樣,它更像是一個(gè)可以自學(xué)的學(xué)生,在通過不斷的對數(shù)據(jù)的應(yīng)用以后,如果系統(tǒng)本身夠合理。系統(tǒng)會(huì)根據(jù)用戶的選擇結(jié)果和行為,去自己完善自己,而當(dāng)一段時(shí)間以后,可能系統(tǒng)的運(yùn)作模式非常的多樣化,也可能脫離了設(shè)計(jì)最初的局限。
這樣的一個(gè)系統(tǒng),經(jīng)過了一段時(shí)間的運(yùn)行以后,最值錢的已經(jīng)不再是最初的算法本身,也不是實(shí)現(xiàn)這個(gè)算法的人。而是在系統(tǒng)中沉淀下來的數(shù)據(jù),尤其是用戶反饋的數(shù)據(jù)。如果是再想要復(fù)制一個(gè)相同的系統(tǒng),就不再是挖兩個(gè)人那么簡單的事情了。
5、 從止損到開拓
在一定的程度上,BI更像是一個(gè)止損的系統(tǒng),無論是多好的分析方法,多么嚴(yán)密的分析過程,更多的都是為了防止錯(cuò)誤的發(fā)生;每天監(jiān)控的日交易額,流量是為了更早的發(fā)現(xiàn)問題。各種檢驗(yàn)的方法也是為了保證結(jié)果的正確,即使是因子分析等等的方法,也都是一個(gè)假設(shè)存在的,方法只是在保證這個(gè)假設(shè)的正確性。
但是所有的止損都有一個(gè)限度,那就是有損可以止,BI的價(jià)值就直接受限于想法本身的投入和產(chǎn)出的可能性。即使我們很多時(shí)候 會(huì)說,這個(gè)產(chǎn)品先做,然后觀察數(shù)據(jù),再看再說。這里會(huì)在數(shù)據(jù)上做投入的原因也是產(chǎn)品本身的價(jià)值,以及期望一個(gè)和在預(yù)想符合的市場反應(yīng),否則,不會(huì)有誰想看相關(guān)數(shù)據(jù)。
大數(shù)據(jù)和這個(gè)不一樣,因?yàn)樗旧砭褪且粋€(gè)假設(shè),而不是去驗(yàn)證別的什么想法的,它的目的就是要達(dá)到這個(gè)好的結(jié)果,給用戶/公司直接帶來利益,讓用戶選擇有效的服務(wù),既可以給用戶好的體驗(yàn),當(dāng)然同樣也應(yīng)該為公司帶來利潤,這其中多有的過程,都是為了讓用戶/公司雙發(fā)的利益更大,而不是為了防止公司出現(xiàn)損失這個(gè)層面。從這個(gè)角度上看。大數(shù)據(jù)本身的價(jià)值,并不受限于其他的什么因素,而只受限于自身系統(tǒng)的合理性它所能收集到的數(shù)據(jù)。
說了這么多的區(qū)別,并不是說完全要把大數(shù)據(jù)和BI割裂開來,大數(shù)據(jù)是從BI中發(fā)展來的,但是隨著時(shí)代的發(fā)展和技術(shù)的進(jìn)步,數(shù)據(jù)分析本身也應(yīng)該存在著思路上的轉(zhuǎn)變,不只是一個(gè)更大數(shù)據(jù)源上的BI了。如果在工作中不能跟上,很有可能只增加在數(shù)據(jù)上的投入,而不能得到很好的回報(bào)。