數據采集VS隱私安全 孰輕孰重?
- 時間:2014-07-28
- 來源:
遠光軟件(來源:36大數據 作者:佚名)
大數據技術的意義確實不在于掌握規模龐大的數據信息,而在于對這些數據進行智能處理,從中分析和挖掘出有價值的信息,但前提是如何獲取大量有價值的數據。
大數據時代,我們需要更加全面的數據來提高分析預測的準確度,因此我們就需要更多便捷、廉價、自動的數據生產工具。除了我們在網上使用的瀏覽器有意或者無意記載著個人的信息數據之外,手機、智能手表、智能手環等各種可穿戴設備也在無時無刻地產生著數據;就連我們家里的路由器、電視機、空調、冰箱、飲水機、凈化器等也開始越來越智能并且具備了聯網功能,這些家用電器在更好地服務我們的同時,也在產生著大量的數據;甚至我們出去逛街,商戶的WIFI,運營商的3G網絡,無處不在的攝像頭電子眼,百貨大樓的自助屏幕,銀行的ATM,加油站以及遍布各個便利店的刷卡機等也都在產生著數據。
幾乎任何規模企業,每時每刻也都在產生大量的數據,但這些數據如何歸集、提煉始終是一個困擾。而大數據技術的意義確實不在于掌握規模龐大的數據信息,而在于對這些數據進行智能處理,從中分析和挖掘出有價值的信息,但前提是如何獲取大量有價值的數據。
數據源復雜多樣
從大數據的概念我們可以知道,大數據的數據源主要為網絡日志、視頻、圖片、地理位置等等各類網絡信息,而這些數據的匯集是實現大數據實施的基礎,所以大數據應用建設離不開網絡信息數據采集這一核心環節。
不管是政府還是企業,瀏覽器里的搜索、點擊、網上購物、其他數據(比如氣溫、海水鹽度、地震波)、新聞信息、網友留言、網友個人信息、產品信息、人事信息等等都是大數據應用的重要目標,這些信息數據是政府企業戰略決策的重要依據。
大數據環節下的數據來源非常多,而且類型也多種多樣,存儲和數據處理的需求量很大,對于數據展現也非常的高,并且很看重數據處理的高效性和可用性。
談及數據采集利器,我們最熟悉的就是遍布身邊的攝像頭,不到10年的時間,城市里的任何一個角落放眼望去就全部是攝像頭了。隨著互聯網技術的大發展,能夠接入互聯網的終端越來越便宜、在人群中覆蓋率不斷提高,以致于我們擁有了一個可以覆蓋大部分人口的傳感器網絡。比如我所在的淘寶網,每天有億級別的用戶訪問、購物。在傳統的工業時代,我們永遠無法知道一個人在超市做了什么、也很難分析每個人在超市買了什么東西,盡管你有收銀數據。而在互聯網這個每個人都帶著傳感器的時代、一切行為都可能被記錄、分析、用于優化你未來的體驗。
精準分析之數據采集要真實可靠
現今,數據的作用正在迅速膨脹并變大,它影響著企業工作戰略的制定,雖然現在企業可能并沒有意識到網絡信息數據采集的不到位給自身工作帶來的問題和隱患,但是隨著時間的推移,人們將越來越多的意識到數據對企業的重要性。當下大部分公司都有自己的渠道,即自己的方式去收集數據。對數據來說有兩個方面:一個就是通過分析以后給客戶的數據;另外一個就是公司內部用。給客戶的數據首先就要保證準確性,這個很重要。還有它的出處是不是官方的?另外這些數據是不是涉及到別人的隱私?關于公司內部使用的數據,通常更注重如何與業務發展、產品完美結合。
數據分析和數據挖掘的重點都不在數據本身,而在于如何能夠真正地解決數據運營中的實際商業問題。但是,要解決商業問題,就得讓數據產生價值,就得做數據分析和數據挖掘。而在數據分析和數據挖掘之前,首先必須保證采集到高質量的數據。只有通過對所需數據的全面準確采集,形成數據流規模,然后再對數據流進行分析,這樣分析出的數據結果對決策行為才有指導性作用。
采集數據源種類繁多,以及采集速度要快更是一個嚴峻挑戰,因為采集過程本來就是數據質量問題的主要來源。采集數據源雜亂,采集速度又快,如果不能及時進行數據質量處理,就會導致數據質量問題的堆積,越來越嚴重。所以在采集環節,就必須引入實時數據質量監控和清洗技術,通過強大的集群和分布式計算能力,提高數據采集性能和數據質量監控性能,利用強大的分布式云計算技術,實現數據抽取、數據清洗以及數據質量檢查工作。
完成全面數據采集后,就應該有準確的分析和使用數據能力,透過對采集數據的深入分析,了解事件的事實真相和事件背后的社情民意,預判各種事件的發展走向,這些變動對整個大局會產生什么樣的影響,影響是否會阻礙自身的健康發展,這都需要我們用數據來衡量,用數據反映出的事實來指導我們工作策略的制定,讓我們的工作決策理性化而不是經驗化。
數據采集未來是一個很大的市場,因為分析的數據模型可以根據需求和思維做,但所有的前提是你的數據采集要準,現在的問題一個是采集不到,一個是采集錯了,還有一個是采集效率受到網絡帶寬限制,這幾個都做不到的話數據價值很難用起來。
當數據采集遇上隱私安全怎么辦?
隨著移動互聯、云計算等技術的飛速發展,無論何時何地,手機等各種網絡入口以及無處不在的傳感器等,都會對個人數據進行采集、存儲、使用、分享,而這一切大都是在人們并不知曉的情況下發生。你的一舉一動、地理位置、甚至一天去過哪些地方,都會被記錄下來,成為海量無序數據中的一個數列,和其他數據進行整合分析。
比如,當你用手機掃描二維碼,并將其用微博轉發的時候,你的消費習慣、偏好,甚至你的社交圈子的信息,就已經被商家的大數據分析工具捕獲。大數據平臺在提供服務的同時,也在時刻收集著用戶的各種個人信息:消費習慣、閱讀習慣甚至生活習慣。這些數據,一方面給人們帶來了諸多便利,但另一方面,由于數據的管理還存在漏洞,那些發布出去或存儲起來的海量信息,也很容易被監視、被竊取。
大數據散發出不可估量的商業價值。但讓人感到不安的是,信息采集手段越來越高超、便捷和隱蔽,對公民個人信息的保護,無論在技術手段還是法律支撐都依然捉襟見肘。人們面臨的不僅是無休止的騷擾,更可能是各種犯罪行為的威脅。大數據時代,誰來保護公民的個人隱私?既是每個人都應當思考的問題,也是政府部門不可推卸的責任。