大數據帶來的安全挑戰
- 時間:2014-04-04
- 來源:
遠光軟件(來源:暢享網 作者:李玉琴)
科學技術是一把雙刃劍。大數據所引發的安全問題與其帶來的價值同樣引人注目。與傳統的信息安全問題相比,大數據安全面臨的挑戰性問題主要體現在以下幾個方面。
1 大數據中的用戶隱私保護
大量事實表明,大數據未被妥善處理會對用戶的隱私造成極大的侵害。根據需要保護的內容不同,隱私保護又可以進一步細分為位置隱私保護、標識符匿名保護、連接關系匿名保護等。
人們面臨的威脅并不僅限于個人隱私泄漏,還在于基于大數據對人們狀態和行為的預測。社交網絡分析研究也表明,可以通過其中的群組特性發現用戶的屬性。
當前企業常常認為經過匿名處理后,信息不包含用戶的標識符,就可以公開發布了。但事實上,僅通過匿名保護并不能很好地達到隱私保護目標。
目前用戶數據的收集、存儲、管理與使用等均缺乏規范,更缺乏監管,主要依靠企業的自律。用戶無法確定自己隱私信息的用途。而在商業化場景中,用戶應有權決定自己的信息如何被利用,實現用戶可控的隱私保護。例如用戶可以決定自己的信息何時以何種形式披露,何時被銷毀。包括:(1)數據采集時的隱私保護,如數據精度處理;(2)數據共享、發布時的隱私保護,如數據的匿名處理、人工加擾等;(3)數據分析時的隱私保護;(4)數據生命周期的隱私保護;(5)隱私數據可信銷毀等。
2 大數據的可信性
關于大數據的一個普遍的觀點是,數據自己可以說明一切,數據自身就是事實。但實際情況是,如果不仔細甄別,數據也會欺騙,就像人們有時會被自己的雙眼欺騙一樣。
大數據可信性的威脅之一是偽造或刻意制造的數據,而錯誤的數據往往會導致錯誤的結論。若數據應用場景明確,就可能有人刻意制造數據、營造某種“假象”,誘導分析者得出對其有利的結論。由于虛假信息往往隱藏于大量信息中,使得人們無法鑒別真偽,從而做出錯誤判斷。例如,一些點評網站上的虛假評論,混雜在真實評論中使得用戶無法分辨,可能誤導用戶去選擇某些劣質商品或服務。由于當前網絡社區中虛假信息的產生和傳播變得越來越容易,其所產生的影響不可低估。用信息安全技術手段鑒別所有來源的真實性是不可能的。
大數據可信性的威脅之二是數據在傳播中的逐步失真。原因之一是人工干預的數據采集過程可能引入誤差,由于失誤導致數據失真與偏差,最終影響數據分析結果的準確性。此外,數據失真還有數據的版本變更的因素。在傳播過程中,現實情況發生了變化,早期采集的數據已經不能反映真實情況。例如,餐館電話號碼已經變更,但早期的信息已經被其它搜索引擎或應用收錄,所以用戶可能看到矛盾的信息而影響其判斷。
因此,大數據的使用者應該有能力基于數據來源的真實性、數據傳播途徑、數據加工處理過程等,了解各項數據可信度,防止分析得出無意義或者錯誤的結果。
密碼學中的數字簽名、消息鑒別碼等技術可以用于驗證數據的完整性,但應用于大數據的真實性時面臨很大困難,主要根源在于數據粒度的差異。例如,數據的發源方可以對整個信息簽名,但是當信息分解成若干組成部分時,該簽名無法驗證每個部分的完整性。而數據的發源方無法事先預知哪些部分被利用、如何被利用,難以事先為其生成驗證對象。
3 如何實現大數據訪問控制
訪問控制是實現數據受控共享的有效手段。由于大數據可能被用于多種不同場景,其訪問控制需求十分突出。
大數據訪問控制的特點與難點在于:
(1)難以預設角色,實現角色劃分。由于大數據應用范圍廣泛,它通常要為來自不同組織或部門、不同身份與目的的用戶所訪問,實施訪問控制是基本需求。然而,在大數據的場景下,有大量的用戶需要實施權限管理,且用戶具體的權限要求未知。面對未知的大量數據和用戶,預先設置角色十分困難。
(2)難以預知每個角色的實際權限。由于大數據場景中包含海量數據,安全管理員可能缺乏足夠的專業知識,無法準確地為用戶指定其所可以訪問的數據范圍。而且從效率角度講,定義用戶所有授權規則也不是理想的方式。以醫療領域應用為例,醫生為了完成其工作可能需要訪問大量信息,但對于數據能否訪問應該由醫生來決定,不應該需要管理員對每個醫生做特別的配置。但同時又應該能夠提供對醫生訪問行為的檢測與控制,限制醫生對病患數據的過度訪問。
此外,不同類型的大數據中可能存在多樣化的訪問控制需求。例如,在Web2.0個人用戶數據中,存在基于歷史記錄的訪問控制;在地理地圖數據中,存在基于尺度以及數據精度的訪問控制需求;在流數據處理中,存在數據時間區間的訪問控制需求,等等。如何統一地描述與表達訪問控制需求也是一個挑戰性問題。