每家單位內部的非結構化數(shù)據(jù)不斷增加,,重要數(shù)據(jù)的保護難度也越來越高。實施數(shù)據(jù)分類方案能夠大大降低泄露風險,,并從海量數(shù)據(jù)中發(fā)現(xiàn)新的價值,。 主要發(fā)現(xiàn)
建議 合規(guī)與數(shù)據(jù)安全管理人員應:
分析 每個單位都有大量的非結構化數(shù)據(jù)。對于限制工作系統(tǒng)中數(shù)據(jù)的增長和流動的事物,,人們往往會表現(xiàn)出抵觸情緒,。數(shù)據(jù)分類又是數(shù)據(jù)安全的基礎步驟。這不僅是一個管理上的問題,,也是一個技術難題,。缺乏技術支撐有效實施數(shù)據(jù)分類幾乎不可能。 當在處理個人身份信息以外的數(shù)據(jù)時,,現(xiàn)有的技術難免會暴露出短板,,因此我們需要尋找新的技術加以輔助。 數(shù)據(jù)分類是使用商定的分類術語表梳理信息資產(chǎn)的過程,。 最常見的方案是繪制包含業(yè)務價值,、所有人、訪問權限,、合規(guī),、發(fā)現(xiàn)、集成,、風險,、安全,、隱私性等的數(shù)據(jù)地圖,應用情境元數(shù)據(jù)促進數(shù)據(jù)的使用和治理,,實現(xiàn)以人為中心的信息安全,。 分類可以在文檔生命周期的不同階段進行,實現(xiàn)安全與合規(guī),。很多方式都能夠處理“即用”數(shù)據(jù)和位于端點和數(shù)據(jù)庫的大量數(shù)據(jù),。再加上準確性與業(yè)務需求等,靜態(tài)數(shù)據(jù),、動態(tài)數(shù)據(jù)和使用中數(shù)據(jù)都可以被分類,。 數(shù)據(jù)分類可以分為用戶驅動和自動完成兩種方式,這兩種方式是互為補充的,。例如,,自動分類能夠簡化用戶驅動型分類的過程,用戶驅動型分類也可以用于糾正自動分類中可能存在的錯誤(見圖1),。 圖1 數(shù)據(jù)分類方法 (1)用戶驅動型分類 對用戶進行有關數(shù)據(jù)分類的培訓,,由用戶主導對電子表格、報告,、郵件等非結構化數(shù)據(jù)進行分類,。該操作需要與相關文檔應用協(xié)同開展,在操作系統(tǒng),、文件系統(tǒng)等層面完成,。 由于應用程序的集成更多地取決于應用廠商內置的可擴展性或合作伙伴關系來修改和啟用用戶驅動型的分類工具,因此完全支持的文件格式往往僅限于Microsoft Office和PDF格式,。但是,,一些供應商已經(jīng)突破了這些格式的局限——特別是在計算機輔助設計(CAD)應用領域。 用戶驅動型分類工具通常通過自動化提高用戶分類的效率,,向用戶建議分類并盡可能地減小工作量,。這些工具一般還具備監(jiān)控并執(zhí)行數(shù)據(jù)分類策略的功能,例如:
(2)自動化分類 我們可以使用以下兩種方法實現(xiàn)自動分類:
該方法依賴于對非結構化數(shù)據(jù)內容的自動分析來確定分類,,其中涉及了很多技術(正則表達式,、完全匹配、部分或完整指紋識別,、機器學習等),,應用的數(shù)據(jù)類型或應用程序不同,各類技術的適用性也而有所不同,。
該方法依賴于數(shù)據(jù)分類工具中能夠被編碼的現(xiàn)成分類知識庫,,利用廣泛的情境(上下文)屬性,,這種分類方法適用于靜態(tài)數(shù)據(jù)(如基于存儲路徑或其它文件元數(shù)據(jù))、使用中的數(shù)據(jù)(如由CAD應用程序創(chuàng)建的數(shù)據(jù))和傳輸中的數(shù)據(jù)(如基于IP),。 對于不同的數(shù)據(jù)類型,,應當采用相匹配的方法和技術(Suitability to Data Type)。例如,,支付卡行業(yè)(PCI)數(shù)據(jù),、個人身份信息(PII)或公民醫(yī)療信息(PHI)的分類采用正則表達式和數(shù)據(jù)字典技術更為合理有效。但這兩項技術不適用于處理IP地址數(shù)據(jù)或保密問題,。 自動化的內容感知分類通常因其可擴展性和可重復性而受到大眾歡迎,。但是,,這些技術的準確性(見下圖)在應用于各種數(shù)據(jù)類型時往往存在差異,。 圖2 分類的False Positives與Negtives 圖源:Gartner(2017年5月) 注:Positive分類匹配集;True Positives-判斷為真的正確率,;True Negative-判斷為假的正確率,;False Positive-誤報率;False Negative-漏報率,;Target Data Set-目標數(shù)據(jù)集 舉例如下: 對于PCI,、PII、PHI數(shù)據(jù),,正則表達式技術能夠簡便地檢測到信用卡號,、社保號等信息,但結果非常粗糙,,產(chǎn)生誤報,。 添加數(shù)據(jù)字典技術用以檢測名稱、地址或醫(yī)療條件可以提高正則表達式的準確性,,但也會增加此類分類規(guī)則的復雜性,。 通過與應用程序數(shù)據(jù)庫中的值完全匹配的方式也可以減少誤報,但該技術的適用范圍存在一定的局限性,。 指紋識別技術對于檢測某些特定文檔可能有效,,但部分指紋識別需要持續(xù)性的維護,因為新的敏感信息還在不斷地產(chǎn)生,。 機器學習技術對于難以用用戶定義模式描述的文檔非常有用,,但所產(chǎn)生的模型可能是不透明的,而且還會產(chǎn)生在定義閾值時難以解釋的相似指數(shù),。 理論上來說,,用戶驅動和情境感知這兩種分類方式可以處理所有數(shù)據(jù)類型,但結果的準確性則取決于用戶的知識背景,、勤奮度以及分類關系的情境確定性,。當內容感知技術不夠準確時,,其它方法則加以補充。 以下各小節(jié)介紹了主要由數(shù)據(jù)分類驅動的關鍵數(shù)據(jù)安全性和合規(guī)性用例,。 (1)標記:數(shù)據(jù)分類方案能夠顯示并管理電子文檔中的可視標記,,為用戶提供分類提示。 示例:航空航天及國防企業(yè)系統(tǒng)自動顯示文檔分類標題和/或頁腳,,作為電子或紙質文檔的水印,,幫助用戶自動遵守數(shù)據(jù)安全策略。 (2)敏感數(shù)據(jù)清單:數(shù)據(jù)分類方案能夠找到包含合規(guī)問題或安全風險的文檔,。 示例:內部審計需要用到信息分類,,找出包含個人身份信息(PII)的文件,確定存儲位置及方式是否恰當,,是否應重新存儲或刪除,。 (3)防御自動化:數(shù)據(jù)分類是自動執(zhí)行數(shù)據(jù)處理策略和確保合規(guī)性的基礎。 示例:某廠商利用數(shù)據(jù)分類將擁有知識產(chǎn)權的高級設計文檔標記為“機密”,,并自動應用企業(yè)數(shù)字權限管理(EDRM)模板,。 (4)訪問控制:數(shù)據(jù)分類可用作實施訪問策略的基礎,確保文檔僅由特定用戶以及特定情境或環(huán)境中查看,。 示例:財務部門通過數(shù)據(jù)分類來標記季度報表中涉及的文檔和新聞稿,,并部署訪問控制策略,防止未經(jīng)授權的員工在申請和解密之前訪問這些文檔,。 (5)流量控制:通過數(shù)據(jù)分類,,用戶就可以根據(jù)特定情境,評估數(shù)據(jù)是否應從某環(huán)境流向另一個環(huán)境的,,以及是否(如上所述)數(shù)據(jù)應該在流向特定目的地之前自動受到保護,。 示例:某開發(fā)人員嘗試以代碼形式將IP復制到未經(jīng)授權的USB設備,或將該代碼上傳到未經(jīng)授權的云存儲平臺,。端點上的數(shù)據(jù)丟失防護(DLP)代理識別了目標設備,,并使用數(shù)據(jù)分類來確定是否應該阻止復制行為或在復制時對文件進行加密。 數(shù)據(jù)分類技術的整體采用率仍處于“Innovation Trigger”階段的尾端,,即將進入Gartner“2016年數(shù)據(jù)安全生命周期”的Peak of Inflated Expectations階段(見圖3),。 圖3 2016年數(shù)據(jù)安全生命周期 圖源:Gartner(2017年5月) 對于合規(guī)性和數(shù)據(jù)安全用例,數(shù)據(jù)分類技術通常在DLP,、EDRM,、以文件為中心的審計和保護(FCAP)以及云訪問安全代理(CASB)技術中使用。 (1)無論采用哪種方法和技術,,數(shù)據(jù)分類方案都會出現(xiàn)誤報,,產(chǎn)生流程問題并需手動修復,而漏報則有可能導致依賴于數(shù)據(jù)分類的解決方案產(chǎn)生安全漏洞。 (2)如果數(shù)據(jù)分類在理想的實施點上持續(xù)性,、安全性和可用性差,,那么依賴于數(shù)據(jù)分類的數(shù)據(jù)安全層可能也會失效。 (3)上述每種分類方法在實施中都有可能產(chǎn)生誤報問題及額外風險:
(4)缺乏數(shù)據(jù)分類工具(見圖4)的集成可能會輸出結果不準確,影響數(shù)據(jù)分類生命周期并導致安全漏洞的產(chǎn)生,。圖4顯示的是數(shù)據(jù)分類廠商安全層控制范圍中最常見的數(shù)據(jù)分類流和集成,。 圖4 安全層之間的通用數(shù)據(jù)分類流與集成 圖源:Gartner(2017年5月) 注:DAG-數(shù)據(jù)訪問治理、DCAP-以數(shù)據(jù)為中心的審計與防護,、IDLP-集成式數(shù)據(jù)丟失防護,、UDC-數(shù)據(jù)驅動型分類 安全和風險管理領導者應該: 在選擇數(shù)據(jù)分類工具之前,至少建立一個高級別的安全性或合規(guī)性操作策略,,無論該策略是標記,、用戶驅動的合規(guī)性、訪問,、流程還是聚焦于使用控制措施,,還是兩者結合。 選擇準確性高的數(shù)據(jù)分類方法,控制整體的合規(guī)與安全風險,。在作采購決策前做好充分的評估工作,,因為不同的數(shù)據(jù)類型適用不同的數(shù)據(jù)分類方法。 以負責任的心態(tài)使用廠商提供的數(shù)據(jù)分類模板,。合規(guī)及安全責任在于用戶,,而非供應商。供應商模板的設置前提傾向于誤報,,而非漏報,,并且大多數(shù)都需要加以調整,從而滿足實際需求,。 確定關鍵信息流并將重新分類要求作為評估數(shù)據(jù)分類技術的一部分。數(shù)據(jù)分類和所有權在文檔的整個生命周期中不一定是靜態(tài)的,。 圖5 大多數(shù)供應商支持的數(shù)據(jù)分類技術 圖源:Gartner(2017年5月) 圖6 每項技術的數(shù)據(jù)分類范圍 圖源:Gartner(2017年5月) |
|