非結構化數(shù)據(jù)分類的創(chuàng)新思路

2016xing 2018-12-07

展開全文

每家單位內部的非結構化數(shù)據(jù)不斷增加,，重要數(shù)據(jù)的保護難度也越來越高。實施數(shù)據(jù)分類方案能夠大大降低泄露風險,，并從海量數(shù)據(jù)中發(fā)現(xiàn)新的價值,。

主要發(fā)現(xiàn)

數(shù)據(jù)分類策略仍然是每家單位安全項目中的重點內容,，對整體數(shù)據(jù)的安全性和風險合規(guī)影響顯著,。

數(shù)據(jù)分類是實現(xiàn)數(shù)據(jù)安全與合規(guī)的基礎。

對于不同類型的數(shù)據(jù),，需要采取不同的分類方法,。不恰當?shù)墓ぞ呖赡軙a(chǎn)生不必要的業(yè)務問題，帶來安全風險,，增加額外的實施與維護成本,。

建議

合規(guī)與數(shù)據(jù)安全管理人員應：

利用數(shù)據(jù)分類工具實現(xiàn)自動化，管理整個數(shù)據(jù)分類生命周期,。這是數(shù)據(jù)分類項目取得成功的關鍵點,。
按照數(shù)據(jù)安全與合規(guī)的要求計劃選擇數(shù)據(jù)分類的技術投資。明確數(shù)據(jù)分類的目標——保護哪些數(shù)據(jù),？滿足哪些合規(guī)性要求,？
根據(jù)需要保護的數(shù)據(jù)集選擇合適的數(shù)據(jù)分類方法與相關技術。有效檢測個人身份信息或受保護的健康信息對文檔進行分類的方法不一定對知識產(chǎn)權進行分類有效,，反之亦然,。

分析

每個單位都有大量的非結構化數(shù)據(jù)。對于限制工作系統(tǒng)中數(shù)據(jù)的增長和流動的事物,，人們往往會表現(xiàn)出抵觸情緒,。數(shù)據(jù)分類又是數(shù)據(jù)安全的基礎步驟。這不僅是一個管理上的問題,，也是一個技術難題,。缺乏技術支撐有效實施數(shù)據(jù)分類幾乎不可能。

當在處理個人身份信息以外的數(shù)據(jù)時,，現(xiàn)有的技術難免會暴露出短板,，因此我們需要尋找新的技術加以輔助。

1. 定義

數(shù)據(jù)分類是使用商定的分類術語表梳理信息資產(chǎn)的過程,。

最常見的方案是繪制包含業(yè)務價值,、所有人、訪問權限,、合規(guī),、發(fā)現(xiàn)、集成,、風險,、安全,、隱私性等的數(shù)據(jù)地圖，應用情境元數(shù)據(jù)促進數(shù)據(jù)的使用和治理,，實現(xiàn)以人為中心的信息安全,。

2. 數(shù) 據(jù) 分類方法

分類可以在文檔生命周期的不同階段進行，實現(xiàn)安全與合規(guī),。很多方式都能夠處理“即用”數(shù)據(jù)和位于端點和數(shù)據(jù)庫的大量數(shù)據(jù),。再加上準確性與業(yè)務需求等，靜態(tài)數(shù)據(jù),、動態(tài)數(shù)據(jù)和使用中數(shù)據(jù)都可以被分類,。

數(shù)據(jù)分類可以分為用戶驅動和自動完成兩種方式，這兩種方式是互為補充的,。例如,，自動分類能夠簡化用戶驅動型分類的過程，用戶驅動型分類也可以用于糾正自動分類中可能存在的錯誤（見圖1）,。

圖1 數(shù)據(jù)分類方法

（1）用戶驅動型分類

對用戶進行有關數(shù)據(jù)分類的培訓,，由用戶主導對電子表格、報告,、郵件等非結構化數(shù)據(jù)進行分類,。該操作需要與相關文檔應用協(xié)同開展，在操作系統(tǒng),、文件系統(tǒng)等層面完成,。

由于應用程序的集成更多地取決于應用廠商內置的可擴展性或合作伙伴關系來修改和啟用用戶驅動型的分類工具，因此完全支持的文件格式往往僅限于Microsoft Office和PDF格式,。但是,，一些供應商已經(jīng)突破了這些格式的局限——特別是在計算機輔助設計（CAD）應用領域。

用戶驅動型分類工具通常通過自動化提高用戶分類的效率,，向用戶建議分類并盡可能地減小工作量,。這些工具一般還具備監(jiān)控并執(zhí)行數(shù)據(jù)分類策略的功能，例如：

要求用戶在文件保存之前先對文件進行分類,，或在發(fā)送電子郵件之前對郵件進行分類,；
發(fā)現(xiàn)或阻止未經(jīng)授權的分類更改行為。

（2）自動化分類

我們可以使用以下兩種方法實現(xiàn)自動分類：

內容感知分類方法——

該方法依賴于對非結構化數(shù)據(jù)內容的自動分析來確定分類,，其中涉及了很多技術（正則表達式,、完全匹配、部分或完整指紋識別,、機器學習等）,，應用的數(shù)據(jù)類型或應用程序不同，各類技術的適用性也而有所不同,。

情境感知分類方法——

該方法依賴于數(shù)據(jù)分類工具中能夠被編碼的現(xiàn)成分類知識庫,，利用廣泛的情境（上下文）屬性,，這種分類方法適用于靜態(tài)數(shù)據(jù)（如基于存儲路徑或其它文件元數(shù)據(jù)）、使用中的數(shù)據(jù)（如由CAD應用程序創(chuàng)建的數(shù)據(jù)）和傳輸中的數(shù)據(jù)（如基于IP）,。

3. 不同數(shù) 據(jù) 類型的適用性

對于不同的數(shù)據(jù)類型,，應當采用相匹配的方法和技術（Suitability to Data Type）。例如,，支付卡行業(yè)（PCI）數(shù)據(jù),、個人身份信息（PII）或公民醫(yī)療信息（PHI）的分類采用正則表達式和數(shù)據(jù)字典技術更為合理有效。但這兩項技術不適用于處理IP地址數(shù)據(jù)或保密問題,。

自動化的內容感知分類通常因其可擴展性和可重復性而受到大眾歡迎,。但是,，這些技術的準確性（見下圖）在應用于各種數(shù)據(jù)類型時往往存在差異,。

圖2 分類的False Positives與Negtives

圖源：Gartner（2017年5月）

注：Positive分類匹配集；True Positives-判斷為真的正確率,；True Negative-判斷為假的正確率,；False Positive-誤報率；False Negative-漏報率,；Target Data Set-目標數(shù)據(jù)集

舉例如下：

對于PCI,、PII、PHI數(shù)據(jù),，正則表達式技術能夠簡便地檢測到信用卡號,、社保號等信息，但結果非常粗糙,，產(chǎn)生誤報,。

添加數(shù)據(jù)字典技術用以檢測名稱、地址或醫(yī)療條件可以提高正則表達式的準確性,，但也會增加此類分類規(guī)則的復雜性,。

通過與應用程序數(shù)據(jù)庫中的值完全匹配的方式也可以減少誤報，但該技術的適用范圍存在一定的局限性,。

指紋識別技術對于檢測某些特定文檔可能有效,，但部分指紋識別需要持續(xù)性的維護，因為新的敏感信息還在不斷地產(chǎn)生,。

機器學習技術對于難以用用戶定義模式描述的文檔非常有用,，但所產(chǎn)生的模型可能是不透明的，而且還會產(chǎn)生在定義閾值時難以解釋的相似指數(shù),。

理論上來說,，用戶驅動和情境感知這兩種分類方式可以處理所有數(shù)據(jù)類型，但結果的準確性則取決于用戶的知識背景,、勤奮度以及分類關系的情境確定性,。當內容感知技術不夠準確時,，其它方法則加以補充。

3. 優(yōu) 勢與應用

以下各小節(jié)介紹了主要由數(shù)據(jù)分類驅動的關鍵數(shù)據(jù)安全性和合規(guī)性用例,。

（1）標記：數(shù)據(jù)分類方案能夠顯示并管理電子文檔中的可視標記,，為用戶提供分類提示。

示例：航空航天及國防企業(yè)系統(tǒng)自動顯示文檔分類標題和/或頁腳,，作為電子或紙質文檔的水印,，幫助用戶自動遵守數(shù)據(jù)安全策略。

（2）敏感數(shù)據(jù)清單：數(shù)據(jù)分類方案能夠找到包含合規(guī)問題或安全風險的文檔,。

示例：內部審計需要用到信息分類,，找出包含個人身份信息（PII）的文件，確定存儲位置及方式是否恰當,，是否應重新存儲或刪除,。

（3）防御自動化：數(shù)據(jù)分類是自動執(zhí)行數(shù)據(jù)處理策略和確保合規(guī)性的基礎。

示例：某廠商利用數(shù)據(jù)分類將擁有知識產(chǎn)權的高級設計文檔標記為“機密”,，并自動應用企業(yè)數(shù)字權限管理（EDRM）模板,。

（4）訪問控制：數(shù)據(jù)分類可用作實施訪問策略的基礎，確保文檔僅由特定用戶以及特定情境或環(huán)境中查看,。

示例：財務部門通過數(shù)據(jù)分類來標記季度報表中涉及的文檔和新聞稿,，并部署訪問控制策略，防止未經(jīng)授權的員工在申請和解密之前訪問這些文檔,。

（5）流量控制：通過數(shù)據(jù)分類,，用戶就可以根據(jù)特定情境，評估數(shù)據(jù)是否應從某環(huán)境流向另一個環(huán)境的,，以及是否（如上所述）數(shù)據(jù)應該在流向特定目的地之前自動受到保護,。

示例：某開發(fā)人員嘗試以代碼形式將IP復制到未經(jīng)授權的USB設備，或將該代碼上傳到未經(jīng)授權的云存儲平臺,。端點上的數(shù)據(jù)丟失防護（DLP）代理識別了目標設備,，并使用數(shù)據(jù)分類來確定是否應該阻止復制行為或在復制時對文件進行加密。

4. 采用率

數(shù)據(jù)分類技術的整體采用率仍處于“Innovation Trigger”階段的尾端,，即將進入Gartner“2016年數(shù)據(jù)安全生命周期”的Peak of Inflated Expectations階段（見圖3）,。

圖3 2016年數(shù)據(jù)安全生命周期

圖源：Gartner（2017年5月）

對于合規(guī)性和數(shù)據(jù)安全用例，數(shù)據(jù)分類技術通常在DLP,、EDRM,、以文件為中心的審計和保護（FCAP）以及云訪問安全代理（CASB）技術中使用。

5. 風險

（1）無論采用哪種方法和技術,，數(shù)據(jù)分類方案都會出現(xiàn)誤報,，產(chǎn)生流程問題并需手動修復，而漏報則有可能導致依賴于數(shù)據(jù)分類的解決方案產(chǎn)生安全漏洞。

（2）如果數(shù)據(jù)分類在理想的實施點上持續(xù)性,、安全性和可用性差,，那么依賴于數(shù)據(jù)分類的數(shù)據(jù)安全層可能也會失效。

（3）上述每種分類方法在實施中都有可能產(chǎn)生誤報問題及額外風險：

用戶驅動的分類準確性取決于數(shù)據(jù)分類策略的清晰度,、用戶對培訓內容的消化程度以及對業(yè)務流程的影響,。可伸縮性也是一個問題,，用戶驅動的分類不是分類龐大數(shù)據(jù)存儲庫的最佳方法,。此外，如果分類工作無法流暢地持續(xù)開展,，反而可能會對整體業(yè)務流程帶來負面影響,。
內容感知分類是在精確與靈敏兩者之間抉擇作出的折衷方案。像完整指紋這樣具有高精確度和靈敏度的技術,，適用性有限,。像正則表達式和數(shù)據(jù)字典之類的技術適用性更廣，但通常需要針對特定的目標環(huán)境進行調整,，才能達到能夠抵御風險的精度和靈敏度水平,。在使用場景中過度依賴內容驅動的分類也可能導致用戶可感知的性能問題。
情境感知分類在其應用程序中通常非常準確,，但可能受到作為規(guī)則一部分使用的情境準確性的影響。例如,，如果數(shù)據(jù)被特定應用程序所創(chuàng)建的情境分類為機密,，則該分類將只會與其背后的假設一樣準確。其中持續(xù)性也非常重要,，因為通過情境對數(shù)據(jù)進行自動重新分類并非永久可行,。

（4）缺乏數(shù)據(jù)分類工具（見圖4）的集成可能會輸出結果不準確，影響數(shù)據(jù)分類生命周期并導致安全漏洞的產(chǎn)生,。圖4顯示的是數(shù)據(jù)分類廠商安全層控制范圍中最常見的數(shù)據(jù)分類流和集成,。

圖4 安全層之間的通用數(shù)據(jù)分類流與集成

圖源：Gartner（2017年5月）

注：DAG-數(shù)據(jù)訪問治理、DCAP-以數(shù)據(jù)為中心的審計與防護,、IDLP-集成式數(shù)據(jù)丟失防護,、UDC-數(shù)據(jù)驅動型分類

6. 建議

安全和風險管理領導者應該：

在選擇數(shù)據(jù)分類工具之前，至少建立一個高級別的安全性或合規(guī)性操作策略,，無論該策略是標記,、用戶驅動的合規(guī)性、訪問,、流程還是聚焦于使用控制措施,，還是兩者結合。

選擇準確性高的數(shù)據(jù)分類方法，控制整體的合規(guī)與安全風險,。在作采購決策前做好充分的評估工作,，因為不同的數(shù)據(jù)類型適用不同的數(shù)據(jù)分類方法。

以負責任的心態(tài)使用廠商提供的數(shù)據(jù)分類模板,。合規(guī)及安全責任在于用戶,，而非供應商。供應商模板的設置前提傾向于誤報,，而非漏報,，并且大多數(shù)都需要加以調整，從而滿足實際需求,。

確定關鍵信息流并將重新分類要求作為評估數(shù)據(jù)分類技術的一部分。數(shù)據(jù)分類和所有權在文檔的整個生命周期中不一定是靜態(tài)的,。

7. 供應商行情分析

圖5 大多數(shù)供應商支持的數(shù)據(jù)分類技術

圖源：Gartner（2017年5月）

圖6 每項技術的數(shù)據(jù)分類范圍

圖源：Gartner（2017年5月）

本站是提供個人知識管理的網(wǎng)絡存儲空間,，所有內容均由用戶發(fā)布,，不代表本站觀點。請注意甄別內容中的聯(lián)系方式,、誘導購買等信息,，謹防詐騙,。如發(fā)現(xiàn)有害或侵權內容,，請點擊一鍵舉報。

轉藏分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自： 2016xing > 《大數(shù)據(jù)云計算物聯(lián)網(wǎng)區(qū)塊鏈》

舉報/認領

0條評論

發(fā)表

請遵守用戶評論公約

類似文章 更多

2016xing

關注對話

TA的最新館藏

放屁時如果有這3種異樣,，可能是“癌細胞”發(fā)出的聲音，不管男女
當心小病拖成癌,！這10種“小病”最怕你拖，癌變概率大大增加,！
醫(yī)生發(fā)現(xiàn)：不容易得癌癥的人,，一般都有5個“特質”,，你占幾個？
穿襪子睡覺和不穿襪子睡覺,，哪個睡得更香,？答案出乎意料！
醫(yī)生發(fā)現(xiàn)：冬天堅持散步的人，若不想早早進醫(yī)院,，3點要注意
真實版“拼死吃河豚”？杭州男子連吃兩只大閘蟹后......

喜歡該文的人也喜歡更多

熱門閱讀換一換

久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

非結構化數(shù)據(jù)分類的創(chuàng)新思路