數(shù)據(jù)工匠俱樂部 發(fā)展數(shù)據(jù)治理行業(yè),普及數(shù)據(jù)治理知識,,構建數(shù)據(jù)治理體系,,改變企業(yè)數(shù)據(jù)管理現(xiàn)狀,提高企業(yè)數(shù)據(jù)質量,,推動企業(yè)走進大數(shù)據(jù)時代,。 191篇原創(chuàng)內容 公眾號 引言 隨著互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)帶來的深刻影響和巨大商業(yè)價值逐漸受到人們的重視,,商業(yè)決策也越來越依賴于數(shù)據(jù)的支持,。但事情都具有兩面性,大數(shù)據(jù)在為社會帶來便利的同時,,也帶來了諸多安全隱患,,其中最受關注的無疑是客戶數(shù)據(jù)安全。據(jù)《中國個人金融信息保護執(zhí)法白皮書(2020)》的不完全統(tǒng)計,,截至2020年10月25日,,中國人民銀行開出的行政處罰單里,涉及“個人金融信息”的罰單共181張,,罰款金額合計超過人民幣1.8億元,。近幾年全球數(shù)據(jù)泄漏事件層出不窮,各國對數(shù)據(jù)保護要求也越發(fā)嚴格,,我國近期也發(fā)布了《中華人民共和國數(shù)據(jù)安全法》,,聚焦數(shù)據(jù)安全領域的風險隱患,提出建立數(shù)據(jù)分類分級,、安全風險評估,、應急處置等制度。企業(yè)在使用數(shù)據(jù)進行分析拓展業(yè)務的同時,,必須保障客戶隱私數(shù)據(jù)安全,,而數(shù)據(jù)脫敏技術是企業(yè)同時滿足這兩個需求的有效手段,。本文將為大家簡單介紹業(yè)界常見的數(shù)據(jù)脫敏方式及在金融行業(yè)的應用舉例。01 數(shù)據(jù)脫敏的定義 數(shù)據(jù)脫敏是一種保護敏感信息的技術手段,,在不影響數(shù)據(jù)分析的準確性的前提下,,對原始數(shù)據(jù)中的敏感字段進行處理,從而降低數(shù)據(jù)的敏感度,,降低個人隱私泄露的風險,。數(shù)據(jù)脫敏可以分為靜態(tài)脫敏和動態(tài)脫敏。靜態(tài)脫敏是指對敏感數(shù)據(jù)進行變形,、替換,、或屏蔽處理后,將數(shù)據(jù)從生產(chǎn)環(huán)境導入到其他非生產(chǎn)環(huán)境進行使用,,例如需要將生產(chǎn)數(shù)據(jù)導出發(fā)送至開發(fā),、測試等環(huán)境。動態(tài)脫敏會對數(shù)據(jù)進行多次脫敏,,更多應用于直接連接生產(chǎn)數(shù)據(jù)的場景,,在用戶訪問生產(chǎn)環(huán)境敏感數(shù)據(jù)時,通過匹配用戶IP或MAC地址等脫敏條件,,根據(jù)用戶權限采用改寫查詢SQL語句等方式返回脫敏后的數(shù)據(jù),。例如運維人員在運維工作中直連生產(chǎn)數(shù)據(jù)庫,業(yè)務人員需要通過生產(chǎn)環(huán)境查詢客戶信息等,。3.數(shù)據(jù)脫敏與數(shù)據(jù)加密的區(qū)別說到數(shù)據(jù)保護,,大多數(shù)人第一時間想到的便是加密技術。很多時候大家可能會對數(shù)據(jù)脫敏與數(shù)據(jù)加密這兩個概念產(chǎn)生疑問,,認為數(shù)據(jù)加密是數(shù)據(jù)脫敏的一種方式,,但其實這是兩種完全不同的技術,適用于不同的目的,。數(shù)據(jù)脫敏技術并不需要對所有信息進行加密,,數(shù)據(jù)脫敏保存了數(shù)據(jù)原有的格式,在不需要解密的條件下,,降低數(shù)據(jù)敏感度,。因此,脫敏技術兼顧了數(shù)據(jù)安全與數(shù)據(jù)使用,,脫敏后的數(shù)據(jù)依然可以用于分析和測試,。數(shù)據(jù)加密技術則涉及到通過算法對數(shù)據(jù)進行可逆的變形或轉換從而隱藏原始信息,大多數(shù)加密算法(如對稱加密,、非對稱加密)都是可逆的,,密文可以通過密鑰被還原。數(shù)據(jù)加密更多適用于長期數(shù)據(jù)儲存或數(shù)據(jù)傳輸,因為被加密后的數(shù)據(jù)將無法使用,。02 數(shù)據(jù)脫敏的常見方式 在數(shù)據(jù)脫敏的過程中,,需要根據(jù)不同的數(shù)據(jù)使用場景,選擇相應的數(shù)據(jù)脫敏方式,。較為常見數(shù)據(jù)脫敏方式包括數(shù)據(jù)替換,、掩碼屏蔽、隨機化,、泛化,、平均化、偏移取整,。本節(jié)將以下圖數(shù)據(jù)為例,,介紹上述幾種數(shù)據(jù)脫敏的方式。1.掩碼屏蔽:使用*掩蓋部分數(shù)據(jù),,如保留身份證前6位代表地區(qū)信息的數(shù)字,其余用*代替,,被掩碼屏蔽的部分可以根據(jù)需要進行調整,。2.數(shù)據(jù)替換:使用虛擬值替換真實值,如設置一個常數(shù)將所有數(shù)據(jù)進行替換,。下圖使用數(shù)據(jù)替換方式,,將所有手機號統(tǒng)一替換為“13900800900”。3.隨機化:使用隨機數(shù)據(jù)代替真實值,,如隨機生成客戶姓名代替真實值,。 4.泛化:在保留數(shù)據(jù)局部特征的情況下,對數(shù)值型字段進行歸類后替換原有數(shù)值,,使原有數(shù)據(jù)特征被模糊化。如根據(jù)借記卡余額數(shù)值分為 “<5萬”, “5-10萬”, “10-15萬”等區(qū)間,,并將其替換原有的借記卡余額數(shù)據(jù),。5.平均值:針對數(shù)值型數(shù)據(jù),計算它們的平均值后,,將脫敏值在均值附近隨機分布,,在改變數(shù)值的情況下不改變數(shù)據(jù)總值和均值。以借記卡余額為例,,對借記卡余額做平均值處理后,,余額總數(shù)不變,但脫敏后的數(shù)據(jù)在均值97602.97附近,。6.偏移取整:將數(shù)據(jù)中的數(shù)字隨機進行位移,,從而改變原始數(shù)據(jù)。以開戶時間為例,經(jīng)過偏移取整后,,開戶時間2015-07-26 15:03:24變成了2017-06-25 15:00:00,。03 數(shù)據(jù)脫敏的應用與工具 數(shù)據(jù)脫敏在金融機構中的應用廣泛,主要分為數(shù)據(jù)統(tǒng)計測試需要和分析需要,。通常選擇掩碼屏蔽和數(shù)據(jù)替換這兩種方式,。由于測試數(shù)據(jù)是要在測試中使用的,為達到測試的目的,,脫敏后的數(shù)據(jù)也需要保留原本的數(shù)據(jù)特征,。一些敏感信息,如身份號,、手機號等,,都是具備明顯的特征的,脫敏時保留這些數(shù)據(jù)特征才能更準確地進行測試,,而掩碼屏蔽和數(shù)據(jù)替換都能一定程度上保留這些數(shù)據(jù)特征,。隨機化雖然可以最大程度上使數(shù)據(jù)脫敏,但由于數(shù)據(jù)為隨機生成,,所以脫敏后的數(shù)據(jù)無法保證數(shù)據(jù)的原有特征,,在一些需要數(shù)據(jù)真實性的使用場景具有局限性,更多適用于系統(tǒng)性能測試,。為保證獲取的數(shù)據(jù)可以用于分析研究,,需要脫敏后的數(shù)據(jù)也具備分析價值,確保數(shù)據(jù)的業(yè)務特征不喪失,,且主外鍵保持一致,,數(shù)據(jù)之間的邏輯關系也要保留。這種情況下,,對于數(shù)據(jù)中的主外鍵可采用隨機化的方式,,使用隨機數(shù)字替代主鍵。首先需要建立一個包含脫敏前后主鍵的對照表,,將對照表與原表通過脫敏前主鍵關聯(lián),,并用脫敏后主鍵值替換原值。在與其他表關聯(lián)前,,也要先使用對照表替換需要關聯(lián)表中的外鍵,,以保證主外鍵的唯一性和一致性。在完成主外鍵替換后,,需將對照表刪除,,以保證數(shù)據(jù)的安全。另一方面,,對于需要進行統(tǒng)計分析的數(shù)值性數(shù)據(jù),,泛化,、平均值、偏移取整這三種方式更適用,。當用戶并不需要具體每一條數(shù)值,,只需要對數(shù)據(jù)樣本整體進行統(tǒng)計分析,根據(jù)不同的分析需要可以對脫敏字段進行不同的處理,。比如若用戶需要統(tǒng)計某月日均AUM,,則可對數(shù)據(jù)進行平均值處理,使客戶每日AUM在均值附近隨機分布,。如此處理后,,既不影響用戶分析結果,又保護了對客戶資產(chǎn)數(shù)據(jù),。數(shù)據(jù)脫敏的方式眾多,,且根據(jù)不同的使用目的涉及到的脫敏方式也不同。面對日益增加的數(shù)據(jù)量,、愈加復雜的使用場景,、和逐漸提高的數(shù)據(jù)要求,手工脫敏效率低且難度大,。如今隨著脫敏技術的完善,,自動脫敏產(chǎn)品也越來越多。相比傳統(tǒng)的手工脫敏方法,,專業(yè)的脫敏工具可以做到自動識別敏感字段,自動識別用戶身份,,針對用戶權限進行不同程度的脫敏,,從而大幅提高脫敏效率。同時,,自動脫敏工具的脫敏算法豐富,,可以進行更有效便捷的脫敏,確保脫敏數(shù)據(jù)的主外鍵一致,、業(yè)務關聯(lián)一致,、多次脫敏結果一致,保持數(shù)據(jù)間的邏輯關系,。04 結語 金融機構掌握了大量的敏感信息,,比如客戶的身份信息、賬戶信息和密碼,、資金信息和一些個人行為信息,。由于金融機構特殊的行業(yè)性質,對數(shù)據(jù)安全性的要求較其他行業(yè)更為嚴格和審慎,。而金融機構在諸多工作場景,,如開發(fā),、測試、數(shù)據(jù)分析挖掘過程中,,都需要使用這些真實的數(shù)據(jù)信息,,數(shù)據(jù)脫敏可以幫助金融機構在數(shù)據(jù)保護與數(shù)據(jù)可用性之間找到平衡。通過數(shù)據(jù)脫敏,,可以有效防止企業(yè)內部對敏感數(shù)據(jù)的濫用和未經(jīng)脫敏的數(shù)據(jù)從企業(yè)流出的情況,,減少金融機構職員利用工作之便進行違法活動的可能性,避免數(shù)據(jù)泄露為金融機構帶來的損失,。
|