評分模型的檢驗方法和標準&信用評分及實現

昵稱35313064 2017-09-27

展開全文

信用評分模型

信用評分模型是一種有監(jiān)督的學習模型（Supervised Learning）,，數據由一群自變量X和對應的因變量y構成。傳統(tǒng)零售信用模型中,，X大致分為客戶的基本信息（年齡,、性別、職業(yè),、學位等）,，財務信息（收入，每月生活消費,，每月信貸還款額等）,，產品信息（LTV，信用卡類別,，個人貸款用途等）,，征信信息（前6個月被查詢次數，前6個信用卡最大利用率,，未結清貸款數等）；而一般取值0-1因變量y可以定義為在未來12個月是否出現欠款90天等.

經驗備注：在大數據下,，很多互聯網公司對個人的評估不再局限于以上幾種信息,，而是根據更為廣泛的數據源對個人進行更全面的刻畫，故有稱之為客戶畫像,。數據維度會考慮個人在社會上留下的任何數據,，如手機使用行為，理財行為,，社交圈,，網購行為，旅游行為等等等等,。大家的各方面數據其實都在被不同的公司和不同的APP收集,。,。。

自變量的生成

自變量是信用風險的來源,，除了考慮直接收集的變量，信用評分建模過程中往往需要建模人員產生更多的衍生變量,。這部分工作要分析人員的直覺、長期經驗的積累和數據挖掘技術的應用,。大家可以通過京東和支付寶的評分一窺其自變量的維度：芝麻信用分為5個維度：身份特質,，履約能力,，信用歷史,，人脈關系,，行為偏好,；小白信用分也分為5個維度：身份,，資產，關系,，履約,，偏好。

經驗備注：現在越來越多的模型技術被應用于信用模型,，但是個人覺得無論高級模型還是初級模型,，最為重要的是更廣泛的數據和產生更多更具有預測能力的自變量。

自變量的篩選

自變量一旦豐富了起來,，就涉及到有效變量的篩選，大致可根據一下幾個原則或方法：變量的直觀意義（是否跟y有關）,，變量的單調性或合理性,，未來是否可以獲取以便模型可實施，變量的區(qū)分能力（IV）,，變量間相關性（變量聚類）,，變量缺失率，分檔之后的穩(wěn)定性等等,。

經驗備注：對于區(qū)分能力太強的變量,，或缺失率很大的變量，不建議直接放入模型，可以考慮做成規(guī)則或者做成最后模型的調整,。在大數據下,，人們經常強調自變量與因變量的相關關系，應用于精準性要求不高的營銷模型問題不大,。而對于精準度要求極高的信用評分模型,，相關關系的應用值得推敲。

自變量分檔和轉換

為了保持模型的穩(wěn)定性,，信用模型一般對自變量進行分檔,，比如根據風險不同把年齡分成幾檔。這樣每檔需要一個值來代表這段的自變量輸入,，這就是變量的轉換,，常見的有WOE和Logit轉換。通過轉換后不僅實現了穩(wěn)定性要求,，也克服不同變量間刻度不統(tǒng)一的問題,，還克服回歸中缺失值的填充問題,。

經驗備注：如果分檔過粗糙,，不但會降低單個變量的預測能力，也會造成最終評分集中度過高的問題,。

解決方法：可以考慮每檔用線性插值來代替常數,，也可以尋找更多能區(qū)分分數集中樣本的自變量放入模型。

有監(jiān)督學習模型介紹

目前比較流行的模型主要有以下幾種（以后分享會逐一介紹）：

Logistic 回歸（Logistic Regression）
決策樹（Decision Tree）
支持向量機（Support Vector Machine）
人工神經網絡（Artificial Neural Network）
生存分析模型（Survival Analysis Model）

經驗備注：除此上述之外,，還有些高級方法或算法：集成方法（Ensemble Method）（例如隨機森林（Random Forrest）,，Boosting，AdaBoost）,，深度學習方法（Deep Learning）,，隨機梯度下降算法（Stochastic Gradient Descent）等。

信用評分及實現

1,、何為信用評級?

首先,，何為“信用”?俗話“有借有還”從道德上對信用進行了定義，然后銀行與其客戶之間“借貸”的關系,，往往較為復雜,。通常，銀行需要全方位,、多角度地去評價客戶,，確認客戶的“信用”，才能放心地把錢“借”出去,。

我們都熟悉支付寶芝麻信用分,，它是通過采集個人用戶信息，經過加工,、計算得出用戶的信用得分,，當然,，分數越高代表信用越好。

這幾個維度包含了用戶個人基本信息,、好友互動信息,、信用賬戶情況及履約歷史、購物及理財等行為偏好等多項內容,，通過大數據技術,，最終以分數值的形式，形成對用戶信用的準確評價,。這就是信用評級,。

隨著數學和統(tǒng)計技術在傳統(tǒng)金融行業(yè)的廣泛應用和推廣，銀行業(yè)也采用了“定量”的形式,，多角度分析,、判斷不同客戶的不同的信用等級，從而來決定客戶可獲取的授信額度,、首付額度或利率優(yōu)惠程度等,，以科學手段準確地計量客戶的“信用”，從而避免因借貸雙方信息不一致而引發(fā)的信用風險損失,。

2,、信用評級的基礎：數據

現如今，早已不是撥打算盤手工記賬的年代,，社會上任何活動都拖離不了信息系統(tǒng),，當然，這些信息系統(tǒng)中,，也無時不刻地記錄著你的所有行蹤,，這就是所謂的“數據”。對這些數據的存儲,、清洗,、加工，都為銀行對客戶信用評級提供了健全,、豐富的信息來源;基于此,，銀行以大數據技術進行分析和計算，從而準確地對客戶進行信用評價,。

銀行進行客戶信用評級的數據來源于銀行內部系統(tǒng)產生的數據或外部的數據,，如圖示：

內部數據

從客戶的第一次開戶開始，其與銀行的每一次交互都將銀行的信息系統(tǒng)留存,，例如存款,、轉賬、還信用卡、還貸,、銷戶或購買理財等,，每一次活動的時間、方式,、地點,、賬戶、金額,、交易對象等等,，都完整的保存在銀行的數據庫中。這些積累的數據,，是銀行非常寶貴的資產,。與客戶評級相關的數據，通常包括以下幾個方面：

1)客戶基本數據：銀行通過不同形式,、不同時間,、不同地點所記錄的客戶名稱、證件編號,、聯系方式,、營收情況、學歷,、就業(yè)情況,、客戶關聯人信息等;

2)貸款或信用卡賬戶信息：包括賬戶號碼,、余額,、開銷戶時間、額度,、額度調整歷史等;

3)交易歷史：即貸款放款,、還款計劃及實際還款、現金提取,、信用卡刷卡,、還卡、換卡等各類事件的具體時間,、地點,、方式等詳細記錄;

4)擔保信息：即貸款抵押物基本信息、估值或評級信息,，擔保人信息等,。

除上述外，信用卡或貸款產品的營銷活動等數據,，也與客戶評級有關,。

外部數據

外部數據來源廣泛，以人行征信數據為例，其包含了客戶基本信息,，如姓名,、性別、證件編號,、婚姻情況,、聯系方式、住址等等;借款人的信用歷史,，如逾期情況,、貸款尚未結清信息、擔保信息,、異常交易信息等;還有一些個人非銀行信息,，如住房公積金信息、社保信息等,。

目前,，各家銀行都已經建立ODS或數據倉庫等數據平臺，其包含的信息能滿足銀行各條線的業(yè)務需要,，為開展各類管理,、經營決策的提供數據基礎。然而,，客戶信用評級數據作為數據平臺的一部分,，通常混合于其他數據之中,，因此,，有必要僅針對信用風險管理或信用評級的需要，面向信用風險管理應用開發(fā),，單獨建立信用風險數據集市,。

數據來源于各類生產、業(yè)務系統(tǒng),，經由數據倉庫,，進入信用風險數據集市中。風險數據集市則按照上層應用的需要,，進行數據的整合和存儲,。一般來說，信用風險相關的數據經過拆分,、拼裝或重組,，以主題的形式存儲在信用風險數據集市中。通常,，包含以下幾個主題：

3,、信用評分的實現：模型開發(fā)

數據挖掘是從大量的,、有噪音的數據中，發(fā)現潛在的規(guī)律和價值,，以輔助提高管理,、決策能力。銀行通過對外部數據及信貸等業(yè)務中產生的數據進行提煉,、分析,，開發(fā)模型，對客戶進行信用評分,，以服務于信貸管理,，增強風險控制能力。

第一步：樣本抽取

銀行積累的客戶評級相關的數據量極其龐大,，出于數據處理速度及模型開發(fā)效率的考慮,，通常抽取一定量的數據作為樣本，開發(fā)模型,。常用的樣本選擇方式有兩種,，隨機抽樣和分類抽樣。隨機抽樣較為交單,，即隨機選擇樣本,，認為樣本可以代表整體情況。例如,，總貸款賬戶數是5000,，不良貸款賬戶數是100，占比1/50;那么隨機抽取100個貸款賬戶,，其中包含2個不良貸款賬戶,。而分類抽樣，則需要先分類,，確認各類樣本的數據量,，再分別進行隨機抽樣,。例如上述例子中的賬戶樣本選擇,，首先據擔保情況進行分類，有無擔保比例分別為3:2,，則再分別隨機抽取60個有擔保的不良貸款賬戶和40個無擔保的不良貸款記錄,。

當然，以上僅為示例,，實際情況卻往往復雜很多,。

第二步：變量選擇

明確因變量和自變量。其中因變量為表現變量,，即模型的結果“客戶信用情況”;自變量為與之相關的因素,，它的預測能力決定于它與因變量之間相關關系和邏輯因果關系,。通常，與信用等級相關的因素包含客戶的學歷,、工資,、年齡、額度使用情況,、現金提取次數,、還款時間等。

第三步：模型分組

模型分組的意義在于區(qū)分不同行為模型和數理關系,，以提高模型預測的精準度,。例如，學生和在職人員的還款能力是有差異的,，但是某類自變量和壞賬率的表現上,，趨勢十分相似，所以講模型分組,，將避免相互之間的模型因素的干擾和影響,。

第四步：模型設計

影響模型結果的變量非常復雜，因此需要根據單個變量的實際預測能力進行篩選,，剔除沒有預測能力的變量,，以縮小變量的范圍。

常見的模型算法有線性回歸分析,、非線性回歸分析,、邏輯回歸模型、神經網絡模型,、決策樹模型等,。在實際的模型選擇過程中，需根據模型性質,、分析人員經驗等多方面因素綜合考量,。

第五步：模型檢驗

模型檢驗，在于衡量開發(fā)的信用評分模型能力,。常用的檢驗報告有以下幾類：