信用評分模型 信用評分模型是一種有監(jiān)督的學習模型(Supervised Learning),,數據由一群自變量X和對應的因變量y構成。傳統(tǒng)零售信用模型中,,X大致分為客戶的基本信息(年齡,、性別、職業(yè),、學位等),,財務信息(收入,每月生活消費,,每月信貸還款額等),,產品信息(LTV,信用卡類別,,個人貸款用途等),,征信信息(前6個月被查詢次數,前6個信用卡最大利用率,,未結清貸款數等);而一般取值0-1因變量y可以定義為在未來12個月是否出現欠款90天等. 經驗備注:在大數據下,,很多互聯網公司對個人的評估不再局限于以上幾種信息,,而是根據更為廣泛的數據源對個人進行更全面的刻畫,故有稱之為客戶畫像,。數據維度會考慮個人在社會上留下的任何數據,,如手機使用行為,理財行為,,社交圈,,網購行為,旅游行為等等等等,。大家的各方面數據其實都在被不同的公司和不同的APP收集,。,。。 自變量的生成 自變量是信用風險的來源,,除了考慮直接收集的變量,信用評分建模過程中往往需要建模人員產生更多的衍生變量,。這部分工作要分析人員的直覺、長期經驗的積累和數據挖掘技術的應用,。大家可以通過京東和支付寶的評分一窺其自變量的維度:芝麻信用分為5個維度:身份特質,,履約能力,,信用歷史,,人脈關系,,行為偏好,;小白信用分也分為5個維度:身份,,資產,關系,,履約,,偏好。 經驗備注:現在越來越多的模型技術被應用于信用模型,,但是個人覺得無論高級模型還是初級模型,,最為重要的是更廣泛的數據和產生更多更具有預測能力的自變量。 自變量的篩選 自變量一旦豐富了起來,,就涉及到有效變量的篩選,大致可根據一下幾個原則或方法:變量的直觀意義(是否跟y有關),,變量的單調性或合理性,,未來是否可以獲取以便模型可實施,變量的區(qū)分能力(IV),,變量間相關性(變量聚類),,變量缺失率,分檔之后的穩(wěn)定性等等,。 經驗備注:對于區(qū)分能力太強的變量,,或缺失率很大的變量,不建議直接放入模型,可以考慮做成規(guī)則或者做成最后模型的調整,。在大數據下,,人們經常強調自變量與因變量的相關關系,應用于精準性要求不高的營銷模型問題不大,。而對于精準度要求極高的信用評分模型,,相關關系的應用值得推敲。 自變量分檔和轉換 為了保持模型的穩(wěn)定性,,信用模型一般對自變量進行分檔,,比如根據風險不同把年齡分成幾檔。這樣每檔需要一個值來代表這段的自變量輸入,,這就是變量的轉換,,常見的有WOE和Logit轉換。通過轉換后不僅實現了穩(wěn)定性要求,,也克服不同變量間刻度不統(tǒng)一的問題,,還克服回歸中缺失值的填充問題,。 經驗備注:如果分檔過粗糙,,不但會降低單個變量的預測能力,也會造成最終評分集中度過高的問題,。 解決方法:可以考慮每檔用線性插值來代替常數,,也可以尋找更多能區(qū)分分數集中樣本的自變量放入模型。 有監(jiān)督學習模型介紹 目前比較流行的模型主要有以下幾種(以后分享會逐一介紹):
經驗備注:除此上述之外,,還有些高級方法或算法:集成方法(Ensemble Method)(例如隨機森林(Random Forrest),,Boosting,AdaBoost),,深度學習方法(Deep Learning),,隨機梯度下降算法(Stochastic Gradient Descent)等。
信用評分及實現 1,、何為信用評級?首先,,何為“信用”?俗話“有借有還”從道德上對信用進行了定義,然后銀行與其客戶之間“借貸”的關系,,往往較為復雜,。通常,銀行需要全方位,、多角度地去評價客戶,,確認客戶的“信用”,才能放心地把錢“借”出去,。 我們都熟悉支付寶芝麻信用分,,它是通過采集個人用戶信息,經過加工,、計算得出用戶的信用得分,,當然,,分數越高代表信用越好。 這幾個維度包含了用戶個人基本信息,、好友互動信息,、信用賬戶情況及履約歷史、購物及理財等行為偏好等多項內容,,通過大數據技術,,最終以分數值的形式,形成對用戶信用的準確評價,。這就是信用評級,。 隨著數學和統(tǒng)計技術在傳統(tǒng)金融行業(yè)的廣泛應用和推廣,銀行業(yè)也采用了“定量”的形式,,多角度分析,、判斷不同客戶的不同的信用等級,從而來決定客戶可獲取的授信額度,、首付額度或利率優(yōu)惠程度等,,以科學手段準確地計量客戶的“信用”,從而避免因借貸雙方信息不一致而引發(fā)的信用風險損失,。 2,、信用評級的基礎:數據現如今,早已不是撥打算盤手工記賬的年代,,社會上任何活動都拖離不了信息系統(tǒng),,當然,這些信息系統(tǒng)中,,也無時不刻地記錄著你的所有行蹤,,這就是所謂的“數據”。對這些數據的存儲,、清洗,、加工,都為銀行對客戶信用評級提供了健全,、豐富的信息來源;基于此,,銀行以大數據技術進行分析和計算,從而準確地對客戶進行信用評價,。 銀行進行客戶信用評級的數據來源于銀行內部系統(tǒng)產生的數據或外部的數據,,如圖示: 內部數據 從客戶的第一次開戶開始,其與銀行的每一次交互都將銀行的信息系統(tǒng)留存,,例如存款,、轉賬、還信用卡、還貸,、銷戶或購買理財等,,每一次活動的時間、方式,、地點,、賬戶、金額,、交易對象等等,,都完整的保存在銀行的數據庫中。這些積累的數據,,是銀行非常寶貴的資產,。與客戶評級相關的數據,通常包括以下幾個方面: 1)客戶基本數據:銀行通過不同形式,、不同時間,、不同地點所記錄的客戶名稱、證件編號,、聯系方式,、營收情況、學歷,、就業(yè)情況,、客戶關聯人信息等; 2)貸款或信用卡賬戶信息:包括賬戶號碼,、余額,、開銷戶時間、額度,、額度調整歷史等; 3)交易歷史:即貸款放款,、還款計劃及實際還款、現金提取,、信用卡刷卡,、還卡、換卡等各類事件的具體時間,、地點,、方式等詳細記錄; 4)擔保信息:即貸款抵押物基本信息、估值或評級信息,,擔保人信息等,。 除上述外,信用卡或貸款產品的營銷活動等數據,,也與客戶評級有關,。 外部數據 外部數據來源廣泛,以人行征信數據為例,其包含了客戶基本信息,,如姓名,、性別、證件編號,、婚姻情況,、聯系方式、住址等等;借款人的信用歷史,,如逾期情況,、貸款尚未結清信息、擔保信息,、異常交易信息等;還有一些個人非銀行信息,,如住房公積金信息、社保信息等,。 目前,,各家銀行都已經建立ODS或數據倉庫等數據平臺,其包含的信息能滿足銀行各條線的業(yè)務需要,,為開展各類管理,、經營決策的提供數據基礎。然而,,客戶信用評級數據作為數據平臺的一部分,,通常混合于其他數據之中,,因此,,有必要僅針對信用風險管理或信用評級的需要,面向信用風險管理應用開發(fā),,單獨建立信用風險數據集市,。 數據來源于各類生產、業(yè)務系統(tǒng),,經由數據倉庫,,進入信用風險數據集市中。風險數據集市則按照上層應用的需要,,進行數據的整合和存儲,。一般來說,信用風險相關的數據經過拆分,、拼裝或重組,,以主題的形式存儲在信用風險數據集市中。通常,,包含以下幾個主題: 3,、信用評分的實現:模型開發(fā)數據挖掘是從大量的,、有噪音的數據中,發(fā)現潛在的規(guī)律和價值,,以輔助提高管理,、決策能力。銀行通過對外部數據及信貸等業(yè)務中產生的數據進行提煉,、分析,,開發(fā)模型,對客戶進行信用評分,,以服務于信貸管理,,增強風險控制能力。 第一步:樣本抽取 銀行積累的客戶評級相關的數據量極其龐大,,出于數據處理速度及模型開發(fā)效率的考慮,,通常抽取一定量的數據作為樣本,開發(fā)模型,。常用的樣本選擇方式有兩種,,隨機抽樣和分類抽樣。隨機抽樣較為交單,,即隨機選擇樣本,,認為樣本可以代表整體情況。例如,,總貸款賬戶數是5000,,不良貸款賬戶數是100,占比1/50;那么隨機抽取100個貸款賬戶,,其中包含2個不良貸款賬戶,。而分類抽樣,則需要先分類,,確認各類樣本的數據量,,再分別進行隨機抽樣,。例如上述例子中的賬戶樣本選擇,,首先據擔保情況進行分類,有無擔保比例分別為3:2,,則再分別隨機抽取60個有擔保的不良貸款賬戶和40個無擔保的不良貸款記錄,。 當然,以上僅為示例,,實際情況卻往往復雜很多,。 第二步:變量選擇 明確因變量和自變量。其中因變量為表現變量,,即模型的結果“客戶信用情況”;自變量為與之相關的因素,,它的預測能力決定于它與因變量之間相關關系和邏輯因果關系,。通常,與信用等級相關的因素包含客戶的學歷,、工資,、年齡、額度使用情況,、現金提取次數,、還款時間等。 第三步:模型分組 模型分組的意義在于區(qū)分不同行為模型和數理關系,,以提高模型預測的精準度,。例如,學生和在職人員的還款能力是有差異的,,但是某類自變量和壞賬率的表現上,,趨勢十分相似,所以講模型分組,,將避免相互之間的模型因素的干擾和影響,。 第四步:模型設計 影響模型結果的變量非常復雜,因此需要根據單個變量的實際預測能力進行篩選,,剔除沒有預測能力的變量,,以縮小變量的范圍。 常見的模型算法有線性回歸分析,、非線性回歸分析,、邏輯回歸模型、神經網絡模型,、決策樹模型等,。在實際的模型選擇過程中,需根據模型性質,、分析人員經驗等多方面因素綜合考量,。 第五步:模型檢驗 模型檢驗,在于衡量開發(fā)的信用評分模型能力,。常用的檢驗報告有以下幾類:
其中,,前三者表現的效果為:“評分越高,則好賬戶出現的越多”;而擬合度曲線,,則用于對比預測情況與實際情況差異,。 寫在最后 信用評分對銀行的經營效益有著重要的作用,信用評分模型應用效果,,很大程度上也取決于銀行的內部管理及信貸政策,。技術和管理相結合,雙管齊下,,一定是控制客戶信用風險的最優(yōu)方案,。 End. |
|
來自: 昵稱35313064 > 《信貸類》