久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

評分模型的檢驗方法和標準&信用評分及實現

 昵稱35313064 2017-09-27


信用評分模型

信用評分模型是一種有監(jiān)督的學習模型(Supervised Learning),,數據由一群自變量X和對應的因變量y構成。傳統(tǒng)零售信用模型中,,X大致分為客戶的基本信息(年齡,、性別、職業(yè),、學位等),,財務信息(收入,每月生活消費,,每月信貸還款額等),,產品信息(LTV,信用卡類別,,個人貸款用途等),,征信信息(前6個月被查詢次數,前6個信用卡最大利用率,,未結清貸款數等);而一般取值0-1因變量y可以定義為在未來12個月是否出現欠款90天等.

經驗備注在大數據下,,很多互聯網公司對個人的評估不再局限于以上幾種信息,,而是根據更為廣泛的數據源對個人進行更全面的刻畫,故有稱之為客戶畫像,。數據維度會考慮個人在社會上留下的任何數據,,如手機使用行為,理財行為,,社交圈,,網購行為,旅游行為等等等等,。大家的各方面數據其實都在被不同的公司和不同的APP收集,。,。。

自變量的生成

自變量是信用風險的來源,,除了考慮直接收集的變量,信用評分建模過程中往往需要建模人員產生更多的衍生變量,。這部分工作要分析人員的直覺、長期經驗的積累和數據挖掘技術的應用,。大家可以通過京東和支付寶的評分一窺其自變量的維度:芝麻信用分為5個維度:身份特質,,履約能力,,信用歷史,,人脈關系,,行為偏好,;小白信用分也分為5個維度:身份,,資產,關系,,履約,,偏好。

經驗備注現在越來越多的模型技術被應用于信用模型,,但是個人覺得無論高級模型還是初級模型,,最為重要的是更廣泛的數據和產生更多更具有預測能力的自變量。

自變量的篩選

自變量一旦豐富了起來,,就涉及到有效變量的篩選,大致可根據一下幾個原則或方法:變量的直觀意義(是否跟y有關),,變量的單調性或合理性,,未來是否可以獲取以便模型可實施,變量的區(qū)分能力(IV),,變量間相關性(變量聚類),,變量缺失率,分檔之后的穩(wěn)定性等等,。

經驗備注對于區(qū)分能力太強的變量,,或缺失率很大的變量,不建議直接放入模型,可以考慮做成規(guī)則或者做成最后模型的調整,。在大數據下,,人們經常強調自變量與因變量的相關關系,應用于精準性要求不高的營銷模型問題不大,。而對于精準度要求極高的信用評分模型,,相關關系的應用值得推敲。 

自變量分檔和轉換

為了保持模型的穩(wěn)定性,,信用模型一般對自變量進行分檔,,比如根據風險不同把年齡分成幾檔。這樣每檔需要一個值來代表這段的自變量輸入,,這就是變量的轉換,,常見的有WOE和Logit轉換。通過轉換后不僅實現了穩(wěn)定性要求,,也克服不同變量間刻度不統(tǒng)一的問題,,還克服回歸中缺失值的填充問題,。

經驗備注如果分檔過粗糙,,不但會降低單個變量的預測能力,也會造成最終評分集中度過高的問題,。

解決方法:可以考慮每檔用線性插值來代替常數,,也可以尋找更多能區(qū)分分數集中樣本的自變量放入模型。 

有監(jiān)督學習模型介紹

目前比較流行的模型主要有以下幾種(以后分享會逐一介紹):

  1. Logistic 回歸(Logistic Regression)

  2. 決策樹(Decision Tree)

  3. 支持向量機(Support Vector Machine)

  4. 人工神經網絡(Artificial Neural Network) 

  5. 生存分析模型(Survival Analysis Model)

經驗備注除此上述之外,,還有些高級方法或算法:集成方法(Ensemble Method)(例如隨機森林(Random Forrest),,Boosting,AdaBoost),,深度學習方法(Deep Learning),,隨機梯度下降算法(Stochastic Gradient Descent)等。

 

信用評分及實現

1,、何為信用評級?

首先,,何為“信用”?俗話“有借有還”從道德上對信用進行了定義,然后銀行與其客戶之間“借貸”的關系,,往往較為復雜,。通常,銀行需要全方位,、多角度地去評價客戶,,確認客戶的“信用”,才能放心地把錢“借”出去,。

我們都熟悉支付寶芝麻信用分,,它是通過采集個人用戶信息,經過加工,、計算得出用戶的信用得分,,當然,,分數越高代表信用越好

這幾個維度包含了用戶個人基本信息,、好友互動信息,、信用賬戶情況及履約歷史、購物及理財等行為偏好等多項內容,,通過大數據技術,,最終以分數值的形式,形成對用戶信用的準確評價,。這就是信用評級,。

隨著數學和統(tǒng)計技術在傳統(tǒng)金融行業(yè)的廣泛應用和推廣,銀行業(yè)也采用了“定量”的形式,,多角度分析,、判斷不同客戶的不同的信用等級,從而來決定客戶可獲取的授信額度,、首付額度或利率優(yōu)惠程度等,,以科學手段準確地計量客戶的“信用”,從而避免因借貸雙方信息不一致而引發(fā)的信用風險損失,。

2,、信用評級的基礎:數據

現如今,早已不是撥打算盤手工記賬的年代,,社會上任何活動都拖離不了信息系統(tǒng),,當然,這些信息系統(tǒng)中,,也無時不刻地記錄著你的所有行蹤,,這就是所謂的“數據”。對這些數據的存儲,、清洗,、加工,都為銀行對客戶信用評級提供了健全,、豐富的信息來源;基于此,,銀行以大數據技術進行分析和計算,從而準確地對客戶進行信用評價,。

銀行進行客戶信用評級的數據來源于銀行內部系統(tǒng)產生的數據或外部的數據,,如圖示:

內部數據

從客戶的第一次開戶開始,其與銀行的每一次交互都將銀行的信息系統(tǒng)留存,,例如存款,、轉賬、還信用卡、還貸,、銷戶或購買理財等,,每一次活動的時間、方式,、地點,、賬戶、金額,、交易對象等等,,都完整的保存在銀行的數據庫中。這些積累的數據,,是銀行非常寶貴的資產,。與客戶評級相關的數據,通常包括以下幾個方面:

1)客戶基本數據:銀行通過不同形式,、不同時間,、不同地點所記錄的客戶名稱、證件編號,、聯系方式,、營收情況、學歷,、就業(yè)情況,、客戶關聯人信息等;

2)貸款或信用卡賬戶信息:包括賬戶號碼,、余額,、開銷戶時間、額度,、額度調整歷史等;

3)交易歷史:即貸款放款,、還款計劃及實際還款、現金提取,、信用卡刷卡,、還卡、換卡等各類事件的具體時間,、地點,、方式等詳細記錄;

4)擔保信息:即貸款抵押物基本信息、估值或評級信息,,擔保人信息等,。

除上述外,信用卡或貸款產品的營銷活動等數據,,也與客戶評級有關,。

外部數據

外部數據來源廣泛,以人行征信數據為例,其包含了客戶基本信息,,如姓名,、性別、證件編號,、婚姻情況,、聯系方式、住址等等;借款人的信用歷史,,如逾期情況,、貸款尚未結清信息、擔保信息,、異常交易信息等;還有一些個人非銀行信息,,如住房公積金信息、社保信息等,。

目前,,各家銀行都已經建立ODS或數據倉庫等數據平臺,其包含的信息能滿足銀行各條線的業(yè)務需要,,為開展各類管理,、經營決策的提供數據基礎。然而,,客戶信用評級數據作為數據平臺的一部分,,通常混合于其他數據之中,,因此,,有必要僅針對信用風險管理或信用評級的需要,面向信用風險管理應用開發(fā),,單獨建立信用風險數據集市,。

數據來源于各類生產、業(yè)務系統(tǒng),,經由數據倉庫,,進入信用風險數據集市中。風險數據集市則按照上層應用的需要,,進行數據的整合和存儲,。一般來說,信用風險相關的數據經過拆分,、拼裝或重組,,以主題的形式存儲在信用風險數據集市中。通常,,包含以下幾個主題:

3,、信用評分的實現:模型開發(fā)

數據挖掘是從大量的,、有噪音的數據中,發(fā)現潛在的規(guī)律和價值,,以輔助提高管理,、決策能力。銀行通過對外部數據及信貸等業(yè)務中產生的數據進行提煉,、分析,,開發(fā)模型,對客戶進行信用評分,,以服務于信貸管理,,增強風險控制能力。

第一步:樣本抽取

銀行積累的客戶評級相關的數據量極其龐大,,出于數據處理速度及模型開發(fā)效率的考慮,,通常抽取一定量的數據作為樣本,開發(fā)模型,。常用的樣本選擇方式有兩種,,隨機抽樣和分類抽樣。隨機抽樣較為交單,,即隨機選擇樣本,,認為樣本可以代表整體情況。例如,,總貸款賬戶數是5000,,不良貸款賬戶數是100,占比1/50;那么隨機抽取100個貸款賬戶,,其中包含2個不良貸款賬戶,。而分類抽樣,則需要先分類,,確認各類樣本的數據量,,再分別進行隨機抽樣,。例如上述例子中的賬戶樣本選擇,,首先據擔保情況進行分類,有無擔保比例分別為3:2,,則再分別隨機抽取60個有擔保的不良貸款賬戶和40個無擔保的不良貸款記錄,。

當然,以上僅為示例,,實際情況卻往往復雜很多,。

第二步:變量選擇

明確因變量和自變量。其中因變量為表現變量,,即模型的結果“客戶信用情況”;自變量為與之相關的因素,,它的預測能力決定于它與因變量之間相關關系和邏輯因果關系,。通常,與信用等級相關的因素包含客戶的學歷,、工資,、年齡、額度使用情況,、現金提取次數,、還款時間等。

第三步:模型分組

模型分組的意義在于區(qū)分不同行為模型和數理關系,,以提高模型預測的精準度,。例如,學生和在職人員的還款能力是有差異的,,但是某類自變量和壞賬率的表現上,,趨勢十分相似,所以講模型分組,,將避免相互之間的模型因素的干擾和影響,。

第四步:模型設計

影響模型結果的變量非常復雜,因此需要根據單個變量的實際預測能力進行篩選,,剔除沒有預測能力的變量,,以縮小變量的范圍。

常見的模型算法有線性回歸分析,、非線性回歸分析,、邏輯回歸模型、神經網絡模型,、決策樹模型等,。在實際的模型選擇過程中,需根據模型性質,、分析人員經驗等多方面因素綜合考量,。

第五步:模型檢驗

模型檢驗,在于衡量開發(fā)的信用評分模型能力,。常用的檢驗報告有以下幾類:

  1. 交換曲線
  2. K-S指標
  3. 區(qū)分度
  4. 擬合度曲線

其中,,前三者表現的效果為:“評分越高,則好賬戶出現的越多”;而擬合度曲線,,則用于對比預測情況與實際情況差異,。

寫在最后

信用評分對銀行的經營效益有著重要的作用,信用評分模型應用效果,,很大程度上也取決于銀行的內部管理及信貸政策,。技術和管理相結合,雙管齊下,,一定是控制客戶信用風險的最優(yōu)方案,。

End.

    本站是提供個人知識管理的網絡存儲空間,,所有內容均由用戶發(fā)布,不代表本站觀點,。請注意甄別內容中的聯系方式,、誘導購買等信息,謹防詐騙,。如發(fā)現有害或侵權內容,,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多