久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

SPSS用KMEANS(K均值),、兩階段聚類,、RFM模型在P2P網(wǎng)絡金融研究借款人、出款人行為數(shù)據(jù)規(guī)律

 拓端數(shù)據(jù) 2022-07-25 發(fā)布于上海

全文鏈接:http:///?p=27831

隨著P2P網(wǎng)絡金融平臺的交易量的激增,,其交易數(shù)據(jù)不能得到充分有效地利用。將聚類分析引入到P2P網(wǎng)絡金融平臺的管理之中,,利用聚類分析技術對P2P網(wǎng)絡金融平臺的現(xiàn)存數(shù)據(jù)進行分析,,進而為借款人、出款人和管理人員提供服務就成為P2P網(wǎng)絡金融平臺在發(fā)展過程中面臨的新的課題,。

相關視頻

鑒于上述出現(xiàn)的問題和需求,,本文期望研究將聚類分析技術應用于P2P網(wǎng)絡金融平臺來探討借款人的行為規(guī)律和出款人的行為規(guī)律,從而有益于平臺的建設和發(fā)展,。

聚類分析

聚類分析的定義

聚類分析,,是知識發(fā)現(xiàn)中的一項重要研究內(nèi)容,又被稱為群分析類,,簡單來說就是具有相似特征的元素的集合,。聚類,就是將具有較高的相似性的元素集中起來,,最終,,形成幾個子集。

聚類分析的算法及流程     

聚類算法是聚類技術優(yōu)越性的主要體現(xiàn),,算法的可伸縮性,、對不同屬性的處理能力、對任意形狀的聚類能力,、對噪聲數(shù)據(jù)的處理能力、對于輸入記錄的順序不敏感,、高維性,、基于約束的聚類以及可解釋性和可用性可衡量算法的好壞。

劃分方法:劃分方法是按照一定的規(guī)則或不同的劃分方法將給定的大量數(shù)據(jù)通過劃分為成多個組或簇, 其中,,每個組或簇中一般至少包含一組數(shù)據(jù), 不同類型的數(shù)據(jù)只能屬于不同的組,,每個組之間具有明顯的不同,。

層次方法:層次方法進行聚類分析是通過將數(shù)據(jù)劃分為若干組形成樹形的結(jié)構,也可根據(jù)構建數(shù)方式的不同分為自頂向下的分裂算法和自底向上的凝聚算法兩種,。

基于密度的方法:該方法是指通過相鄰局域的密度超過某個閡值而發(fā)生持續(xù)聚類的方法, 也就是說, 在每個給定的區(qū)域內(nèi)都將包含一定數(shù)目的點, 從而通過該方法來過濾掉一些異常點, 提高數(shù)據(jù)分析的效率,。

典型的聚類分析過程一般主要包括數(shù)據(jù)(或稱之為樣本或模式)準備,、特征選擇和特征提取,、接近度計算,、聚類(或分組)、對聚類結(jié)果進行有效性評估等步驟,。

聚類分析過程:

  1. 數(shù)據(jù)的準備過程:也就是數(shù)據(jù)的預處理,,包括特征標準化和降維。

  2. 特征的選擇過程:從最初的特征中選擇最有效的特征存儲于向量中,。

  3. 特征的提取過程:通過對所選擇的特征進行轉(zhuǎn)換形成新的突出特征,。

  4. 聚類(或分組):首先選擇合適特征類型的某種距離函數(shù)(或構造新的距離函數(shù))進行接近程度的度量;然后執(zhí)行聚類或分組,。

  5. 聚類結(jié)果評估:是指對聚類結(jié)果進行評估,。若結(jié)果滿意,可結(jié)束,;如果不滿意需調(diào)整上述“特征提取”環(huán)節(jié),,直至滿意為止。

借款人行為聚類分析    

研究數(shù)據(jù)說明

本文數(shù)據(jù)來源于平臺后臺數(shù)據(jù)庫中歷史交易信息,,包括借款相關信息以及出借人信息等,。

平臺借款的狀態(tài)分為:審核未通過、流標(指一個借款列表的投標期限已過,,但是貸款沒有足額籌集齊,,即貸款失敗),、借款成功(指借款滿標,,借貸關系已經(jīng)成立)。

經(jīng)過數(shù)據(jù)篩選梳理,,最終研究的樣本包括999條借款列表,。其中,248審核未通過的有條;209條是流標,;542條成功借款,,169條已還完借款。成功交易總額達3090.93萬元,。

圖 :樣本數(shù)據(jù)組成

就整體研究數(shù)據(jù)來看,,審核未通過的借款所占比例達到24.8%,流標所占比例達到20.9%,,借款成功僅有54.3%,,可以看出借款成功率亟需提高。


點擊標題查閱往期內(nèi)容

R語言用溫度對城市層次聚類、kmean聚類,、主成分分析和Voronoi圖可視化

左右滑動查看更多

01

02

03

04

聚類分析研究目的

由于P2P網(wǎng)絡借貸平臺具有門檻低,、限制少等特點,這往往加劇了P2P網(wǎng)絡借貸的風險,,所以,,其信用體系建設至關重要。其信用體系是根據(jù)借款人的認證信息以及借還款情況來確定借款人的信用積分,,根據(jù)信用積分分為AA、A,、B,、C、D,、E,、HR七個信用等級,其中AA類代表最高的信用等級,,表示借款人在平臺上借貸活躍且信用良好,,信用風險低;然后逐漸遞減,,HR類表示信用等級最低,、信用風險較大的借款人。

聚類分析的模型設計  

借款人總體數(shù)據(jù)統(tǒng)計

本文從借款人信息表中提取出923條不重復且有效條的借款人信息,。923位借款人中AA級僅1位,,而A級也僅1位,而B類與C類相對較多,,最多的是D,、E、HR類占總?cè)藬?shù)的98%,。

從表可以看出,,借款人中AA,、A、B,、C,、D、E,、HR7類的人均借款成功次數(shù)次數(shù)大于人均流標次數(shù),。從平均值總體上看,借款人信用等級越低,,其平均流標次數(shù)會逐漸增大,,平均借款成功次數(shù)會逐漸減少。由此可以看出,,借款人的信用等級越高,,其借款成功的概率越高。但在E類借款人上,,出現(xiàn)特殊情況,,其借款人平均借款成功次數(shù)大于D類借款人,而平均流標次數(shù)小于D類借款人,,由此,,可以看出等級劃分的不合理性。另一方面,,從基數(shù)上來看,,由于信用等級高的AA、A,、B,、C類借款人基數(shù)小,盡管借款成功率很高,,但總借款次數(shù)遠小于E,、HR類借款人。由此說明,,信用等級越高并不意味著借款成功次數(shù)會越多,,而信用等級越低也并不意味著借款成功次數(shù)會越少。信用等級越高,,借款人的成功與失敗次數(shù)都會更高結(jié)論相似,。

數(shù)據(jù)準備與聚類變量選取

通過對數(shù)據(jù)源中借款人信息的整合,得到了用戶活動數(shù)據(jù),,包括用戶的借款次數(shù),、成功借款次數(shù)、信用等級、借款總額等信息,。為了了解平臺用戶的不同行為模式與特征,,這里本文選取借款人ID號、平均借款額度,、借款總次數(shù),、借款成功次數(shù)、信用等級,、借出積分(借款人作為出借人進行借貸所獲得的借出積分)作為聚類變量,。

聚類分析的應用實現(xiàn)

本文使用SPSS對923位有效借款人的數(shù)據(jù)進行聚類分析。其中,,選擇信用等級作為分類變量,,由于樣本數(shù)據(jù)既有連續(xù)變量也有分類變量,所以,,本文使用兩階段聚類,。與SPSS中提供的KMeans聚類法和層次聚類分析法不同的是,兩階段聚類法采用對數(shù)極大似然估計值度量類間距離,,并能根據(jù)施瓦茲貝葉斯準則(BIC)或Akaike信息準則(AIC)等指標自動確定最佳聚類個數(shù),。

利用SPSS聚類過程如下:

  1. 將數(shù)據(jù)文件導入SPSS中。

點擊“確認”按鈕,,得到結(jié)果,,如下圖。

圖 二階聚類分析結(jié)果圖

通過SPSS兩階段聚類方法,,借款人被分為了4類,,結(jié)果如下:

各類別用戶組成和特征如表:

從表中可以得出,兩階段聚類分析并沒有完全按照平臺自身制定的信用等級對借款人進行劃分,,而是挖掘出借款人更為精確的行為信息。

第一類別中,,HR等級借款人所占比重最大,,D、E次之,,該類借款人借款總次數(shù)在4類中最高,,但平均借款額度、借款成功次數(shù)以及借出積分在4類中最低,,可以看出此類別借款人雖然在平臺上較為活躍但其值得信任程度很低,,存在較為嚴重的詐騙風險。

第二類別中,, D類信用級別借款人占100%,,雖然平均借款款額度與借款總次數(shù)都不是最高,但是其借款成功次數(shù)與借出積分都是四類中最高水平,可以看出,,此類借款人雖然以借款人身份在平臺上不是很活躍,,但是其發(fā)布借款的滿標比例很高,并且他們還經(jīng)常以出借人的身份活躍在平臺上,。

出借人行為聚類分析    

聚類分析研究目的

本文借助聚類分析的方法,,對P2P網(wǎng)絡借貸平臺中出借人進行客戶細分,從而找出出借人的類別,,最終使P2P網(wǎng)絡借貸平臺中對出借人有合理和準確的分類,。

客戶細分

基于RFM模型的客戶分類原理分析

客戶細分的方法有許多,但最終衡量方法是否適合的標準應該是細分結(jié)果的精確性以及與企業(yè)管理的匹配度,。

RFM模型常用的客戶細分的方法之一,,作為一種定量分析模型,一般用于執(zhí)行營銷活動之前的預測與分析,。其中,,R(recenty)最近一次消費,是指最近一次消費與當前日期的時間間隔,,理論上講,,客戶上一次消費距離現(xiàn)在越近,對即時提供的商品或者服務有反應的幾率越大,;F(frequency)消費頻率,,是指某一時間段內(nèi),客戶消費的次數(shù),,通常,,客戶消費次數(shù)越高,忠誠度就越高,,也就意味著可以通過增加客戶的消費次數(shù)來擁有更多的市場占有率,;M(monetary)消費金額,是指某一段時間內(nèi),,客戶消費的總金額,,消費金額是所有數(shù)據(jù)率報告的支柱,也可以驗證“帕雷托法則”——公司80%的收入來自20%的顧客,,通過消費金額可以看出哪些是重點客戶,,為公司營業(yè)額貢獻最大。

根據(jù)P2P網(wǎng)絡借貸平臺的特點,,將RFM指標做相應改變,,如表。

基于K-Means聚類算法的客戶分類

K-Means聚類法,,也稱K-均值聚類法廣泛應用于基于劃分的聚類算法,。K-Means算法根據(jù)輸入的分類個數(shù)k值,,將聚類分析中的所有對象劃分為k個分組,每個分組內(nèi)對象之間有較高相似度,。本文以K-Means聚類法為工具,,以加權RFM為度量值,為P2P網(wǎng)絡借貸平臺中出借人進行分類,,基本思路為:

1)將RFM中三指標標準化,,在加權之前需要對數(shù)據(jù)進行標準化處理。用Ri,、Fi,、Mi分別表示標準化后的出借人i的R、F,、M值,。

并且,Ri=(RM-R)/(RM- RN),,F(xiàn)i=(F-FN)/(FM-FN),,Mi=(M-MN)/(MM-MN) (1)

其中,RM,、 RN分別為出借人中R的最大值與最小值,,F(xiàn)M、FN分別為出借人中F的最大值與最小值,,MM,、MN分表為出借人M的最大值與最小值。

2)確定聚類分組的個數(shù)k,。

3)對指標進行加權,,并利用K-Means聚類法進行聚類得到k類出借人。

4)將每類出借人的RFM均值與總RFM均值進行比較,,最后確定每類出借人的客戶類型,。

聚類分析在出借人客戶細分中的應用實現(xiàn)

本文從借款人信息表中提取出500不重復且有效條的借款人信息。相關重要數(shù)據(jù)如下表,。

使用K-means均值進行聚類時,,需要預先判斷其聚類的類別數(shù)。RFM模型中,,出借人客戶分類是通過每個客戶類別RFM平均值與總RFM平均值相比較來決定,而單個指標的比較只能有2種情況:大于(等于)或小于平均值,,因此可能有2×2×2=8種類別,,所以,本文將聚類的個數(shù)定為8個,。首先,,根據(jù)公式(1)對出借人的R,、F、M值進行標準化,,然后采用SPSS19.0軟件對標準化的出借人R,、F、M值進行K-Means聚類分析,。

最后得到8類出借人類型,,并將8類出借人的R、F,、M均值與總R,、F、M均值比較,,其中“↑”表示大于平均值,,“↓”表示小于平均值,結(jié)果如下表,。

對于平臺的用戶培養(yǎng)策略討論

如今,,國內(nèi)P2P網(wǎng)絡借貸平臺發(fā)展迅速,但是大多數(shù)都忽略了用戶培養(yǎng)這部分,,特別是對于出借人,。平臺在用戶培養(yǎng)這個方面還未形成完善有效的機制與策略,短時間內(nèi),,可能并不能體現(xiàn)出用戶培養(yǎng)的重要性,,但是長時間很有可能造成優(yōu)質(zhì)用戶流失。

通過前面對借款人的聚類分析可以看出,,借款人中存在一些重點發(fā)展客戶,,可能信用等級不高但是在平臺上借款次數(shù)較多且能夠按時還款,可以將這類借款人作為重點發(fā)展對象,,提供給他們一些鼓勵與優(yōu)惠政策,。對于平臺上已經(jīng)存在的優(yōu)質(zhì)借款人,可以根據(jù)他們實際需求推出相應的借款項目,。



    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多