羊毛黨進(jìn)化史 首先,讓我們說說什么是羊毛黨 羊毛黨生態(tài)圈分為四類用戶:
然后,,不斷進(jìn)化的羊毛黨 抓住那只羊毛黨 1.通過TalkingData生成的設(shè)備號(hào),能夠有效識(shí)別虛擬機(jī)型的欺詐型用戶 對(duì)于當(dāng)下的互聯(lián)網(wǎng)行業(yè),,許多平臺(tái)普遍采用設(shè)備指紋防刷技術(shù),,這衍生出專業(yè)型欺詐團(tuán)伙通過虛擬機(jī)更改設(shè)備指紋來平臺(tái)薅取羊毛。這類欺詐型用戶本身已經(jīng)持有大量的真實(shí)手機(jī)號(hào),、銀行卡號(hào)等,,通過虛擬機(jī),生成新的設(shè)備指紋,登陸每一個(gè)新賬號(hào),,進(jìn)行薅羊毛操作行為,。 這樣的群體可以通過TalkingData的TDID有效識(shí)別,虛擬機(jī)欺詐用戶雖然能夠生成新的設(shè)備指紋,,但其設(shè)備TDID唯一,。通過TDID與設(shè)備指紋的關(guān)聯(lián)性,實(shí)現(xiàn)對(duì)虛擬機(jī)欺詐用戶的識(shí)別,。 2.數(shù)據(jù)預(yù)處理后,,結(jié)合實(shí)際業(yè)務(wù)場(chǎng)景,建立基于網(wǎng)絡(luò)源與設(shè)備指紋的羊毛行為異常識(shí)別規(guī)則體系,。 關(guān)于拓?fù)浞治?/p> 什么是拓?fù)洌?/span> 相同的理論也可以用在數(shù)據(jù)分析的領(lǐng)域—拓?fù)鋽?shù)據(jù)分析,。 拓?fù)鋽?shù)據(jù)分析的優(yōu)勢(shì): 1.把數(shù)據(jù)轉(zhuǎn)化為圖形:把上百萬觀測(cè)以及其數(shù)千特征簡(jiǎn)化后放在一張圖中(所有客戶的所有特征,不需要抽樣),,使得復(fù)雜以及多維數(shù)據(jù)更容易理解,。把觀測(cè)分群并理解每個(gè)群的特征。 2.從圖形中挖掘潛在的知識(shí):找到數(shù)據(jù)中的模式和依賴關(guān)系,。理解高維空間中參數(shù)如何互相依賴,忘掉條形圖或餅圖,,一次分析上千個(gè)參數(shù)(特征),,而不是2,3個(gè),。 3.一幅圖客戶畫像,,對(duì)于不同的問題,可以重復(fù)使用,。 如何獲得保留拓?fù)涮匦缘脑紨?shù)據(jù)的簡(jiǎn)化版,? 舉個(gè)例子 圖中分步驟展示了一只手的點(diǎn)云圖如何經(jīng)過處理變成簡(jiǎn)化圖的過程: 1.給出手部的點(diǎn)云圖。 2.把z軸作為函數(shù),,把手部各點(diǎn)的值投射在上面,。 3.把手部的點(diǎn)按z軸的值分成幾段,分到每段的數(shù)據(jù)有重疊,。 4.把每段的數(shù)據(jù)按照相似性進(jìn)行局部聚類成若干節(jié)點(diǎn),,并且用線段連接各個(gè)節(jié)點(diǎn),如果2個(gè)節(jié)點(diǎn)都有相同的數(shù)據(jù)點(diǎn),。 最終獲得了保留拓?fù)涮匦缘脑紨?shù)據(jù)的簡(jiǎn)化版本,。 1. 節(jié)點(diǎn)代表相似數(shù)據(jù)點(diǎn)的聚類集合。 2. 邊代表2個(gè)節(jié)點(diǎn)存在聯(lián)系,,即它們有相同的數(shù)據(jù)點(diǎn),。 3. 顏色代表目標(biāo)特征,如是否購(gòu)買某款產(chǎn)品,是否高風(fēng)險(xiǎn)客戶等,。 4. 一個(gè)數(shù)據(jù)點(diǎn)可能出現(xiàn)在多個(gè)節(jié)點(diǎn)中,。 5. 一個(gè)節(jié)點(diǎn)至少包括一個(gè)數(shù)據(jù)點(diǎn)(通常為了分析不發(fā)生嚴(yán)重偏移,會(huì)對(duì)單個(gè)節(jié)點(diǎn)包含的數(shù)據(jù)點(diǎn)做最低數(shù)量的限制,,比如單個(gè)節(jié)點(diǎn)包含的數(shù)據(jù)點(diǎn)不低于30個(gè)),。 TDA的處理流程: 1.利用數(shù)據(jù)點(diǎn)之間的相似性計(jì)算數(shù)據(jù)云,。 2.通過各個(gè)數(shù)據(jù)點(diǎn)為球心的方法得到單純復(fù)形,。 3.計(jì)算復(fù)形變化中的拓?fù)洳蛔兞浚ê?jiǎn)單說就是圖中“洞”的數(shù)量)。 4.結(jié)果是對(duì)原始數(shù)據(jù)集的簡(jiǎn)化和總結(jié)(注意其和數(shù)據(jù)降維的區(qū)別),。 TDA在零售行業(yè)的應(yīng)用 4幅圖中分別標(biāo)示出第一次和第二次購(gòu)買2款不同產(chǎn)品的客戶群體,。 1.使用相關(guān)的數(shù)據(jù):人口屬性,購(gòu)買行為,,市場(chǎng),,CRM,社交網(wǎng)絡(luò)信息對(duì)客戶進(jìn)行分群,。 2.把新客戶按特征分給合適的群或集合,。 3.查看新客戶所在群的其他客戶的購(gòu)買行為。 4.對(duì)新客戶進(jìn)行相同或相似的推薦,。 TDA在金融行業(yè)的應(yīng)用 營(yíng)銷推薦:在某商業(yè)銀行,,希望研究客戶購(gòu)買某款理財(cái)產(chǎn)品的可能性,樣本有36168個(gè)客戶,,超過60個(gè)變量,,包括客戶的靜態(tài)屬性,,動(dòng)態(tài)屬性(交易行為數(shù)據(jù)),,所處市場(chǎng)狀況等。紅色表示最有可能購(gòu)買此款產(chǎn)品的客戶,,其他的顏色越接近白色,代表客戶購(gòu)買的可能性越高,。 TDA在信用卡應(yīng)用 某股份制商業(yè)銀行在受理網(wǎng)上信用卡申請(qǐng)時(shí),由于央行關(guān)閉了征信查詢的接口,,使得銀行必須面簽才能查詢申請(qǐng)客戶的征信報(bào)告,,但是這家銀行網(wǎng)點(diǎn)比較少,如果客戶都去網(wǎng)點(diǎn)面簽則網(wǎng)點(diǎn)的壓力太大,,而如果繼續(xù)走網(wǎng)申接口則急需解決缺少客戶信用記錄的問題,。很多客戶之前在這家銀行并沒有信用記錄,所以無法通過第一方(這家銀行)內(nèi)部數(shù)據(jù)獲得。 這家銀行目前引入了另外2家數(shù)據(jù)公司的數(shù)據(jù)作為客戶征信的補(bǔ)充,,但是覆蓋率依然不足,同時(shí)也需要模型對(duì)第三方數(shù)據(jù)整合,,提供申請(qǐng)信用卡時(shí)的決策依據(jù)。 1. 通過銀行提供的TDID在TD數(shù)據(jù)庫(kù)中關(guān)聯(lián)出第三方數(shù)據(jù),,包括:客戶的移動(dòng)設(shè)備信息(機(jī)型,,操作系統(tǒng),價(jià)位,,網(wǎng)絡(luò),,硬件屬性標(biāo)簽,屏幕尺寸,,分辨率等),,客戶的地理位置信息(客戶的常駐城市和地區(qū)),客戶移動(dòng)端APP使用行為的標(biāo)簽(母嬰人群,,商旅人士,,有車族等)信息等作為評(píng)價(jià)客戶信用風(fēng)險(xiǎn)大小的輸入變量,。 2. 使用步驟1的數(shù)據(jù)通過相似性計(jì)算各個(gè)客戶在移動(dòng)端行為的相似性,,根據(jù)拓?fù)鋽?shù)據(jù)分析的理論和光大銀行給出的客戶違約情況數(shù)據(jù),建立完整的用戶畫像,,找出高風(fēng)險(xiǎn)群體。 3. 使用隨機(jī)森林模型對(duì)步驟2中的高風(fēng)險(xiǎn)群體進(jìn)行學(xué)習(xí),,預(yù)測(cè)客戶的違約可能性,。 4. 相似性網(wǎng)絡(luò)圖由于每個(gè)點(diǎn)表示了單個(gè)客戶,當(dāng)客戶數(shù)量比較多時(shí),,圖就會(huì)變得異常復(fù)雜失去可讀性,。通過拓?fù)浼夹g(shù)把網(wǎng)絡(luò)圖簡(jiǎn)化:即在保證圖的拓?fù)涮匦酝瑫r(shí)對(duì)客戶(數(shù)據(jù)點(diǎn))進(jìn)行局部聚類,結(jié)果如圖,。 5. 節(jié)點(diǎn)里的數(shù)字代表了這一節(jié)點(diǎn)所包含的數(shù)據(jù)點(diǎn)的數(shù)量,,顏色偏向黃色和紅色的點(diǎn)代表這一節(jié)點(diǎn)里的客戶有更高的違約可能性。 數(shù)據(jù)降維后輸入機(jī)器學(xué)習(xí)模型 6. 如圖中對(duì)比了幾種數(shù)據(jù)挖掘的過程,,其中PCA是通過降維(即減少描述數(shù)據(jù)的維數(shù)—數(shù)據(jù)集的列數(shù))來簡(jiǎn)化計(jì)算,,而拓?fù)鋽?shù)據(jù)分析(TDA)是通過減少數(shù)據(jù)的觀測(cè)個(gè)數(shù)(數(shù)據(jù)的行)來簡(jiǎn)化計(jì)算。因?yàn)楫?dāng)正負(fù)樣本比例失衡時(shí)會(huì)導(dǎo)致模型訓(xùn)練的偏差,,一般調(diào)節(jié)樣本比例都是通過隨機(jī)的方式,,這樣做效果并不好 而通過TDA可以從特征向量的角度分析到底哪些樣本可以從訓(xùn)練集中刪除。 7. 藍(lán)色圓圈中的Model4采用了隨機(jī)森林模型。把拓?fù)鋱D中紅色的圓圈范圍內(nèi)的6966個(gè)樣本和違約的級(jí)別作為訓(xùn)練集輸入途中的隨機(jī)森林模型進(jìn)行訓(xùn)練,。 8. 模型最終的輸出結(jié)果是違約的級(jí)別(1,,2,3數(shù)字越大表示可能違約且違約的程度越嚴(yán)重),,通過在原始數(shù)據(jù)集中找出30%的樣本進(jìn)行測(cè)試,,最終可以達(dá)到82%的預(yù)測(cè)正確率。 |
|