久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

那只羊毛黨你站??!TalkingData在人工智能方面的探索

 oucwj 2016-12-03

?【下載】2015中國(guó)數(shù)據(jù)分析師行業(yè)峰會(huì)精彩PPT下載(共計(jì)21個(gè)文件)

羊毛黨進(jìn)化史

首先,讓我們說說什么是羊毛黨

羊毛黨生態(tài)圈分為四類用戶:

  • 以嘗試性投資并薅取羊毛的初級(jí)羊毛黨

  • 積極關(guān)注并參與補(bǔ)貼活動(dòng)的中級(jí)羊毛黨

  • 持有大量身份證/卡號(hào)批量刷活動(dòng)的專職羊毛黨

  • 手持大量羊毛聯(lián)盟資源的團(tuán)長(zhǎng)性羊毛黨,。


然后,,不斷進(jìn)化的羊毛黨


抓住那只羊毛黨


1.通過TalkingData生成的設(shè)備號(hào),能夠有效識(shí)別虛擬機(jī)型的欺詐型用戶

對(duì)于當(dāng)下的互聯(lián)網(wǎng)行業(yè),,許多平臺(tái)普遍采用設(shè)備指紋防刷技術(shù),,這衍生出專業(yè)型欺詐團(tuán)伙通過虛擬機(jī)更改設(shè)備指紋來平臺(tái)薅取羊毛。這類欺詐型用戶本身已經(jīng)持有大量的真實(shí)手機(jī)號(hào),、銀行卡號(hào)等,,通過虛擬機(jī),生成新的設(shè)備指紋,登陸每一個(gè)新賬號(hào),,進(jìn)行薅羊毛操作行為,。

這樣的群體可以通過TalkingData的TDID有效識(shí)別,虛擬機(jī)欺詐用戶雖然能夠生成新的設(shè)備指紋,,但其設(shè)備TDID唯一,。通過TDID與設(shè)備指紋的關(guān)聯(lián)性,實(shí)現(xiàn)對(duì)虛擬機(jī)欺詐用戶的識(shí)別,。


2.數(shù)據(jù)預(yù)處理后,,結(jié)合實(shí)際業(yè)務(wù)場(chǎng)景,建立基于網(wǎng)絡(luò)源與設(shè)備指紋的羊毛行為異常識(shí)別規(guī)則體系,。


關(guān)于拓?fù)浞治?/p>


什么是拓?fù)洌?/span>


相同的理論也可以用在數(shù)據(jù)分析的領(lǐng)域—拓?fù)鋽?shù)據(jù)分析,。


拓?fù)鋽?shù)據(jù)分析的優(yōu)勢(shì):

1.把數(shù)據(jù)轉(zhuǎn)化為圖形:把上百萬觀測(cè)以及其數(shù)千特征簡(jiǎn)化后放在一張圖中(所有客戶的所有特征,不需要抽樣),,使得復(fù)雜以及多維數(shù)據(jù)更容易理解,。把觀測(cè)分群并理解每個(gè)群的特征。

2.從圖形中挖掘潛在的知識(shí):找到數(shù)據(jù)中的模式和依賴關(guān)系,。理解高維空間中參數(shù)如何互相依賴,忘掉條形圖或餅圖,,一次分析上千個(gè)參數(shù)(特征),,而不是2,3個(gè),。

3.一幅圖客戶畫像,,對(duì)于不同的問題,可以重復(fù)使用,。



如何獲得保留拓?fù)涮匦缘脑紨?shù)據(jù)的簡(jiǎn)化版,?

舉個(gè)例子

圖中分步驟展示了一只手的點(diǎn)云圖如何經(jīng)過處理變成簡(jiǎn)化圖的過程:

1.給出手部的點(diǎn)云圖。

2.把z軸作為函數(shù),,把手部各點(diǎn)的值投射在上面,。

3.把手部的點(diǎn)按z軸的值分成幾段,分到每段的數(shù)據(jù)有重疊,。

4.把每段的數(shù)據(jù)按照相似性進(jìn)行局部聚類成若干節(jié)點(diǎn),,并且用線段連接各個(gè)節(jié)點(diǎn),如果2個(gè)節(jié)點(diǎn)都有相同的數(shù)據(jù)點(diǎn),。

最終獲得了保留拓?fù)涮匦缘脑紨?shù)據(jù)的簡(jiǎn)化版本,。



1. 節(jié)點(diǎn)代表相似數(shù)據(jù)點(diǎn)的聚類集合。

2. 邊代表2個(gè)節(jié)點(diǎn)存在聯(lián)系,,即它們有相同的數(shù)據(jù)點(diǎn),。

3. 顏色代表目標(biāo)特征,如是否購(gòu)買某款產(chǎn)品,是否高風(fēng)險(xiǎn)客戶等,。

4. 一個(gè)數(shù)據(jù)點(diǎn)可能出現(xiàn)在多個(gè)節(jié)點(diǎn)中,。

5. 一個(gè)節(jié)點(diǎn)至少包括一個(gè)數(shù)據(jù)點(diǎn)(通常為了分析不發(fā)生嚴(yán)重偏移,會(huì)對(duì)單個(gè)節(jié)點(diǎn)包含的數(shù)據(jù)點(diǎn)做最低數(shù)量的限制,,比如單個(gè)節(jié)點(diǎn)包含的數(shù)據(jù)點(diǎn)不低于30個(gè)),。


   TDA的處理流程:

1.利用數(shù)據(jù)點(diǎn)之間的相似性計(jì)算數(shù)據(jù)云,。

2.通過各個(gè)數(shù)據(jù)點(diǎn)為球心的方法得到單純復(fù)形,。

3.計(jì)算復(fù)形變化中的拓?fù)洳蛔兞浚ê?jiǎn)單說就是圖中“洞”的數(shù)量)。

4.結(jié)果是對(duì)原始數(shù)據(jù)集的簡(jiǎn)化和總結(jié)(注意其和數(shù)據(jù)降維的區(qū)別),。


TDA在零售行業(yè)的應(yīng)用

4幅圖中分別標(biāo)示出第一次和第二次購(gòu)買2款不同產(chǎn)品的客戶群體,。


1.使用相關(guān)的數(shù)據(jù):人口屬性,購(gòu)買行為,,市場(chǎng),,CRM,社交網(wǎng)絡(luò)信息對(duì)客戶進(jìn)行分群,。

2.把新客戶按特征分給合適的群或集合,。

3.查看新客戶所在群的其他客戶的購(gòu)買行為。

4.對(duì)新客戶進(jìn)行相同或相似的推薦,。


TDA在金融行業(yè)的應(yīng)用


營(yíng)銷推薦:在某商業(yè)銀行,,希望研究客戶購(gòu)買某款理財(cái)產(chǎn)品的可能性,樣本有36168個(gè)客戶,,超過60個(gè)變量,,包括客戶的靜態(tài)屬性,,動(dòng)態(tài)屬性(交易行為數(shù)據(jù)),,所處市場(chǎng)狀況等。紅色表示最有可能購(gòu)買此款產(chǎn)品的客戶,,其他的顏色越接近白色,代表客戶購(gòu)買的可能性越高,。


TDA在信用卡應(yīng)用

        某股份制商業(yè)銀行在受理網(wǎng)上信用卡申請(qǐng)時(shí),由于央行關(guān)閉了征信查詢的接口,,使得銀行必須面簽才能查詢申請(qǐng)客戶的征信報(bào)告,,但是這家銀行網(wǎng)點(diǎn)比較少,如果客戶都去網(wǎng)點(diǎn)面簽則網(wǎng)點(diǎn)的壓力太大,,而如果繼續(xù)走網(wǎng)申接口則急需解決缺少客戶信用記錄的問題,。很多客戶之前在這家銀行并沒有信用記錄,所以無法通過第一方(這家銀行)內(nèi)部數(shù)據(jù)獲得。

     這家銀行目前引入了另外2家數(shù)據(jù)公司的數(shù)據(jù)作為客戶征信的補(bǔ)充,,但是覆蓋率依然不足,同時(shí)也需要模型對(duì)第三方數(shù)據(jù)整合,,提供申請(qǐng)信用卡時(shí)的決策依據(jù)。

1. 通過銀行提供的TDID在TD數(shù)據(jù)庫(kù)中關(guān)聯(lián)出第三方數(shù)據(jù),,包括:客戶的移動(dòng)設(shè)備信息(機(jī)型,,操作系統(tǒng),價(jià)位,,網(wǎng)絡(luò),,硬件屬性標(biāo)簽,屏幕尺寸,,分辨率等),,客戶的地理位置信息(客戶的常駐城市和地區(qū)),客戶移動(dòng)端APP使用行為的標(biāo)簽(母嬰人群,,商旅人士,,有車族等)信息等作為評(píng)價(jià)客戶信用風(fēng)險(xiǎn)大小的輸入變量,。

2. 使用步驟1的數(shù)據(jù)通過相似性計(jì)算各個(gè)客戶在移動(dòng)端行為的相似性,,根據(jù)拓?fù)鋽?shù)據(jù)分析的理論和光大銀行給出的客戶違約情況數(shù)據(jù),建立完整的用戶畫像,,找出高風(fēng)險(xiǎn)群體。

3. 使用隨機(jī)森林模型對(duì)步驟2中的高風(fēng)險(xiǎn)群體進(jìn)行學(xué)習(xí),,預(yù)測(cè)客戶的違約可能性,。

4. 相似性網(wǎng)絡(luò)圖由于每個(gè)點(diǎn)表示了單個(gè)客戶,當(dāng)客戶數(shù)量比較多時(shí),,圖就會(huì)變得異常復(fù)雜失去可讀性,。通過拓?fù)浼夹g(shù)把網(wǎng)絡(luò)圖簡(jiǎn)化:即在保證圖的拓?fù)涮匦酝瑫r(shí)對(duì)客戶(數(shù)據(jù)點(diǎn))進(jìn)行局部聚類,結(jié)果如圖,。

5. 節(jié)點(diǎn)里的數(shù)字代表了這一節(jié)點(diǎn)所包含的數(shù)據(jù)點(diǎn)的數(shù)量,,顏色偏向黃色和紅色的點(diǎn)代表這一節(jié)點(diǎn)里的客戶有更高的違約可能性。


數(shù)據(jù)降維后輸入機(jī)器學(xué)習(xí)模型


6. 如圖中對(duì)比了幾種數(shù)據(jù)挖掘的過程,,其中PCA是通過降維(即減少描述數(shù)據(jù)的維數(shù)—數(shù)據(jù)集的列數(shù))來簡(jiǎn)化計(jì)算,,而拓?fù)鋽?shù)據(jù)分析(TDA)是通過減少數(shù)據(jù)的觀測(cè)個(gè)數(shù)(數(shù)據(jù)的行)來簡(jiǎn)化計(jì)算。因?yàn)楫?dāng)正負(fù)樣本比例失衡時(shí)會(huì)導(dǎo)致模型訓(xùn)練的偏差,,一般調(diào)節(jié)樣本比例都是通過隨機(jī)的方式,,這樣做效果并不好

而通過TDA可以從特征向量的角度分析到底哪些樣本可以從訓(xùn)練集中刪除。

7. 藍(lán)色圓圈中的Model4采用了隨機(jī)森林模型。把拓?fù)鋱D中紅色的圓圈范圍內(nèi)的6966個(gè)樣本和違約的級(jí)別作為訓(xùn)練集輸入途中的隨機(jī)森林模型進(jìn)行訓(xùn)練,。

8. 模型最終的輸出結(jié)果是違約的級(jí)別(1,,2,3數(shù)字越大表示可能違約且違約的程度越嚴(yán)重),,通過在原始數(shù)據(jù)集中找出30%的樣本進(jìn)行測(cè)試,,最終可以達(dá)到82%的預(yù)測(cè)正確率。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購(gòu)買等信息,,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請(qǐng)點(diǎn)擊一鍵舉報(bào),。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多