久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

【Friday BI Fly】2016年05月13日 大數(shù)據(jù)挖掘與違約欺詐分析,、違約欺詐分析模型評(píng)估...

 oucwj 2016-05-29

公告

周五BI飛起來(lái),天善商業(yè)智能BI社區(qū)每周五下午舉辦問(wèn)答社區(qū)在線答疑活動(dòng),,每周五晚上舉辦行業(yè),、廠商工具,、技術(shù)相關(guān)的微信在線直播活動(dòng)。

2016年05月06日 Friday BI Fly 微信直播主題–python零基礎(chǔ)入門實(shí)戰(zhàn)

【活動(dòng)預(yù)告】詳情請(qǐng)關(guān)注天善問(wèn)答社區(qū)活動(dòng)頁(yè)面http://www./project/


主持人:加入本群的同學(xué)們,,感謝大家參加由天善智能舉辦的 Friday BI Fly 活動(dòng),,每周五微信直播,每周一個(gè)話題敬請(qǐng)關(guān)注,。

【群規(guī)】本群為商業(yè)智能和大數(shù)據(jù)行業(yè),、技術(shù)、工具的交流學(xué)習(xí)群,。不準(zhǔn)發(fā)廣告,,只能發(fā)紅包,發(fā)廣告者一律移除微信群,。

本次微信直播討論內(nèi)容

1,、違約欺詐類數(shù)據(jù)挖掘應(yīng)用場(chǎng)景特點(diǎn)分析;

2,、違約欺詐分析方法綜述,;

3、違約欺詐分析模型評(píng)估與應(yīng)對(duì),。

本期嘉賓介紹

天善特邀社區(qū)專家 數(shù)據(jù)挖掘產(chǎn)品經(jīng)理  汪尚

大數(shù)據(jù)挖掘與欺詐分析準(zhǔn)備  http://ask./blog/SmartMining/3863

個(gè)人博客專欄 數(shù)據(jù)挖掘,、商業(yè)智能、大數(shù)據(jù)從業(yè)者  http://ask./blog/SmartMining


主持人:

大家好,,我是微信直播活動(dòng)的主持人咖啡,,每周一個(gè)主題,一場(chǎng)跟數(shù)據(jù)有關(guān)的行業(yè),、工具,、技術(shù)的交流盛宴。我們的口號(hào)是“Friday BI Fly 周五BI飛起來(lái)”,。關(guān)于每周五微信直播的話題,梁總已經(jīng)給大家排好了未來(lái)幾個(gè)月的分享主題,,敬請(qǐng)關(guān)注,!

往期的微信直播活動(dòng)跟金融行業(yè)相關(guān)的分享我們也做過(guò)多次了,有講金融行業(yè)大數(shù)據(jù)技術(shù)架構(gòu)的,,有講風(fēng)控管理的,,有講銀行報(bào)表那些事兒的,也有講金融行業(yè)精準(zhǔn)營(yíng)銷的,,今天我們數(shù)據(jù)挖掘?qū)<?汪尚給我們帶來(lái)金融行業(yè)欺詐相關(guān)的數(shù)據(jù)挖掘應(yīng)用,,下面我們就有請(qǐng)汪總來(lái)給大家?guī)?lái)下面的分享,看看有哪些精彩的案例分享給大家,。


大數(shù)據(jù)挖掘與違約欺詐分析,、違約欺詐分析模型評(píng)估與應(yīng)對(duì)

數(shù)據(jù)挖掘?qū)<?汪尚:

大家好,,非常高興和大家一起學(xué)習(xí),尤其是同時(shí)和幾千人一起學(xué)習(xí),,我分享期間,,會(huì)不斷給大家提問(wèn)的時(shí)間,讓大家一起交流,,現(xiàn)在開始今天的分享,。

經(jīng)過(guò)這么多年的實(shí)戰(zhàn),從業(yè)務(wù)應(yīng)用的角度,,我大致把數(shù)據(jù)挖掘的應(yīng)用場(chǎng)景分為三大類:

第一,,個(gè)性化推薦與精準(zhǔn)營(yíng)銷;

第二,,監(jiān)督管理,;

第三,經(jīng)營(yíng)預(yù)測(cè),。

不同行業(yè)側(cè)重不同,。個(gè)性化推薦與精準(zhǔn)營(yíng)銷:這類主要指精準(zhǔn)推薦類場(chǎng)景。主要用于個(gè)性化推薦服務(wù),、廣告推薦和精準(zhǔn)營(yíng)銷等,。所涉及的算法有聚類分析、分類預(yù)測(cè),、關(guān)聯(lián)分析,、社會(huì)網(wǎng)絡(luò)分析等。監(jiān)督管理:這一類的應(yīng)用場(chǎng)景比較特殊,,多模型并行和混合應(yīng)用,。主要包括異常分析、違約分析和欺詐分析等,。比如在檢查一個(gè)設(shè)備是否有異常時(shí),,我們可以使用幾百個(gè)模型來(lái)判斷該設(shè)備是否有異常,只要有一個(gè)模型判斷出來(lái)有異常,,我們就可以判定為異常,,越多的模型判斷出異常則越異常,這些模型之間即獨(dú)立又關(guān)聯(lián),,而且后期可以不斷加入新的模型,。這次要分享的就屬于這一類。所涉及的算法有聚類算法,、偏差法,、分類預(yù)測(cè)等。

經(jīng)營(yíng)預(yù)測(cè):這類應(yīng)用的特點(diǎn)是和日期相關(guān),預(yù)測(cè)某個(gè)特征在未來(lái)各個(gè)時(shí)間上的表現(xiàn)情況,。主要用于企業(yè)規(guī)劃,、預(yù)算體系和庫(kù)存優(yōu)化等。如預(yù)測(cè)某個(gè)產(chǎn)品未來(lái)每個(gè)月的銷量,、某些材料未來(lái)的需求量等,。

下面重點(diǎn)聊一下第二類應(yīng)用場(chǎng)景。咱們以三個(gè)小故事分別解釋一下異常分析,、違約分析和欺詐分析三種常見的監(jiān)督管理應(yīng)用,。

第一個(gè)故事:農(nóng)業(yè)補(bǔ)貼領(lǐng)用欺詐分析

這個(gè)案例之前已經(jīng)在天善論壇寫博客分享,大家可以好好看一看,,這是一個(gè)經(jīng)典的案例:http://ask./blog/SmartMining/2378,,附件中有詳細(xì)的實(shí)現(xiàn)過(guò)程。

天善論壇有很多高手寫的好文章,,大家有什么問(wèn)題都可以到天善論壇提問(wèn)或者查資料,。

這個(gè)案例描述的是這樣一個(gè)場(chǎng)景,政府對(duì)于農(nóng)業(yè)有補(bǔ)貼,,積累了農(nóng)業(yè)補(bǔ)貼的領(lǐng)用數(shù)據(jù),,政府不知道這些領(lǐng)用是否合理或者存在欺詐,因此想通過(guò)數(shù)據(jù)挖掘的手段評(píng)估一下農(nóng)戶的領(lǐng)用金額是否存在異常,。數(shù)據(jù)中記錄了農(nóng)戶的姓名,、所在區(qū)域、擁有田地的大小,、降雨量,、田地質(zhì)量水平、田地收入,、主要農(nóng)作物,、申請(qǐng)補(bǔ)貼的類型和申請(qǐng)補(bǔ)貼的金額。

業(yè)務(wù)目標(biāo):分析哪些農(nóng)戶領(lǐng)用補(bǔ)貼存在異常,,并輸出可疑的名單,。

數(shù)據(jù)挖掘目標(biāo):建立異常檢測(cè)模型,輸出可疑名單,。

通過(guò)這個(gè)案例我們探討一下多模型異常診斷的問(wèn)題,。也重點(diǎn)掌握以下幾點(diǎn):

第一,如何結(jié)合業(yè)務(wù)理解,,通過(guò)業(yè)務(wù)規(guī)則來(lái)進(jìn)行異常分析。當(dāng)然這是一個(gè)典型的以業(yè)務(wù)為驅(qū)動(dòng)的數(shù)據(jù)挖掘項(xiàng)目,。

這一點(diǎn)也是大數(shù)據(jù)挖掘和傳統(tǒng)數(shù)據(jù)挖掘相比要更加側(cè)重的一點(diǎn),。

因?yàn)榇髷?shù)據(jù)分析更要講究生產(chǎn)力,所以數(shù)據(jù)價(jià)值的挖掘效率非常關(guān)鍵,否則我們的數(shù)據(jù)挖掘能力很難給企業(yè)帶來(lái)實(shí)際的價(jià)值,。

要做到這一點(diǎn),,分析目標(biāo)就要非常明確,就要以業(yè)務(wù)為驅(qū)動(dòng),,面向某個(gè)業(yè)務(wù)問(wèn)題聚焦一點(diǎn)進(jìn)行挖掘,,避免沒有目標(biāo)的亂挖。

在這個(gè)案例中,,通過(guò)統(tǒng)計(jì)農(nóng)戶的領(lǐng)用次數(shù)發(fā)現(xiàn),,除了兩個(gè)農(nóng)戶之外,剩下的農(nóng)戶領(lǐng)用次數(shù)都只有一次,,而這兩個(gè)農(nóng)戶領(lǐng)用次數(shù)分別為2次和4次,。

我們可以從這一信息中學(xué)習(xí)到正常只領(lǐng)用一次,超過(guò)一次就異常(向數(shù)據(jù)學(xué)習(xí)經(jīng)驗(yàn)),。

此處可以交流,,大家有問(wèn)題可以提問(wèn)。我也向大家提問(wèn)一個(gè)問(wèn)題,,從對(duì)每個(gè)農(nóng)戶的領(lǐng)用次數(shù)進(jìn)行統(tǒng)計(jì),,大部分領(lǐng)用次數(shù)都是一次,只有兩個(gè)人不是1 次,,而是2次或4次,,為什么就可以判定為異常?

周文鋒:普遍化和差異化,?

鵬:法律法規(guī)

凱歌:離群值

美子:分析目標(biāo)

IT咨詢顧問(wèn)_kevin.wang:小概率事件

汪尚:嗯,,其實(shí)做數(shù)據(jù)挖掘,很多時(shí)候要學(xué)會(huì)向數(shù)據(jù)學(xué)習(xí),,這樣也是避免分析人員對(duì)業(yè)務(wù)不夠了解的核心解決方案,,大家都知道,理解業(yè)務(wù)對(duì)做數(shù)據(jù)挖掘很關(guān)鍵很重要,,但是實(shí)際上分析人員大部分場(chǎng)合下不怎么懂業(yè)務(wù),,或者懂的不夠,所以如何來(lái)彌補(bǔ)對(duì)業(yè)務(wù)的空白,?核心秘訣是通過(guò)數(shù)據(jù)探索向數(shù)據(jù)學(xué)習(xí),,其實(shí)重點(diǎn)是向數(shù)據(jù)本身學(xué)習(xí),因?yàn)榫退銟I(yè)務(wù)人員也幾乎不可能什么業(yè)務(wù)都懂,,或者說(shuō)不會(huì)懂那么深,,因?yàn)閿?shù)據(jù)挖掘就是解決業(yè)務(wù)問(wèn)題的,就是解決原來(lái)難以解決的業(yè)務(wù)問(wèn)題,,比如說(shuō)剛才的問(wèn)題,,如果從領(lǐng)用次數(shù)的分布上學(xué)習(xí)什么是正常什么是異常,。有的朋友說(shuō)這是業(yè)務(wù)或者法律決定的,實(shí)際上,,這一點(diǎn)并不確定,,而數(shù)據(jù)挖掘本身就是推斷,而從領(lǐng)用次數(shù)的分布上看出來(lái)的,,因?yàn)橹挥袃蓚€(gè)人不是領(lǐng)用一次,,其他人都是一次,那么也就是說(shuō)大部分的選擇就是正常的,,即正常范圍,,反之就是異常范圍,即異常值,,當(dāng)然正常不等于正確,,如果大家都是騙子,只有你不是,,那異常就是你,。所以數(shù)據(jù)挖掘的異常診斷而言,強(qiáng)調(diào)兩點(diǎn):第一點(diǎn),,異常的不代表是壞的,;第二點(diǎn),可疑分子不等于犯罪分子,。所以通過(guò)分析獲取的可疑名單不能輕易給人看,,這對(duì)人影響很大,得出可疑名單后,,只有取證完成后,,有了實(shí)際的證據(jù)才能判斷為違法犯罪,這是做這類分析要注意的一點(diǎn),。

第二,,圍繞如何通過(guò)數(shù)據(jù)挖掘的手段派生一個(gè)參考變量指標(biāo),來(lái)評(píng)估與實(shí)際值的偏差是否有異常,,來(lái)進(jìn)行異常分析,,這對(duì)于異常分析是一種即簡(jiǎn)單又有效的方法,。

在這個(gè)案例里面,主要講解兩種派生參考變量的方法,,一個(gè)是通過(guò)變量的相關(guān)性進(jìn)行參考變量的派生,,另一個(gè)是通過(guò)分類預(yù)測(cè),尤其是分類目標(biāo)變量為數(shù)值型的分類預(yù)測(cè)來(lái)派生參考變量,。

在這個(gè)案例中派生的第一個(gè)參考變量是預(yù)計(jì)田地收入,,也就是從實(shí)際田地收入與預(yù)計(jì)田地收入的偏差入手,,偏差大的為異常。

預(yù)計(jì)田地收入的派生很巧妙,,采用的是相關(guān)性的思想,比如工時(shí)和收入的問(wèn)題,,如果一個(gè)人的收入=工時(shí)*時(shí)薪,,那么對(duì)于這個(gè)人來(lái)說(shuō),知道了工時(shí)就等于知道了收入,。

從整個(gè)公司來(lái)看,,員工的工時(shí)和收入是強(qiáng)正相關(guān)的。

因此,,派生預(yù)計(jì)工時(shí)和預(yù)計(jì)收入是一樣的,,所以本案例是通過(guò)三個(gè)與田地收入較相關(guān)的字段田地的大小、降雨量,、田地質(zhì)量水平相乘派生了一個(gè)與田地收入強(qiáng)相關(guān)的字段作為預(yù)計(jì)田地收入,。

派生后如何判斷派生的這個(gè)字段是否合理呢

看一張圖就可以了


用散點(diǎn)圖描述派生的這個(gè)參考字段與田地收入的相關(guān)性,相關(guān)性越強(qiáng)越合理,。只要理解了前面以相關(guān)性派生參考字段的思想就可以理解這一點(diǎn),。第二個(gè)參考字段預(yù)計(jì)申請(qǐng)金額的派生也很巧妙,采用的是分類預(yù)測(cè)算法,,使用其預(yù)測(cè)值作為參考值,。看看這個(gè)能否想明白其中的道理,?剛才講的派生參考字段的思想有些難度,,大家可以提問(wèn)探討。

周文鋒:這些特征值如何提煉,?

春天在心里:派生字段 可以這樣理解吧 就是目前有幾個(gè)現(xiàn)成的字段,,但是因?yàn)閱挝徊煌瑹o(wú)法具體比較,,可以通過(guò)這幾個(gè)字段的再計(jì)算換成 標(biāo)準(zhǔn)單位,,這個(gè)就是派生字段吧?

張賀:派生字段是不是預(yù)測(cè),?這個(gè)是不是通過(guò)擬合曲線進(jìn)行預(yù)期收入預(yù)測(cè),?

一點(diǎn)點(diǎn):剛剛那個(gè)散點(diǎn)圖,是實(shí)際收入和預(yù)計(jì)收入的,,其中預(yù)計(jì)收入是通過(guò)另外3個(gè)現(xiàn)有變量求出來(lái)的,?理解的對(duì)么

IT咨詢顧問(wèn)_kevin.wang:我覺得難點(diǎn)在派生變量上,今天講的兩種方法,,一個(gè)是相關(guān)性,,一個(gè)是分類,,我們這些沒有做過(guò)挖掘的,希望給一些基本的原理或方法,,或者要補(bǔ)充什么基礎(chǔ)課,?

張劍@數(shù)據(jù)分析師:這個(gè)案例一定要派生變量嗎,既然認(rèn)為田地收入和降雨量,,田地大小和質(zhì)量有關(guān),,直接做回歸模型,用點(diǎn)偏離回歸線的程度判定離群可否,?

汪尚:看一下這個(gè)圖,,就是降雨量和田地收入的關(guān)系,可以看出有相關(guān)性但是不是很強(qiáng),。是的,,確實(shí)要想盡辦法根據(jù)目標(biāo)派生字段。剛才朋友說(shuō)的對(duì),,數(shù)據(jù)挖掘中最難的不是大家常聽的那些高級(jí)算法,,而是字段的派生。



IT咨詢顧問(wèn)_kevin.wang:汪總講出來(lái)了,,我們覺得確實(shí)是這樣,但是如果拿到一個(gè)新的項(xiàng)目,,如何派生變量,,按照找出異常的目標(biāo)來(lái)派生變量,這個(gè)有什么好對(duì)外方法思路,,對(duì)于初次做挖掘的人。

春天在心里:這個(gè)應(yīng)該靠 對(duì)業(yè)務(wù)的理解吧,,才能知道需要派送什么字段,。如何確定參考字段,?

梧桐:做了幾年業(yè)務(wù)和數(shù)據(jù),有個(gè)感覺很深,,各個(gè)業(yè)務(wù)線參雜著,也能算出是相關(guān)的,,影響如何看出來(lái),?很多都不是簡(jiǎn)單的線性相關(guān)能得出結(jié)論的。如何找出最大的幾個(gè)影響因子,,一直很困擾,。

汪尚:這個(gè)就是第二種派生字段的方法,,通過(guò)分類預(yù)測(cè)算法派生字段。比如我們可以使用線性回歸或者神經(jīng)網(wǎng)絡(luò)算法以申請(qǐng)金額字段為目標(biāo),,其他為輸入(影響因素)建立分類預(yù)測(cè)模型,,那模型的預(yù)測(cè)值作為申請(qǐng)金額的參考值,直接與申請(qǐng)金額對(duì)比,,偏差大的判為異常,,那大家理解為什么可以把申請(qǐng)金額的預(yù)測(cè)值作為參考字段嗎,即作為預(yù)計(jì)申請(qǐng)金額,。這里有一個(gè)假設(shè),就是模型在預(yù)測(cè)準(zhǔn)確的情況下,,模型是通過(guò)總結(jié)潛在規(guī)率建立預(yù)測(cè)模型,,那么好的模型就可以代表正常的結(jié)果,所以模型預(yù)測(cè)的較準(zhǔn)確的代表的就是正常的,,預(yù)測(cè)不準(zhǔn)確的就是偏離一般規(guī)律的,,也就為異常的,,這一點(diǎn)大家要好好理解,這是對(duì)算法的活學(xué)活用,。在實(shí)際的數(shù)據(jù)挖掘項(xiàng)目,,大部分項(xiàng)目的成敗都不取決于某個(gè)算法,這個(gè)可以根據(jù)R方判斷,。

第三,,如何通過(guò)可視化的方式,來(lái)探索一個(gè)數(shù)值型字段和一個(gè)字符型字段的相關(guān)性,。

我要強(qiáng)調(diào)的一點(diǎn),,可視化探索是數(shù)據(jù)挖掘的靈魂,只要掌握了看圖能力,,就一定可以做好數(shù)據(jù)挖掘,,但是實(shí)際上,,很多做BI的人雖然天天和圖表打交道,,但是大部分人都看不懂圖,在數(shù)據(jù)挖掘中也講可視化,,但是更偏向可視化探索分析,,圖形有兩個(gè)作用,第一是數(shù)據(jù)特征呈現(xiàn),,第二是做變量間的相關(guān)性探索,。

我喜歡可視化,數(shù)據(jù)的真實(shí)目的就是呈現(xiàn),,而且以可視化探索的方式分析變量間的相關(guān)性比統(tǒng)計(jì)相關(guān)性檢驗(yàn)好用的多。

數(shù)據(jù)的真實(shí)目的不是呈現(xiàn),,而是分析,,很多人把圖形做的特別漂亮,但是很難看出信息,,很不直觀,,我覺得這樣做就違反了可視化的意義,最好只用二維的,,不要用三維立體圖形,,不直觀,平面的圖形也可以做多維度的分析,。

大家看看這張圖,是不是很直觀的判斷申請(qǐng)類型和偏差之間的相關(guān)性,,申請(qǐng)類型有兩種,,即兩個(gè)值,。

這個(gè)圖做的是申請(qǐng)類型與偏差的相關(guān)性,,其中可以看出,B類型的都在下方,,即B申請(qǐng)類型的農(nóng)戶的收入偏差都比較小,,所以,就可以通過(guò)這個(gè)圖判斷B申請(qǐng)類型的人不容易欺詐,。



第四,,通過(guò)聚類分析算法來(lái)進(jìn)行異常診斷的方法。該案例介紹的是聚類算法的另外一種靈活運(yùn)用,。采用的是聚類的思想對(duì)異常對(duì)象進(jìn)行判斷,,主要思想是這樣的:首先,我們使用聚類算法將對(duì)象(每條記錄為一個(gè)對(duì)象)分成兩類,,其次,,計(jì)算每一個(gè)對(duì)象到類中心的距離,距離類中心較遠(yuǎn)的點(diǎn)即為異常點(diǎn),。

聚類分析也是判斷異常的重要方法,,是從聚類的思想如手,從多維度將相似的人歸為一類,不相似的人分開,,那么同一類中與類中心較遠(yuǎn)的點(diǎn)就是異常的,,因?yàn)椴缓先郝铩?/p>

這就是通過(guò)聚類算法判斷異常的思想。

第五個(gè),,通過(guò)以上四種方法建立了四個(gè)模型,,四個(gè)模型分別從不同的角度對(duì)異常進(jìn)行判斷,這就是之前說(shuō)的異常分析的多模型并行問(wèn)題,。每個(gè)模型都會(huì)輸出名單,,最終的可疑名單是四個(gè)的總和。


第二個(gè)故事:信用卡風(fēng)險(xiǎn)評(píng)估

信用風(fēng)險(xiǎn)也可以稱為違約風(fēng)險(xiǎn),,是指借款人,、證券發(fā)行人或交易對(duì)方因種種原因,不愿或無(wú)力履行合同條件而構(gòu)成違約,,致使銀行,、投資者或交易對(duì)方遭受損失的可能性。

客戶是財(cái)富來(lái)源同時(shí)也是風(fēng)險(xiǎn)來(lái)源,,客戶信用風(fēng)險(xiǎn),如拖欠,、賴賬、欺詐,、破產(chǎn),都可能會(huì)給銀行和企業(yè)帶來(lái)巨大的損失,。

該數(shù)據(jù)包括用戶的年齡、教育,、工齡,、本地居住時(shí)長(zhǎng)、收入,、負(fù)債率,、信用卡負(fù)債、其他負(fù)債以及用戶是否發(fā)生過(guò)違約等信息,。

業(yè)務(wù)目標(biāo):建立信用評(píng)估系統(tǒng),,當(dāng)把信用卡用戶的信息導(dǎo)入到該系統(tǒng)時(shí),系統(tǒng)會(huì)自動(dòng)輸出這批用戶的違約風(fēng)險(xiǎn)及信用得分,,為信用卡用戶的管理提供決策支持,。

數(shù)據(jù)挖掘目標(biāo):建立信用卡用戶的信用評(píng)估模型,該模型以用戶的信息指標(biāo)為輸入,以違約為目標(biāo),,建立預(yù)測(cè)模型,,該模型可以根據(jù)輸入指標(biāo)的值,計(jì)算預(yù)測(cè)值(違約),。

這類場(chǎng)景通常采用分類預(yù)測(cè)類算法,。根據(jù)歷史的是否違約的特征,模型去總結(jié)違約用戶的特征并建立違約預(yù)測(cè)模型,。

進(jìn)而可以根據(jù)對(duì)于每個(gè)用戶的違約概率的預(yù)測(cè),,建立信用得分。

這個(gè)案例之前也在天善論壇的博客中分享過(guò),,大家可以參考:http://ask./blog/SmartMining/2379,。

所有的分類預(yù)測(cè)問(wèn)題都可以參考這個(gè)案例的分析過(guò)程,包括欠費(fèi)分析,、客戶流失分析,、二次購(gòu)買預(yù)測(cè)等。


第三個(gè)故事:訂單違約分析

這一類分析在代理業(yè)務(wù)應(yīng)用居多,,如醫(yī)藥代理,、電子產(chǎn)品代理等。應(yīng)用于總代對(duì)二級(jí)代理或者藥廠對(duì)經(jīng)銷商的風(fēng)險(xiǎn)管控,。

這一類問(wèn)題要強(qiáng)調(diào)一點(diǎn),,就是精細(xì)化的問(wèn)題。在過(guò)去,,做代理商的違約分析,,可能只需要評(píng)估代理商或者經(jīng)銷商的整體信用,給個(gè)固定的授信額度就行了,。

但是目前的商業(yè)越來(lái)越復(fù)雜,,單靠這樣難以達(dá)到風(fēng)控的目標(biāo)。比如,,一個(gè)代理商或者經(jīng)銷商并不是每個(gè)訂單都會(huì)違約,,也不是各種類型的訂單都會(huì)違約。

因此,,違約的預(yù)測(cè),,可以精細(xì)到對(duì)一個(gè)訂單的預(yù)測(cè),在與代理商或經(jīng)銷商整體授信結(jié)合,,就可以達(dá)到更好的效果,。

業(yè)務(wù)目標(biāo) :通過(guò)經(jīng)銷商的歷史表現(xiàn)、企業(yè)概況及其他信息,,建立經(jīng)銷商的綜合評(píng)估模型,,評(píng)估經(jīng)銷商總體信譽(yù)及訂單的違約風(fēng)險(xiǎn)。完善企業(yè)在經(jīng)銷商分析方面的指標(biāo)體系,優(yōu)化數(shù)據(jù)采集和管理方法,。

分析成果: 

建立了代理商信用的評(píng)估模型,及評(píng)估得分 

建立了訂單超期概率的評(píng)估模型,,并開發(fā)了應(yīng)用系統(tǒng) 

找到了一批誠(chéng)信較好,合作潛質(zhì)較大的客戶 

找到了一批誠(chéng)信較差,,應(yīng)該改變?cè)泻献鞣绞缴踔练艞壓献鞯目蛻?nbsp;

評(píng)估了銷售員與訂單超期的關(guān)系,,找到了一批訂單風(fēng)險(xiǎn)較大的銷售員和訂單風(fēng)險(xiǎn)很小的銷售

研究發(fā)現(xiàn),代理商的擔(dān)保類型對(duì)訂單是否超期影響不大 


所有存在授信的場(chǎng)景都會(huì)存在違約的風(fēng)險(xiǎn),,而這些場(chǎng)景都可以采用此方法。希望這次分享對(duì)大家有所幫助,,請(qǐng)多多指教,。


主持人:今天的分享很給力,感謝汪總給我們帶來(lái)的精彩分享,,案例講解的很細(xì)致,,通過(guò)拋出問(wèn)題,讓大家都參與到討論當(dāng)中,,這樣大家理解的會(huì)非常透徹,,這樣學(xué)習(xí)到的內(nèi)容也要比單純聽收獲更多。

IT咨詢顧問(wèn)_kevin.wang 非常受用,,謝謝,另外,,我理解是不是,,一是對(duì)業(yè)務(wù)的理解,那是坑定要加強(qiáng)的,,另外,,通過(guò)探索來(lái)找到強(qiáng)相關(guān)性的變量,

周文鋒:大數(shù)據(jù)分析很多時(shí)候一般都有預(yù)處理過(guò)程或步驟,,請(qǐng)問(wèn)有什么方法論或者思路嗎,?

春天在心里:剛才講的過(guò)程中,提到正確的記錄,,這里的記錄量級(jí)在多少以上才算靠譜,?量少偶然性大。


汪尚:挖掘的流程可以參考這個(gè)http://wiki./pages/viewpage.action?pageId=17958367,,記錄多少還真沒有一個(gè)固定的數(shù)字,,不過(guò)核心是評(píng)估模型的穩(wěn)定性,記錄不怕少,穩(wěn)定就行,,模型不穩(wěn)定就要更多的記錄,,不過(guò)模型也可以根據(jù)新的記錄不斷優(yōu)化。

自由討論

問(wèn)題1,、大家都知道,,理解業(yè)務(wù)對(duì)做數(shù)據(jù)挖掘很關(guān)鍵很重要,但是實(shí)際上分析人員大部分場(chǎng)合下不怎么懂業(yè)務(wù),,或者懂的不夠,,所以如何來(lái)彌補(bǔ)對(duì)業(yè)務(wù)的空白?

汪尚:核心秘訣是通過(guò)數(shù)據(jù)探索向數(shù)據(jù)學(xué)習(xí),,重點(diǎn)是向數(shù)據(jù)本身學(xué)習(xí)。因?yàn)榫退銟I(yè)務(wù)人員也幾乎不可能什么業(yè)務(wù)都懂,,或者說(shuō)不會(huì)懂那么深,,數(shù)據(jù)挖掘就是解決業(yè)務(wù)問(wèn)題的,就是解決原來(lái)難以解決的業(yè)務(wù)問(wèn)題,。


問(wèn)題2、春天在心里:如何保證這個(gè) 比如2個(gè)人不是領(lǐng)用一次而是多次 是數(shù)據(jù)源產(chǎn)生錯(cuò)誤了呢,?

汪尚:這個(gè)問(wèn)題問(wèn)的好,,對(duì)于數(shù)據(jù)的異常第一步是判斷是否錯(cuò)誤,對(duì)數(shù)據(jù)挖掘而言,,錯(cuò)誤也可以視為異常,,也是要之后統(tǒng)一求證判斷


問(wèn)題3、周文鋒:就是目前有幾個(gè)現(xiàn)成的字段,,但是因?yàn)閱挝徊煌瑹o(wú)法具體比較,,可以通過(guò)這幾個(gè)字段的再計(jì)算換成標(biāo)準(zhǔn)單位,這個(gè)就是派生字段吧,?

汪尚:這是派生字段的一種,,剛才那樣派生是因?yàn)楝F(xiàn)有變量沒有一個(gè)相關(guān)性很強(qiáng)的字段,所以就需要基于現(xiàn)有的變量生成一個(gè)更有代表性的字段,,這是數(shù)據(jù)挖掘的基本任務(wù)之一,。數(shù)據(jù)挖掘中最難的不是大家常聽的那些高級(jí)算法,而是字段的派生,。

靜靜明月:根據(jù)原始數(shù)據(jù)為了達(dá)到目標(biāo)產(chǎn)生的其他字段,。


問(wèn)題4,、IT咨詢顧問(wèn)_kevin.wang:但是如果拿到一個(gè)新的項(xiàng)目,如何派生變量,,按照找出異常的目標(biāo)來(lái)派生變量,,這個(gè)有什么好的方法思路,對(duì)于初次做挖掘的人,?

汪尚:比如我們可以使用線性回歸或者神經(jīng)網(wǎng)絡(luò)算法以申請(qǐng)金額字段為目標(biāo),,其他為輸入(影響因素)建立分類預(yù)測(cè)模型,那模型的預(yù)測(cè)值作為申請(qǐng)金額的參考值,,直接與申請(qǐng)金額對(duì)比,,偏差大的判為異常。


問(wèn)題5,、靜靜明月:多少異常才說(shuō)明不夠好?怎么判斷預(yù)測(cè)不準(zhǔn)確,?分類型的呢?

汪尚:這個(gè)可以根據(jù)R方判斷,,即按照正常分類預(yù)測(cè)算法的評(píng)估,,如果目標(biāo)變量為數(shù)值型,則看R2,,這是對(duì)這類算法評(píng)估的基本方法,。分類型的看預(yù)測(cè)準(zhǔn)確率,拿預(yù)測(cè)正確的記錄除以總的記錄數(shù)就是預(yù)測(cè)準(zhǔn)確率,,或者混淆矩陣,、ROC、增益圖,、提升圖等,。

一般要求大于90%,現(xiàn)實(shí)中能達(dá)到80%就不錯(cuò)了,。


問(wèn)題6,、周文鋒:大數(shù)據(jù)分析很多時(shí)候一般都有預(yù)處理過(guò)程或步驟,請(qǐng)問(wèn)有什么方法論或者思路嗎,?

汪尚:挖掘的流程可以參考這個(gè)http://wiki./pages/viewpage.action?pageId=17958367


問(wèn)題7,、 剛才講的過(guò)程中提到正確的記錄,,這里的記錄量級(jí)在多少以上才算靠譜,?

汪尚:記錄多少還真沒有一個(gè)固定的數(shù)字,不過(guò)核心是評(píng)估模型的穩(wěn)定性,,記錄不怕少,,穩(wěn)定就行,模型不穩(wěn)定就要更多的記錄,,不過(guò)模型也可以根據(jù)新的記錄不斷優(yōu)化,。


主持人:再次感謝汪總的精彩分享以及耐心細(xì)致的回答,。

預(yù)告下下期的微信直播主題

2016年05月20日晚8點(diǎn)半微信直播交流傳統(tǒng)行業(yè)如何玩大數(shù)據(jù)、企業(yè)的數(shù)據(jù)分析能力金字塔等交流會(huì)第17場(chǎng)

http://ask./blog/tianshansoft/3868

還有大家別忘了這個(gè)月28號(hào)在廣州,,29號(hào)在深圳,,我們將舉辦線下沙龍活動(dòng),分享的主題有

1,、大數(shù)據(jù)時(shí)代零售數(shù)據(jù)運(yùn)營(yíng)之道 

2,、大數(shù)據(jù)分析思維與敏捷BI探索之路 

3、如何用數(shù)據(jù)驅(qū)動(dòng)產(chǎn)品和運(yùn)營(yíng) 

4,、數(shù)據(jù)分析之企業(yè)用戶價(jià)值模型 

這兩天會(huì)把活動(dòng)具體情況發(fā)出來(lái),,感興趣的朋友敬請(qǐng)關(guān)注!

下周五我們的微信直播活動(dòng)不見不散哦,!

參與方式

每周 Friday BI Fly 微信直播參加方式,,加個(gè)人微信:liangyonghellobi ,并發(fā)送微信:姓名+公司+行業(yè),,即可參加天善智能微信直播活動(dòng),。

天善智能介紹

天善智能是一個(gè)專注于商業(yè)智能BI、數(shù)據(jù)分析,、數(shù)據(jù)挖掘和大數(shù)據(jù)技術(shù)的垂直社區(qū)平臺(tái),,旗下包括問(wèn)答社區(qū)、在線學(xué)院和招聘平臺(tái)三個(gè)網(wǎng)站,。

問(wèn)答社區(qū)和在線學(xué)院是國(guó)內(nèi)最大的商業(yè)智能BI 和大數(shù)據(jù)領(lǐng)域的技術(shù)社區(qū)和在線學(xué)習(xí)平臺(tái),,技術(shù)版塊與在線課程已經(jīng)覆蓋 商業(yè)智能、數(shù)據(jù)分析,、數(shù)據(jù)挖掘,、大數(shù)據(jù)、數(shù)據(jù)倉(cāng)庫(kù),、Microsoft BI,、Oracle BIEE、IBM Cognos,、SAP BO,、Kettle、Informatica,、DataStage,、Halo BI、QlikView,、Tableau,、Hadoop 等國(guó)外主流產(chǎn)品和技術(shù)。

天善智能積極地推動(dòng)國(guó)產(chǎn)商業(yè)智能 BI 和大數(shù)據(jù)產(chǎn)品與技術(shù)在國(guó)內(nèi)的普及與發(fā)展,,合作成員包括:帆軟軟件,、Smartbi,、永洪科技、ETHINKBI,、TASKCTL,、奧威Power-BI、上海啟路科技,、上海亦策等,。

公告周五BI飛起來(lái),天善商業(yè)智能BI社區(qū)每周五下午舉辦問(wèn)答社區(qū)在線答疑活動(dòng),,每周五晚上舉辦行業(yè),、廠商工具、技術(shù)相關(guān)的微信在線直播活動(dòng),。2016年05月06日 Friday BI Fly 微信直播主題–python零基礎(chǔ)入門實(shí)戰(zhàn)【活動(dòng)預(yù)告】詳情請(qǐng)關(guān)注天善問(wèn)答社區(qū)...

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多