久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

為什么數(shù)據(jù)挖掘很難成功?

 樟榆詩詞 2016-10-31

作者:傅一平

大數(shù)據(jù)時代,,數(shù)據(jù)挖掘變得越加重要,,曾經(jīng)做了很多,成功有之,,失敗的卻更多,,舉一些例子,探究其失敗原因,,也許于大家都有啟示吧,。

數(shù)據(jù)缺失總是存在。

為什么數(shù)據(jù)挖掘的數(shù)據(jù)準(zhǔn)備工作要這么長時間,,可以理解成取數(shù)時間很長,、轉(zhuǎn)換成所需的數(shù)據(jù)形式和格式時間很長,畢竟只有這樣做,,才能喂給數(shù)據(jù)挖掘引擎處理,。

但數(shù)據(jù)準(zhǔn)備的真正目的,其實是要從特定業(yè)務(wù)的角度去獲取一個真實的數(shù)據(jù)世界,,數(shù)據(jù)的獲取比處理重要,,技巧倒是其次了,。

離網(wǎng)預(yù)測一直是很多業(yè)務(wù)領(lǐng)域關(guān)注的焦點,特別是電信行業(yè),,但這么多年做下來,,其構(gòu)建的離網(wǎng)模型卻難言成功,為什么,?

因為數(shù)據(jù)獲取太難了,。

離網(wǎng)預(yù)測希望用客戶歷史的行為數(shù)據(jù)來判定未來一段時間離網(wǎng)的可能性,但國內(nèi)的電信市場并不穩(wěn)定,,不僅資費套餐復(fù)雜,,大量的促銷政策時時轟炸眼球,大家看得是熱鬧,,但對于數(shù)據(jù)挖掘人員來講,,卻是業(yè)務(wù)理解和數(shù)據(jù)準(zhǔn)備的噩耗了。

因為業(yè)務(wù)的理解很困難,,數(shù)據(jù)完全被業(yè)務(wù)扭曲,,如果要預(yù)測準(zhǔn)確,不僅自身業(yè)務(wù)促銷的因素要考慮進(jìn)去,,還要考慮競爭對手策反政策,、地域影響等等,你訓(xùn)練時看到的是一個簡單的離網(wǎng)結(jié)果數(shù)據(jù),,但誘導(dǎo)因素異常復(fù)雜,,這類因素相關(guān)的數(shù)據(jù)根本取不到或者難以量化。

比如電信離網(wǎng)很大程度是競爭對手策反,、客戶遷徙離網(wǎng)等等,,你知道競爭對手何時推出的促銷政策嗎?你知道客戶什么時候搬的家嗎,?你如何用數(shù)據(jù)來表達(dá)這種影響,?你的數(shù)據(jù)能適應(yīng)市場變化的節(jié)奏嗎?

因此,,如果某個合作伙伴來跟你說,,我可以做電信行業(yè)的離網(wǎng)模型,那是個偽命題,,離網(wǎng)模型已經(jīng)被電信行業(yè)做爛了,,幾乎沒有成功的案例,即使一時成功也持續(xù)不了多久,,只要業(yè)務(wù)不統(tǒng)一,,就不大可能出現(xiàn)一個基本適用的離網(wǎng)模型,你無法想象全國10萬個電信資費政策會對預(yù)測建模造成怎樣的影響。

與互聯(lián)網(wǎng)大一統(tǒng)的數(shù)據(jù)相比,,其搞的風(fēng)控模型顯然要簡單的多了,,因為數(shù)據(jù)的獲取難度和穩(wěn)定度不在一個量級上。

數(shù)據(jù)挖掘,,難就難在要為預(yù)測的業(yè)務(wù)提供跟這個業(yè)務(wù)相關(guān)的數(shù)據(jù)環(huán)境,,因此,有時離網(wǎng)模型做不好,,并不是模型師的錯,,也不是算法的問題,而是業(yè)務(wù)惹的禍,,是數(shù)據(jù)問題,。

你讓開發(fā)出Alphgo的DEEP MIND團(tuán)隊來做離網(wǎng)模型,也是一個死字,,這可能也是傳統(tǒng)行業(yè)數(shù)據(jù)挖掘很難出效果的一個原因,。

阿里的螞蟻金服,所以能算法取勝,,一個原因是它天生具有線上的資金往來數(shù)據(jù),,如果讓它去分析傳統(tǒng)銀行的線下數(shù)據(jù),估計難度也很大,。

數(shù)據(jù)挖掘師特別強(qiáng)調(diào)要理解業(yè)務(wù),,就是希望你基于業(yè)務(wù)的理解能找到所需的解釋數(shù)據(jù),外來的和尚所以做不好,,也是這個因素,,因為打一槍換一個地方的方式,跟扎根理解業(yè)務(wù)的建模文化背道而馳,。

數(shù)據(jù)準(zhǔn)備,,不確定性總是存在,因此一定程度上講,,這個世界是不可預(yù)測的,預(yù)測的能力,,跟我們采集數(shù)據(jù)的能力成一定的正相關(guān)關(guān)系,。

大數(shù)據(jù)的意義,就在于可以采集到更多的數(shù)據(jù),,這個決定了我們用機(jī)器解釋世界的可能程度,。

為什么數(shù)據(jù)挖掘很難成功?

假數(shù)據(jù)真分析,。

還是拿離網(wǎng)的例子,,你就知道很多時候,所謂的解釋數(shù)據(jù),,都是假數(shù)據(jù),,雖然你不是故意的,,你還很認(rèn)真,但因為受限于業(yè)務(wù)能力,,決定了你只能使用假數(shù)據(jù),,結(jié)果可想而知。

以前新手,,在做離網(wǎng)預(yù)測的時候,,總喜歡拿訂購成功的數(shù)據(jù)作為訓(xùn)練的數(shù)據(jù),但這個顯然是個大謬誤,。

要知道,,大量的業(yè)務(wù)訂購是套餐附帶訂購的,并不能反映用戶的真實意愿,,拿這個數(shù)據(jù)去訓(xùn)練,,能訓(xùn)練出什么東西?這就是業(yè)務(wù)能力不夠造成的現(xiàn)象,。

現(xiàn)在互聯(lián)網(wǎng)上估計這個現(xiàn)象很嚴(yán)重,,比如刷單,這些假數(shù)據(jù)嚴(yán)重擾亂了模型,,去偽存真是數(shù)據(jù)挖掘師的一個必修課,。

但這個,可惜又跟業(yè)務(wù)能力相關(guān),,依賴于實踐和經(jīng)驗,,如果讓市場部經(jīng)理轉(zhuǎn)行去做數(shù)據(jù)挖掘師,估計也很牛逼,。

數(shù)據(jù)挖掘,,難就難在這里,其是業(yè)務(wù),、數(shù)據(jù)甚至是技術(shù)的結(jié)合體,,在大數(shù)據(jù)時代,這個趨勢會越加明顯,。

缺乏對于“常理”的感覺,。

以下是一個社交網(wǎng)絡(luò)的案例,場景是需要對于兩個通話(或其它)交往圈進(jìn)行重合度判定,,以識別兩個手機(jī)號碼是否屬于同一個人,。

規(guī)則似乎很簡單,但挖掘出來的結(jié)果卻不盡如人意,,準(zhǔn)確率只有12%,,百思不得其解。

后來發(fā)現(xiàn)判定重合度的閾值是30%,這個也不能說明有問題,,但問題出在對于基數(shù)的判定上,,大量的用戶總的交往圈只有3-4個,也就是說,,重合1個就可能達(dá)到這個閾值,,很多新手或者過于迷信技巧的人,往往忽視業(yè)務(wù)本質(zhì)的認(rèn)識,。

數(shù)據(jù)挖掘不僅僅是一門挖掘語言,,還要有足夠的生活認(rèn)知和數(shù)據(jù)感覺,這個很難短期能夠提升,,依賴于長期實踐,,甚至認(rèn)為,這個跟情商相關(guān),,有些人就是有感覺,,一眼能發(fā)現(xiàn)問題。

缺乏迭代的能力,。

很多傳統(tǒng)企業(yè),,數(shù)據(jù)挖掘效果不好,跟企業(yè)的組織,、機(jī)制,、流程等相關(guān),舉個例子:

曾經(jīng)給外呼部門做了一個外呼偏好模型,,就是對于所有客戶的外呼偏好排個序,,在外呼資源有限的條件下,按照這個排序進(jìn)行外呼,,可以提升外呼效率,,然后發(fā)布到標(biāo)簽庫,然后讓外呼部門去用,,等待反饋的時間總是很長,,大家都懂的,然后就石沉大海了,。

最近想起來,,再去要結(jié)果,發(fā)現(xiàn)效果很不錯,,能真正提升10個百分點啊,但已經(jīng)2個月過去了,。

這還算一個較為成功的挖掘,,但又有多少模型由于線下流程的原因而被放棄了,誰都知道,數(shù)據(jù)挖掘靠的是迭代,,很難第一次就成功,,但有多少星星在開始之時,就被掐滅了,。

傳統(tǒng)企業(yè)冗長的線下流程,,的確成為了模型優(yōu)化的大殺器,互聯(lián)網(wǎng)公司天生的在線性讓其算法發(fā)揮出巨大的價值,,而傳統(tǒng)企業(yè)的建模,,往往還在為獲得反饋數(shù)據(jù)而努力,組織,、系統(tǒng)和運營上的差距很大,。

推廣是永遠(yuǎn)的痛。

很多傳統(tǒng)企業(yè)不同地域上的業(yè)務(wù)差異,,不僅僅造成管理難度加大,、體驗不一致、系統(tǒng)過于復(fù)雜,、運營成本高昂,,也讓模型的建設(shè)和推廣異常困難。

從模型本身的角度,,不同地域的數(shù)據(jù)差異有時很大,,在一個地方成功的模型,在另一個地方則完全失敗,,過擬合現(xiàn)象比比皆是,。

從業(yè)務(wù)理解的角度,建模團(tuán)隊要面對幾個甚至十多個做類似業(yè)務(wù)的團(tuán)隊,,各個團(tuán)隊的業(yè)務(wù)理解上的差異和對于建模的要求各不相同,,造成了建模團(tuán)隊的無所適從。

模型推廣,,成為了建模團(tuán)隊巨大的負(fù)擔(dān),,復(fù)制模型,往往變成了重做模型,,搜集結(jié)果數(shù)據(jù)也難上加難,,數(shù)據(jù)挖掘,已經(jīng)不是一項純粹的活,。

提了以上五點,,只是為了說明數(shù)據(jù)挖掘所以難,是綜合多種因素的結(jié)果,,可能不是靠建立一個平臺,,懂得一些算法,,掌握一個工具就能簡單解決的,往往具有更深層次的原因,。

我們在努力掌握好“器”的同時,,也要抬起頭來,更全面的看待數(shù)據(jù)挖掘這個事情,,因地制宜的制定適合自己企業(yè)特點的數(shù)據(jù)挖掘機(jī)制和流程,。

當(dāng)然,大數(shù)據(jù)時代的到來,,讓平臺,,工具和算法也變得越加重要,這對數(shù)據(jù)建模師的知識結(jié)構(gòu)也帶來了新的沖擊,。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點,。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多