接上篇:數(shù)據(jù)挖掘和互聯(lián)網(wǎng)廣告①廣告作弊分析前瞻 網(wǎng)站聯(lián)盟廣告上的數(shù)據(jù)挖掘在網(wǎng)站聯(lián)盟廣告上存在大量數(shù)據(jù),再加上聯(lián)盟網(wǎng)站上用戶的訪問信息,,每天都會產(chǎn)生海量的數(shù)據(jù),。 通過之文章中提及的網(wǎng)站日志分析,我們可以掌握到很多與網(wǎng)站和訪客相關(guān)的信息,。再進(jìn)一步分析訪客在網(wǎng)站主和訪客點(diǎn)擊廣告的后續(xù)行為,,我們可以對訪客的屬性,包括年齡,、性別,、學(xué)歷、收入,、籍貫和興趣愛好等各種信息作出大致的判斷,。訪客屬性的判斷對于每個人不是100%準(zhǔn)確,但是我們做數(shù)據(jù)挖掘本來就是在統(tǒng)計學(xué)的范疇之上的,。如果一個判斷的準(zhǔn)確度在75%,,那么我們可以認(rèn)為這個判斷做的還是比較準(zhǔn)的。如果在90%的情況下是正確的,,那么我們可以認(rèn)為這個判斷是相當(dāng)精準(zhǔn)的,。 數(shù)據(jù)助力網(wǎng)盟廣告網(wǎng)站聯(lián)盟廣告本身包含了大量的數(shù)據(jù),包括所有的網(wǎng)站內(nèi)容信息,、行業(yè),、領(lǐng)域、每天的平均訪問量,、Alexa排名,、展示的廣告內(nèi)容、廣告整體展示次數(shù),、廣告點(diǎn)擊次數(shù),、訪客信息等。而對于點(diǎn)擊之后的用戶行為分析,,我們還要有更多的信息,,包括跳出率,、二跳率、活躍時間,、停留時間,、轉(zhuǎn)化率等。 通過數(shù)據(jù)分析廣告投放質(zhì)量在本節(jié)中我們主要是看如何通過數(shù)據(jù)信息來分析廣告投放質(zhì)量,。我們首先來看跳出率和二跳率,。
跳出率和二跳率是用來衡量外部流量質(zhì)量的重要指標(biāo),。簡單來說,,跳出率越低越好,而二跳率是越高越好的,。0%的跳出率和100%的二跳率當(dāng)然是最好的,,但是這樣的數(shù)字只是在理論中存在。在實(shí)際應(yīng)用中,,50%的跳出率和50%的二跳率就已經(jīng)很值得慶幸了,。 如圖1是一個網(wǎng)站某個時間段的瀏覽量和跳出率列表,為說明簡單,,這里并沒有列出包括來源,、二跳率和停留時間等其他信息。我們可以從圖中看到,,跳出率平均在30%到50%左右,,高于普通的企業(yè)網(wǎng)站,說明頁面的優(yōu)化和內(nèi)容做得還是可以的,。其中跳出率最高的頁面是告訴客戶聯(lián)絡(luò)方式的頁面:http://www./contact/,,而跳出率最低的兩個頁面都是臨時性的優(yōu)惠促銷信息。 圖1:頁面跳出率示意圖 我們之前提到過的Google分析(Google Analytics)工具是在國外使用比較廣泛的一個網(wǎng)站分析工具,。當(dāng)網(wǎng)站主在他們的網(wǎng)站上布置了Google分析的代碼之后,,下面這些信息會很直觀顯現(xiàn)在你面前:
在中國,,因?yàn)镚oogle網(wǎng)站訪問不穩(wěn)定,,這個工具的使用率被大大降低了。如果你的公司里需要做網(wǎng)站分析,,而網(wǎng)站的服務(wù)器主要是在中國,,那么筆者建議還是選取其他類似的站長工具,雖然功能沒有Google分析這么強(qiáng)大,。 Google分析除了訪問的穩(wěn)定性之外,,還有一些其他的限制。以下信息你可以從Google的官方網(wǎng)站中獲得http://support.google.com/analytics/,。
關(guān)于訪客的信息包括訪客的年齡,、性別、學(xué)歷等可以從大量的網(wǎng)頁瀏覽記錄和網(wǎng)絡(luò)行為中識別出來,。如圖2至圖4是我們根據(jù)一個月的數(shù)據(jù)統(tǒng)計的某一個聯(lián)盟網(wǎng)站的訪客信息,。圖2中顯示的是網(wǎng)站訪客性別比例;圖3顯示的是網(wǎng)站訪客的年齡分布,;圖4顯示的是網(wǎng)站訪客的學(xué)歷分布,。 上面這些圖中的數(shù)據(jù)對于廣告商來說是非常有價值的。如某一款針對男性的產(chǎn)品在這個網(wǎng)站上投放廣告的價值會比較高,,因?yàn)樵L客中有60%是男性,;但是如果一款產(chǎn)品是針對高端人群的,就不太適合在這個網(wǎng)站上做投放,,因?yàn)橹挥屑s16%的人群具有本科或者以上的學(xué)歷,。 通過定向和優(yōu)化提高廣告投放質(zhì)量除了對人群進(jìn)行分析之外,我們還可以根據(jù)時間段,、地區(qū)和訪問來源區(qū)分,,使廣告投放更加精準(zhǔn),。而這樣的區(qū)分又被稱為定向,所以我們對于訪問端可以做人群定向,、時間定向和區(qū)域定向,。 另外,針對投放廣告的網(wǎng)站本身和網(wǎng)站內(nèi)容我們也可以做選擇,,這樣的選擇稱為內(nèi)容定向,。下面我們來看一個定向廣告投放的實(shí)例。 這是我們操作過的某個針對上班族的廣告,,我們對于客戶的網(wǎng)盟廣告投放做以下的限制:
當(dāng)然,這樣的限制會導(dǎo)致一部分潛在用戶的流失,,我們也可以視廣告主的預(yù)算和效果要求而調(diào)整投放計劃,。如果在上面這個例子中的廣告主有充分的預(yù)算,那么我們可以把有上述限制的投放做成一個廣告計劃,,設(shè)定每天一定的廣告投入預(yù)算,,而另外開設(shè)一個全網(wǎng)全時間段的廣告計劃來接受輔助流量,設(shè)置較少的預(yù)算作為前一個廣告投放計劃的補(bǔ)充,。 綜合該廣告主一周的流量,,我們得到如圖5所示的地域分布圖。主要統(tǒng)計廣告被顯示抓取到的這部分訪客的地域來源,。即分析比較分布在不同地域的訪客行為,。 圖5 地域分布示意圖 從圖5中我們可以看出,該廣告的瀏覽量來源廣東省約占15%,,浙江,、江蘇和山東其次,約各占7%~8%左右,。來自中國經(jīng)濟(jì)發(fā)達(dá)的沿海地區(qū)的流量占據(jù)整張流量圖的50%以上,,證明我們的投放計劃設(shè)置還是比較合理的。 互聯(lián)網(wǎng)上網(wǎng)站的種類繁多,,大致的種類有門戶,、IT類網(wǎng)站、新聞網(wǎng)站,、財經(jīng)網(wǎng)站,、房地產(chǎn)網(wǎng)站、游戲網(wǎng)站,、汽車網(wǎng)站,、生活服務(wù),、地方網(wǎng)站、社區(qū)網(wǎng)站,、視頻網(wǎng)站,、女性網(wǎng)站、醫(yī)療健康和親子母嬰等,。圖6是該廣告主這一周投放的媒體分布圖,。我們可以看到在垂直類網(wǎng)站上的投放占據(jù)最高的比例,其次是新聞媒體類網(wǎng)站,、生活與服務(wù)類網(wǎng)站和音樂影視類網(wǎng)站,。這個流量分布也可以說明我們針對上班族的投放策略大致是正確的。 圖6 媒體種類分布示意圖 我們再來看一個高端母嬰類產(chǎn)品的廣告主,。該廣告主是從訪客的興趣點(diǎn)入手,,如圖7就展示了他們一個典型客戶對于網(wǎng)站內(nèi)容的興趣特征。而每個網(wǎng)站也都有一張類似于圖6的表格標(biāo)識出該網(wǎng)站的普通訪客的興趣特征,。通過典型客戶的興趣特征和網(wǎng)站平均訪客的興趣特征之間做的相似比較算法,,我們就可以得出該網(wǎng)站的平均訪客是否和該廣告主的典型客戶興趣一致,從而得出是否要在該網(wǎng)站上投放廣告的結(jié)論,。 我們再來看該廣告主某一天的廣告瀏覽情況,。如圖8所示。 網(wǎng)站聯(lián)盟上的這些數(shù)據(jù)對于廣告商和網(wǎng)站主都是很有價值的,。一方面對于廣告主來說,他們可以選擇針對他們目標(biāo)人群的網(wǎng)站群來做投放,;另一方面對于網(wǎng)站主,,他們可以針對廣告主做優(yōu)化,盡量提高點(diǎn)擊率以提高總體收入,。我們來看一個廣告主在網(wǎng)站聯(lián)盟上一個階段投放廣告的數(shù)據(jù)分析,,如圖9所示。 圖9 網(wǎng)盟廣告投放轉(zhuǎn)化漏斗示意圖 這個廣告主所有的廣告在網(wǎng)站聯(lián)盟各個位置以各種形式一共展示了3,534,727次,,被點(diǎn)擊了2686次,,對應(yīng)的點(diǎn)擊率是0.076%。而這些點(diǎn)擊為它的網(wǎng)站一共帶來1912次訪問,。這些訪問的結(jié)果是319次在線咨詢,。這次投放的效果總結(jié)如圖10所示。 圖10–廣告投放效果總結(jié) 從表格中可以看出,,這次投放整體的效果還是不錯的,。在網(wǎng)站聯(lián)盟這種廣告形式下,展現(xiàn)量本身是不收費(fèi)的,。這里的ACP(Average Click Price)是平均點(diǎn)擊價格,。
所以該客戶的總體費(fèi)用是3035.18,。
平均轉(zhuǎn)化成本,也就是獲取每一個客戶的成本是9.515人民幣,。 請讀者注意的是,,剛才我們列出的點(diǎn)擊量乃至9.4節(jié)中所有關(guān)于網(wǎng)站聯(lián)盟的訪客數(shù)據(jù)都是獨(dú)立訪客的點(diǎn)擊量和獨(dú)立訪客的統(tǒng)計信息。對網(wǎng)站信息統(tǒng)計來說,,獨(dú)立訪客指的是在一天之內(nèi)(00:00~24:00)訪問網(wǎng)站的上網(wǎng)計算機(jī)數(shù)量(以Cookie為依據(jù)),。 一天內(nèi)同一臺計算機(jī)多次點(diǎn)擊網(wǎng)站聯(lián)盟的加盟網(wǎng)站的同一廣告只被計算1次。 我們再來看下這次投放中在小說閱讀網(wǎng)站投放廣告的效果,,如圖11所示,。 圖9和圖11展示的是同一次投放中廣告出現(xiàn)在全部網(wǎng)站和其中在小說閱讀網(wǎng)站上的相應(yīng)點(diǎn)擊率、訪問量和轉(zhuǎn)化率的對比,。這里我們可以看到,,點(diǎn)擊率0.195%,要比平均值高出兩倍,,而轉(zhuǎn)化率3.5%只有平均值的五分之一左右,。 再分析原因,可能是因?yàn)樵搹V告主的目標(biāo)人群和小說閱讀網(wǎng)站的瀏覽人群不一致造成的,。為了盡量提高投資回報率,,作為調(diào)整的一個步驟,該廣告主下一個階段的廣告投放會把小說閱讀類網(wǎng)站排除在投放媒體之外,。 圖11網(wǎng)盟廣告投放小說閱讀網(wǎng)站轉(zhuǎn)化漏斗示意圖 除了上面這些信息以外,,還有一些數(shù)據(jù)分析報表可以用來分析廣告主和網(wǎng)站主的具體廣告投放數(shù)據(jù)信息。比如有以下這些報表,。 時段報表:以常規(guī)分析的數(shù)據(jù)為基礎(chǔ),,根據(jù)用戶自行選取的時間劃分方式,進(jìn)行時間切片式的統(tǒng)計,。這樣的統(tǒng)計有利于統(tǒng)計數(shù)據(jù)的定向分析,,幫助用戶更精確地分析流量數(shù)據(jù)在時間軸上的縱向分布。統(tǒng)計廣告主網(wǎng)站按月,、按周,、按日或者按小時段的流量分析情況。 頻次報表:頻次是指廣告在特定時間內(nèi)被顯示的次數(shù),。比如說一個廣告在一天中,,5個獨(dú)立訪客觀看,每個人觀看了廣告2次,,其中每人產(chǎn)生了一次點(diǎn)擊,,那么這則廣告今日2頻次顯示數(shù)為10,2頻次點(diǎn)擊數(shù)為5,2頻次點(diǎn)擊率為:5/10=50%,。
如何應(yīng)對網(wǎng)盟廣告作弊在網(wǎng)站聯(lián)盟上大規(guī)模的點(diǎn)擊作弊手段五花八門,,但是基本上可以分成兩類,,一種是通過點(diǎn)擊機(jī)器人,另一種是雇傭廉價勞動力的人為點(diǎn)擊。道高一尺魔高一丈,,應(yīng)該說現(xiàn)今的作弊技術(shù)比以前的形式更加復(fù)雜,,而偵查的難度也有所增加。我們隨便在網(wǎng)上搜一下,,就可以看到類似圖12的信息,。網(wǎng)站主只需要花很少的錢,就可以用作弊軟件在他們放置谷歌,、百度網(wǎng)盟,、騰訊搜搜的頁面上自動點(diǎn)擊廣告來增加收入。 圖12-網(wǎng)盟作弊示意圖 如圖12所示,,點(diǎn)擊作弊的方式多種多樣,。而網(wǎng)站聯(lián)盟識別點(diǎn)擊作弊的方法也隨著作弊手段的變化而不斷發(fā)展,已經(jīng)有幾類行之有效的成熟方法,。各家網(wǎng)站聯(lián)盟都積累了大量的相關(guān)數(shù)據(jù),,但是因?yàn)閿?shù)據(jù)涉及多個概念層次的維度,所以人工探測基本不可行,。應(yīng)該來說各家網(wǎng)站聯(lián)盟公司的作弊識別方法并不相同,,而且各網(wǎng)盟也不會把自己防作弊方法的具體細(xì)節(jié)公布出來。然而,,主要的防作弊方法無外乎以下三類:基于異常組分析的方法,;基于規(guī)則的識別方法;基于分類的方法,。 基于異常值分析的方法 異常值(Anomaly)的定義是基于某種度量,,異常值是指樣本中的個別值,其數(shù)值明顯偏離它(或它們)所屬樣本的其余觀測值,。網(wǎng)絡(luò)作弊行為即使行為再隱蔽(Cloaking),,和普通網(wǎng)民的人工行為還是有相當(dāng)不同的。在網(wǎng)站聯(lián)盟上用來識別網(wǎng)站的基于異常值分析的方法,,根據(jù)不同理論的異常值檢測方法,,可以分成以下幾種: 基于統(tǒng)計學(xué)的異常值檢測 在統(tǒng)計學(xué)中,假設(shè)數(shù)據(jù)集服從正態(tài)分布,,那些與均值之間的偏差達(dá)到或超過3倍標(biāo)準(zhǔn)差的數(shù)據(jù)對象就可稱之為異常值,。根據(jù)這個定律,可以衍生出一套點(diǎn)擊欺詐檢測方案,。我們對點(diǎn)擊率,、轉(zhuǎn)化率、對話時間差這些單個指標(biāo)都進(jìn)行分析,,根據(jù)不同行業(yè)類型的網(wǎng)站和廣告做了統(tǒng)計分析,,如果某個網(wǎng)站一定時間段內(nèi)的數(shù)據(jù)超出標(biāo)準(zhǔn),即可懷疑點(diǎn)擊欺詐。 基于距離和密度的異常值檢測 基于統(tǒng)計分布的方法有一個缺陷,,它只能檢測單個變量,,即每次檢測只能局限于單個指標(biāo),此時若采用基于距離和基于密度的方法,,就可結(jié)合多指標(biāo)進(jìn)行分析,。我們目前主要是針對點(diǎn)擊率、轉(zhuǎn)化率,、對話時間差這些單個指標(biāo)做基于統(tǒng)計學(xué)的分析,,但是也可以把這三個指標(biāo)綜合起來用基于距離的方法做分析。 基于偏差的異常值檢測 該方法的基本思想是通過檢查數(shù)據(jù)的主要特征來確定異常對象,。如果一個對象的特征過分偏離給定的數(shù)據(jù)特征,,則該對象被認(rèn)為是異常對象。在廣告作弊算法中我們主要關(guān)注的是OLAP 數(shù)據(jù)立方體方法,。我們可以利用在大規(guī)模的多維數(shù)據(jù)中采用數(shù)據(jù)立方體(Data Cube)確定反常區(qū)域,,如果一個立方體的單元值明顯不同于根據(jù)統(tǒng)計模型得到的期望值,該單元值被認(rèn)為是一個孤立點(diǎn),。結(jié)合點(diǎn)擊欺詐識別分析,,基于偏差的方法最主要的是點(diǎn)擊流分析,通過點(diǎn)擊流分析,,我們可以發(fā)現(xiàn)那些不規(guī)則的點(diǎn)擊過程,,這些自然可以作為點(diǎn)擊欺詐的懷疑對象。 基于規(guī)則的識別方法 一個對行業(yè)熟悉的聯(lián)盟平臺商對各種作弊手段必然了如指掌,,通常能夠根據(jù)經(jīng)驗(yàn)設(shè)定一些作弊防范規(guī)則,,比如:
制定防作弊規(guī)則的優(yōu)點(diǎn)是方便,,在一定程度上也能起到防范作弊的作用,然而這種方法顯得比較片面也不能與時俱進(jìn),,必須要隨時間變化而不斷更改,。 這種基于規(guī)則的識別方法相對于其他識別方法來說執(zhí)行起來要簡單很多,而其實(shí)這種方法從某種程度上來說也是一種簡化了的決策樹算法,。 基于分類的方法 這種方法主要是根據(jù)數(shù)據(jù)挖掘分類算法對歷史數(shù)據(jù)進(jìn)行模擬,,通過構(gòu)建分類器來對點(diǎn)擊行為進(jìn)行預(yù)測。這種方法的缺點(diǎn)在于需要事先對歷史點(diǎn)擊行為進(jìn)行分類,,即標(biāo)注出作弊的數(shù)據(jù),。另外,,該方法對數(shù)據(jù)的完整性和質(zhì)量要求很高,,在我國目前的情況下,大多數(shù)網(wǎng)盟平臺還不具備滿足條件。例如訪客在廣告主網(wǎng)站的轉(zhuǎn)化數(shù)據(jù)是識別點(diǎn)擊作弊的一個非常重要的因素,,但是廣告主一般不會將真實(shí)數(shù)據(jù)反饋給聯(lián)盟平臺,,造成了這一數(shù)據(jù)的缺失,而且點(diǎn)擊數(shù)據(jù)一般也都很稀疏,,這些因素都會對分類器的實(shí)際效果造成影響,。 這里列出的第一和第二種方法在很多條件上會存在一定的相通性,因?yàn)楹芏嘁?guī)則也是根據(jù)異常值分析得出的,。 我們介紹了三種作弊識別方法,,那么在現(xiàn)實(shí)中,應(yīng)該采用哪種方法呢,。初學(xué)者在接觸數(shù)據(jù)挖掘時都會對高級挖掘算法盲目崇拜,,覺得方法越復(fù)雜,它的實(shí)際效果就越好,。但實(shí)際情況并非如此?,F(xiàn)實(shí)中很多成功的數(shù)據(jù)挖掘項目之所以成功往往并不是因?yàn)樗捎昧硕嗝磸?fù)雜多么先進(jìn)的理論,當(dāng)然,,這里并不是說高級算法不實(shí)用,,而是希望告誡每一位數(shù)據(jù)挖掘工作者,所有的數(shù)據(jù)挖掘工作都應(yīng)該緊緊圍繞業(yè)務(wù)為目的來展開,,什么方法能在保證最低成本的要求下最大程度的解決問題,,那它就是好方法。 縱觀各大廣告聯(lián)盟,,無論是Google,、百度這樣的大型聯(lián)盟平臺還是一些中小聯(lián)盟平臺,在點(diǎn)擊作弊識別上幾乎主要采用的都是基于異常值分析和基于規(guī)則的識別方法,。這些方法看起來非常簡單,,但實(shí)際效果卻很好。美國紐約大學(xué)的Alexander Tuzhilin教授在對Google的防作弊措施進(jìn)行研究后,,曾經(jīng)結(jié)合長尾分布對這個現(xiàn)象進(jìn)行解釋,。Alexander Tuzhilin教授驚訝于Google的簡單的基于規(guī)則的方法的巨大作用,所做出的解釋是大量的點(diǎn)擊作弊行為其實(shí)都是那些最常用的作弊方法,,所以只要不斷對點(diǎn)擊作弊的表現(xiàn)形式進(jìn)行分析就能夠識別出大部分作弊的規(guī)則,。這其實(shí)很好理解,比如說無論學(xué)生用什么作弊方式,,一個有經(jīng)驗(yàn)的老師總能察覺,,即使這個老師并不了解學(xué)生的那些先進(jìn)的作弊工具。因?yàn)槔蠋熞吹氖菍W(xué)生作弊時的表現(xiàn),。 采用數(shù)據(jù)挖掘的分類算法,,對于聯(lián)盟平臺在數(shù)據(jù)質(zhì)量和數(shù)據(jù)完善上的要求是比較高的,。通常來說,有Cookie的情況下作弊可能性會比較少,,而無Cookie的比例高,,作弊的可能性也會比較大;跳出率極高的情況下,,作弊的概率會比較高,,而跳出率越低,作弊的概率也越低,;點(diǎn)擊之后在網(wǎng)頁上的停留時間極短,,作弊的概率會比較高,而停留時間越長,,那么是正常流量的概率會越大,。 如果跳出率(Bounce Rate)較高,那么一個訪客進(jìn)入網(wǎng)站之后不再繼續(xù)瀏覽,,直接離開網(wǎng)站的比例就越高,。通常來說,跳出率越高,,網(wǎng)站的粘性就越低,。而對于網(wǎng)站聯(lián)盟來說,如果從聯(lián)盟網(wǎng)站上點(diǎn)擊廣告到達(dá)的廣告主頁面跳出率比較高,,那么說明引流的效果不好,,特別是無論什么廣告,點(diǎn)擊之后的跳出率都比較高,,那么我們就需要考慮該聯(lián)盟網(wǎng)站是否有作弊嫌疑還是本身就是低質(zhì)網(wǎng)站,。例如說國內(nèi)的有些閱讀和視頻網(wǎng)站,在你打開每個頁面時,,都會自動有窗口彈出,,正式說法叫做“彈窗廣告”。這些廣告往往在彈出的瞬間您就會把它關(guān)閉,,但是對于廣告主來說,,這已經(jīng)產(chǎn)生了一次點(diǎn)擊,是要收費(fèi)的,。這樣的引流方式,,雖然不一定算是作弊,但至少是低質(zhì)的流量,。 我們來看一個國內(nèi)一家網(wǎng)站聯(lián)盟公司用決策樹判斷作弊流量的案例,。 這家網(wǎng)站聯(lián)盟公司之前積累了大量關(guān)于作弊網(wǎng)站的數(shù)據(jù)。通過決策樹生成算法對于這些數(shù)據(jù)進(jìn)行學(xué)習(xí),,最后發(fā)現(xiàn)和網(wǎng)站作弊最相關(guān)的數(shù)據(jù)包含Cookie,、網(wǎng)頁停留時間,、跳出率、二跳率等,。我們來看一下生成的決策樹。如圖13所示,。 圖13 網(wǎng)盟作弊分析決策樹示意圖 從圖13 中我們可以看到?jīng)Q策樹模型示意圖中第一層是Cookie的有無,。如果有來自該網(wǎng)站較高比例的流量沒有Cookie,那么我們判斷為作弊流量的概率是比較高的,。在【數(shù)據(jù)挖掘和互聯(lián)網(wǎng)廣告①廣告作弊分析前瞻】中我們講述的Facebook案例其實(shí)就是因?yàn)?0%的流量沒有Cookie就被認(rèn)為是作弊的,。在圖13的第三層,對于流量的統(tǒng)計,,如果跳出率比較高,,那么在跳出率到達(dá)令人恐怖的90%時,我們就不需要證明該網(wǎng)站是否是作弊網(wǎng)站了,。即使該網(wǎng)站并沒有作弊,,如此高的跳出率也使我們做出排除該網(wǎng)站的低質(zhì)流量的決定。同樣,,如果二跳率比較高,,但是平均停留時間在5s以下的,該網(wǎng)站的流量或者是低質(zhì)或者是作弊流量,,也是不可取的,。 節(jié)選譚磊所著的自《大數(shù)據(jù)挖掘》一書。 系列文章: 一小時了解數(shù)據(jù)挖掘①:解析常見的大數(shù)據(jù)應(yīng)用案例 一小時了解數(shù)據(jù)挖掘②:分類算法的應(yīng)用和成熟案例解析 一小時了解數(shù)據(jù)挖掘③:詳解大數(shù)據(jù)挖掘の分類技術(shù) 一小時了解數(shù)據(jù)挖掘④:商務(wù)智能原理解讀の數(shù)據(jù)挖掘九大定律 一小時了解數(shù)據(jù)挖掘⑤數(shù)據(jù)挖掘步驟&常用的聚類,、決策樹和CRISP-DM概念 一小時了解數(shù)據(jù)挖掘⑥數(shù)據(jù)挖掘的評估和結(jié)果可視化展示 數(shù)據(jù)挖掘和互聯(lián)網(wǎng)廣告①廣告作弊分析前瞻 End. 轉(zhuǎn)載請注明來自36大數(shù)據(jù)():36大數(shù)據(jù) ? 數(shù)據(jù)挖掘和互聯(lián)網(wǎng)廣告②如何應(yīng)對網(wǎng)盟廣告作弊 |
|
來自: 邊度ynpvacv5iy > 《競價》