數(shù)據(jù)挖掘和互聯(lián)網(wǎng)廣告②如何應(yīng)對網(wǎng)盟廣告作弊 | 36大數(shù)據(jù)

邊度ynpvacv5iy 2017-01-17

展開全文

36大數(shù)據(jù)

接上篇：數(shù)據(jù)挖掘和互聯(lián)網(wǎng)廣告①廣告作弊分析前瞻

網(wǎng)站聯(lián)盟廣告上的數(shù)據(jù)挖掘

在網(wǎng)站聯(lián)盟廣告上存在大量數(shù)據(jù)，再加上聯(lián)盟網(wǎng)站上用戶的訪問信息,，每天都會產(chǎn)生海量的數(shù)據(jù),。

通過之文章中提及的網(wǎng)站日志分析，我們可以掌握到很多與網(wǎng)站和訪客相關(guān)的信息,。再進(jìn)一步分析訪客在網(wǎng)站主和訪客點(diǎn)擊廣告的后續(xù)行為,，我們可以對訪客的屬性，包括年齡,、性別,、學(xué)歷、收入,、籍貫和興趣愛好等各種信息作出大致的判斷,。訪客屬性的判斷對于每個人不是100%準(zhǔn)確，但是我們做數(shù)據(jù)挖掘本來就是在統(tǒng)計學(xué)的范疇之上的,。如果一個判斷的準(zhǔn)確度在75%,，那么我們可以認(rèn)為這個判斷做的還是比較準(zhǔn)的。如果在90%的情況下是正確的,，那么我們可以認(rèn)為這個判斷是相當(dāng)精準(zhǔn)的,。

數(shù)據(jù)助力網(wǎng)盟廣告

網(wǎng)站聯(lián)盟廣告本身包含了大量的數(shù)據(jù)，包括所有的網(wǎng)站內(nèi)容信息,、行業(yè),、領(lǐng)域、每天的平均訪問量,、Alexa排名,、展示的廣告內(nèi)容、廣告整體展示次數(shù),、廣告點(diǎn)擊次數(shù),、訪客信息等。而對于點(diǎn)擊之后的用戶行為分析,，我們還要有更多的信息,，包括跳出率,、二跳率、活躍時間,、停留時間,、轉(zhuǎn)化率等。

通過數(shù)據(jù)分析廣告投放質(zhì)量

在本節(jié)中我們主要是看如何通過數(shù)據(jù)信息來分析廣告投放質(zhì)量,。我們首先來看跳出率和二跳率,。

跳出率（Bounce Rate）是互聯(lián)網(wǎng)上的一個常用指標(biāo)，指的是進(jìn)入某一個網(wǎng)站之后不再繼續(xù)瀏覽,，而直接離開網(wǎng)站的訪客比例,。通常來說，跳出率越高,，網(wǎng)站的粘性就越低,。
當(dāng)網(wǎng)站頁面展開后，用戶在頁面上產(chǎn)生的首次點(diǎn)擊被稱為“二跳”,，二跳的次數(shù)即為“二跳量”,。二跳量與瀏覽量的比值稱為頁面的二跳率。

跳出率和二跳率是用來衡量外部流量質(zhì)量的重要指標(biāo),。簡單來說,，跳出率越低越好，而二跳率是越高越好的,。0%的跳出率和100%的二跳率當(dāng)然是最好的,，但是這樣的數(shù)字只是在理論中存在。在實(shí)際應(yīng)用中,，50%的跳出率和50%的二跳率就已經(jīng)很值得慶幸了,。

如圖1是一個網(wǎng)站某個時間段的瀏覽量和跳出率列表，為說明簡單,，這里并沒有列出包括來源,、二跳率和停留時間等其他信息。我們可以從圖中看到,，跳出率平均在30%到50%左右,，高于普通的企業(yè)網(wǎng)站，說明頁面的優(yōu)化和內(nèi)容做得還是可以的,。其中跳出率最高的頁面是告訴客戶聯(lián)絡(luò)方式的頁面：http://www./contact/,，而跳出率最低的兩個頁面都是臨時性的優(yōu)惠促銷信息。

圖1：頁面跳出率示意圖

我們之前提到過的Google分析（Google Analytics）工具是在國外使用比較廣泛的一個網(wǎng)站分析工具,。當(dāng)網(wǎng)站主在他們的網(wǎng)站上布置了Google分析的代碼之后,，下面這些信息會很直觀顯現(xiàn)在你面前：

多少訪客在什么時間段訪問你的網(wǎng)站；
訪客訪問網(wǎng)站的頻率是怎樣的,；
網(wǎng)站中哪些頁面是吸引最多用戶的,；
用戶采用哪些搜索關(guān)鍵詞（組合）來到網(wǎng)站,；
用戶的來源主要來自哪些地方。

在中國,，因?yàn)镚oogle網(wǎng)站訪問不穩(wěn)定,，這個工具的使用率被大大降低了。如果你的公司里需要做網(wǎng)站分析,，而網(wǎng)站的服務(wù)器主要是在中國,，那么筆者建議還是選取其他類似的站長工具，雖然功能沒有Google分析這么強(qiáng)大,。

Google分析除了訪問的穩(wěn)定性之外,，還有一些其他的限制。以下信息你可以從Google的官方網(wǎng)站中獲得http://support.google.com/analytics/,。

最關(guān)鍵的問題是Google不保證在什么時間點(diǎn)把數(shù)據(jù)放到報告中,。一般來說在2小時內(nèi)訪客數(shù)據(jù)能在網(wǎng)站報告中體現(xiàn)，但有時會延遲至48小時,。如果你對網(wǎng)站數(shù)據(jù)的實(shí)時性要求很高，那么這個延遲是無法接受的,。
如果網(wǎng)站平均每個月的訪問量超過1000萬PV,，那么Google不保證超出部分會被處理。
因?yàn)镚oogle分析是免費(fèi)的,，所以Google不提供任何形式的客戶服務(wù)熱線,。如果你的網(wǎng)站分析系統(tǒng)或者數(shù)據(jù)出了什么問題，那么只能自求多福了,。

關(guān)于訪客的信息包括訪客的年齡,、性別、學(xué)歷等可以從大量的網(wǎng)頁瀏覽記錄和網(wǎng)絡(luò)行為中識別出來,。如圖2至圖4是我們根據(jù)一個月的數(shù)據(jù)統(tǒng)計的某一個聯(lián)盟網(wǎng)站的訪客信息,。圖2中顯示的是網(wǎng)站訪客性別比例；圖3顯示的是網(wǎng)站訪客的年齡分布,；圖4顯示的是網(wǎng)站訪客的學(xué)歷分布,。

36大數(shù)據(jù)

上面這些圖中的數(shù)據(jù)對于廣告商來說是非常有價值的。如某一款針對男性的產(chǎn)品在這個網(wǎng)站上投放廣告的價值會比較高,，因?yàn)樵L客中有60%是男性,；但是如果一款產(chǎn)品是針對高端人群的，就不太適合在這個網(wǎng)站上做投放,，因?yàn)橹挥屑s16%的人群具有本科或者以上的學(xué)歷,。

通過定向和優(yōu)化提高廣告投放質(zhì)量

除了對人群進(jìn)行分析之外，我們還可以根據(jù)時間段,、地區(qū)和訪問來源區(qū)分,，使廣告投放更加精準(zhǔn),。而這樣的區(qū)分又被稱為定向，所以我們對于訪問端可以做人群定向,、時間定向和區(qū)域定向,。

另外，針對投放廣告的網(wǎng)站本身和網(wǎng)站內(nèi)容我們也可以做選擇,，這樣的選擇稱為內(nèi)容定向,。下面我們來看一個定向廣告投放的實(shí)例。

這是我們操作過的某個針對上班族的廣告,，我們對于客戶的網(wǎng)盟廣告投放做以下的限制：

主要投放在中國經(jīng)濟(jì)最發(fā)達(dá)的地區(qū)：北京,、上海以及沿海的經(jīng)濟(jì)發(fā)達(dá)地區(qū)。
只在上班的黃金時間（早上10點(diǎn)到下午6點(diǎn)）投放,。
不接受網(wǎng)吧或者游戲網(wǎng)站流量的廣告投放,。

當(dāng)然，這樣的限制會導(dǎo)致一部分潛在用戶的流失,，我們也可以視廣告主的預(yù)算和效果要求而調(diào)整投放計劃,。如果在上面這個例子中的廣告主有充分的預(yù)算，那么我們可以把有上述限制的投放做成一個廣告計劃,，設(shè)定每天一定的廣告投入預(yù)算,，而另外開設(shè)一個全網(wǎng)全時間段的廣告計劃來接受輔助流量，設(shè)置較少的預(yù)算作為前一個廣告投放計劃的補(bǔ)充,。

綜合該廣告主一周的流量,，我們得到如圖5所示的地域分布圖。主要統(tǒng)計廣告被顯示抓取到的這部分訪客的地域來源,。即分析比較分布在不同地域的訪客行為,。

圖5 地域分布示意圖

從圖5中我們可以看出，該廣告的瀏覽量來源廣東省約占15%,，浙江,、江蘇和山東其次，約各占7%～8%左右,。來自中國經(jīng)濟(jì)發(fā)達(dá)的沿海地區(qū)的流量占據(jù)整張流量圖的50%以上,，證明我們的投放計劃設(shè)置還是比較合理的。

互聯(lián)網(wǎng)上網(wǎng)站的種類繁多,，大致的種類有門戶,、IT類網(wǎng)站、新聞網(wǎng)站,、財經(jīng)網(wǎng)站,、房地產(chǎn)網(wǎng)站、游戲網(wǎng)站,、汽車網(wǎng)站,、生活服務(wù),、地方網(wǎng)站、社區(qū)網(wǎng)站,、視頻網(wǎng)站,、女性網(wǎng)站、醫(yī)療健康和親子母嬰等,。圖6是該廣告主這一周投放的媒體分布圖,。我們可以看到在垂直類網(wǎng)站上的投放占據(jù)最高的比例，其次是新聞媒體類網(wǎng)站,、生活與服務(wù)類網(wǎng)站和音樂影視類網(wǎng)站,。這個流量分布也可以說明我們針對上班族的投放策略大致是正確的。

圖6 媒體種類分布示意圖

我們再來看一個高端母嬰類產(chǎn)品的廣告主,。該廣告主是從訪客的興趣點(diǎn)入手,，如圖7就展示了他們一個典型客戶對于網(wǎng)站內(nèi)容的興趣特征。而每個網(wǎng)站也都有一張類似于圖6的表格標(biāo)識出該網(wǎng)站的普通訪客的興趣特征,。通過典型客戶的興趣特征和網(wǎng)站平均訪客的興趣特征之間做的相似比較算法,，我們就可以得出該網(wǎng)站的平均訪客是否和該廣告主的典型客戶興趣一致，從而得出是否要在該網(wǎng)站上投放廣告的結(jié)論,。

我們再來看該廣告主某一天的廣告瀏覽情況,。如圖8所示。

36大數(shù)據(jù)

網(wǎng)站聯(lián)盟上的這些數(shù)據(jù)對于廣告商和網(wǎng)站主都是很有價值的,。一方面對于廣告主來說，他們可以選擇針對他們目標(biāo)人群的網(wǎng)站群來做投放,；另一方面對于網(wǎng)站主,，他們可以針對廣告主做優(yōu)化，盡量提高點(diǎn)擊率以提高總體收入,。我們來看一個廣告主在網(wǎng)站聯(lián)盟上一個階段投放廣告的數(shù)據(jù)分析,，如圖9所示。

圖9 網(wǎng)盟廣告投放轉(zhuǎn)化漏斗示意圖

這個廣告主所有的廣告在網(wǎng)站聯(lián)盟各個位置以各種形式一共展示了3,534,727次,，被點(diǎn)擊了2686次,，對應(yīng)的點(diǎn)擊率是0.076%。而這些點(diǎn)擊為它的網(wǎng)站一共帶來1912次訪問,。這些訪問的結(jié)果是319次在線咨詢,。這次投放的效果總結(jié)如圖10所示。

圖10–廣告投放效果總結(jié)

從表格中可以看出,，這次投放整體的效果還是不錯的,。在網(wǎng)站聯(lián)盟這種廣告形式下，展現(xiàn)量本身是不收費(fèi)的,。這里的ACP（Average Click Price）是平均點(diǎn)擊價格,。

廣告成本=ACP×點(diǎn)擊量

所以該客戶的總體費(fèi)用是3035.18,。

轉(zhuǎn)化成本=廣告成本/轉(zhuǎn)化次數(shù)

平均轉(zhuǎn)化成本，也就是獲取每一個客戶的成本是9.515人民幣,。

請讀者注意的是,，剛才我們列出的點(diǎn)擊量乃至9.4節(jié)中所有關(guān)于網(wǎng)站聯(lián)盟的訪客數(shù)據(jù)都是獨(dú)立訪客的點(diǎn)擊量和獨(dú)立訪客的統(tǒng)計信息。對網(wǎng)站信息統(tǒng)計來說,，獨(dú)立訪客指的是在一天之內(nèi)（00:00～24:00）訪問網(wǎng)站的上網(wǎng)計算機(jī)數(shù)量（以Cookie為依據(jù)）,。

一天內(nèi)同一臺計算機(jī)多次點(diǎn)擊網(wǎng)站聯(lián)盟的加盟網(wǎng)站的同一廣告只被計算1次。

我們再來看下這次投放中在小說閱讀網(wǎng)站投放廣告的效果,，如圖11所示,。

圖9和圖11展示的是同一次投放中廣告出現(xiàn)在全部網(wǎng)站和其中在小說閱讀網(wǎng)站上的相應(yīng)點(diǎn)擊率、訪問量和轉(zhuǎn)化率的對比,。這里我們可以看到,，點(diǎn)擊率0.195%，要比平均值高出兩倍,，而轉(zhuǎn)化率3.5%只有平均值的五分之一左右,。

再分析原因，可能是因?yàn)樵搹V告主的目標(biāo)人群和小說閱讀網(wǎng)站的瀏覽人群不一致造成的,。為了盡量提高投資回報率,，作為調(diào)整的一個步驟，該廣告主下一個階段的廣告投放會把小說閱讀類網(wǎng)站排除在投放媒體之外,。

圖11網(wǎng)盟廣告投放小說閱讀網(wǎng)站轉(zhuǎn)化漏斗示意圖

除了上面這些信息以外,，還有一些數(shù)據(jù)分析報表可以用來分析廣告主和網(wǎng)站主的具體廣告投放數(shù)據(jù)信息。比如有以下這些報表,。

時段報表：以常規(guī)分析的數(shù)據(jù)為基礎(chǔ),，根據(jù)用戶自行選取的時間劃分方式，進(jìn)行時間切片式的統(tǒng)計,。這樣的統(tǒng)計有利于統(tǒng)計數(shù)據(jù)的定向分析,，幫助用戶更精確地分析流量數(shù)據(jù)在時間軸上的縱向分布。統(tǒng)計廣告主網(wǎng)站按月,、按周,、按日或者按小時段的流量分析情況。

頻次報表：頻次是指廣告在特定時間內(nèi)被顯示的次數(shù),。比如說一個廣告在一天中,，5個獨(dú)立訪客觀看，每個人觀看了廣告2次,，其中每人產(chǎn)生了一次點(diǎn)擊,，那么這則廣告今日2頻次顯示數(shù)為10，2頻次點(diǎn)擊數(shù)為5，2頻次點(diǎn)擊率為：5/10=50%,。

點(diǎn)擊決策報表：點(diǎn)擊決策時間指廣告從展現(xiàn)到受眾點(diǎn)擊廣告之間的時間差,。
搜索引擎流量分析：在流量來源分類統(tǒng)計數(shù)據(jù)的基礎(chǔ)上，進(jìn)一步地對從搜索引擎而來的流量進(jìn)行分析,，給出指定時間范圍內(nèi)流量趨勢,、各大搜索引擎的流量數(shù)據(jù)對比，并可選擇查看時間范圍內(nèi)的每日明細(xì)或?qū)蝹€搜索引擎的流量按來源關(guān)鍵字查看數(shù)據(jù),。
廣告效果分析報表：統(tǒng)計由各媒體廣告投放帶到目標(biāo)網(wǎng)站的整體流量情況,。可以通過不同媒體數(shù)據(jù)的比較從而區(qū)分出媒體的優(yōu)劣度,。
頁面轉(zhuǎn)化：統(tǒng)計由各媒體廣告投放帶到網(wǎng)站目標(biāo)頁面的流量情況及轉(zhuǎn)化效果,。通過頁面轉(zhuǎn)化能了解到網(wǎng)站目標(biāo)頁面的轉(zhuǎn)化率以及廣告顯示點(diǎn)擊的轉(zhuǎn)化情況。
目標(biāo)渠道分析：“渠道”是指訪客在達(dá)到目標(biāo)轉(zhuǎn)換之前必須通過的一系列頁面（只針對廣告主網(wǎng)站內(nèi)的轉(zhuǎn)化）,。我們跟蹤導(dǎo)向目標(biāo)的各網(wǎng)頁的訪客流失率,，而此報表名稱來源于到達(dá)每個頁面的訪客圖表。第一頁顯示的訪客數(shù)量最多,，在后續(xù)頁面上,，由于訪客在到達(dá)最終目標(biāo)之前會不斷離開，因此人數(shù)也逐漸減少,。
覆蓋度報表：覆蓋度是在特定排期和時間段內(nèi)所覆蓋的絕對唯一訪客,。覆蓋度報表統(tǒng)計的是根據(jù)Cookie識別，統(tǒng)計在一定時間段內(nèi)觀看廣告的唯一絕對訪客（另外也可統(tǒng)計廣告主網(wǎng)站的唯一絕對訪客）,。
覆蓋度報表：統(tǒng)計不同排期和媒體在選擇時段內(nèi)擁有的重復(fù)訪客或者是相同排期不同頻道在選擇時間內(nèi)擁有的重復(fù)訪客,。根據(jù)Cookie來判定重復(fù)訪客。
影響度報表：廣告影響度是指廣告投放結(jié)束后一段時間內(nèi)廣告的顯示,、點(diǎn)擊以及后續(xù)行為分析的數(shù)據(jù)追蹤,。根據(jù)Cookie追蹤那些訪客的后續(xù)行為，也可以判斷這些Cookie的廣告投放結(jié)束后是通過何種途徑過來的,。此報表只顯示廣告投放結(jié)束到所選時間點(diǎn)的數(shù)據(jù)，比如說廣告投放是10月5日結(jié)束,，所選時間點(diǎn)10月10日,，那么我們只統(tǒng)計10月5日至10日之間的廣告影響度。充分利用這些報表可以使我們的廣告投放更有針對性,，更有效果,，因而廣告投放的最終性價比可以達(dá)到最高。

如何應(yīng)對網(wǎng)盟廣告作弊

在網(wǎng)站聯(lián)盟上大規(guī)模的點(diǎn)擊作弊手段五花八門,，但是基本上可以分成兩類,，一種是通過點(diǎn)擊機(jī)器人，另一種是雇傭廉價勞動力的人為點(diǎn)擊。道高一尺魔高一丈,，應(yīng)該說現(xiàn)今的作弊技術(shù)比以前的形式更加復(fù)雜,，而偵查的難度也有所增加。我們隨便在網(wǎng)上搜一下,，就可以看到類似圖12的信息,。網(wǎng)站主只需要花很少的錢，就可以用作弊軟件在他們放置谷歌,、百度網(wǎng)盟,、騰訊搜搜的頁面上自動點(diǎn)擊廣告來增加收入。

圖12-網(wǎng)盟作弊示意圖

如圖12所示,，點(diǎn)擊作弊的方式多種多樣,。而網(wǎng)站聯(lián)盟識別點(diǎn)擊作弊的方法也隨著作弊手段的變化而不斷發(fā)展，已經(jīng)有幾類行之有效的成熟方法,。各家網(wǎng)站聯(lián)盟都積累了大量的相關(guān)數(shù)據(jù),，但是因?yàn)閿?shù)據(jù)涉及多個概念層次的維度，所以人工探測基本不可行,。應(yīng)該來說各家網(wǎng)站聯(lián)盟公司的作弊識別方法并不相同,，而且各網(wǎng)盟也不會把自己防作弊方法的具體細(xì)節(jié)公布出來。然而,，主要的防作弊方法無外乎以下三類：基于異常組分析的方法,；基于規(guī)則的識別方法；基于分類的方法,。

基于異常值分析的方法

異常值（Anomaly）的定義是基于某種度量,，異常值是指樣本中的個別值，其數(shù)值明顯偏離它（或它們）所屬樣本的其余觀測值,。網(wǎng)絡(luò)作弊行為即使行為再隱蔽（Cloaking）,，和普通網(wǎng)民的人工行為還是有相當(dāng)不同的。在網(wǎng)站聯(lián)盟上用來識別網(wǎng)站的基于異常值分析的方法,，根據(jù)不同理論的異常值檢測方法,，可以分成以下幾種：

基于統(tǒng)計學(xué)的異常值檢測

在統(tǒng)計學(xué)中，假設(shè)數(shù)據(jù)集服從正態(tài)分布,，那些與均值之間的偏差達(dá)到或超過3倍標(biāo)準(zhǔn)差的數(shù)據(jù)對象就可稱之為異常值,。根據(jù)這個定律，可以衍生出一套點(diǎn)擊欺詐檢測方案,。我們對點(diǎn)擊率,、轉(zhuǎn)化率、對話時間差這些單個指標(biāo)都進(jìn)行分析,，根據(jù)不同行業(yè)類型的網(wǎng)站和廣告做了統(tǒng)計分析,，如果某個網(wǎng)站一定時間段內(nèi)的數(shù)據(jù)超出標(biāo)準(zhǔn)，即可懷疑點(diǎn)擊欺詐。

基于距離和密度的異常值檢測

基于統(tǒng)計分布的方法有一個缺陷,，它只能檢測單個變量,，即每次檢測只能局限于單個指標(biāo)，此時若采用基于距離和基于密度的方法,，就可結(jié)合多指標(biāo)進(jìn)行分析,。我們目前主要是針對點(diǎn)擊率、轉(zhuǎn)化率,、對話時間差這些單個指標(biāo)做基于統(tǒng)計學(xué)的分析,，但是也可以把這三個指標(biāo)綜合起來用基于距離的方法做分析。

基于偏差的異常值檢測

該方法的基本思想是通過檢查數(shù)據(jù)的主要特征來確定異常對象,。如果一個對象的特征過分偏離給定的數(shù)據(jù)特征,，則該對象被認(rèn)為是異常對象。在廣告作弊算法中我們主要關(guān)注的是OLAP 數(shù)據(jù)立方體方法,。我們可以利用在大規(guī)模的多維數(shù)據(jù)中采用數(shù)據(jù)立方體（Data Cube）確定反常區(qū)域,，如果一個立方體的單元值明顯不同于根據(jù)統(tǒng)計模型得到的期望值，該單元值被認(rèn)為是一個孤立點(diǎn),。結(jié)合點(diǎn)擊欺詐識別分析,，基于偏差的方法最主要的是點(diǎn)擊流分析，通過點(diǎn)擊流分析,，我們可以發(fā)現(xiàn)那些不規(guī)則的點(diǎn)擊過程,，這些自然可以作為點(diǎn)擊欺詐的懷疑對象。

基于規(guī)則的識別方法

一個對行業(yè)熟悉的聯(lián)盟平臺商對各種作弊手段必然了如指掌,，通常能夠根據(jù)經(jīng)驗(yàn)設(shè)定一些作弊防范規(guī)則,，比如：

同一IP的用戶單日點(diǎn)擊次數(shù)超過多少即可作為作弊；
如果某個廣告位的點(diǎn)擊率突然大幅增加也可能存在作弊,。

制定防作弊規(guī)則的優(yōu)點(diǎn)是方便,，在一定程度上也能起到防范作弊的作用，然而這種方法顯得比較片面也不能與時俱進(jìn),，必須要隨時間變化而不斷更改,。

這種基于規(guī)則的識別方法相對于其他識別方法來說執(zhí)行起來要簡單很多，而其實(shí)這種方法從某種程度上來說也是一種簡化了的決策樹算法,。

基于分類的方法

這種方法主要是根據(jù)數(shù)據(jù)挖掘分類算法對歷史數(shù)據(jù)進(jìn)行模擬,，通過構(gòu)建分類器來對點(diǎn)擊行為進(jìn)行預(yù)測。這種方法的缺點(diǎn)在于需要事先對歷史點(diǎn)擊行為進(jìn)行分類,，即標(biāo)注出作弊的數(shù)據(jù),。另外,，該方法對數(shù)據(jù)的完整性和質(zhì)量要求很高,，在我國目前的情況下，大多數(shù)網(wǎng)盟平臺還不具備滿足條件。例如訪客在廣告主網(wǎng)站的轉(zhuǎn)化數(shù)據(jù)是識別點(diǎn)擊作弊的一個非常重要的因素,，但是廣告主一般不會將真實(shí)數(shù)據(jù)反饋給聯(lián)盟平臺,，造成了這一數(shù)據(jù)的缺失，而且點(diǎn)擊數(shù)據(jù)一般也都很稀疏,，這些因素都會對分類器的實(shí)際效果造成影響,。

這里列出的第一和第二種方法在很多條件上會存在一定的相通性，因?yàn)楹芏嘁?guī)則也是根據(jù)異常值分析得出的,。

我們介紹了三種作弊識別方法,，那么在現(xiàn)實(shí)中，應(yīng)該采用哪種方法呢,。初學(xué)者在接觸數(shù)據(jù)挖掘時都會對高級挖掘算法盲目崇拜,，覺得方法越復(fù)雜，它的實(shí)際效果就越好,。但實(shí)際情況并非如此?，F(xiàn)實(shí)中很多成功的數(shù)據(jù)挖掘項目之所以成功往往并不是因?yàn)樗捎昧硕嗝磸?fù)雜多么先進(jìn)的理論，當(dāng)然,，這里并不是說高級算法不實(shí)用,，而是希望告誡每一位數(shù)據(jù)挖掘工作者，所有的數(shù)據(jù)挖掘工作都應(yīng)該緊緊圍繞業(yè)務(wù)為目的來展開,，什么方法能在保證最低成本的要求下最大程度的解決問題,，那它就是好方法。

縱觀各大廣告聯(lián)盟,，無論是Google,、百度這樣的大型聯(lián)盟平臺還是一些中小聯(lián)盟平臺，在點(diǎn)擊作弊識別上幾乎主要采用的都是基于異常值分析和基于規(guī)則的識別方法,。這些方法看起來非常簡單,，但實(shí)際效果卻很好。美國紐約大學(xué)的Alexander Tuzhilin教授在對Google的防作弊措施進(jìn)行研究后,，曾經(jīng)結(jié)合長尾分布對這個現(xiàn)象進(jìn)行解釋,。Alexander Tuzhilin教授驚訝于Google的簡單的基于規(guī)則的方法的巨大作用，所做出的解釋是大量的點(diǎn)擊作弊行為其實(shí)都是那些最常用的作弊方法,，所以只要不斷對點(diǎn)擊作弊的表現(xiàn)形式進(jìn)行分析就能夠識別出大部分作弊的規(guī)則,。這其實(shí)很好理解，比如說無論學(xué)生用什么作弊方式,，一個有經(jīng)驗(yàn)的老師總能察覺,，即使這個老師并不了解學(xué)生的那些先進(jìn)的作弊工具。因?yàn)槔蠋熞吹氖菍W(xué)生作弊時的表現(xiàn),。

采用數(shù)據(jù)挖掘的分類算法,，對于聯(lián)盟平臺在數(shù)據(jù)質(zhì)量和數(shù)據(jù)完善上的要求是比較高的,。通常來說，有Cookie的情況下作弊可能性會比較少,，而無Cookie的比例高,，作弊的可能性也會比較大；跳出率極高的情況下,，作弊的概率會比較高,，而跳出率越低，作弊的概率也越低,；點(diǎn)擊之后在網(wǎng)頁上的停留時間極短,，作弊的概率會比較高，而停留時間越長,，那么是正常流量的概率會越大,。

如果跳出率（Bounce Rate）較高，那么一個訪客進(jìn)入網(wǎng)站之后不再繼續(xù)瀏覽,，直接離開網(wǎng)站的比例就越高,。通常來說，跳出率越高,，網(wǎng)站的粘性就越低,。而對于網(wǎng)站聯(lián)盟來說，如果從聯(lián)盟網(wǎng)站上點(diǎn)擊廣告到達(dá)的廣告主頁面跳出率比較高,，那么說明引流的效果不好,，特別是無論什么廣告，點(diǎn)擊之后的跳出率都比較高,，那么我們就需要考慮該聯(lián)盟網(wǎng)站是否有作弊嫌疑還是本身就是低質(zhì)網(wǎng)站,。例如說國內(nèi)的有些閱讀和視頻網(wǎng)站，在你打開每個頁面時,，都會自動有窗口彈出,，正式說法叫做“彈窗廣告”。這些廣告往往在彈出的瞬間您就會把它關(guān)閉,，但是對于廣告主來說,，這已經(jīng)產(chǎn)生了一次點(diǎn)擊，是要收費(fèi)的,。這樣的引流方式,，雖然不一定算是作弊，但至少是低質(zhì)的流量,。

我們來看一個國內(nèi)一家網(wǎng)站聯(lián)盟公司用決策樹判斷作弊流量的案例,。

這家網(wǎng)站聯(lián)盟公司之前積累了大量關(guān)于作弊網(wǎng)站的數(shù)據(jù)。通過決策樹生成算法對于這些數(shù)據(jù)進(jìn)行學(xué)習(xí),，最后發(fā)現(xiàn)和網(wǎng)站作弊最相關(guān)的數(shù)據(jù)包含Cookie,、網(wǎng)頁停留時間,、跳出率、二跳率等,。我們來看一下生成的決策樹。如圖13所示,。

圖13 網(wǎng)盟作弊分析決策樹示意圖

從圖13 中我們可以看到?jīng)Q策樹模型示意圖中第一層是Cookie的有無,。如果有來自該網(wǎng)站較高比例的流量沒有Cookie，那么我們判斷為作弊流量的概率是比較高的,。在【數(shù)據(jù)挖掘和互聯(lián)網(wǎng)廣告①廣告作弊分析前瞻】中我們講述的Facebook案例其實(shí)就是因?yàn)?0%的流量沒有Cookie就被認(rèn)為是作弊的,。在圖13的第三層，對于流量的統(tǒng)計,，如果跳出率比較高,，那么在跳出率到達(dá)令人恐怖的90%時，我們就不需要證明該網(wǎng)站是否是作弊網(wǎng)站了,。即使該網(wǎng)站并沒有作弊,，如此高的跳出率也使我們做出排除該網(wǎng)站的低質(zhì)流量的決定。同樣,，如果二跳率比較高,，但是平均停留時間在5s以下的，該網(wǎng)站的流量或者是低質(zhì)或者是作弊流量,，也是不可取的,。

節(jié)選譚磊所著的自《大數(shù)據(jù)挖掘》一書。

系列文章：

一小時了解數(shù)據(jù)挖掘①：解析常見的大數(shù)據(jù)應(yīng)用案例

一小時了解數(shù)據(jù)挖掘②：分類算法的應(yīng)用和成熟案例解析

一小時了解數(shù)據(jù)挖掘③：詳解大數(shù)據(jù)挖掘の分類技術(shù)

一小時了解數(shù)據(jù)挖掘④：商務(wù)智能原理解讀の數(shù)據(jù)挖掘九大定律

一小時了解數(shù)據(jù)挖掘⑤數(shù)據(jù)挖掘步驟＆常用的聚類,、決策樹和CRISP-DM概念

一小時了解數(shù)據(jù)挖掘⑥數(shù)據(jù)挖掘的評估和結(jié)果可視化展示

數(shù)據(jù)挖掘和互聯(lián)網(wǎng)廣告①廣告作弊分析前瞻

End.

轉(zhuǎn)載請注明來自36大數(shù)據(jù)（)：36大數(shù)據(jù) ? 數(shù)據(jù)挖掘和互聯(lián)網(wǎng)廣告②如何應(yīng)對網(wǎng)盟廣告作弊

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn),。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請點(diǎn)擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：邊度ynpvacv5iy > 《競價》

舉報/認(rèn)領(lǐng)