久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

數(shù)據(jù)挖掘和互聯(lián)網(wǎng)廣告②如何應(yīng)對網(wǎng)盟廣告作弊 | 36大數(shù)據(jù)

 邊度ynpvacv5iy 2017-01-17

36大數(shù)據(jù)

接上篇:數(shù)據(jù)挖掘和互聯(lián)網(wǎng)廣告①廣告作弊分析前瞻

網(wǎng)站聯(lián)盟廣告上的數(shù)據(jù)挖掘

在網(wǎng)站聯(lián)盟廣告上存在大量數(shù)據(jù),再加上聯(lián)盟網(wǎng)站上用戶的訪問信息,,每天都會產(chǎn)生海量的數(shù)據(jù),。

通過之文章中提及的網(wǎng)站日志分析,我們可以掌握到很多與網(wǎng)站和訪客相關(guān)的信息,。再進(jìn)一步分析訪客在網(wǎng)站主和訪客點(diǎn)擊廣告的后續(xù)行為,,我們可以對訪客的屬性,包括年齡,、性別,、學(xué)歷、收入,、籍貫和興趣愛好等各種信息作出大致的判斷,。訪客屬性的判斷對于每個人不是100%準(zhǔn)確,但是我們做數(shù)據(jù)挖掘本來就是在統(tǒng)計學(xué)的范疇之上的,。如果一個判斷的準(zhǔn)確度在75%,,那么我們可以認(rèn)為這個判斷做的還是比較準(zhǔn)的。如果在90%的情況下是正確的,,那么我們可以認(rèn)為這個判斷是相當(dāng)精準(zhǔn)的,。

數(shù)據(jù)助力網(wǎng)盟廣告

網(wǎng)站聯(lián)盟廣告本身包含了大量的數(shù)據(jù),包括所有的網(wǎng)站內(nèi)容信息,、行業(yè),、領(lǐng)域、每天的平均訪問量,、Alexa排名,、展示的廣告內(nèi)容、廣告整體展示次數(shù),、廣告點(diǎn)擊次數(shù),、訪客信息等。而對于點(diǎn)擊之后的用戶行為分析,,我們還要有更多的信息,,包括跳出率,、二跳率、活躍時間,、停留時間,、轉(zhuǎn)化率等。

通過數(shù)據(jù)分析廣告投放質(zhì)量

在本節(jié)中我們主要是看如何通過數(shù)據(jù)信息來分析廣告投放質(zhì)量,。我們首先來看跳出率和二跳率,。

  • 跳出率(Bounce Rate)是互聯(lián)網(wǎng)上的一個常用指標(biāo),指的是進(jìn)入某一個網(wǎng)站之后不再繼續(xù)瀏覽,,而直接離開網(wǎng)站的訪客比例,。通常來說,跳出率越高,,網(wǎng)站的粘性就越低,。
  • 當(dāng)網(wǎng)站頁面展開后,用戶在頁面上產(chǎn)生的首次點(diǎn)擊被稱為“二跳”,,二跳的次數(shù)即為“二跳量”,。二跳量與瀏覽量的比值稱為頁面的二跳率。

跳出率和二跳率是用來衡量外部流量質(zhì)量的重要指標(biāo),。簡單來說,,跳出率越低越好,而二跳率是越高越好的,。0%的跳出率和100%的二跳率當(dāng)然是最好的,,但是這樣的數(shù)字只是在理論中存在。在實(shí)際應(yīng)用中,,50%的跳出率和50%的二跳率就已經(jīng)很值得慶幸了,。

如圖1是一個網(wǎng)站某個時間段的瀏覽量和跳出率列表,為說明簡單,,這里并沒有列出包括來源,、二跳率和停留時間等其他信息。我們可以從圖中看到,,跳出率平均在30%到50%左右,,高于普通的企業(yè)網(wǎng)站,說明頁面的優(yōu)化和內(nèi)容做得還是可以的,。其中跳出率最高的頁面是告訴客戶聯(lián)絡(luò)方式的頁面:http://www./contact/,,而跳出率最低的兩個頁面都是臨時性的優(yōu)惠促銷信息。

圖1:頁面跳出率示意圖

圖1:頁面跳出率示意圖

我們之前提到過的Google分析(Google Analytics)工具是在國外使用比較廣泛的一個網(wǎng)站分析工具,。當(dāng)網(wǎng)站主在他們的網(wǎng)站上布置了Google分析的代碼之后,,下面這些信息會很直觀顯現(xiàn)在你面前:

  • 多少訪客在什么時間段訪問你的網(wǎng)站;
  • 訪客訪問網(wǎng)站的頻率是怎樣的,;
  • 網(wǎng)站中哪些頁面是吸引最多用戶的,;
  • 用戶采用哪些搜索關(guān)鍵詞(組合)來到網(wǎng)站,;
  • 用戶的來源主要來自哪些地方。

在中國,,因?yàn)镚oogle網(wǎng)站訪問不穩(wěn)定,,這個工具的使用率被大大降低了。如果你的公司里需要做網(wǎng)站分析,,而網(wǎng)站的服務(wù)器主要是在中國,,那么筆者建議還是選取其他類似的站長工具,雖然功能沒有Google分析這么強(qiáng)大,。

Google分析除了訪問的穩(wěn)定性之外,,還有一些其他的限制。以下信息你可以從Google的官方網(wǎng)站中獲得http://support.google.com/analytics/,。

  • 最關(guān)鍵的問題是Google不保證在什么時間點(diǎn)把數(shù)據(jù)放到報告中,。一般來說在2小時內(nèi)訪客數(shù)據(jù)能在網(wǎng)站報告中體現(xiàn),但有時會延遲至48小時,。如果你對網(wǎng)站數(shù)據(jù)的實(shí)時性要求很高,那么這個延遲是無法接受的,。
  • 如果網(wǎng)站平均每個月的訪問量超過1000萬PV,,那么Google不保證超出部分會被處理。
  • 因?yàn)镚oogle分析是免費(fèi)的,,所以Google不提供任何形式的客戶服務(wù)熱線,。如果你的網(wǎng)站分析系統(tǒng)或者數(shù)據(jù)出了什么問題,那么只能自求多福了,。

關(guān)于訪客的信息包括訪客的年齡,、性別、學(xué)歷等可以從大量的網(wǎng)頁瀏覽記錄和網(wǎng)絡(luò)行為中識別出來,。如圖2至圖4是我們根據(jù)一個月的數(shù)據(jù)統(tǒng)計的某一個聯(lián)盟網(wǎng)站的訪客信息,。圖2中顯示的是網(wǎng)站訪客性別比例;圖3顯示的是網(wǎng)站訪客的年齡分布,;圖4顯示的是網(wǎng)站訪客的學(xué)歷分布,。

36大數(shù)據(jù)

上面這些圖中的數(shù)據(jù)對于廣告商來說是非常有價值的。如某一款針對男性的產(chǎn)品在這個網(wǎng)站上投放廣告的價值會比較高,,因?yàn)樵L客中有60%是男性,;但是如果一款產(chǎn)品是針對高端人群的,就不太適合在這個網(wǎng)站上做投放,,因?yàn)橹挥屑s16%的人群具有本科或者以上的學(xué)歷,。

通過定向和優(yōu)化提高廣告投放質(zhì)量

除了對人群進(jìn)行分析之外,我們還可以根據(jù)時間段,、地區(qū)和訪問來源區(qū)分,,使廣告投放更加精準(zhǔn),。而這樣的區(qū)分又被稱為定向,所以我們對于訪問端可以做人群定向,、時間定向和區(qū)域定向,。

另外,針對投放廣告的網(wǎng)站本身和網(wǎng)站內(nèi)容我們也可以做選擇,,這樣的選擇稱為內(nèi)容定向,。下面我們來看一個定向廣告投放的實(shí)例。

這是我們操作過的某個針對上班族的廣告,,我們對于客戶的網(wǎng)盟廣告投放做以下的限制:

  • 主要投放在中國經(jīng)濟(jì)最發(fā)達(dá)的地區(qū):北京,、上海以及沿海的經(jīng)濟(jì)發(fā)達(dá)地區(qū)。
  • 只在上班的黃金時間(早上10點(diǎn)到下午6點(diǎn))投放,。
  • 不接受網(wǎng)吧或者游戲網(wǎng)站流量的廣告投放,。

當(dāng)然,這樣的限制會導(dǎo)致一部分潛在用戶的流失,,我們也可以視廣告主的預(yù)算和效果要求而調(diào)整投放計劃,。如果在上面這個例子中的廣告主有充分的預(yù)算,那么我們可以把有上述限制的投放做成一個廣告計劃,,設(shè)定每天一定的廣告投入預(yù)算,,而另外開設(shè)一個全網(wǎng)全時間段的廣告計劃來接受輔助流量,設(shè)置較少的預(yù)算作為前一個廣告投放計劃的補(bǔ)充,。

綜合該廣告主一周的流量,,我們得到如圖5所示的地域分布圖。主要統(tǒng)計廣告被顯示抓取到的這部分訪客的地域來源,。即分析比較分布在不同地域的訪客行為,。

圖5 地域分布示意圖

圖5 地域分布示意圖

從圖5中我們可以看出,該廣告的瀏覽量來源廣東省約占15%,,浙江,、江蘇和山東其次,約各占7%~8%左右,。來自中國經(jīng)濟(jì)發(fā)達(dá)的沿海地區(qū)的流量占據(jù)整張流量圖的50%以上,,證明我們的投放計劃設(shè)置還是比較合理的。

互聯(lián)網(wǎng)上網(wǎng)站的種類繁多,,大致的種類有門戶,、IT類網(wǎng)站、新聞網(wǎng)站,、財經(jīng)網(wǎng)站,、房地產(chǎn)網(wǎng)站、游戲網(wǎng)站,、汽車網(wǎng)站,、生活服務(wù),、地方網(wǎng)站、社區(qū)網(wǎng)站,、視頻網(wǎng)站,、女性網(wǎng)站、醫(yī)療健康和親子母嬰等,。圖6是該廣告主這一周投放的媒體分布圖,。我們可以看到在垂直類網(wǎng)站上的投放占據(jù)最高的比例,其次是新聞媒體類網(wǎng)站,、生活與服務(wù)類網(wǎng)站和音樂影視類網(wǎng)站,。這個流量分布也可以說明我們針對上班族的投放策略大致是正確的。

圖6 媒體種類分布示意圖

圖6 媒體種類分布示意圖

我們再來看一個高端母嬰類產(chǎn)品的廣告主,。該廣告主是從訪客的興趣點(diǎn)入手,,如圖7就展示了他們一個典型客戶對于網(wǎng)站內(nèi)容的興趣特征。而每個網(wǎng)站也都有一張類似于圖6的表格標(biāo)識出該網(wǎng)站的普通訪客的興趣特征,。通過典型客戶的興趣特征和網(wǎng)站平均訪客的興趣特征之間做的相似比較算法,,我們就可以得出該網(wǎng)站的平均訪客是否和該廣告主的典型客戶興趣一致,從而得出是否要在該網(wǎng)站上投放廣告的結(jié)論,。

我們再來看該廣告主某一天的廣告瀏覽情況,。如圖8所示。

36大數(shù)據(jù)

網(wǎng)站聯(lián)盟上的這些數(shù)據(jù)對于廣告商和網(wǎng)站主都是很有價值的,。一方面對于廣告主來說,他們可以選擇針對他們目標(biāo)人群的網(wǎng)站群來做投放,;另一方面對于網(wǎng)站主,,他們可以針對廣告主做優(yōu)化,盡量提高點(diǎn)擊率以提高總體收入,。我們來看一個廣告主在網(wǎng)站聯(lián)盟上一個階段投放廣告的數(shù)據(jù)分析,,如圖9所示。

圖9 網(wǎng)盟廣告投放轉(zhuǎn)化漏斗示意圖

圖9 網(wǎng)盟廣告投放轉(zhuǎn)化漏斗示意圖

這個廣告主所有的廣告在網(wǎng)站聯(lián)盟各個位置以各種形式一共展示了3,534,727次,,被點(diǎn)擊了2686次,,對應(yīng)的點(diǎn)擊率是0.076%。而這些點(diǎn)擊為它的網(wǎng)站一共帶來1912次訪問,。這些訪問的結(jié)果是319次在線咨詢,。這次投放的效果總結(jié)如圖10所示。

圖10--廣告投放效果總結(jié)

圖10–廣告投放效果總結(jié)

從表格中可以看出,,這次投放整體的效果還是不錯的,。在網(wǎng)站聯(lián)盟這種廣告形式下,展現(xiàn)量本身是不收費(fèi)的,。這里的ACP(Average Click Price)是平均點(diǎn)擊價格,。

廣告成本=ACP×點(diǎn)擊量

所以該客戶的總體費(fèi)用是3035.18,。

轉(zhuǎn)化成本=廣告成本/轉(zhuǎn)化次數(shù)

平均轉(zhuǎn)化成本,也就是獲取每一個客戶的成本是9.515人民幣,。

請讀者注意的是,,剛才我們列出的點(diǎn)擊量乃至9.4節(jié)中所有關(guān)于網(wǎng)站聯(lián)盟的訪客數(shù)據(jù)都是獨(dú)立訪客的點(diǎn)擊量和獨(dú)立訪客的統(tǒng)計信息。對網(wǎng)站信息統(tǒng)計來說,,獨(dú)立訪客指的是在一天之內(nèi)(00:00~24:00)訪問網(wǎng)站的上網(wǎng)計算機(jī)數(shù)量(以Cookie為依據(jù)),。

一天內(nèi)同一臺計算機(jī)多次點(diǎn)擊網(wǎng)站聯(lián)盟的加盟網(wǎng)站的同一廣告只被計算1次。

我們再來看下這次投放中在小說閱讀網(wǎng)站投放廣告的效果,,如圖11所示,。

圖9和圖11展示的是同一次投放中廣告出現(xiàn)在全部網(wǎng)站和其中在小說閱讀網(wǎng)站上的相應(yīng)點(diǎn)擊率、訪問量和轉(zhuǎn)化率的對比,。這里我們可以看到,,點(diǎn)擊率0.195%,要比平均值高出兩倍,,而轉(zhuǎn)化率3.5%只有平均值的五分之一左右,。

再分析原因,可能是因?yàn)樵搹V告主的目標(biāo)人群和小說閱讀網(wǎng)站的瀏覽人群不一致造成的,。為了盡量提高投資回報率,,作為調(diào)整的一個步驟,該廣告主下一個階段的廣告投放會把小說閱讀類網(wǎng)站排除在投放媒體之外,。

圖11網(wǎng)盟廣告投放小說閱讀網(wǎng)站轉(zhuǎn)化漏斗示意圖

圖11網(wǎng)盟廣告投放小說閱讀網(wǎng)站轉(zhuǎn)化漏斗示意圖

除了上面這些信息以外,,還有一些數(shù)據(jù)分析報表可以用來分析廣告主和網(wǎng)站主的具體廣告投放數(shù)據(jù)信息。比如有以下這些報表,。

時段報表:以常規(guī)分析的數(shù)據(jù)為基礎(chǔ),,根據(jù)用戶自行選取的時間劃分方式,進(jìn)行時間切片式的統(tǒng)計,。這樣的統(tǒng)計有利于統(tǒng)計數(shù)據(jù)的定向分析,,幫助用戶更精確地分析流量數(shù)據(jù)在時間軸上的縱向分布。統(tǒng)計廣告主網(wǎng)站按月,、按周,、按日或者按小時段的流量分析情況。

頻次報表:頻次是指廣告在特定時間內(nèi)被顯示的次數(shù),。比如說一個廣告在一天中,,5個獨(dú)立訪客觀看,每個人觀看了廣告2次,,其中每人產(chǎn)生了一次點(diǎn)擊,,那么這則廣告今日2頻次顯示數(shù)為10,2頻次點(diǎn)擊數(shù)為5,2頻次點(diǎn)擊率為:5/10=50%,。

  • 點(diǎn)擊決策報表:點(diǎn)擊決策時間指廣告從展現(xiàn)到受眾點(diǎn)擊廣告之間的時間差,。
  • 搜索引擎流量分析:在流量來源分類統(tǒng)計數(shù)據(jù)的基礎(chǔ)上,進(jìn)一步地對從搜索引擎而來的流量進(jìn)行分析,,給出指定時間范圍內(nèi)流量趨勢,、各大搜索引擎的流量數(shù)據(jù)對比,并可選擇查看時間范圍內(nèi)的每日明細(xì)或?qū)蝹€搜索引擎的流量按來源關(guān)鍵字查看數(shù)據(jù),。
  • 廣告效果分析報表:統(tǒng)計由各媒體廣告投放帶到目標(biāo)網(wǎng)站的整體流量情況,。可以通過不同媒體數(shù)據(jù)的比較從而區(qū)分出媒體的優(yōu)劣度,。
  • 頁面轉(zhuǎn)化:統(tǒng)計由各媒體廣告投放帶到網(wǎng)站目標(biāo)頁面的流量情況及轉(zhuǎn)化效果,。通過頁面轉(zhuǎn)化能了解到網(wǎng)站目標(biāo)頁面的轉(zhuǎn)化率以及廣告顯示點(diǎn)擊的轉(zhuǎn)化情況。
  • 目標(biāo)渠道分析:“渠道”是指訪客在達(dá)到目標(biāo)轉(zhuǎn)換之前必須通過的一系列頁面(只針對廣告主網(wǎng)站內(nèi)的轉(zhuǎn)化),。我們跟蹤導(dǎo)向目標(biāo)的各網(wǎng)頁的訪客流失率,,而此報表名稱來源于到達(dá)每個頁面的訪客圖表。第一頁顯示的訪客數(shù)量最多,,在后續(xù)頁面上,,由于訪客在到達(dá)最終目標(biāo)之前會不斷離開,因此人數(shù)也逐漸減少,。
  • 覆蓋度報表:覆蓋度是在特定排期和時間段內(nèi)所覆蓋的絕對唯一訪客,。覆蓋度報表統(tǒng)計的是根據(jù)Cookie識別,統(tǒng)計在一定時間段內(nèi)觀看廣告的唯一絕對訪客(另外也可統(tǒng)計廣告主網(wǎng)站的唯一絕對訪客),。
  • 覆蓋度報表:統(tǒng)計不同排期和媒體在選擇時段內(nèi)擁有的重復(fù)訪客或者是相同排期不同頻道在選擇時間內(nèi)擁有的重復(fù)訪客,。根據(jù)Cookie來判定重復(fù)訪客。
  • 影響度報表:廣告影響度是指廣告投放結(jié)束后一段時間內(nèi)廣告的顯示,、點(diǎn)擊以及后續(xù)行為分析的數(shù)據(jù)追蹤,。根據(jù)Cookie追蹤那些訪客的后續(xù)行為,也可以判斷這些Cookie的廣告投放結(jié)束后是通過何種途徑過來的,。此報表只顯示廣告投放結(jié)束到所選時間點(diǎn)的數(shù)據(jù),比如說廣告投放是10月5日結(jié)束,,所選時間點(diǎn)10月10日,,那么我們只統(tǒng)計10月5日至10日之間的廣告影響度。充分利用這些報表可以使我們的廣告投放更有針對性,,更有效果,,因而廣告投放的最終性價比可以達(dá)到最高。

如何應(yīng)對網(wǎng)盟廣告作弊

在網(wǎng)站聯(lián)盟上大規(guī)模的點(diǎn)擊作弊手段五花八門,,但是基本上可以分成兩類,,一種是通過點(diǎn)擊機(jī)器人,另一種是雇傭廉價勞動力的人為點(diǎn)擊。道高一尺魔高一丈,,應(yīng)該說現(xiàn)今的作弊技術(shù)比以前的形式更加復(fù)雜,,而偵查的難度也有所增加。我們隨便在網(wǎng)上搜一下,,就可以看到類似圖12的信息,。網(wǎng)站主只需要花很少的錢,就可以用作弊軟件在他們放置谷歌,、百度網(wǎng)盟,、騰訊搜搜的頁面上自動點(diǎn)擊廣告來增加收入。

圖12-網(wǎng)盟作弊示意圖

圖12-網(wǎng)盟作弊示意圖

如圖12所示,,點(diǎn)擊作弊的方式多種多樣,。而網(wǎng)站聯(lián)盟識別點(diǎn)擊作弊的方法也隨著作弊手段的變化而不斷發(fā)展,已經(jīng)有幾類行之有效的成熟方法,。各家網(wǎng)站聯(lián)盟都積累了大量的相關(guān)數(shù)據(jù),,但是因?yàn)閿?shù)據(jù)涉及多個概念層次的維度,所以人工探測基本不可行,。應(yīng)該來說各家網(wǎng)站聯(lián)盟公司的作弊識別方法并不相同,,而且各網(wǎng)盟也不會把自己防作弊方法的具體細(xì)節(jié)公布出來。然而,,主要的防作弊方法無外乎以下三類:基于異常組分析的方法,;基于規(guī)則的識別方法;基于分類的方法,。

基于異常值分析的方法

異常值(Anomaly)的定義是基于某種度量,,異常值是指樣本中的個別值,其數(shù)值明顯偏離它(或它們)所屬樣本的其余觀測值,。網(wǎng)絡(luò)作弊行為即使行為再隱蔽(Cloaking),,和普通網(wǎng)民的人工行為還是有相當(dāng)不同的。在網(wǎng)站聯(lián)盟上用來識別網(wǎng)站的基于異常值分析的方法,,根據(jù)不同理論的異常值檢測方法,,可以分成以下幾種:

基于統(tǒng)計學(xué)的異常值檢測

在統(tǒng)計學(xué)中,假設(shè)數(shù)據(jù)集服從正態(tài)分布,,那些與均值之間的偏差達(dá)到或超過3倍標(biāo)準(zhǔn)差的數(shù)據(jù)對象就可稱之為異常值,。根據(jù)這個定律,可以衍生出一套點(diǎn)擊欺詐檢測方案,。我們對點(diǎn)擊率,、轉(zhuǎn)化率、對話時間差這些單個指標(biāo)都進(jìn)行分析,,根據(jù)不同行業(yè)類型的網(wǎng)站和廣告做了統(tǒng)計分析,,如果某個網(wǎng)站一定時間段內(nèi)的數(shù)據(jù)超出標(biāo)準(zhǔn),即可懷疑點(diǎn)擊欺詐。

基于距離和密度的異常值檢測

基于統(tǒng)計分布的方法有一個缺陷,,它只能檢測單個變量,,即每次檢測只能局限于單個指標(biāo),此時若采用基于距離和基于密度的方法,,就可結(jié)合多指標(biāo)進(jìn)行分析,。我們目前主要是針對點(diǎn)擊率、轉(zhuǎn)化率,、對話時間差這些單個指標(biāo)做基于統(tǒng)計學(xué)的分析,,但是也可以把這三個指標(biāo)綜合起來用基于距離的方法做分析。

基于偏差的異常值檢測

該方法的基本思想是通過檢查數(shù)據(jù)的主要特征來確定異常對象,。如果一個對象的特征過分偏離給定的數(shù)據(jù)特征,,則該對象被認(rèn)為是異常對象。在廣告作弊算法中我們主要關(guān)注的是OLAP 數(shù)據(jù)立方體方法,。我們可以利用在大規(guī)模的多維數(shù)據(jù)中采用數(shù)據(jù)立方體(Data Cube)確定反常區(qū)域,,如果一個立方體的單元值明顯不同于根據(jù)統(tǒng)計模型得到的期望值,該單元值被認(rèn)為是一個孤立點(diǎn),。結(jié)合點(diǎn)擊欺詐識別分析,,基于偏差的方法最主要的是點(diǎn)擊流分析,通過點(diǎn)擊流分析,,我們可以發(fā)現(xiàn)那些不規(guī)則的點(diǎn)擊過程,,這些自然可以作為點(diǎn)擊欺詐的懷疑對象。

基于規(guī)則的識別方法

一個對行業(yè)熟悉的聯(lián)盟平臺商對各種作弊手段必然了如指掌,,通常能夠根據(jù)經(jīng)驗(yàn)設(shè)定一些作弊防范規(guī)則,,比如:

  • 同一IP的用戶單日點(diǎn)擊次數(shù)超過多少即可作為作弊;
  • 如果某個廣告位的點(diǎn)擊率突然大幅增加也可能存在作弊,。

制定防作弊規(guī)則的優(yōu)點(diǎn)是方便,,在一定程度上也能起到防范作弊的作用,然而這種方法顯得比較片面也不能與時俱進(jìn),,必須要隨時間變化而不斷更改,。

這種基于規(guī)則的識別方法相對于其他識別方法來說執(zhí)行起來要簡單很多,而其實(shí)這種方法從某種程度上來說也是一種簡化了的決策樹算法,。

基于分類的方法

這種方法主要是根據(jù)數(shù)據(jù)挖掘分類算法對歷史數(shù)據(jù)進(jìn)行模擬,,通過構(gòu)建分類器來對點(diǎn)擊行為進(jìn)行預(yù)測。這種方法的缺點(diǎn)在于需要事先對歷史點(diǎn)擊行為進(jìn)行分類,,即標(biāo)注出作弊的數(shù)據(jù),。另外,,該方法對數(shù)據(jù)的完整性和質(zhì)量要求很高,,在我國目前的情況下,大多數(shù)網(wǎng)盟平臺還不具備滿足條件。例如訪客在廣告主網(wǎng)站的轉(zhuǎn)化數(shù)據(jù)是識別點(diǎn)擊作弊的一個非常重要的因素,,但是廣告主一般不會將真實(shí)數(shù)據(jù)反饋給聯(lián)盟平臺,,造成了這一數(shù)據(jù)的缺失,而且點(diǎn)擊數(shù)據(jù)一般也都很稀疏,,這些因素都會對分類器的實(shí)際效果造成影響,。

這里列出的第一和第二種方法在很多條件上會存在一定的相通性,因?yàn)楹芏嘁?guī)則也是根據(jù)異常值分析得出的,。

我們介紹了三種作弊識別方法,,那么在現(xiàn)實(shí)中,應(yīng)該采用哪種方法呢,。初學(xué)者在接觸數(shù)據(jù)挖掘時都會對高級挖掘算法盲目崇拜,,覺得方法越復(fù)雜,它的實(shí)際效果就越好,。但實(shí)際情況并非如此?,F(xiàn)實(shí)中很多成功的數(shù)據(jù)挖掘項目之所以成功往往并不是因?yàn)樗捎昧硕嗝磸?fù)雜多么先進(jìn)的理論,當(dāng)然,,這里并不是說高級算法不實(shí)用,,而是希望告誡每一位數(shù)據(jù)挖掘工作者,所有的數(shù)據(jù)挖掘工作都應(yīng)該緊緊圍繞業(yè)務(wù)為目的來展開,,什么方法能在保證最低成本的要求下最大程度的解決問題,,那它就是好方法。

縱觀各大廣告聯(lián)盟,,無論是Google,、百度這樣的大型聯(lián)盟平臺還是一些中小聯(lián)盟平臺,在點(diǎn)擊作弊識別上幾乎主要采用的都是基于異常值分析和基于規(guī)則的識別方法,。這些方法看起來非常簡單,,但實(shí)際效果卻很好。美國紐約大學(xué)的Alexander Tuzhilin教授在對Google的防作弊措施進(jìn)行研究后,,曾經(jīng)結(jié)合長尾分布對這個現(xiàn)象進(jìn)行解釋,。Alexander Tuzhilin教授驚訝于Google的簡單的基于規(guī)則的方法的巨大作用,所做出的解釋是大量的點(diǎn)擊作弊行為其實(shí)都是那些最常用的作弊方法,,所以只要不斷對點(diǎn)擊作弊的表現(xiàn)形式進(jìn)行分析就能夠識別出大部分作弊的規(guī)則,。這其實(shí)很好理解,比如說無論學(xué)生用什么作弊方式,,一個有經(jīng)驗(yàn)的老師總能察覺,,即使這個老師并不了解學(xué)生的那些先進(jìn)的作弊工具。因?yàn)槔蠋熞吹氖菍W(xué)生作弊時的表現(xiàn),。

采用數(shù)據(jù)挖掘的分類算法,,對于聯(lián)盟平臺在數(shù)據(jù)質(zhì)量和數(shù)據(jù)完善上的要求是比較高的,。通常來說,有Cookie的情況下作弊可能性會比較少,,而無Cookie的比例高,,作弊的可能性也會比較大;跳出率極高的情況下,,作弊的概率會比較高,,而跳出率越低,作弊的概率也越低,;點(diǎn)擊之后在網(wǎng)頁上的停留時間極短,,作弊的概率會比較高,而停留時間越長,,那么是正常流量的概率會越大,。

如果跳出率(Bounce Rate)較高,那么一個訪客進(jìn)入網(wǎng)站之后不再繼續(xù)瀏覽,,直接離開網(wǎng)站的比例就越高,。通常來說,跳出率越高,,網(wǎng)站的粘性就越低,。而對于網(wǎng)站聯(lián)盟來說,如果從聯(lián)盟網(wǎng)站上點(diǎn)擊廣告到達(dá)的廣告主頁面跳出率比較高,,那么說明引流的效果不好,,特別是無論什么廣告,點(diǎn)擊之后的跳出率都比較高,,那么我們就需要考慮該聯(lián)盟網(wǎng)站是否有作弊嫌疑還是本身就是低質(zhì)網(wǎng)站,。例如說國內(nèi)的有些閱讀和視頻網(wǎng)站,在你打開每個頁面時,,都會自動有窗口彈出,,正式說法叫做“彈窗廣告”。這些廣告往往在彈出的瞬間您就會把它關(guān)閉,,但是對于廣告主來說,,這已經(jīng)產(chǎn)生了一次點(diǎn)擊,是要收費(fèi)的,。這樣的引流方式,,雖然不一定算是作弊,但至少是低質(zhì)的流量,。

我們來看一個國內(nèi)一家網(wǎng)站聯(lián)盟公司用決策樹判斷作弊流量的案例,。

這家網(wǎng)站聯(lián)盟公司之前積累了大量關(guān)于作弊網(wǎng)站的數(shù)據(jù)。通過決策樹生成算法對于這些數(shù)據(jù)進(jìn)行學(xué)習(xí),,最后發(fā)現(xiàn)和網(wǎng)站作弊最相關(guān)的數(shù)據(jù)包含Cookie,、網(wǎng)頁停留時間,、跳出率、二跳率等,。我們來看一下生成的決策樹。如圖13所示,。

圖13 網(wǎng)盟作弊分析決策樹示意圖

圖13 網(wǎng)盟作弊分析決策樹示意圖

從圖13 中我們可以看到?jīng)Q策樹模型示意圖中第一層是Cookie的有無,。如果有來自該網(wǎng)站較高比例的流量沒有Cookie,那么我們判斷為作弊流量的概率是比較高的,。在【數(shù)據(jù)挖掘和互聯(lián)網(wǎng)廣告①廣告作弊分析前瞻】中我們講述的Facebook案例其實(shí)就是因?yàn)?0%的流量沒有Cookie就被認(rèn)為是作弊的,。在圖13的第三層,對于流量的統(tǒng)計,,如果跳出率比較高,,那么在跳出率到達(dá)令人恐怖的90%時,我們就不需要證明該網(wǎng)站是否是作弊網(wǎng)站了,。即使該網(wǎng)站并沒有作弊,,如此高的跳出率也使我們做出排除該網(wǎng)站的低質(zhì)流量的決定。同樣,,如果二跳率比較高,,但是平均停留時間在5s以下的,該網(wǎng)站的流量或者是低質(zhì)或者是作弊流量,,也是不可取的,。

節(jié)選譚磊所著的自《大數(shù)據(jù)挖掘》一書。

系列文章:

一小時了解數(shù)據(jù)挖掘①:解析常見的大數(shù)據(jù)應(yīng)用案例

 一小時了解數(shù)據(jù)挖掘②:分類算法的應(yīng)用和成熟案例解析

一小時了解數(shù)據(jù)挖掘③:詳解大數(shù)據(jù)挖掘の分類技術(shù)

一小時了解數(shù)據(jù)挖掘④:商務(wù)智能原理解讀の數(shù)據(jù)挖掘九大定律

一小時了解數(shù)據(jù)挖掘⑤數(shù)據(jù)挖掘步驟&常用的聚類,、決策樹和CRISP-DM概念

一小時了解數(shù)據(jù)挖掘⑥數(shù)據(jù)挖掘的評估和結(jié)果可視化展示

數(shù)據(jù)挖掘和互聯(lián)網(wǎng)廣告①廣告作弊分析前瞻

End.

轉(zhuǎn)載請注明來自36大數(shù)據(jù)():36大數(shù)據(jù) ? 數(shù)據(jù)挖掘和互聯(lián)網(wǎng)廣告②如何應(yīng)對網(wǎng)盟廣告作弊

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn),。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請點(diǎn)擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多