本文整理自騰訊機(jī)器學(xué)習(xí)高級研究員易玲玲在ArchSummit 北京 2016的演講?;貜?fù)關(guān)鍵詞「機(jī)器」,,下載完整版PPT。 基本上所有的互聯(lián)網(wǎng)公司都有其廣告投放平臺,,這是給廣告主投放廣告的一個頁面,。廣告主可以通過廣告提交頁面提交自己的廣告需求,后臺會給廣告主圈定一部分潛在用戶,,這個就是我們稱為Lookalike的模塊,。 一般的Lookalike會怎么來做呢?它會有兩種做法:第一種就是顯性的定位,,廣告主根據(jù)用戶的標(biāo)簽直接定位,,比如說通過年齡、性別,、地域這樣的標(biāo)簽來直接圈定一部分用戶進(jìn)行投放,。這個時候我們的技術(shù)支持就是后臺的用戶畫像的挖掘。這其實是廣告主對自己產(chǎn)品的理解,,圈出目標(biāo)用戶,。 這種人工定義的方法,可能不夠精準(zhǔn),,或者可能通過年齡和地域指定的用戶量很大,,需要做精準(zhǔn)篩選,這個時候,,需要lookalike的第二種做法,,通過一個機(jī)器學(xué)習(xí)的模型,來定位廣告主的潛在用戶,。 這個問題怎么轉(zhuǎn)化成一個機(jī)器學(xué)習(xí)的模型呢,?學(xué)習(xí)樣本是什么? 優(yōu)化目標(biāo)是什么?此時,,廣告主提交一批客戶名單,,我們稱之為種子用戶,,它作為機(jī)器學(xué)習(xí)的正樣本。負(fù)樣本我們會從非種子用戶,,或者是說平臺會積累歷史的一些相似的廣告作為負(fù)樣本,,這個問題就轉(zhuǎn)化為一個二分類的模型,正負(fù)樣本組成學(xué)習(xí)的樣本,,訓(xùn)練模型之后,,利用模型結(jié)構(gòu)對活躍用戶進(jìn)行打分,最后得到廣告主需要的目標(biāo)人群,。 回顧一下這個流程,,廣告主會提供他已有的客戶名單作為種子用戶,這是機(jī)器學(xué)習(xí)的正樣本,,然后會從活躍用戶里面(非種子用戶)或者歷史我們已經(jīng)積累了相似的廣告負(fù)反饋的用戶,,作為負(fù)樣本,訓(xùn)練一個二分類的模型,,利用模型結(jié)果對這個用戶進(jìn)行打分排序,,取出廣告主需要的目標(biāo)數(shù)據(jù)的用戶。 對于特征和模型算法,,不同的公司各有差異:特征取決于公司有哪些數(shù)據(jù),;在模型算法上,F(xiàn)acebook 和Google對外公布的說法就是一個預(yù)測模型,,Yahoo發(fā)表過幾篇論文,詳細(xì)介紹過它的算法,,比如LR,,Linear SVM,GBDT都有嘗試,,論文里面提到的是GBDT的效果比較好,。下圖列出了不同公司的做法,供大家參考,。 微信朋友圈的廣告怎么進(jìn)行潛在用戶的定位呢,?顯然,我們也可以把它轉(zhuǎn)化成二分類的預(yù)估模型來做,。然而有沒有一個更好的思路呢,?我們可以從微信朋友圈廣告這個問題本身先做一些探索分析。 微信朋友圈的廣告和其他的廣告平臺差異點在哪里,?下圖是微信朋友圈的廣告形式,,比如萬科投廣告,我們會以他的公眾號在用戶的朋友圈里出現(xiàn),。 如果我和我的朋友同時收到這個廣告的時候,,它會形成用戶之間的互動,。大家也可以回想一下,大家有沒有因為某個好朋友對一個廣告進(jìn)行了點贊或者評論,,而引起你對這個廣告的關(guān)注呢,?其實很多時候都會的。 我們再看看數(shù)據(jù),,大家可以看下面的數(shù)據(jù)圖表,,這個橫軸是與廣告進(jìn)行互動的好友個數(shù),縱軸是用戶對廣告的關(guān)注率(包括查看,,點贊或者評論),,我們發(fā)現(xiàn)這個關(guān)注率會隨著好友數(shù)的增加而上升。這個數(shù)據(jù)拐點差不多是3到5個好友,。我們再深入思考一下這個數(shù)據(jù)背后的原因,,為什么會出現(xiàn)這種數(shù)據(jù)的相關(guān)性?因為我和好友有相同愛好,?因為朋友評論了廣告我才關(guān)注,? 實際上,這兩個方面就是社交關(guān)系數(shù)據(jù)的兩個核心價值,,也就是社交同質(zhì)性和社交影響力,。這正是網(wǎng)絡(luò)科學(xué)研究界的學(xué)者給出來的比較嚴(yán)謹(jǐn)?shù)亩x。 同質(zhì)性說得更容易理解一點,,就是相似性,,我們跟好友可能會有興趣的相似,或者我們同一個行業(yè)我們有行業(yè)背景的相似,,我們才會形成好友,。比如拿廣告投放來說,廣告主給了我客戶名單即種子用戶,,是不是我種子用戶的好友也會喜歡這個廣告,? 另一個維度就是影響力,影響力說的是我的行為會受到好友的影響,。那這個點投放到朋友圈廣告上,,我可以看到朋友對廣告的反饋,會受到他的影響,。 所以說做朋友圈廣告,,我們重點會挖掘這兩個價值,就是社交同質(zhì)性和社交影響力,。 講到這里,,再回到我們的問題,怎么給廣告主挖掘潛在用戶,? 基于廣告主給出的客戶名單,,是不是可以做一個這樣的嘗試:找這批廣告主的好友作為潛在用戶,,一就是社交相似性,二在微信朋友圈這樣一個投放平臺,,同用戶之間的行為會因為社會影響而形成傳播,,即微信社交Lookalike的基本思想。 那么,,另一個問題又來了,。 社交同質(zhì)性、影響力如何量化,?當(dāng)種子用戶的好友非常多的時候,,如何對好友進(jìn)行排序選擇?家人排前面,?閨蜜排前面,?還是同學(xué)、同事排在前面,?人工規(guī)則強(qiáng)依賴于業(yè)務(wù)經(jīng)驗,,那我們能不能利用機(jī)器學(xué)習(xí)的方法對社交相似度進(jìn)行量化呢? 我們通過歷史投放的廣告采集到學(xué)習(xí)樣本,,比如說我的好友有400多個,,對于有一部分好友我跟他歷史上有同時曝光到一些廣告,這些好友我可以計算出我跟他的廣告相似度,,就等于共同點擊的廣告數(shù)除以共同曝光的廣告數(shù),。而剩余的好友,歷史上沒有共同曝光過廣告,。那我們有其他領(lǐng)域的數(shù)據(jù),,比如說我跟他的親密關(guān)系,瀏覽或者閱讀文章等興趣相同點,,能否通過這些社交的行為數(shù)據(jù),預(yù)測到我跟他在廣告上的喜好度,? 回看我們的網(wǎng)絡(luò)數(shù)據(jù),,比如我們的好友關(guān)系網(wǎng)絡(luò),文章閱讀轉(zhuǎn)發(fā)網(wǎng)絡(luò)等等特征工程,,我們怎么從網(wǎng)絡(luò)數(shù)據(jù)做這個特征工程,? 機(jī)器學(xué)習(xí)的輸入一般是向量或者說矩陣,圖結(jié)構(gòu)特征表達(dá),,可不可以用一個降維的方法把圖里面的節(jié)點表達(dá)成一個隱空間的向量,,在NLP也會把詞表達(dá)成一個向量,這是14年谷歌發(fā)布的一個Wodrd2Vec的算法包,, 將一個單詞embedding為一個項目,,這個是結(jié)果,。 如何把圖結(jié)構(gòu)切入一個向量?從Wodrd2Vec到node2vec,,詞里面單詞的詞頻分布,,它是冪律的,有些常用詞出現(xiàn)的頻率非常高,,尾巴上的詞出現(xiàn)的頻率比較低,。 實際上在一個社交網(wǎng)絡(luò)的節(jié)點也是這樣的,我們經(jīng)常會存在一些大的節(jié)點,,他會有非常多的好友,,有的人好友就達(dá)不到那么多。所以說其實在社交網(wǎng)絡(luò)里面的一個節(jié)點的分布也是冪律分布,。如何把Wodrd2Vec遷移到node2vec,,這個時候就要產(chǎn)生一個節(jié)點的序列,它對應(yīng)到了自然語言處理的一條句子,,圖結(jié)構(gòu)里面的節(jié)點相當(dāng)于NLP的一個單詞,。 所以在圖網(wǎng)絡(luò)上按照一個搜索的方法生成節(jié)點序列,這個節(jié)點的序列可以對應(yīng)到自然語言的一個句子,,后面我們通過Wodrd2Vec的框架,,將節(jié)點embedding為一個向量。所以對于做network embedding的時候,,這個生成節(jié)點序列的搜索策略非常重要,。最簡單的一個方法,就是隨機(jī)游走,,隨機(jī)游走一方面生成節(jié)點序列,,另一方面也是對圖的一種采樣,降低了計算量,。 我們說社交數(shù)據(jù)最重要的特征就是社交的同質(zhì)性,。所以說我們在network embedding的時候,把社交同質(zhì)性這個特征保留下來,。我們結(jié)合網(wǎng)絡(luò)的社團(tuán)性質(zhì)對隨機(jī)游走的算法進(jìn)行調(diào)整,, 比如說A節(jié)點走到C,再走到E的時候,,它再往下走,,這邊就相當(dāng)于它會走到另外一個社團(tuán)。它設(shè)置了一個節(jié)點P和Q,,P大的時候它是往回走,,因為社交網(wǎng)絡(luò)的特征會形成這樣的社團(tuán)性。 比如說我們的一個社交網(wǎng)絡(luò),,我的同學(xué)會形成一個社團(tuán),,設(shè)計這個P往回走,,就更容易走到我這個群體。當(dāng)P越大,,它會越能體現(xiàn)同質(zhì)性,。Q越大的時候,它其實能夠體現(xiàn)這種結(jié)構(gòu)的相似性,,不同的節(jié)點有不同的作用,。比如說F節(jié)點和E節(jié)點它是連接這兩個社團(tuán)的橋接點。當(dāng)Q大的時候,,它體現(xiàn)的是網(wǎng)絡(luò)結(jié)構(gòu)的相似性,。這時候我們怎么選P和Q?這個可以根據(jù)實際任務(wù)進(jìn)行半監(jiān)督的學(xué)習(xí),。 再回顧一下剛才我們說的Node2vec的流程,,首先通過有偏隨機(jī)游走,生成一個節(jié)點序列,,后面是word2vec的算法框架得到這個節(jié)點的向量表達(dá),。其中的參數(shù)調(diào)優(yōu),根據(jù)我們保留的同質(zhì)性,,或者根據(jù)實際的任務(wù)進(jìn)行調(diào)參,。 給大家看一下node2vec的結(jié)果,先給大家看這個算法的輸出,。這里有一個簡單的圖,,做embedding之后的結(jié)果,1和2的節(jié)點向量是一樣的,,它會是重疊的一個向量,,3、4,、5,、6也是一個重合的節(jié)點,它表達(dá)的是什么呢,?為什么1和2完全重疊,?其實1和2的網(wǎng)絡(luò)環(huán)境是一模一樣的,這個embedding的結(jié)果表達(dá)是是節(jié)點的社交網(wǎng)絡(luò)環(huán)境,,也就是我們說的拓?fù)涮卣鳌?/p> 我們做node2vec還會有其他什么好處呢?以好友溝通網(wǎng)絡(luò)為例,,我有120個好友,,實際上我溝通網(wǎng)絡(luò)并不會跟那么多好友經(jīng)常聊天,也就是說這個數(shù)據(jù)非常稀疏,,在node2vec的輸出結(jié)果上再計算親密度,,其實我跟所有好友的親密度都是可以計算出來的,。第一個帶來的好處就是解決數(shù)據(jù)的稀疏性的問題。另外,,這個結(jié)果具有穩(wěn)定性,。 對于溝通網(wǎng)絡(luò),比如說,,我跟一些好友溝通可能是事務(wù)性的,,不能表達(dá)親密度的。比如一些客戶,,或者服務(wù)中介等,,因為我跟他沒有形成社交圈,在做embedding的時候,, 產(chǎn)生序列的鄰居共現(xiàn)次數(shù)比小,,embedding出來的結(jié)果就是這些人員在親密度排序上會排在后面,而相對來說,,真實關(guān)系緊密的,,比如親人,閨蜜,,同學(xué),,同事會比較穩(wěn)定的排在前面。 對社交相似性的學(xué)習(xí)框架,,大家可以看下面的圖,。 我們建立一個回歸的model。現(xiàn)在做的是SVR模型,。輸入好友網(wǎng)絡(luò),,溝通網(wǎng)絡(luò)、文章的轉(zhuǎn)發(fā)閱讀網(wǎng)絡(luò)等等,,進(jìn)行embedding得到特征向量表達(dá),,通過SVR模型,學(xué)習(xí)到這些特征和廣告相似度的函數(shù)關(guān)系,。這個函數(shù)關(guān)系計算出好友相似度,,可以對好友進(jìn)行排序。 我們看一下算法的效果,。我們評估算法的效果,,最直接的就是說我有多個算法,廣告主需要100萬的用戶,,我這幾個算法都給出100萬用戶,,然后看一下這100萬的用戶點擊量是怎么樣的,我們叫Lift值。其他的算法跟它進(jìn)行對比,,看一下它的效果有沒有提升,。那我們的算法相比直接的二分類模型有2倍-3倍的lift。 本次主要介紹了社交Lookalike的探索性的分析,,社交的同質(zhì)性和影響力,,并重點分享了社交同質(zhì)性量化問題。后面我們希望把Lookalike系統(tǒng)做成一個動態(tài)的,,比如我為某個好友點贊,,下面我需要推送的人是我的好友,我能影響到那些好友,。把這個社交影響力進(jìn)行量化,,并且結(jié)合到廣告投放里面去。假如說用戶能夠形成主動傳播廣告,,這樣的話它是一個非常好的局面,,相當(dāng)于用戶自助的對廣告進(jìn)行口碑的傳播。 作者介紹 |
|