個(gè)性化推薦已經(jīng)成為現(xiàn)代人們生活的一部分, “猜你喜歡”,、“相關(guān)閱讀”你一定并不陌生,。計(jì)算機(jī)如何做到對(duì)用戶投其所好?企業(yè)在做個(gè)性化推薦時(shí)要如何精準(zhǔn)把握用戶興趣,?如何解決冷啟動(dòng)問題,?如何避免推薦結(jié)果的單調(diào)與重復(fù)?近日,,達(dá)觀數(shù)據(jù)聯(lián)合創(chuàng)始人于敬進(jìn)行了《個(gè)性化推薦系統(tǒng)實(shí)踐》的主題分享,,深入淺出的講解了個(gè)性化推薦的過程、難點(diǎn)及解決方法。 本文五大內(nèi)容: 一,、推薦系統(tǒng)概述 二,、搭建推薦系統(tǒng)的關(guān)鍵算法 三、推薦系統(tǒng)難點(diǎn)分析和解決方法 四,、深度學(xué)習(xí)在推薦系統(tǒng)中的應(yīng)用 五,、進(jìn)階資源推薦 一、推薦系統(tǒng)概述 常見的推薦系統(tǒng)主要有以下三種場(chǎng)景: 1.個(gè)性化推薦 例如打開今日頭條時(shí)最先看到一個(gè)推薦頁(yè)面,,這是一個(gè)FEED流,,還有像電商網(wǎng)站有猜你喜歡的推薦位置。 2.相關(guān)推薦 通常文章或視頻的下方會(huì)出現(xiàn)一個(gè)相關(guān)推薦,,有的也叫“看了還看”,、“買了還買”等。 3.熱門推薦 很多會(huì)出現(xiàn)在首頁(yè)的熱點(diǎn)位置,。 推薦系統(tǒng)其實(shí)對(duì)于用戶來(lái)說(shuō)有其核心的價(jià)值,。比如:
當(dāng)用戶有這么多訴求時(shí)候,,推薦系統(tǒng)做的事情是什么?
對(duì)于企業(yè)來(lái)說(shuō),,個(gè)性化帶來(lái)的效果也非常顯著,。電商巨頭亞馬遜每年30%的收入來(lái)自個(gè)性化推薦;自2008 年起,,推薦算法為 YouTube 每天增加了數(shù)十萬(wàn)小時(shí)的觀看時(shí)長(zhǎng),,每年視頻點(diǎn)擊量增幅都達(dá)到50% ;Linkedin通過propensitymodel提供機(jī)器學(xué)習(xí),,最終為公司帶來(lái)了數(shù)十倍的持續(xù)穩(wěn)定的增長(zhǎng),;我們進(jìn)入京東、淘寶app或者網(wǎng)頁(yè)端,每個(gè)用戶的首頁(yè)展示都是依據(jù)行為偏好進(jìn)行精準(zhǔn)推薦,。 什么是個(gè)性化推薦系統(tǒng),? 個(gè)性化推薦系統(tǒng)解決的是用戶和內(nèi)容中間的關(guān)聯(lián)關(guān)系,它是二者之間的橋梁,。基于用戶的興趣偏好,,把用戶感興趣的物品或者視頻、資訊等推薦給用戶,,給用戶帶來(lái)沉浸式的體驗(yàn),,讓用戶感到一定的滿足感,優(yōu)化用戶的體驗(yàn),。 推薦系統(tǒng)從它的初始來(lái)說(shuō)主要是解決兩大問題:信息過載和長(zhǎng)尾問題,。 信息過載是當(dāng)用戶面對(duì)大量信息時(shí)并不明確自己喜歡什么,但又確實(shí)有需求想看到喜歡的東西,。從紛繁復(fù)雜的商品和內(nèi)容中如何發(fā)現(xiàn)自己感興趣的東西,?對(duì)于用戶來(lái)說(shuō)是一種選擇的困難。 另一方面來(lái)說(shuō),,企業(yè)有新物品上線時(shí),,如何展示給喜歡它的用戶? 根據(jù)達(dá)觀數(shù)據(jù)服務(wù)的客戶經(jīng)驗(yàn),,我們發(fā)現(xiàn)物品沒有曝光并不代表沒有人喜歡它,,而是沒有在合適的時(shí)機(jī)曝光給對(duì)物品感興趣的用戶,推薦系統(tǒng)剛好能解決這方面的問題,。 一方面系統(tǒng)基于大量的用戶行為數(shù)據(jù)來(lái)分析挖掘用戶的偏好;另外一方面,,基于物品數(shù)據(jù)及物品自身的特點(diǎn),,把商品和用戶的興趣進(jìn)行匹配,從而達(dá)到個(gè)性化推薦,。用戶可以找到自己感興趣的東西,,商家的一些商品或內(nèi)容也能有更多曝光的機(jī)會(huì)。 推薦系統(tǒng)設(shè)計(jì)的目標(biāo)主要有下面三個(gè)部分: 首先,,功能要盡可能全面,,剛才提到推薦個(gè)性化推薦、相關(guān)推薦和熱門推薦,,有些商家也包括一些混合推薦,,一般在詳情頁(yè)里面下叫關(guān)聯(lián)推薦,但有的產(chǎn)品會(huì)在關(guān)聯(lián)推薦中放一個(gè)無(wú)限下拉的功能,,這時(shí)候就要夾雜一部分個(gè)性化推薦在其中,。 其次是效果要精準(zhǔn),即推薦的東西一定是用戶感興趣的。另外推薦的結(jié)果要盡可能豐富,,內(nèi)容或物品有更多的曝光機(jī)會(huì),。 第三是性能,當(dāng)刷新一個(gè)頁(yè)面的推薦結(jié)果,,如果沒有很快返回會(huì)帶來(lái)很差的用戶體驗(yàn),。從另一方面來(lái)說(shuō),我們的結(jié)果不一定是非常好的,,但它絕對(duì)不能留白,,就是無(wú)論怎么樣推薦結(jié)果一定有返回,這是最基礎(chǔ)的要求,。 在實(shí)際的推薦場(chǎng)景里,,功能、效果,、性能三者相輔相成,、也彼此互相影響,很多時(shí)候要進(jìn)行折中的考慮,。 二,、搭建推薦系統(tǒng)的關(guān)鍵算法 1.達(dá)觀數(shù)據(jù)推薦系統(tǒng)架構(gòu) 上圖是達(dá)觀推薦的是總體架構(gòu)。 達(dá)觀數(shù)據(jù)有自己的運(yùn)算平臺(tái),、存儲(chǔ)平臺(tái)和傳輸平臺(tái),。在此之上是組件層,很多推薦依賴于NLP做了進(jìn)一步的分析挖掘,。在此之上是模型層,,模型有很多,比如用戶畫像就是對(duì)一個(gè)用戶有全方位的刻畫,,同時(shí)也有物品畫像,,包括收益、點(diǎn)擊,、收藏,,預(yù)估的收益,增長(zhǎng)趨勢(shì)等,。 模型之上是算法層,,包括矩陣分解、協(xié)同過濾,,深度學(xué)習(xí)算法也是達(dá)觀的一部分,,同時(shí)還有基于統(tǒng)計(jì)的模型,包括點(diǎn)擊反饋,、關(guān)聯(lián)規(guī)則挖掘等,,還有比較重要的是基于內(nèi)容的推薦,。 算法層上面是組合層,單一的推薦算法有二三十種,,基于單一的推薦算法會(huì)有機(jī)器學(xué)習(xí)的融合排序,,基于不同業(yè)務(wù)場(chǎng)景會(huì)自適應(yīng)選擇一部分模型進(jìn)行效果優(yōu)化。 組合層上面是應(yīng)用層,,主要提供四種服務(wù): 1. 個(gè)性化推薦,,這是千人千面的推薦結(jié)果; 2. 相關(guān)推薦是以物推物,,當(dāng)看到商品,、視頻或文章會(huì)有一個(gè)關(guān)聯(lián)的推薦; 3. 熱門推薦,,其實(shí)是熱點(diǎn)分析,; 4. 推薦理由,是推薦結(jié)果的解釋,。對(duì)于推薦理由的使用在PC中用得比較多,。 2.推薦流程 推薦流程分為三部分:離線、近線和在線,。 離線一般說(shuō)召回,,要從很多推薦的物品里進(jìn)行召回。大的推薦客戶每天會(huì)新增物品可能幾十萬(wàn),,在推薦候選集中有幾千萬(wàn)時(shí)并不是所有的每次都要重新計(jì)算一遍,。離線模塊的處理就是先做一個(gè)推薦結(jié)果的召回,這種召回一般叫重量級(jí)的算法,,比如說(shuō)做協(xié)同過濾,、決策分解、深度學(xué)習(xí)等,,這些會(huì)依賴于大數(shù)據(jù)的集群,。由于數(shù)據(jù)量比較大,一般我們使用最近半年或者幾個(gè)月的數(shù)據(jù),,跑一次的時(shí)間一般在幾個(gè)小時(shí),快的話是半小時(shí),。從幾十萬(wàn),、幾百萬(wàn)、幾千萬(wàn)的候選集里面得到的候選集在幾千這個(gè)維度,。 經(jīng)過離線模塊的召回之后是近線的處理,,也叫粗排,粗排是一些輕量級(jí)算法,,比如剛剛提到在組合層達(dá)觀有各種各樣組合的模型,,基于單一的推薦算法進(jìn)行融合,,一般使用的方式是內(nèi)存+RDB。這部分處理時(shí)間非???,一般在秒級(jí),就是說(shuō)當(dāng)一個(gè)用戶的行為發(fā)生改變后,,他的推薦結(jié)果會(huì)做到實(shí)時(shí)更新,。經(jīng)過粗排之后,這個(gè)推薦結(jié)果一般是在百的量級(jí),。 最后一步在線主要做精排,。當(dāng)新的請(qǐng)求過來(lái),通過這個(gè)用戶的ID,,根據(jù)離線找到近線模塊處理的結(jié)果,。拿到基于粗排之后的結(jié)果后做一些業(yè)務(wù)規(guī)則的處理,比如在一次推薦里要求多樣性和時(shí)效性等,。這里很多處理方式是基于加載內(nèi)存的方式,,處理時(shí)間是在毫秒級(jí),返回的結(jié)果一般在10這個(gè)量級(jí),。 3.如何做熱門推薦,? 就熱門推薦簡(jiǎn)單的方式可生成多維度的熱門數(shù)據(jù),熱門數(shù)據(jù)有各種排行榜,,比如點(diǎn)擊的排行榜,,購(gòu)買排行榜等。當(dāng)客戶需要熱門推薦的場(chǎng)景時(shí)可把熱門推薦生成的結(jié)果直接返回給客戶,。另一方面,,熱門推薦也可以捕捉一些場(chǎng)景,比如處理冷啟動(dòng)和做一些基于問題探索時(shí),。 熱門推薦的結(jié)果通常有一定理論依據(jù),,比如按購(gòu)買、銷量排序其實(shí)也是很多人容易接受的方式,,在這部分也可以?shī)A雜人工編輯的分析,。所以首先基于用戶行為(包括物品數(shù)據(jù),用戶本身的數(shù)據(jù))生成不同維度的排行榜,,在不同的時(shí)機(jī)推薦給用戶,。 4.如何做基于內(nèi)容的推薦? 一個(gè)物品一般會(huì)有各種維度的使用信息,,比如商品有標(biāo)題,、品牌、價(jià)格,、折扣等,,基于使用信息可以推薦標(biāo)題上語(yǔ)意相似的商品,。處理基于內(nèi)容推薦時(shí)不僅是基于簡(jiǎn)單使用方面的匹配,會(huì)考慮到其他組合條件,。比如服裝類的商品加上不同的價(jià)格會(huì)得到不同的結(jié)果,,這種找物方式是單純拿到物品屬性時(shí)的處理,但在實(shí)際場(chǎng)景下還有各種擴(kuò)展,,比如會(huì)做做類別和語(yǔ)義的擴(kuò)展,。 類別擴(kuò)展:比如男生關(guān)注的是科技,是否可以推薦一下體育或軍事等相關(guān)內(nèi)容,?類別擴(kuò)展也是避免內(nèi)容推薦過于單一的方式,。 語(yǔ)義擴(kuò)展:當(dāng)你關(guān)注一個(gè)標(biāo)簽時(shí),我們會(huì)把它相應(yīng)的標(biāo)簽也拿到,,基于你相關(guān)的標(biāo)簽也可以做其他方面的召回,。比如當(dāng)看歐冠時(shí),是不是可以推薦西甲相關(guān)的新聞,?一個(gè)用戶關(guān)注梅西,,但梅西的新聞?dòng)袝r(shí)比較有限,是不是可以給他推薦C羅的內(nèi)容,?語(yǔ)義擴(kuò)展也可以解決推薦內(nèi)容太過單一的問題,。 5.基于主題模型的推薦 主題模型的推薦可以充分利用一個(gè)物品的文本特征,比如標(biāo)題,、描述或內(nèi)容等,。一篇文章拿到標(biāo)題后,基于主題模型,,基于LDA或者LSI可以把它生成一個(gè)向量,。 基于這個(gè)向量得到關(guān)于主題的分布,計(jì)算它的相似度,,基于這個(gè)相似度我們?nèi)opN可以得到一個(gè)推薦結(jié)果,。 這種推薦結(jié)果比單純基于文本和字面匹配的效果更好。 6. 協(xié)同過濾 協(xié)同過濾有兩種,,基于用戶的協(xié)同過濾和基于物品的,。基于用戶的協(xié)同過濾首先計(jì)算用戶之間的相似度,把相似的用戶感興趣的物品推薦給當(dāng)前這個(gè)用戶,?;谖锲返膮f(xié)同過濾先計(jì)算物品的相似度,基于相似度進(jìn)行排序,,最終得到當(dāng)前這個(gè)物品比較相似的其他物品。 一個(gè)熱門的商品會(huì)很容易影響到用戶或者物品之間的相似度,。比如今天有一社會(huì)熱點(diǎn)事件,,很多媒體跟蹤除了爆款新聞,,即使我平時(shí)是一個(gè)關(guān)注體育或科技領(lǐng)域的讀者,也會(huì)點(diǎn)擊看一下,。這種情景下如果基于物品的相似度來(lái)處理得到的結(jié)果往往不好,。所以在計(jì)算相似度時(shí)要做很多變形,比如對(duì)熱門進(jìn)行特別處理,,對(duì)冷門的物品也需要做特殊處理和過濾等,。 也要考慮用戶有一些作弊行為,比如用戶刷了某一領(lǐng)域很多東西,,其他用戶只是刷了部分,,很多的用戶和其他用戶計(jì)算相似度時(shí),可能都會(huì)在其他用戶計(jì)算的候選集中,,這也不符合實(shí)際場(chǎng)景,。所以在實(shí)際處理時(shí)要對(duì)這部分做一些特殊的控制。 7. 潛在因子模型 基于潛在因子分析是完全由數(shù)學(xué)的方式,、更好的模型來(lái)處理,。他的輸入是一個(gè)用戶的行為矩陣,通過矩陣分解得到兩個(gè)矩陣,,基于這兩個(gè)矩陣進(jìn)一步復(fù)原,,通過矩陣相乘的方式,就可以把原來(lái)用戶沒有操作過的物品的得分給預(yù)測(cè)出來(lái),。 單純依賴用戶行為數(shù)據(jù)進(jìn)行預(yù)測(cè)有很多不足,,給物品的打分和用戶本身的打分差異可能很大。在上面的實(shí)驗(yàn)?zāi)P椭锌梢猿浞挚紤]用戶的bias信息,。比如在電影場(chǎng)景中,,由一個(gè)大牌明星主演,因?yàn)樗氖袌?chǎng)預(yù)期好所以容易得到好評(píng),。但當(dāng)是小眾電影或者很多新人主演,,大家接受度不高,得分可能會(huì)相對(duì)低,。也許它得到了3分,,可能已經(jīng)相當(dāng)于大牌明星主演電影的5分。這就會(huì)導(dǎo)致物品和用戶之間有各種bias信息,。在做潛在因子模型時(shí),,可以把用戶的bias信息和物品的bias信息加進(jìn)來(lái)。 同時(shí)還要考慮很多特征要進(jìn)行組合,,男生加上體育和女生加上娛樂,,往往是一個(gè)更好的特征。對(duì)這塊來(lái)說(shuō),,通過潛在因子模型可以把這些信息充分考慮進(jìn)來(lái),。 8.用戶模型構(gòu)建 用戶模型構(gòu)建也是用戶畫像,。在實(shí)際場(chǎng)景中如果精準(zhǔn)挖掘用戶興趣偏好,個(gè)性化推薦能做得更好,。用戶畫像有多種信息,,基于注冊(cè)信息有年齡、性別,、地域等,,還有另一種數(shù)據(jù)——用戶的偏好,同時(shí)還有各種分類的場(chǎng)景,,比如在電商里會(huì)判斷一個(gè)用戶他對(duì)價(jià)格是否敏感,,是否喜歡小眾的東西等。 這個(gè)分析牽涉到各種技術(shù),,比如基于概率統(tǒng)計(jì)可以得到一部分?jǐn)?shù)據(jù),,另一部分,很多用戶之間的興趣有一定的關(guān)聯(lián)性,,可以做用戶群體的聚類,。預(yù)測(cè)用戶對(duì)價(jià)值的喜好可借助一些常見的分類模型來(lái)處理。對(duì)于用戶模型構(gòu)建,,我們一方面給推薦系統(tǒng)來(lái)使用,,另外一部分也提供用戶畫像這種服務(wù),當(dāng)企業(yè)拿到用戶畫像后,,可以做老用戶的關(guān)懷,、流失用戶的召回等。 9.多算法融合 上面提到的都是單一推薦算法,,比如基于內(nèi)容的,,基于熱門的,包括基于協(xié)同過濾,、矩陣分解,、深度學(xué)習(xí)等,單一算法會(huì)得到一些推薦候選集,,拿到推薦候選集后要做一個(gè)融合,,將最后結(jié)果返回給用戶。我們會(huì)將單一推薦候選集輸入到融合模型里,,讓模型預(yù)測(cè),,按照用戶偏好的高低排序,然后取得TOPN返回給用戶,。 推薦的整體流程有以上這幾點(diǎn),,首先是各種單一算法召回,召回完進(jìn)行融合,單一算法里又分了不同維度,,比如協(xié)同過濾,、矩陣分解,包括用戶畫像等,。 三、推薦系統(tǒng)難點(diǎn)分析和解決方法構(gòu)建推薦系統(tǒng)有下面四個(gè)難點(diǎn): 1.如何精準(zhǔn)把握用戶興趣,? 用戶興趣不僅存在多樣性,,而且會(huì)隨著時(shí)間的變化而變化;其次對(duì)用戶興趣的挖掘需要海量數(shù)據(jù),,如何合理建模,?以及不同算法模型對(duì)用戶興趣的刻畫結(jié)果不同,如何優(yōu)化模型,? 2.如何解決冷啟動(dòng)問題,? 冷啟動(dòng)包括新用戶的冷啟動(dòng)和物品的冷啟動(dòng)。新用戶是當(dāng)一個(gè)用戶沒有任何行為數(shù)據(jù)和輔助信息的情況下,,如何給他做好推薦,?物品的冷啟動(dòng)即長(zhǎng)尾問題——如何將新的物品快速推薦給可能對(duì)它感興趣的用戶? 3.如何解決實(shí)際應(yīng)用中的性能問題,? 這包括數(shù)據(jù)量膨脹快,,且冷熱不均;如果用戶興趣變化快,,我們的深度學(xué)習(xí),、矩陣分解模型如何跟得上用戶興趣的變化也是一個(gè)考驗(yàn);算法調(diào)優(yōu)時(shí)效果越調(diào)越差如何處理,?以及在機(jī)器資源有限,、存儲(chǔ)有限常出現(xiàn)性能瓶頸。 4.如何解決推薦結(jié)果單調(diào)性和重復(fù)性,? 推薦里面有個(gè)叫回聲室效應(yīng),,為了滿足用戶的興趣,推薦的內(nèi)容越來(lái)越窄如何處理,?第二部分是重復(fù),,如果依賴于內(nèi)容標(biāo)簽或者內(nèi)容分類,對(duì)于標(biāo)簽或者類目來(lái)不斷地召回新的推薦結(jié)果,,這會(huì)導(dǎo)致推薦結(jié)果沒有新鮮感,。 基于這四點(diǎn),和大家分享一下達(dá)觀推薦系統(tǒng)對(duì)上述問題的解決方案(重點(diǎn)來(lái)了) 1.長(zhǎng)短期興趣畫像讓模型效果穩(wěn)定提升 通過引入時(shí)間因子,,基于不同的時(shí)間周期做用戶畫像,。比如基于最近半年的或更久的數(shù)據(jù)做長(zhǎng)期用戶畫像,基于近一個(gè)月或三個(gè)月做短期用戶畫像,同時(shí)還會(huì)有實(shí)時(shí)用戶畫像,,基于這三種類型用戶畫像之間的差異化,,能夠感知用戶的興趣變更。 基于用戶畫像后做一個(gè)過濾機(jī)制,,把推薦過或者質(zhì)量不佳先過濾,。這樣做排序時(shí)會(huì)引入一個(gè)時(shí)間因子做一個(gè)衰減,另外也會(huì)做機(jī)器學(xué)習(xí)的預(yù)測(cè),,可以方便地調(diào)整推薦順序,。 接下來(lái)做優(yōu)化,隨著時(shí)間的推移,,對(duì)于用戶的刻畫會(huì)更清晰準(zhǔn)確,。 2.快速建模技術(shù)解決冷啟動(dòng)問題 對(duì)于物品的冷啟動(dòng),達(dá)觀數(shù)據(jù)使用CLUB算法,。先給它合適的探索機(jī)會(huì),,初期時(shí)讓物品有一定的曝光,曝光后我們會(huì)有一個(gè)更快的預(yù)期收益機(jī)制,,加快模型的迭代,。當(dāng)在一段時(shí)間內(nèi)觀察預(yù)期的收益沒有達(dá)到要求時(shí),會(huì)把這部分的曝光逐漸降低,。如果預(yù)期收益比較好,,會(huì)增大一部分曝光。通過這種自學(xué)的機(jī)制來(lái)調(diào)整物品之間的曝光問題,,新的物品便總是有曝光的機(jī)會(huì),。 對(duì)于用戶的冷啟動(dòng),即使用戶沒有任何數(shù)字信息,,用戶手機(jī)登陸APP時(shí)是否有其他可以采集的信息,?比如地域,手機(jī)型號(hào),,基于這些東西可以做一些離線的挖掘,。比如一線城市或四線城市,很大程度上會(huì)有一個(gè)偏好的差異,。用Iphone手機(jī)和用其他品牌手機(jī),,基于歷史的數(shù)據(jù)也會(huì)分析出差異點(diǎn),然后進(jìn)行針對(duì)性的調(diào)整,。 有一種極端情況,,拿不到上述數(shù)據(jù)時(shí)如何做推薦?當(dāng)拿到用戶的ID,,基于一些歷史行為經(jīng)驗(yàn)挖掘一些高質(zhì)量的物品,,同時(shí)在生成推薦結(jié)果時(shí)盡量考慮到多樣性,。相當(dāng)于當(dāng)一個(gè)用戶進(jìn)入一個(gè)飯館,雖然不知道他喜歡什么,,但我們提供了種類豐富的菜單讓用戶選擇,。當(dāng)用戶選擇自己感興趣的內(nèi)容,和推薦系統(tǒng)有交互時(shí),,無(wú)論是點(diǎn)擊,、收藏、點(diǎn)贊,,借助我們的秒級(jí)反饋機(jī)制,,推薦的結(jié)果就可以實(shí)時(shí)更新,我們會(huì)對(duì)實(shí)時(shí)的畫像把握得越來(lái)越準(zhǔn),。 此外達(dá)觀數(shù)據(jù)借助自然語(yǔ)言處理技術(shù),當(dāng)新的物品進(jìn)來(lái),,基于它的標(biāo)題,、類別等語(yǔ)義信息可以做預(yù)估,通過深度挖掘構(gòu)建新物品的畫像,,輔助接下來(lái)是增加推薦還是減少曝光,。 3.三級(jí)火箭”架構(gòu)保障系統(tǒng)穩(wěn)定和毫秒級(jí)反饋 達(dá)觀系統(tǒng)架構(gòu)分為三級(jí)火箭:由Offline-Nearline-Online三級(jí)依次銜接構(gòu)成,融合了各類推薦算法和數(shù)據(jù),。 離線使用的是大量的集群方式,,比如說(shuō)Spark、Kafka跑一些重量級(jí)的算法,,矩陣分解,、協(xié)同過濾,包括深度學(xué)習(xí)等都屬于離線模塊來(lái)做的,,這部分運(yùn)算時(shí)間比較久,。 在最上面叫在線模塊,當(dāng)用戶有一次推薦請(qǐng)求他希望反饋推薦結(jié)果時(shí),,要保證快速毫秒級(jí)地返回推薦結(jié)果,,不能做更多重量級(jí)算法。這部分往往是一些業(yè)務(wù)規(guī)則處理,,可以基于內(nèi)存或內(nèi)存的數(shù)據(jù)庫(kù)Redis的方式,,實(shí)時(shí)返回給用戶推薦結(jié)果。 在離線和在線模塊之間,,它們從小時(shí)級(jí)到毫秒級(jí)中間有很大的gap,,用戶行為發(fā)生變化后如何感知?接下來(lái)交給近線模塊處理,。近線模塊可以做到當(dāng)用戶每一次行為變化后,,系統(tǒng)都可以感知這種變化,然后把用戶的推薦結(jié)果重新計(jì)算一遍,這時(shí)候結(jié)果往往是一些融合算法,。融合排序輸入的就是離線的各種挖掘,,包括用戶畫像信息、他的場(chǎng)景畫像和實(shí)質(zhì)畫像等,?;诮€來(lái)說(shuō),它對(duì)各種單一推薦算法進(jìn)行融合排序,,最終存到內(nèi)存數(shù)據(jù)庫(kù)中,。當(dāng)在線模塊接到新請(qǐng)求時(shí),可以從這里面讀取對(duì)用戶近線計(jì)算好的結(jié)果,,然后做業(yè)務(wù)規(guī)則返回給用戶,。 這就是“三層火箭”架構(gòu),它主要借鑒了搜索引擎的部分機(jī)制,,包括隊(duì)列,、實(shí)時(shí)計(jì)算等。我們可以滿足用戶的興趣和變化,,同時(shí)也在高并發(fā)的情況下毫秒級(jí)返回給用戶推薦結(jié)果,,目前達(dá)觀服務(wù)了上百家客戶,三層火箭架構(gòu)是一個(gè)有效的方式,。 4.NLP 技術(shù)解決推薦難題 解決推薦結(jié)果的單調(diào)性問題,,達(dá)觀做了很多自然語(yǔ)言處理(NLP)相關(guān)的東西,包括語(yǔ)義理解,、詞性標(biāo)注等,。例如做直播推薦時(shí),基于評(píng)論信息可以分析情感是正面的還是反面的,,判斷用戶對(duì)當(dāng)前主播是否感興趣,。 另外一個(gè)是重要性排序,可以基于物品本身的標(biāo)題,、標(biāo)簽,、描述等信息做語(yǔ)義方面重要性的排序。基于文本處理可以有效解決推薦系統(tǒng)的冷啟動(dòng)問題,。 四,、深度學(xué)習(xí)在推薦系統(tǒng)中的應(yīng)用1.Embedding 處理 Embedding主要有兩種方式。首先會(huì)做詞Embedding,,來(lái)完善內(nèi)容多樣性,。當(dāng)拿到item標(biāo)簽時(shí),業(yè)界一般使用Word2vec方式進(jìn)行專項(xiàng)的擴(kuò)展,。比如當(dāng)用戶關(guān)注歐冠這個(gè)標(biāo)簽時(shí),,是否可以找到西甲,、意甲進(jìn)行詞粒度的擴(kuò)展。這樣在實(shí)際推薦中可以避免推薦結(jié)果太過單一,。 另一個(gè)itemEmbedding主要應(yīng)用于召回階段,。對(duì)于item Embedding,相當(dāng)于我們把一個(gè)用戶行為數(shù)據(jù)作為一個(gè)詞粒度,,然后輸入到Word2vec得到itemEmbedding,,基于item Embedding進(jìn)行相似度計(jì)算方式可以得到相似的物品。然后作為一個(gè)結(jié)果的召回進(jìn)入融合排序,。 在第三種是做Embedding中做特征工程,,得到一個(gè)物品或者一個(gè)用戶的Embedding后,做featurevector的方式來(lái)使用,,基于feature vector做machine learning,。 2.基于DNN的推薦 2017年谷歌發(fā)布了一篇論文《Deep Neural Networks for YouTube Recommendations》主要做YouTube的視頻推薦,這個(gè)場(chǎng)景達(dá)觀也在使用,。 在YouTube發(fā)布這篇論文的時(shí)候分了兩個(gè)階段來(lái)實(shí)現(xiàn)推薦結(jié)果,,第一層是上面圖片列的候選集生成的階段。這個(gè)階段DNN的處理方式它可以從百萬(wàn)量級(jí)直接降到百的量級(jí),。第二層是Ranking階段,做一些重排序的方式,。DNN把我們的推薦問題轉(zhuǎn)化成分類問題,,相當(dāng)于對(duì)每一個(gè)觀看的視頻做一個(gè)分類。 另外一方面,,論文中也提到DNN模型并沒有用到原始的用戶日志,,而是對(duì)每個(gè)用戶提取了等量的訓(xùn)練樣本,這種方式主要有好處是可以減少高度活躍用戶對(duì)loss函數(shù)的影響,。 3.基于DKN的推薦 DKN主要是基于知識(shí)圖譜,,應(yīng)用在Feed流推薦中。DKN是基于內(nèi)容的深度推薦的框架下進(jìn)行點(diǎn)擊率的預(yù)測(cè),。比如每條新聞通過KCNN對(duì)標(biāo)題進(jìn)行處理,,最終產(chǎn)生一個(gè)向量。同時(shí)我們引用注意力機(jī)制機(jī)做用戶的Embedding,,最終再結(jié)合深度神經(jīng)網(wǎng)絡(luò)做點(diǎn)擊的預(yù)估,。 4.Wide&Deep 2016年谷歌在一篇論文提出了Wide&Deep模型,這個(gè)模型里主要同時(shí)學(xué)習(xí)低階和高階的特征,。 Wide模型是線性模型+特征組合,,記憶性好、可解釋性強(qiáng),。Deep是Deeplearning,,這塊特征工程較少,,往往可以學(xué)習(xí)到更高層次的隱藏特征。但它需要較專業(yè)的領(lǐng)域知識(shí)來(lái)做特征工程,,所以進(jìn)一步產(chǎn)生了Deep FM,。 5.Deep FM Deep FM的主要優(yōu)點(diǎn)是不需要預(yù)訓(xùn)練,也不需要人工的特征工程,,同時(shí)可以學(xué)習(xí)一些低階和高階的特征,,并且進(jìn)行組合的共享。這樣可以更快的訓(xùn)練,,同時(shí)得到更精確的訓(xùn)練學(xué)習(xí),。下圖為一個(gè)DeepFM論文里提到的各種參數(shù)設(shè)置。 6.模型-排序 對(duì)于達(dá)觀來(lái)說(shuō),,模型排序有下述這些方式,。 (1)線性模型,依賴于人工特征工程,, (2)FM/GBDT+LR或Xgboost+LR,,它主要是非線性的,達(dá)觀做了特征融合,。在很多場(chǎng)景下推薦效果會(huì)更好,。 (3)模型的進(jìn)一步演進(jìn),使用到DeepFM和Wide&Deep借助于深度學(xué)習(xí),,減少很多人工的特征工程,。這部分的工作主要在調(diào)參上。 在達(dá)觀服務(wù)的眾多行業(yè)里,,從線性,、非線性,包括深度學(xué)習(xí)模型都在使用,。每個(gè)行業(yè)自己的特點(diǎn),,不同的客戶有自己的數(shù)據(jù)量和用戶群體,達(dá)觀會(huì)基于客戶的推薦效果來(lái)選擇對(duì)應(yīng)比較好的模型,。 7. XDeepFM 2018年微軟發(fā)布了一個(gè)模型XDeepFM,,它其實(shí)是對(duì)DCN的改進(jìn),主要由linear,、DNN,、CIN組成。引入的CIN機(jī)制可以自動(dòng)學(xué)習(xí)顯式的高階特征交互,,該模型在幾個(gè)數(shù)據(jù)集上都取得了超過DeepFM模型的效果,。這部分達(dá)觀推薦也正在探索和嘗試中。 |
|