個(gè)性化推薦系統(tǒng)實(shí)踐應(yīng)用

李清龍1023 2022-01-29

展開全文

個(gè)性化推薦已經(jīng)成為現(xiàn)代人們生活的一部分， “猜你喜歡”,、“相關(guān)閱讀”你一定并不陌生,。計(jì)算機(jī)如何做到對(duì)用戶投其所好？企業(yè)在做個(gè)性化推薦時(shí)要如何精準(zhǔn)把握用戶興趣,？如何解決冷啟動(dòng)問題,？如何避免推薦結(jié)果的單調(diào)與重復(fù)？近日,，達(dá)觀數(shù)據(jù)聯(lián)合創(chuàng)始人于敬進(jìn)行了《個(gè)性化推薦系統(tǒng)實(shí)踐》的主題分享,，深入淺出的講解了個(gè)性化推薦的過程、難點(diǎn)及解決方法。

本文五大內(nèi)容：

一,、推薦系統(tǒng)概述

二,、搭建推薦系統(tǒng)的關(guān)鍵算法

三、推薦系統(tǒng)難點(diǎn)分析和解決方法

四,、深度學(xué)習(xí)在推薦系統(tǒng)中的應(yīng)用

五,、進(jìn)階資源推薦

一、推薦系統(tǒng)概述

常見的推薦系統(tǒng)主要有以下三種場(chǎng)景：

1.個(gè)性化推薦 例如打開今日頭條時(shí)最先看到一個(gè)推薦頁(yè)面,，這是一個(gè)FEED流,，還有像電商網(wǎng)站有猜你喜歡的推薦位置。

2.相關(guān)推薦通常文章或視頻的下方會(huì)出現(xiàn)一個(gè)相關(guān)推薦,，有的也叫“看了還看”,、“買了還買”等。

3.熱門推薦 很多會(huì)出現(xiàn)在首頁(yè)的熱點(diǎn)位置,。

推薦系統(tǒng)其實(shí)對(duì)于用戶來(lái)說(shuō)有其核心的價(jià)值,。比如：

幫用戶便捷的篩選出感興趣的內(nèi)容
在用戶面對(duì)陌生領(lǐng)域時(shí)提供參考意見
當(dāng)用戶需求不明確時(shí)，作用戶的“貼心助手”
滿足用戶的好奇心,，比如很多短視頻的APP

當(dāng)用戶有這么多訴求時(shí)候,，推薦系統(tǒng)做的事情是什么？

首先它基于用戶的興趣,，根據(jù)用戶的歷史行為做興趣的挖掘,，把物品和用戶的個(gè)性化偏好進(jìn)行匹配。
然后通過推薦算法或者技術(shù)把信息進(jìn)行過濾,，解決用戶的過載問題,。
當(dāng)用戶有新的行為發(fā)生時(shí)，比如點(diǎn)擊或者搜索之后,，能及時(shí)進(jìn)一步捕捉用戶的興趣,。
選擇合適的場(chǎng)景，個(gè)性化或者相關(guān),，或者熱門,，來(lái)給用戶進(jìn)行推薦。

對(duì)于企業(yè)來(lái)說(shuō),，個(gè)性化帶來(lái)的效果也非常顯著,。電商巨頭亞馬遜每年30%的收入來(lái)自個(gè)性化推薦；自2008 年起,，推薦算法為 YouTube 每天增加了數(shù)十萬(wàn)小時(shí)的觀看時(shí)長(zhǎng),，每年視頻點(diǎn)擊量增幅都達(dá)到50% ；Linkedin通過propensitymodel提供機(jī)器學(xué)習(xí),，最終為公司帶來(lái)了數(shù)十倍的持續(xù)穩(wěn)定的增長(zhǎng),；我們進(jìn)入京東、淘寶app或者網(wǎng)頁(yè)端，每個(gè)用戶的首頁(yè)展示都是依據(jù)行為偏好進(jìn)行精準(zhǔn)推薦,。

什么是個(gè)性化推薦系統(tǒng),？

個(gè)性化推薦系統(tǒng)解決的是用戶和內(nèi)容中間的關(guān)聯(lián)關(guān)系，它是二者之間的橋梁,。基于用戶的興趣偏好,，把用戶感興趣的物品或者視頻、資訊等推薦給用戶,，給用戶帶來(lái)沉浸式的體驗(yàn),，讓用戶感到一定的滿足感，優(yōu)化用戶的體驗(yàn),。

推薦系統(tǒng)從它的初始來(lái)說(shuō)主要是解決兩大問題：信息過載和長(zhǎng)尾問題,。

信息過載是當(dāng)用戶面對(duì)大量信息時(shí)并不明確自己喜歡什么，但又確實(shí)有需求想看到喜歡的東西,。從紛繁復(fù)雜的商品和內(nèi)容中如何發(fā)現(xiàn)自己感興趣的東西,？對(duì)于用戶來(lái)說(shuō)是一種選擇的困難。

另一方面來(lái)說(shuō),，企業(yè)有新物品上線時(shí),，如何展示給喜歡它的用戶？

根據(jù)達(dá)觀數(shù)據(jù)服務(wù)的客戶經(jīng)驗(yàn),，我們發(fā)現(xiàn)物品沒有曝光并不代表沒有人喜歡它,，而是沒有在合適的時(shí)機(jī)曝光給對(duì)物品感興趣的用戶，推薦系統(tǒng)剛好能解決這方面的問題,。

一方面系統(tǒng)基于大量的用戶行為數(shù)據(jù)來(lái)分析挖掘用戶的偏好；另外一方面,，基于物品數(shù)據(jù)及物品自身的特點(diǎn),，把商品和用戶的興趣進(jìn)行匹配，從而達(dá)到個(gè)性化推薦,。用戶可以找到自己感興趣的東西,，商家的一些商品或內(nèi)容也能有更多曝光的機(jī)會(huì)。

推薦系統(tǒng)設(shè)計(jì)的目標(biāo)主要有下面三個(gè)部分：

首先,，功能要盡可能全面,，剛才提到推薦個(gè)性化推薦、相關(guān)推薦和熱門推薦,，有些商家也包括一些混合推薦,，一般在詳情頁(yè)里面下叫關(guān)聯(lián)推薦，但有的產(chǎn)品會(huì)在關(guān)聯(lián)推薦中放一個(gè)無(wú)限下拉的功能,，這時(shí)候就要夾雜一部分個(gè)性化推薦在其中,。

其次是效果要精準(zhǔn)，即推薦的東西一定是用戶感興趣的。另外推薦的結(jié)果要盡可能豐富,，內(nèi)容或物品有更多的曝光機(jī)會(huì),。

第三是性能，當(dāng)刷新一個(gè)頁(yè)面的推薦結(jié)果,，如果沒有很快返回會(huì)帶來(lái)很差的用戶體驗(yàn),。從另一方面來(lái)說(shuō)，我們的結(jié)果不一定是非常好的,，但它絕對(duì)不能留白,，就是無(wú)論怎么樣推薦結(jié)果一定有返回，這是最基礎(chǔ)的要求,。

在實(shí)際的推薦場(chǎng)景里,，功能、效果,、性能三者相輔相成,、也彼此互相影響，很多時(shí)候要進(jìn)行折中的考慮,。

二,、搭建推薦系統(tǒng)的關(guān)鍵算法

1.達(dá)觀數(shù)據(jù)推薦系統(tǒng)架構(gòu)

上圖是達(dá)觀推薦的是總體架構(gòu)。

達(dá)觀數(shù)據(jù)有自己的運(yùn)算平臺(tái),、存儲(chǔ)平臺(tái)和傳輸平臺(tái),。在此之上是組件層，很多推薦依賴于NLP做了進(jìn)一步的分析挖掘,。在此之上是模型層,，模型有很多，比如用戶畫像就是對(duì)一個(gè)用戶有全方位的刻畫,，同時(shí)也有物品畫像,，包括收益、點(diǎn)擊,、收藏,，預(yù)估的收益，增長(zhǎng)趨勢(shì)等,。

模型之上是算法層,，包括矩陣分解、協(xié)同過濾,，深度學(xué)習(xí)算法也是達(dá)觀的一部分,，同時(shí)還有基于統(tǒng)計(jì)的模型，包括點(diǎn)擊反饋,、關(guān)聯(lián)規(guī)則挖掘等,，還有比較重要的是基于內(nèi)容的推薦,。

算法層上面是組合層，單一的推薦算法有二三十種,，基于單一的推薦算法會(huì)有機(jī)器學(xué)習(xí)的融合排序,，基于不同業(yè)務(wù)場(chǎng)景會(huì)自適應(yīng)選擇一部分模型進(jìn)行效果優(yōu)化。

組合層上面是應(yīng)用層,，主要提供四種服務(wù)：

1. 個(gè)性化推薦,，這是千人千面的推薦結(jié)果；

2. 相關(guān)推薦是以物推物,，當(dāng)看到商品,、視頻或文章會(huì)有一個(gè)關(guān)聯(lián)的推薦；

3. 熱門推薦,，其實(shí)是熱點(diǎn)分析,；

4. 推薦理由，是推薦結(jié)果的解釋,。對(duì)于推薦理由的使用在PC中用得比較多,。

2.推薦流程

推薦流程分為三部分：離線、近線和在線,。

離線一般說(shuō)召回,，要從很多推薦的物品里進(jìn)行召回。大的推薦客戶每天會(huì)新增物品可能幾十萬(wàn),，在推薦候選集中有幾千萬(wàn)時(shí)并不是所有的每次都要重新計(jì)算一遍,。離線模塊的處理就是先做一個(gè)推薦結(jié)果的召回，這種召回一般叫重量級(jí)的算法,，比如說(shuō)做協(xié)同過濾,、決策分解、深度學(xué)習(xí)等,，這些會(huì)依賴于大數(shù)據(jù)的集群,。由于數(shù)據(jù)量比較大，一般我們使用最近半年或者幾個(gè)月的數(shù)據(jù),，跑一次的時(shí)間一般在幾個(gè)小時(shí)，快的話是半小時(shí),。從幾十萬(wàn),、幾百萬(wàn)、幾千萬(wàn)的候選集里面得到的候選集在幾千這個(gè)維度,。

經(jīng)過離線模塊的召回之后是近線的處理,，也叫粗排，粗排是一些輕量級(jí)算法,，比如剛剛提到在組合層達(dá)觀有各種各樣組合的模型,，基于單一的推薦算法進(jìn)行融合,，一般使用的方式是內(nèi)存+RDB。這部分處理時(shí)間非?？?，一般在秒級(jí)，就是說(shuō)當(dāng)一個(gè)用戶的行為發(fā)生改變后,，他的推薦結(jié)果會(huì)做到實(shí)時(shí)更新,。經(jīng)過粗排之后，這個(gè)推薦結(jié)果一般是在百的量級(jí),。

最后一步在線主要做精排,。當(dāng)新的請(qǐng)求過來(lái)，通過這個(gè)用戶的ID,，根據(jù)離線找到近線模塊處理的結(jié)果,。拿到基于粗排之后的結(jié)果后做一些業(yè)務(wù)規(guī)則的處理，比如在一次推薦里要求多樣性和時(shí)效性等,。這里很多處理方式是基于加載內(nèi)存的方式,，處理時(shí)間是在毫秒級(jí)，返回的結(jié)果一般在10這個(gè)量級(jí),。

3.如何做熱門推薦,？

就熱門推薦簡(jiǎn)單的方式可生成多維度的熱門數(shù)據(jù)，熱門數(shù)據(jù)有各種排行榜,，比如點(diǎn)擊的排行榜,，購(gòu)買排行榜等。當(dāng)客戶需要熱門推薦的場(chǎng)景時(shí)可把熱門推薦生成的結(jié)果直接返回給客戶,。另一方面,，熱門推薦也可以捕捉一些場(chǎng)景，比如處理冷啟動(dòng)和做一些基于問題探索時(shí),。

熱門推薦的結(jié)果通常有一定理論依據(jù),，比如按購(gòu)買、銷量排序其實(shí)也是很多人容易接受的方式,，在這部分也可以?shī)A雜人工編輯的分析,。所以首先基于用戶行為（包括物品數(shù)據(jù)，用戶本身的數(shù)據(jù)）生成不同維度的排行榜,，在不同的時(shí)機(jī)推薦給用戶,。

4.如何做基于內(nèi)容的推薦？

一個(gè)物品一般會(huì)有各種維度的使用信息,，比如商品有標(biāo)題,、品牌、價(jià)格,、折扣等,，基于使用信息可以推薦標(biāo)題上語(yǔ)意相似的商品,。處理基于內(nèi)容推薦時(shí)不僅是基于簡(jiǎn)單使用方面的匹配，會(huì)考慮到其他組合條件,。比如服裝類的商品加上不同的價(jià)格會(huì)得到不同的結(jié)果,，這種找物方式是單純拿到物品屬性時(shí)的處理，但在實(shí)際場(chǎng)景下還有各種擴(kuò)展,，比如會(huì)做做類別和語(yǔ)義的擴(kuò)展,。

類別擴(kuò)展：比如男生關(guān)注的是科技，是否可以推薦一下體育或軍事等相關(guān)內(nèi)容,？類別擴(kuò)展也是避免內(nèi)容推薦過于單一的方式,。

語(yǔ)義擴(kuò)展：當(dāng)你關(guān)注一個(gè)標(biāo)簽時(shí)，我們會(huì)把它相應(yīng)的標(biāo)簽也拿到,，基于你相關(guān)的標(biāo)簽也可以做其他方面的召回,。比如當(dāng)看歐冠時(shí)，是不是可以推薦西甲相關(guān)的新聞,？一個(gè)用戶關(guān)注梅西,，但梅西的新聞?dòng)袝r(shí)比較有限，是不是可以給他推薦C羅的內(nèi)容,？語(yǔ)義擴(kuò)展也可以解決推薦內(nèi)容太過單一的問題,。

5.基于主題模型的推薦

主題模型的推薦可以充分利用一個(gè)物品的文本特征，比如標(biāo)題,、描述或內(nèi)容等,。一篇文章拿到標(biāo)題后，基于主題模型,，基于LDA或者LSI可以把它生成一個(gè)向量,。

基于這個(gè)向量得到關(guān)于主題的分布，計(jì)算它的相似度,，基于這個(gè)相似度我們?nèi)opN可以得到一個(gè)推薦結(jié)果,。

這種推薦結(jié)果比單純基于文本和字面匹配的效果更好。

6. 協(xié)同過濾

協(xié)同過濾有兩種,，基于用戶的協(xié)同過濾和基于物品的,。基于用戶的協(xié)同過濾首先計(jì)算用戶之間的相似度，把相似的用戶感興趣的物品推薦給當(dāng)前這個(gè)用戶,?；谖锲返膮f(xié)同過濾先計(jì)算物品的相似度，基于相似度進(jìn)行排序,，最終得到當(dāng)前這個(gè)物品比較相似的其他物品。

一個(gè)熱門的商品會(huì)很容易影響到用戶或者物品之間的相似度,。比如今天有一社會(huì)熱點(diǎn)事件,，很多媒體跟蹤除了爆款新聞,，即使我平時(shí)是一個(gè)關(guān)注體育或科技領(lǐng)域的讀者，也會(huì)點(diǎn)擊看一下,。這種情景下如果基于物品的相似度來(lái)處理得到的結(jié)果往往不好,。所以在計(jì)算相似度時(shí)要做很多變形，比如對(duì)熱門進(jìn)行特別處理,，對(duì)冷門的物品也需要做特殊處理和過濾等,。

也要考慮用戶有一些作弊行為，比如用戶刷了某一領(lǐng)域很多東西,，其他用戶只是刷了部分,，很多的用戶和其他用戶計(jì)算相似度時(shí)，可能都會(huì)在其他用戶計(jì)算的候選集中,，這也不符合實(shí)際場(chǎng)景,。所以在實(shí)際處理時(shí)要對(duì)這部分做一些特殊的控制。

7. 潛在因子模型

基于潛在因子分析是完全由數(shù)學(xué)的方式,、更好的模型來(lái)處理,。他的輸入是一個(gè)用戶的行為矩陣，通過矩陣分解得到兩個(gè)矩陣,，基于這兩個(gè)矩陣進(jìn)一步復(fù)原,，通過矩陣相乘的方式，就可以把原來(lái)用戶沒有操作過的物品的得分給預(yù)測(cè)出來(lái),。

單純依賴用戶行為數(shù)據(jù)進(jìn)行預(yù)測(cè)有很多不足,，給物品的打分和用戶本身的打分差異可能很大。在上面的實(shí)驗(yàn)?zāi)Ｐ椭锌梢猿浞挚紤]用戶的bias信息,。比如在電影場(chǎng)景中,，由一個(gè)大牌明星主演，因?yàn)樗氖袌?chǎng)預(yù)期好所以容易得到好評(píng),。但當(dāng)是小眾電影或者很多新人主演,，大家接受度不高，得分可能會(huì)相對(duì)低,。也許它得到了3分,，可能已經(jīng)相當(dāng)于大牌明星主演電影的5分。這就會(huì)導(dǎo)致物品和用戶之間有各種bias信息,。在做潛在因子模型時(shí),，可以把用戶的bias信息和物品的bias信息加進(jìn)來(lái)。

同時(shí)還要考慮很多特征要進(jìn)行組合,，男生加上體育和女生加上娛樂,，往往是一個(gè)更好的特征。對(duì)這塊來(lái)說(shuō),，通過潛在因子模型可以把這些信息充分考慮進(jìn)來(lái),。

8.用戶模型構(gòu)建

用戶模型構(gòu)建也是用戶畫像,。在實(shí)際場(chǎng)景中如果精準(zhǔn)挖掘用戶興趣偏好，個(gè)性化推薦能做得更好,。用戶畫像有多種信息,，基于注冊(cè)信息有年齡、性別,、地域等,，還有另一種數(shù)據(jù)——用戶的偏好，同時(shí)還有各種分類的場(chǎng)景,，比如在電商里會(huì)判斷一個(gè)用戶他對(duì)價(jià)格是否敏感,，是否喜歡小眾的東西等。

這個(gè)分析牽涉到各種技術(shù),，比如基于概率統(tǒng)計(jì)可以得到一部分?jǐn)?shù)據(jù),，另一部分，很多用戶之間的興趣有一定的關(guān)聯(lián)性,，可以做用戶群體的聚類,。預(yù)測(cè)用戶對(duì)價(jià)值的喜好可借助一些常見的分類模型來(lái)處理。對(duì)于用戶模型構(gòu)建,，我們一方面給推薦系統(tǒng)來(lái)使用,，另外一部分也提供用戶畫像這種服務(wù)，當(dāng)企業(yè)拿到用戶畫像后,，可以做老用戶的關(guān)懷,、流失用戶的召回等。

9.多算法融合

上面提到的都是單一推薦算法,，比如基于內(nèi)容的,，基于熱門的，包括基于協(xié)同過濾,、矩陣分解,、深度學(xué)習(xí)等，單一算法會(huì)得到一些推薦候選集,，拿到推薦候選集后要做一個(gè)融合,，將最后結(jié)果返回給用戶。我們會(huì)將單一推薦候選集輸入到融合模型里,，讓模型預(yù)測(cè),，按照用戶偏好的高低排序，然后取得TOPN返回給用戶,。

推薦的整體流程有以上這幾點(diǎn),，首先是各種單一算法召回，召回完進(jìn)行融合，單一算法里又分了不同維度,，比如協(xié)同過濾,、矩陣分解，包括用戶畫像等,。

三、推薦系統(tǒng)難點(diǎn)分析和解決方法

構(gòu)建推薦系統(tǒng)有下面四個(gè)難點(diǎn)：

1.如何精準(zhǔn)把握用戶興趣,？

用戶興趣不僅存在多樣性,，而且會(huì)隨著時(shí)間的變化而變化；其次對(duì)用戶興趣的挖掘需要海量數(shù)據(jù),，如何合理建模,？以及不同算法模型對(duì)用戶興趣的刻畫結(jié)果不同，如何優(yōu)化模型,？

2.如何解決冷啟動(dòng)問題,？

冷啟動(dòng)包括新用戶的冷啟動(dòng)和物品的冷啟動(dòng)。新用戶是當(dāng)一個(gè)用戶沒有任何行為數(shù)據(jù)和輔助信息的情況下,，如何給他做好推薦,？物品的冷啟動(dòng)即長(zhǎng)尾問題——如何將新的物品快速推薦給可能對(duì)它感興趣的用戶？

3.如何解決實(shí)際應(yīng)用中的性能問題,？

這包括數(shù)據(jù)量膨脹快,，且冷熱不均；如果用戶興趣變化快,，我們的深度學(xué)習(xí),、矩陣分解模型如何跟得上用戶興趣的變化也是一個(gè)考驗(yàn)；算法調(diào)優(yōu)時(shí)效果越調(diào)越差如何處理,？以及在機(jī)器資源有限,、存儲(chǔ)有限常出現(xiàn)性能瓶頸。

4.如何解決推薦結(jié)果單調(diào)性和重復(fù)性,？

推薦里面有個(gè)叫回聲室效應(yīng),，為了滿足用戶的興趣，推薦的內(nèi)容越來(lái)越窄如何處理,？第二部分是重復(fù),，如果依賴于內(nèi)容標(biāo)簽或者內(nèi)容分類，對(duì)于標(biāo)簽或者類目來(lái)不斷地召回新的推薦結(jié)果,，這會(huì)導(dǎo)致推薦結(jié)果沒有新鮮感,。

基于這四點(diǎn)，和大家分享一下達(dá)觀推薦系統(tǒng)對(duì)上述問題的解決方案（重點(diǎn)來(lái)了）

1.長(zhǎng)短期興趣畫像讓模型效果穩(wěn)定提升

通過引入時(shí)間因子,，基于不同的時(shí)間周期做用戶畫像,。比如基于最近半年的或更久的數(shù)據(jù)做長(zhǎng)期用戶畫像，基于近一個(gè)月或三個(gè)月做短期用戶畫像，同時(shí)還會(huì)有實(shí)時(shí)用戶畫像,，基于這三種類型用戶畫像之間的差異化,，能夠感知用戶的興趣變更。

基于用戶畫像后做一個(gè)過濾機(jī)制,，把推薦過或者質(zhì)量不佳先過濾,。這樣做排序時(shí)會(huì)引入一個(gè)時(shí)間因子做一個(gè)衰減，另外也會(huì)做機(jī)器學(xué)習(xí)的預(yù)測(cè),，可以方便地調(diào)整推薦順序,。

接下來(lái)做優(yōu)化，隨著時(shí)間的推移,，對(duì)于用戶的刻畫會(huì)更清晰準(zhǔn)確,。

2.快速建模技術(shù)解決冷啟動(dòng)問題

對(duì)于物品的冷啟動(dòng)，達(dá)觀數(shù)據(jù)使用CLUB算法,。先給它合適的探索機(jī)會(huì),，初期時(shí)讓物品有一定的曝光，曝光后我們會(huì)有一個(gè)更快的預(yù)期收益機(jī)制,，加快模型的迭代,。當(dāng)在一段時(shí)間內(nèi)觀察預(yù)期的收益沒有達(dá)到要求時(shí)，會(huì)把這部分的曝光逐漸降低,。如果預(yù)期收益比較好,，會(huì)增大一部分曝光。通過這種自學(xué)的機(jī)制來(lái)調(diào)整物品之間的曝光問題,，新的物品便總是有曝光的機(jī)會(huì),。

對(duì)于用戶的冷啟動(dòng)，即使用戶沒有任何數(shù)字信息,，用戶手機(jī)登陸APP時(shí)是否有其他可以采集的信息,？比如地域，手機(jī)型號(hào),，基于這些東西可以做一些離線的挖掘,。比如一線城市或四線城市，很大程度上會(huì)有一個(gè)偏好的差異,。用Iphone手機(jī)和用其他品牌手機(jī),，基于歷史的數(shù)據(jù)也會(huì)分析出差異點(diǎn)，然后進(jìn)行針對(duì)性的調(diào)整,。

有一種極端情況,，拿不到上述數(shù)據(jù)時(shí)如何做推薦？當(dāng)拿到用戶的ID,，基于一些歷史行為經(jīng)驗(yàn)挖掘一些高質(zhì)量的物品,，同時(shí)在生成推薦結(jié)果時(shí)盡量考慮到多樣性,。相當(dāng)于當(dāng)一個(gè)用戶進(jìn)入一個(gè)飯館，雖然不知道他喜歡什么,，但我們提供了種類豐富的菜單讓用戶選擇,。當(dāng)用戶選擇自己感興趣的內(nèi)容，和推薦系統(tǒng)有交互時(shí),，無(wú)論是點(diǎn)擊,、收藏、點(diǎn)贊,，借助我們的秒級(jí)反饋機(jī)制,，推薦的結(jié)果就可以實(shí)時(shí)更新，我們會(huì)對(duì)實(shí)時(shí)的畫像把握得越來(lái)越準(zhǔn),。

此外達(dá)觀數(shù)據(jù)借助自然語(yǔ)言處理技術(shù)，當(dāng)新的物品進(jìn)來(lái),，基于它的標(biāo)題,、類別等語(yǔ)義信息可以做預(yù)估，通過深度挖掘構(gòu)建新物品的畫像,，輔助接下來(lái)是增加推薦還是減少曝光,。

3.三級(jí)火箭”架構(gòu)保障系統(tǒng)穩(wěn)定和毫秒級(jí)反饋

達(dá)觀系統(tǒng)架構(gòu)分為三級(jí)火箭：由Offline-Nearline-Online三級(jí)依次銜接構(gòu)成，融合了各類推薦算法和數(shù)據(jù),。

離線使用的是大量的集群方式,，比如說(shuō)Spark、Kafka跑一些重量級(jí)的算法,，矩陣分解,、協(xié)同過濾，包括深度學(xué)習(xí)等都屬于離線模塊來(lái)做的,，這部分運(yùn)算時(shí)間比較久,。

在最上面叫在線模塊，當(dāng)用戶有一次推薦請(qǐng)求他希望反饋推薦結(jié)果時(shí),，要保證快速毫秒級(jí)地返回推薦結(jié)果,，不能做更多重量級(jí)算法。這部分往往是一些業(yè)務(wù)規(guī)則處理,，可以基于內(nèi)存或內(nèi)存的數(shù)據(jù)庫(kù)Redis的方式,，實(shí)時(shí)返回給用戶推薦結(jié)果。

在離線和在線模塊之間,，它們從小時(shí)級(jí)到毫秒級(jí)中間有很大的gap,，用戶行為發(fā)生變化后如何感知？接下來(lái)交給近線模塊處理,。近線模塊可以做到當(dāng)用戶每一次行為變化后,，系統(tǒng)都可以感知這種變化，然后把用戶的推薦結(jié)果重新計(jì)算一遍，這時(shí)候結(jié)果往往是一些融合算法,。融合排序輸入的就是離線的各種挖掘,，包括用戶畫像信息、他的場(chǎng)景畫像和實(shí)質(zhì)畫像等,?；诮€來(lái)說(shuō)，它對(duì)各種單一推薦算法進(jìn)行融合排序,，最終存到內(nèi)存數(shù)據(jù)庫(kù)中,。當(dāng)在線模塊接到新請(qǐng)求時(shí)，可以從這里面讀取對(duì)用戶近線計(jì)算好的結(jié)果,，然后做業(yè)務(wù)規(guī)則返回給用戶,。

這就是“三層火箭”架構(gòu)，它主要借鑒了搜索引擎的部分機(jī)制,，包括隊(duì)列,、實(shí)時(shí)計(jì)算等。我們可以滿足用戶的興趣和變化,，同時(shí)也在高并發(fā)的情況下毫秒級(jí)返回給用戶推薦結(jié)果,，目前達(dá)觀服務(wù)了上百家客戶，三層火箭架構(gòu)是一個(gè)有效的方式,。

4.NLP 技術(shù)解決推薦難題

解決推薦結(jié)果的單調(diào)性問題,，達(dá)觀做了很多自然語(yǔ)言處理（NLP）相關(guān)的東西，包括語(yǔ)義理解,、詞性標(biāo)注等,。例如做直播推薦時(shí)，基于評(píng)論信息可以分析情感是正面的還是反面的,，判斷用戶對(duì)當(dāng)前主播是否感興趣,。

另外一個(gè)是重要性排序，可以基于物品本身的標(biāo)題,、標(biāo)簽,、描述等信息做語(yǔ)義方面重要性的排序。基于文本處理可以有效解決推薦系統(tǒng)的冷啟動(dòng)問題,。

四,、深度學(xué)習(xí)在推薦系統(tǒng)中的應(yīng)用

1.Embedding 處理

Embedding主要有兩種方式。首先會(huì)做詞Embedding,，來(lái)完善內(nèi)容多樣性,。當(dāng)拿到item標(biāo)簽時(shí)，業(yè)界一般使用Word2vec方式進(jìn)行專項(xiàng)的擴(kuò)展,。比如當(dāng)用戶關(guān)注歐冠這個(gè)標(biāo)簽時(shí),，是否可以找到西甲,、意甲進(jìn)行詞粒度的擴(kuò)展。這樣在實(shí)際推薦中可以避免推薦結(jié)果太過單一,。

另一個(gè)itemEmbedding主要應(yīng)用于召回階段,。對(duì)于item Embedding，相當(dāng)于我們把一個(gè)用戶行為數(shù)據(jù)作為一個(gè)詞粒度,，然后輸入到Word2vec得到itemEmbedding,，基于item Embedding進(jìn)行相似度計(jì)算方式可以得到相似的物品。然后作為一個(gè)結(jié)果的召回進(jìn)入融合排序,。

在第三種是做Embedding中做特征工程,，得到一個(gè)物品或者一個(gè)用戶的Embedding后，做featurevector的方式來(lái)使用,，基于feature vector做machine learning,。

2.基于DNN的推薦

2017年谷歌發(fā)布了一篇論文《Deep Neural Networks for YouTube Recommendations》主要做YouTube的視頻推薦，這個(gè)場(chǎng)景達(dá)觀也在使用,。

在YouTube發(fā)布這篇論文的時(shí)候分了兩個(gè)階段來(lái)實(shí)現(xiàn)推薦結(jié)果,，第一層是上面圖片列的候選集生成的階段。這個(gè)階段DNN的處理方式它可以從百萬(wàn)量級(jí)直接降到百的量級(jí),。第二層是Ranking階段，做一些重排序的方式,。DNN把我們的推薦問題轉(zhuǎn)化成分類問題,，相當(dāng)于對(duì)每一個(gè)觀看的視頻做一個(gè)分類。

另外一方面,，論文中也提到DNN模型并沒有用到原始的用戶日志,，而是對(duì)每個(gè)用戶提取了等量的訓(xùn)練樣本，這種方式主要有好處是可以減少高度活躍用戶對(duì)loss函數(shù)的影響,。

3.基于DKN的推薦

DKN主要是基于知識(shí)圖譜,，應(yīng)用在Feed流推薦中。DKN是基于內(nèi)容的深度推薦的框架下進(jìn)行點(diǎn)擊率的預(yù)測(cè),。比如每條新聞通過KCNN對(duì)標(biāo)題進(jìn)行處理,，最終產(chǎn)生一個(gè)向量。同時(shí)我們引用注意力機(jī)制機(jī)做用戶的Embedding,，最終再結(jié)合深度神經(jīng)網(wǎng)絡(luò)做點(diǎn)擊的預(yù)估,。

4.Wide&Deep

2016年谷歌在一篇論文提出了Wide&Deep模型，這個(gè)模型里主要同時(shí)學(xué)習(xí)低階和高階的特征,。

Wide模型是線性模型+特征組合,，記憶性好、可解釋性強(qiáng),。Deep是Deeplearning,，這塊特征工程較少,，往往可以學(xué)習(xí)到更高層次的隱藏特征。但它需要較專業(yè)的領(lǐng)域知識(shí)來(lái)做特征工程,，所以進(jìn)一步產(chǎn)生了Deep FM,。

5.Deep FM

Deep FM的主要優(yōu)點(diǎn)是不需要預(yù)訓(xùn)練，也不需要人工的特征工程,，同時(shí)可以學(xué)習(xí)一些低階和高階的特征,，并且進(jìn)行組合的共享。這樣可以更快的訓(xùn)練,，同時(shí)得到更精確的訓(xùn)練學(xué)習(xí),。下圖為一個(gè)DeepFM論文里提到的各種參數(shù)設(shè)置。

6.模型-排序

對(duì)于達(dá)觀來(lái)說(shuō),，模型排序有下述這些方式,。

（1）線性模型，依賴于人工特征工程,，

（2）FM/GBDT+LR或Xgboost+LR,，它主要是非線性的，達(dá)觀做了特征融合,。在很多場(chǎng)景下推薦效果會(huì)更好,。

（3）模型的進(jìn)一步演進(jìn)，使用到DeepFM和Wide&Deep借助于深度學(xué)習(xí),，減少很多人工的特征工程,。這部分的工作主要在調(diào)參上。

在達(dá)觀服務(wù)的眾多行業(yè)里,，從線性,、非線性，包括深度學(xué)習(xí)模型都在使用,。每個(gè)行業(yè)自己的特點(diǎn),，不同的客戶有自己的數(shù)據(jù)量和用戶群體，達(dá)觀會(huì)基于客戶的推薦效果來(lái)選擇對(duì)應(yīng)比較好的模型,。

7. XDeepFM

2018年微軟發(fā)布了一個(gè)模型XDeepFM,，它其實(shí)是對(duì)DCN的改進(jìn)，主要由linear,、DNN,、CIN組成。引入的CIN機(jī)制可以自動(dòng)學(xué)習(xí)顯式的高階特征交互,，該模型在幾個(gè)數(shù)據(jù)集上都取得了超過DeepFM模型的效果,。這部分達(dá)觀推薦也正在探索和嘗試中。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,，所有內(nèi)容均由用戶發(fā)布,，不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào),。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：李清龍1023 > 《待分類》

舉報(bào)/認(rèn)領(lǐng)