騰訊QQ看點團隊：用遷移學(xué)習(xí)架構(gòu)解決短視頻冷啟推薦問題

520jefferson 2020-11-02

展開全文

導(dǎo)讀：新用戶和冷用戶喜好預(yù)測問題一直是推薦系統(tǒng)領(lǐng)域的難題,，近期騰訊 QQ 看點（PCG 事業(yè)群）團隊的一項研究提出了一種遷移學(xué)習(xí)架構(gòu) PeterRec，專門解決新用戶和冷用戶推薦問題,。目前,，該論文已被 SIGIR 2020 會議接收。

一,、背景

新用戶和冷用戶喜好預(yù)測問題一直是推薦系統(tǒng)領(lǐng)域的難題,，并廣泛存在于計算廣告、App 推薦,、電子商務(wù)和信息流推薦場景,。

目前絕大多數(shù)解決方案都是基于用戶外部畫像數(shù)據(jù)進行喜好預(yù)測，因此預(yù)測準確率嚴重受制于畫像數(shù)據(jù)準確率,，并且用戶畫像數(shù)據(jù)搜集成本高,，還涉及敏感的隱私問題；另外,，據(jù)了解,，即便擁有十分精準的用戶畫像數(shù)據(jù)，仍然很難針對新冷用戶做到個性化推薦,，其點擊率和相應(yīng)的 top-N 指標仍然顯著低于常規(guī)熱用戶,。

那么關(guān)于用戶冷啟動的場景,，有沒有更好的解決辦法呢？最近,，騰訊 QQ 看點（PCG 事業(yè)群）團隊 SIGIR 2020 長文《Parameter-Efficient Transfer from Sequential Behaviors for User Modeling and Recommendation》提出了一種遷移學(xué)習(xí)架構(gòu) PeterRec,，專門解決新用戶和冷用戶推薦問題。

PeterRec 的基本思想是通過自監(jiān)督學(xué)習(xí)一個通用的用戶表征,，然后將該用戶表征應(yīng)用到下游任務(wù)中,，例如冷啟動用戶場景（PeterRec 同時可以解決用戶畫像預(yù)測）。從論文的實驗結(jié)果來看,，這種采用自監(jiān)督預(yù)訓(xùn)練網(wǎng)絡(luò)學(xué)習(xí)用戶點擊行為的方法可以高效地推測出用戶偏好等信息,。

近年來，遷移學(xué)習(xí)對 CV 和 NLP 領(lǐng)域產(chǎn)生重大影響,，但尚未廣泛應(yīng)用于推薦系統(tǒng)領(lǐng)域,。此外，據(jù)我們調(diào)查,，推薦系統(tǒng)領(lǐng)域目前的遷移學(xué)習(xí)科研工作都沒有明確地展示出預(yù)訓(xùn)練網(wǎng)絡(luò)對于下游任務(wù)具有 positive transfer 效果,。而騰訊具有非常豐富的業(yè)務(wù)場景，部分業(yè)務(wù)（例如騰訊視頻,、QQ 瀏覽器）具有數(shù)億的 DAU 用戶,，并且很多用戶具有數(shù)百上千的點擊行為,，這些海量的用戶點擊行為為其他推薦業(yè)務(wù)場景（例如 QQ 看點,、微視、騰訊廣告,、應(yīng)用寶,、微信看一看）的新冷用戶提供了豐富的可遷移知識。

在本文中,，騰訊 QQ 看點團隊嘗試將 PeterRec 模型應(yīng)用于 QQ 看點的視頻推薦業(yè)務(wù)中,。之所以選擇 PeterRec 模型，除了其較好的個性化推薦能力外,，很重要的一點是,，PeterRec 可以實現(xiàn)一預(yù)訓(xùn)練網(wǎng)絡(luò)服務(wù)數(shù)十 / 百個推薦業(yè)務(wù)場景的能力。本文將從模型架構(gòu),、數(shù)據(jù)處理,、模型實現(xiàn)、后續(xù)工作四個方面進行介紹,。

二,、模型架構(gòu)

根據(jù)預(yù)訓(xùn)練的自監(jiān)督方式，PeterRec 可以分為單向自回歸方式（autoregressive）和雙向遮掩式,，這一點類似于近期的 NLP 工作,，例如 GPT。根據(jù)微調(diào)階段模型補丁嫁接插入方式又可以分為串行插入（serial）和并行插入（parallel）。這里只介紹 autoregressive,、serial 版本的 PeterRec 模型,。

1. 模型框架的輸入輸出

圖 1 模型結(jié)構(gòu)

預(yù)訓(xùn)練階段：

該階段采用單向自回歸的訓(xùn)練方式，根據(jù)用戶觀看的前 k 個視頻預(yù)測其可能會看的下一個視頻,。輸入是用戶在騰訊視頻看過的視頻 id 序列 [x_1, x_2, x_3,······, x_n-1],，然后通過 embedding lookup 的方式獲取每一個視頻的隱向量并輸入到預(yù)訓(xùn)練網(wǎng)絡(luò)中；輸出是對應(yīng)的下一個視頻 id,，即 [x_2, x_3,······, x_n-1, x_n],。可以看到,，PeterRec 模型不需要借助任何圖像和文本特征,，僅需要用戶點擊視頻的 ID 即可，視頻的向量表示完全由模型訓(xùn)練得到,，省去了特征工程的步驟, 這種預(yù)訓(xùn)練方式已經(jīng)被應(yīng)用于 CV 和 NLP 領(lǐng)域,，并且取得了非常認可的效果，然而并沒有在推薦系統(tǒng)領(lǐng)域得到推廣,。

微調(diào)階段：

微調(diào)（finetune）階段是根據(jù)用戶在騰訊視頻的觀看記錄,，預(yù)測其可能會在 QQ 看點感興趣的視頻。輸入是 [x_1, x_2, x_3,······, x_n-1, x_n, [CLS] ],，其中 [x_1, x_2, x_3,······, x_n-1, x_n] 為用戶在騰訊視頻看過的視頻 ID 序列,，[CLS] 是一個特殊的記號，表示在這個位置輸出分類結(jié)果,；輸出 Label 是 QQ 看點的視頻 ID,，即預(yù)測用戶在 QQ 看點可能會看的 top-N 個視頻 ID。

2. 模型的網(wǎng)絡(luò)結(jié)構(gòu)

預(yù)訓(xùn)練階段：

在模預(yù)訓(xùn)練階段,，我們將其看作一個超大多分類問題,。輸入的視頻 ID 序列經(jīng) embedding_lookup 操作后，提供給后面的空洞卷積網(wǎng)絡(luò),。整個空洞卷積網(wǎng)絡(luò)由若干個 residual block（如下圖 (a) 所示）堆疊構(gòu)成,。每個 block 包含兩個空洞卷積層（DC layer），每層的空洞因子以 2^n 增加,。最后通過一個 softmax 層預(yù)測出下一個視頻,。

相較于其他時序模型如 RNN、Transformer 等,，PeterRec 模型基于空洞卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建大規(guī)模預(yù)訓(xùn)練模型,，同時通過疊加空洞卷積層達到可視域指數(shù)級的增加，這種網(wǎng)絡(luò)結(jié)構(gòu)使得它在對超長的用戶點擊序列進行建模時更加高效,。而相比之下,，RNN 模型在對超長序列建模時,，通常會遇到梯度消失和梯度爆炸的問題；而像 Transformer 這類 self-attention based 的模型,，時間復(fù)雜度和顯存需求會隨著序列長度以二次方的級別增加,。

圖 2：residual block 和模型補丁

微調(diào)階段：

為了實現(xiàn)對預(yù)訓(xùn)練網(wǎng)絡(luò)參數(shù)的最大化共享，微調(diào)階段僅對預(yù)訓(xùn)練模型做了兩處改動：

1）在 residual block 中以串行的方式插入模型補?。ㄈ缟蠄D (b) 所示）,，每個模型補丁由一個瓶頸結(jié)構(gòu)的殘差塊構(gòu)成（如上圖 (f) 所示），且參數(shù)量不到原始空洞卷積的十分之一,；

2）直接移除預(yù)訓(xùn)練 softmax 層,，然后添加新任務(wù)的分類層。

微調(diào)通常要重新訓(xùn)練整個網(wǎng)絡(luò),，并更新模型所有參數(shù),，因此從參數(shù)量的角度來看，微調(diào)是非常低效的,。相比這種微調(diào)所有參數(shù)的方式,，PeterRec 模型在微調(diào)階段僅對模型補丁和新任務(wù)的 softmax 層中的參數(shù)進行更新，參數(shù)量大大減小的同時卻可以達到與微調(diào)所有參數(shù)相當甚至更好的效果,。而且,，由于僅有少數(shù)參數(shù)參與更新，PeterRec 模型還具有很好的抗過擬合能力,。

3. 損失函數(shù)

預(yù)訓(xùn)練階段：

預(yù)訓(xùn)練階段采用 softmax 的多分類交叉熵損失函數(shù),。在實際操作中，騰訊視頻中的視頻經(jīng)過各種過濾 ID 映射后還有數(shù)百萬級別的有效視頻,。如果采用 full softmax,，訓(xùn)練效率會很低,，所以這里采用了 tf.nn.sampled_softmax_loss,，實際只采樣了 20% 的 item 作為負樣本用做訓(xùn)練，當然其他 efficient 采樣和 loss 設(shè)置也同樣適用,，例如 NCE loss 或者下文提到的 LambdaFM 方式,。

微調(diào)階段：

對于排序場景，pairwise 類方法要比 pointwise 類方法（直接看做分類或者回歸）更合適,，所以微調(diào)階段采用了 pairwise ranking loss (BPR),。pairwise loss 構(gòu)造樣本時我們同時考慮兩個 item 比如 x_i 和 x_j，這兩個 item 是有順序的,，比如用戶在排序列表里點擊了 x_i,，而未點擊 x_j，我們可以看做 x_i 要優(yōu)于 x_j,。

因此,，我們需要為每一個真實物品 label（y）采樣一個負樣本 y-,，通過計算用戶的隱向量與 y 和 y- 的隱向量的內(nèi)積作為兩個 item 的打分 o_y 和 o_y-，然后算出最終的 BPR loss：

具體采樣時采用 LambdaFM（CIKM2016）方式,，其效果顯著好于隨機采樣和僅僅使用曝光未點擊作為負樣本的方式,。

三、數(shù)據(jù)處理

這里介紹我們在優(yōu)化模型過程中幾個有效的數(shù)據(jù)處理方法：

1,、item 過濾與編碼

過濾：

由于涉及到不同業(yè)務(wù)數(shù)據(jù),，騰訊視頻業(yè)務(wù)流水均需要封閉域中安全獲取，得到用戶的原始觀看序列后,，需要過濾一些過熱或過冷的視頻 item（過熱的視頻沒有區(qū)分度,，無法看出用戶特定的偏好；過冷的視頻由于出現(xiàn)次數(shù)少,，模型學(xué)得的隱向量很難準確反映視頻的信息,，并且沒有充分的訓(xùn)練很容易成為噪聲而影響最終效果）。過濾后,，騰訊視頻的視頻數(shù)量在 200w+ 的級別,。

編碼：

在預(yù)訓(xùn)練階段，我們采用了 sampled_softmax_loss 來代替 full softmax loss,，tensorflow 的 sampled_softmax_loss 函數(shù)在進行負采樣時,，是通過 log_uniform_candidate_sampler 進行的，使用這個 sampler 的效果是：item 編號越小,，它被采樣為負樣本的概率越大,。針對這種情況，我們在對視頻 item 進行編號時,，按照 item 在播放序列中的出現(xiàn)次數(shù)降序排列,，然后從 0 開始編號。（原因可見下文「LambdaFM 負采樣」）,。微調(diào)階段則采用 BPR loss,，沒有用到 log_uniform_candidate_sampler，因此可以不用按 item 頻率進行編號,。

2,、樣本構(gòu)造

預(yù)訓(xùn)練階段：

首先，我們先從騰訊視頻的流水數(shù)據(jù)中拿到用戶 a 的播放序列,。經(jīng)過過濾（根據(jù)視頻的播放時長和完播率過濾掉自動播放的視頻）和去重（對原始播放序列的相鄰 item 去重）后,，取用戶 a 最新的 50 個播放視頻作為一個預(yù)訓(xùn)練的訓(xùn)練樣本 [x_1, x_2, x_3,······, x_50]（若用戶的播放序列長度不足 50，則在前面填充 [PAD]）,。用戶播放序列行為可以根據(jù)計算資源設(shè)置,，如果具有較充足的計算資源，則可以將行為序列設(shè)置得更大,，如 200 甚至 1000,。

微調(diào)階段：

以相同方式從 QQ 看點的流水數(shù)據(jù)中拿到用戶 a 的播放行為 [y_1 y_2, y_3,······, y_m],。這時，根據(jù)用戶 a 在騰訊視頻和 QQ 看點的播放序列,，我們可以為用戶 a 構(gòu)造 m 條微調(diào)的訓(xùn)練樣本：[x_1, x_2, x_3,······, x_50, [CLS], y_1], [x_1, x_2, x_3,······, x_50, [CLS], y_2], ...... , [x_1, x_2, x_3,······, x_50, [CLS], y_m],。（需要注意的是，只有騰訊視頻和 QQ 看點的交集用戶才能用于構(gòu)造微調(diào)的訓(xùn)練樣本,，預(yù)測時候則不需要,。）

3、樣本選擇

經(jīng)過上述處理,，對于不同觀看歷史的用戶,，PeterRec 模型預(yù)測出來的 top-N 結(jié)果已經(jīng)具有一定的相關(guān)性。實際的 case 分析顯示,，這些強相關(guān)視頻仍然容易出現(xiàn)得分較低于高頻 item 的情況,，如排在 top100 之外，但是在頭部都出現(xiàn)了 item vocab 中最熱的那些視頻,，由此可見高頻 item 對模型的影響還是很大,。為了緩解 top-N 推薦結(jié)果中的頭部效應(yīng)問題，減少高頻 item 對模型的影響,，我們嘗試了不同的均衡正負樣本的策略,，其中下列兩種較為有效：

高頻降采樣：

Word2vec 的實現(xiàn)中，會指定一個概率 P(wi) 對高頻詞進行打壓,，同時保留所有的低頻詞,。實際源碼中，高頻詞在每個樣本中被保留的概率實現(xiàn)如下：

轉(zhuǎn)換成公式就是：

其中,，參數(shù) sample 用于控制降采樣的程度,，sample 值越小，降采樣強度越大,，實際使用中需要根據(jù) item 的頻率分布來確定,，一般取 0.001 ~ 0.00001。

于是,，我們在構(gòu)造微調(diào)訓(xùn)練樣本的時候,，先根據(jù)概率分布 P(w_i ) 對用戶在 QQ 看點的播放序列 [y_1 y_2, y_3,······, y_m] 進行一次降采樣，按照一定比例丟棄一些高頻的視頻 item,。然后再與其在騰訊視頻的播放序列做拼接，得到微調(diào)的訓(xùn)練樣本,。

LambdaFM 負采樣：

關(guān)于負采樣,，常用的做法有兩種：1）采用曝光未點擊作為負樣本；2）從總的候選池子中隨機取樣,。

我們發(fā)現(xiàn)（1）方法效果較差,，因此采用從候選 item 池子隨機選擇 itemID,，但這種方式仍然存在一定的缺陷，它采樣出來的樣本多數(shù)集中在長尾處,，LambdaFM 論文中是這么描述的：

In fact, it has been recognized that item popularity distribution in most real-world recommendation datasets has a heavy tail, following an approximate power-law or exponential distribution.

Accordingly, most non-positive items drawn by uniform sampling are unpopular due to the long tail distribution, and thus contribute less to the desired loss function. Based on the analysis, it is reasonable to present a popularity-aware sampler to replace the uniform one before performing each SGD.

這里 popularity-aware sampler 的意思是讓更受歡迎的 item 有更大的幾率被采樣為負樣本,，這其實是符合直覺的，因為相比那些不受歡迎且用戶沒有觀看的視頻,，那些受歡迎但用戶沒有觀看的視頻更具信息量,，更能幫助我們發(fā)現(xiàn)用戶的偏好。我們發(fā)現(xiàn) LambdaFM 論文提供了 3 種負采樣方法,，本文這里采用了第一種負采樣方式,，在后續(xù)工作我們也會嘗試動態(tài)負采樣，根據(jù)論文動態(tài)負采樣通常推薦 top-N 效果更好,。

微調(diào)訓(xùn)練過程中,，我們采用了 LambdaFM 中的 Static & Context-independent Sampler 進行負采樣，即視頻 j 被采樣為負樣本的概率 pj 與它的熱度排名 rank(j) 呈正相關(guān)：

其中,，rank(j) 表示視頻 j 在所有視頻 item 集合 I 中的熱度排名,，ρ 表示閾值，通常取 0.3-0.5,。

4,、Predict 處理

前面的處理過程已經(jīng)可以很精準地實現(xiàn)看點視頻推薦的個性化或者相關(guān)性，我們隨機挑選了兩個實例（參見表 1）,。同時,，這還能有效處理用戶在騰訊視頻和 QQ 看點的偏好不一致問題：在具體的 case 分析中，我們發(fā)現(xiàn)部分用戶在騰訊視頻看的大多是卡通類的視頻,，而在 QQ 看點很少看這類視頻,，此時，PeterRec 模型推出的視頻更接近于他們在 QQ 看點看過的真實視頻,，而非卡通類視頻,。我們推測主要原因可能是該部分用戶在騰訊視頻大多是學(xué)齡兒童甚至是學(xué)齡前期，主要是使用其父母賬號觀看騰訊視頻,，而在看點賬號大多是其父母在使用,，因此推出的視頻偏向于年輕父母偏好。

表 1：QQ 看點的新冷用戶推薦示例

后續(xù)為了增加推薦 top-N 結(jié)果中的多樣性,，我們在 Predict 的過程中做了一些改變：

圖 3：Predict 處理

如上圖所示,，我們在為用戶生成推薦列表時，不再是直接將用戶在騰訊視頻的播放序列輸入到模型中,，我們將其拆分成了兩類子序列：

第一類是播放序列里的有效播放序列的子串,。取子串的原因是，我們發(fā)現(xiàn),，用戶觀看的相鄰視頻之間興趣點比較一致,，也就是用戶會在某個時刻連續(xù)觀看一些同類的視頻,。這使得子串里的視頻大多屬于同一類，用戶的興趣點明確,，更有利于模型找到用戶的偏好,。

第二類是從用戶的有效播序列中隨機采樣一些 item 來構(gòu)造子序列，原因是用戶的播放序列中往往包含了多個種類的視頻,，隨機構(gòu)造子序列引入了隨機性,，可以更好地豐富 top-N 結(jié)果中包含的視頻種類。

最后將用戶對應(yīng)的所有子序列的 top-N 結(jié)果,，進行 concat,、shuffle 和去重，得到用戶最終的 top-N 推薦列表,。

四,、模型實現(xiàn)

模型代碼是由參考原始論文源碼，采用 tensorflow estimator + tf.data + spark-fuel 框架實現(xiàn),，完整代碼可參考 git

1,、輸入處理

Google 官方推薦處理中大數(shù)據(jù)集時，先將數(shù)據(jù)集轉(zhuǎn)化為 TFRecord 數(shù)據(jù),，這樣可加快數(shù)據(jù)讀取和預(yù)處理中的速度,。因此，我們先使用 spark 對訓(xùn)練數(shù)據(jù)進行處理,，然后轉(zhuǎn)成 TFRecord 的格式傳到 hdfs 上,。TFRecord 做好了，要怎么讀取呢,？可以通過 tf.data 來生成一個迭代器,，每次調(diào)用都返回一個大小為 batch_size 的 batch，這樣可以很方便地支持多線程讀取數(shù)據(jù),。關(guān)于如何優(yōu)化 input pipeline 的性能,，可參考 Better performance with the tf.data API、How to improve data input pipeline performance?

需要注意的是,，預(yù)訓(xùn)練階段和微調(diào)階段的 click_id_list 長度是不一樣的,。

圖 4：讀入 TFRecord

2、模型構(gòu)建

PeterRec 模型的網(wǎng)絡(luò)結(jié)構(gòu)比較簡單高效,，且空洞卷積的使用也使得模型能夠并行訓(xùn)練和降低顯存需求,，這里直接復(fù)用了源碼中的模型結(jié)構(gòu)和模型補丁結(jié)構(gòu)。另外,，在采用 PS 策略進行分布式訓(xùn)練時,，為了均衡 ps 節(jié)點的負載和加速訓(xùn)練，最好是對模型參數(shù)做分區(qū),，以便模型參數(shù)被均勻分配到各個 ps 上,。

圖 5：預(yù)訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu)

3、模型訓(xùn)練

模型訓(xùn)練的過程采用 tf. Estimator 實現(xiàn),。tf.Estimator 的特點是：既能在 model_fn 中靈活的搭建網(wǎng)絡(luò)結(jié)構(gòu),，也不至于像原生 tensorflow 那樣復(fù)雜繁瑣。相比于原生 tensorflow 更便捷,、相比與 keras 更靈活,，屬于二者的中間態(tài)。

實現(xiàn) tf.Estimator 主要分三個部分：input_fn,、model_fn,、main 三個函數(shù)。其中 input_fn 負責處理輸入數(shù)據(jù),，model_fn 負責構(gòu)建網(wǎng)絡(luò)結(jié)構(gòu),，main 來決定要進行什么樣的任務(wù)（train、eval,、predict 等）,。input_fn 在上文「輸入處理」一節(jié)中已經(jīng)介紹過，這里只介紹 model_fn 和 main 函數(shù),。

model_fn 函數(shù)：模型的網(wǎng)絡(luò)結(jié)構(gòu),、loss 已在上一節(jié)中介紹過，這里只給出了定義 train_op 的部分,。這里采用了同步更新機制,，每個 worker 節(jié)點直接訪問外部存儲系統(tǒng)（hdfs）獲得一個 batch，然后計算 loss 和 gradient,，匯總到 PS 節(jié)點,，當所有 worker 節(jié)點都完成一個 batch 時，才更新一次參數(shù),；在實際實驗中,，我們通過調(diào)節(jié) replicas_to_aggregate，我們通過忽略幾個速度慢的 worker 梯度來加速訓(xùn)練 ,。

圖 6：model_fn 函數(shù)

main 函數(shù)：有了輸入數(shù)據(jù) input_fn 和模型 model_fn,，main 函數(shù)就負責如何使用模型和數(shù)據(jù)。這里使用 train_and_evaluate 來一邊訓(xùn)練一邊輸出驗證集效果,。另外,，hook 可以看作是在訓(xùn)練驗證基礎(chǔ)上實現(xiàn)其他復(fù)雜功能的「插件」，比如本例中的 EvalHooks（用于計算 NDCG 等評估指標）,。

圖 7：main 函數(shù)

4,、離線打分

離線打分時，采用 spark-fuel 的分布式預(yù)測方式，如下圖所示,。需要注意的是,，預(yù)測過程其實就是一個 Spark 作業(yè)，沒有 TensorFlow Cluster,，每個 Spark Task 中通過 TensorFlow API 加載模型,，對 RDD Partition 中的每條數(shù)據(jù)做推理。

圖 8：分布式預(yù)測

在模型的預(yù)測階段,，我們需要對每一個模型輸出的用戶向量（即 [CLS] 對應(yīng)的最后一個 hidden layer 的輸出）,，快速求出最相關(guān)的 Top-K 個視頻，如下圖所示,。當 item 數(shù)量較大時,，下圖中直接計算內(nèi)積的速度會比較慢，可以采用 faiss 的 IndexHNSWFlat 來完成 Top-K 的查詢,。參考長視頻推薦：基于歐氏轉(zhuǎn)換的 top-k 內(nèi)積解決方案,。

圖 9：預(yù)測階段求 top-K

五、后續(xù)工作

后續(xù)我們將推進 PeterRec 在其他業(yè)務(wù)場景上的嘗試（包括畫像預(yù)測）,，充分利用 PeterRec 的參數(shù)高效特性優(yōu)勢,，同時我們近期將發(fā)布 PeterRec 完整的工程化代碼和配套遷移學(xué)習(xí)數(shù)據(jù)集用于學(xué)界和業(yè)界研究使用。

另外,，騰訊看點推薦團隊近期推出用戶表征的 lifelong learning（文獻 4）模型 Conure,，是首個能實現(xiàn)不同推薦任務(wù)，不同業(yè)務(wù)場景間的可持續(xù)學(xué)習(xí)算法模型,，離線實驗結(jié)果顯示該方法可以實現(xiàn)一個模型支持數(shù)十個推薦業(yè)務(wù),，尤其擅長解決冷啟動問題和畫像預(yù)測問題。如果各個下游任務(wù)之間存在一定的關(guān)聯(lián)性,，那么 Conure 可以比 PeterRec 取得更好的預(yù)測準確率,。

參考文獻：

[1] A Simple Convolutional Generative Network for Next Item Recommendation. Yuan et al, 2019, WSDM.

[2] Parameter-Efficient Transfer from Sequential Behaviors for User Modeling and Recommendation. Yuan et al, 2020, SIGIR.

[3] LambdaFM: Learning Optimal Ranking with Factorization Machines Using Lambda Surrogates. Yuan et al, 2016, CIKM.

[4] One Person, One Model, One World: Learning Continual User Representation without Forgetting. Yuan et al, 2020, Arxiv: https:///pdf/2009.13724.pdf.