“hi,,我是魏無(wú)羨,,我出生后被送到一個(gè)內(nèi)容庫(kù),在這里遇到了很多師兄弟,,在一個(gè)個(gè)黑盒子里,,我們身上被打上了N個(gè)不同的標(biāo)簽來(lái)表明我們的出生地、武功高低,、門(mén)派風(fēng)格等等,,經(jīng)過(guò)各種試煉檢驗(yàn),有些師兄弟被淘汰了,,而我順利通過(guò)了審核進(jìn)入下發(fā)環(huán)節(jié),。我依靠著一身武藝和好的身世背景,順利進(jìn)入尖子班,,并在每一階梯流量中脫穎而出,。” 現(xiàn)代人每天都在接觸個(gè)性化推薦,,例如常刷的今日頭條,、騰訊新聞、抖音等APP,。 個(gè)性化推薦是特定場(chǎng)景下人和信息更有效率的連接,,粗顆粒度理解就是斷物識(shí)人:左邊是內(nèi)容(斷物),右邊是用戶(識(shí)人),,中間通過(guò)推薦引擎鏈接兩者,,追求的是一種高效連接。 在開(kāi)篇的自白里,,高質(zhì)量下發(fā)的核心:識(shí)別藍(lán)忘機(jī)愛(ài)的是魏無(wú)羨,,并且把魏無(wú)羨推給他。 魏無(wú)羨:我經(jīng)歷的各種“黑盒子”——內(nèi)容庫(kù)各式各樣的黑盒子,,都是為了建立人機(jī)結(jié)合的用戶喜愛(ài)的高質(zhì)量?jī)?nèi)容生成系統(tǒng),,這個(gè)實(shí)時(shí)、高效的系統(tǒng)需要具備哪些特征,?
個(gè)性化推薦從一個(gè)好的內(nèi)容庫(kù)開(kāi)始(第一個(gè)黑盒子),,目的是為個(gè)性化推薦提供精準(zhǔn)的內(nèi)容數(shù)據(jù)基礎(chǔ),為了創(chuàng)造一個(gè)好的內(nèi)容庫(kù),,要做哪些工作,? 總地來(lái)說(shuō),,是把不能分發(fā)或影響體驗(yàn)的內(nèi)容剔除:
除了部分運(yùn)營(yíng)內(nèi)容外,推出的內(nèi)容基本來(lái)自?xún)?nèi)容庫(kù),,內(nèi)容的質(zhì)量奠定了個(gè)性化推薦的基調(diào),。內(nèi)容庫(kù)里的內(nèi)容根據(jù)一定規(guī)則形成內(nèi)容候選,機(jī)器就開(kāi)始挑內(nèi)容進(jìn)行后續(xù)的個(gè)性化推薦,。 魏無(wú)羨奔向的藍(lán)忘機(jī)長(zhǎng)啥樣,? ——用戶畫(huà)像如果你介紹一位朋友,在不同的場(chǎng)合,,你也許會(huì)有不同的介紹方法,。
正是因?yàn)槭挛锞哂卸嗝嫘院蛷?fù)雜性的特點(diǎn),不是一兩個(gè)詞就能概括全的,。標(biāo)簽實(shí)質(zhì)上是我們對(duì)多維事物的降維理解,,抽象出事物更具有表意性、更為顯著的特點(diǎn),,所以需要有針對(duì)性的投射,,以換取信息匹配效率最大化。 用戶畫(huà)像根據(jù)用戶自然屬性,、社會(huì)屬性,、閱讀習(xí)慣和線上行為等信息抽象出的一個(gè)標(biāo)簽化的用戶模型,常用于用戶數(shù)據(jù)化,、個(gè)性化推薦,、各大業(yè)務(wù)支撐等等。簡(jiǎn)單概括為“他是誰(shuí)”,,“他喜歡什么”,,為個(gè)性化推薦提供豐富而精準(zhǔn)的用戶畫(huà)像。 資訊推薦的用戶畫(huà)像一般會(huì)分為長(zhǎng)期畫(huà)像和短期畫(huà)像,,前者為離線處理,,后者為在線處理。
用戶畫(huà)像的建立更像一門(mén)統(tǒng)計(jì)學(xué),在處理數(shù)據(jù)的時(shí)候有些關(guān)注點(diǎn):
除了用戶在APP的閱讀行為,,完善用戶畫(huà)像還有哪些路徑?
畫(huà)像優(yōu)化如何評(píng)估,? 以下指標(biāo)可供參考:
關(guān)于用戶畫(huà)像,還有一點(diǎn)需要了解:不是有了用戶畫(huà)像,,便能驅(qū)動(dòng)和提高業(yè)務(wù),,而是為了驅(qū)動(dòng)和提高業(yè)務(wù),才需要用戶畫(huà)像,。 藍(lán)忘機(jī)還記得魏三歲的好嗎,?——NLP藍(lán)忘機(jī)已有畫(huà)像,魏無(wú)羨的標(biāo)簽怎么打,?也就是機(jī)器怎么做,? 資訊推薦常見(jiàn)的標(biāo)簽有:分類(lèi)(CATEGORY)、興趣點(diǎn)(POI),、關(guān)鍵詞(TAG),、主題(TOPIC),顆粒度由小到大:KEYWORD<TAG<POI<TOPIC<CATEGORY,。 KEYWORD
過(guò)往標(biāo)簽推薦較多,,現(xiàn)在更多嘗試向量化(embedding)推薦,即把特征表征為多維向量,,可通過(guò)距離衡量語(yǔ)義相關(guān)性,,YouTube的視頻推薦率先實(shí)踐。 給想了解深度學(xué)習(xí)(Deep Learning)的產(chǎn)品汪推薦《Deep Learning with Python》[美]弗朗素瓦·肖萊 著,,閱讀第一章即可(畢竟是一本開(kāi)發(fā)教程書(shū)),,詳見(jiàn)下一篇推送。 通過(guò)所有特征標(biāo)注,,魏無(wú)羨隨千軍萬(wàn)馬過(guò)獨(dú)木橋 ——召回打上標(biāo)簽的內(nèi)容一起涌來(lái),機(jī)器怎么挑,?在召回環(huán)節(jié),,通過(guò)索引,幾十個(gè)召回模塊一共召回幾千條內(nèi)容,,各召回模塊的召回條數(shù)有限制,,例如本地召回限制最多召回30條內(nèi)容,召回的內(nèi)容會(huì)根據(jù)一定條件(例如CTR,、篇均時(shí)長(zhǎng),、互動(dòng)指標(biāo)等)排序后截?cái)啵姓倩啬K召回的內(nèi)容匯總到一塊,,成為一個(gè)初步的候選集,。 這些召回模塊都有他自己存在的理由,例如根據(jù)地理位置的召回,、根據(jù)分類(lèi)興趣的召回,、根據(jù)關(guān)鍵詞的召回、根據(jù)熱議度的召回等等,,都是產(chǎn)品經(jīng)理或開(kāi)發(fā)的想法的一種嘗試,,大致可分為四類(lèi): 1. 興趣
產(chǎn)品汪基于業(yè)務(wù)需求,在召回模塊的探索有:增減召回模塊,、召回模塊邏輯/效果優(yōu)化,、調(diào)整召回條數(shù)配額。 此類(lèi)abtest除了關(guān)注整體指標(biāo)外,,還需要關(guān)注對(duì)召回模塊的影響: 召回過(guò)后會(huì)有一個(gè)小的過(guò)濾環(huán)節(jié),,主要是一些拉黑過(guò)濾,重復(fù)過(guò)濾等等,,把一些不能推或影響體驗(yàn)的內(nèi)容過(guò)濾掉,。此環(huán)節(jié)的過(guò)濾和索引前內(nèi)容候選的過(guò)濾不同,前者是具有普適性的過(guò)濾(例如低點(diǎn)擊過(guò)濾,、過(guò)期過(guò)濾等),,后者和用戶的行為、屬性有關(guān),。 尖子生魏無(wú)羨重新加持,,開(kāi)始 CTR PK 環(huán)節(jié)——排序排序環(huán)節(jié)關(guān)注三個(gè)詞:模型、特征和權(quán)重,。
所以CTR工程師的工作就是選擇模型,、采樣數(shù)據(jù)優(yōu)化,、增刪特征和調(diào)參,,字少事大的又一典型。 奔向藍(lán)忘機(jī)之前,,魏無(wú)羨還要過(guò)一道人工坎——重排重排環(huán)節(jié)主要處理一些業(yè)務(wù)規(guī)則,。例如視頻推薦占比不超過(guò)60%、第2個(gè)位置固定出運(yùn)營(yíng)內(nèi)容,、相同興趣點(diǎn)新聞黏連不能超過(guò)3條等等,,都需要在重排環(huán)節(jié)處理,這塊代碼是開(kāi)發(fā)最不忍直視,。 規(guī)則是最快的上線生效途徑,,可以用于糾偏、提權(quán)等操作,。例如,,希望增加視頻推薦,一開(kāi)始可在重排環(huán)節(jié)強(qiáng)出視頻(召回環(huán)節(jié)簡(jiǎn)單做),,保證視頻的曝光增多,,abtest驗(yàn)證加入視頻推薦可行后,再?gòu)膬?nèi)容池,、召回等環(huán)節(jié)精細(xì)化開(kāi)發(fā),,走一個(gè)較長(zhǎng)的排期。 總地來(lái)說(shuō),,短期的人工干預(yù)應(yīng)該逐步被長(zhǎng)期的機(jī)制所替換,。過(guò)多的“補(bǔ)丁”會(huì)嚴(yán)重增加系統(tǒng)的復(fù)雜度,降低可理解性,。所以更建議優(yōu)化召回模塊優(yōu)先于排序模塊,,因?yàn)樾薷恼倩啬K擴(kuò)充候選集能擁有更多可能性;而主觀修改排序模塊則極有可能損失公平,,降低效率,。 Happy Ending |
|