久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

一篇文章是如何被推薦到你眼前的,?

 吳敬銳 2019-11-12

筆者以獨(dú)特的角度入手,以一篇文章自白的角度講述了個(gè)性化推薦的功能邏輯,。

一篇文章是如何被推薦到你眼前的?

“hi,,我是魏無(wú)羨,,我出生后被送到一個(gè)內(nèi)容庫(kù),在這里遇到了很多師兄弟,,在一個(gè)個(gè)黑盒子里,,我們身上被打上了N個(gè)不同的標(biāo)簽來(lái)表明我們的出生地、武功高低,、門(mén)派風(fēng)格等等,,經(jīng)過(guò)各種試煉檢驗(yàn),有些師兄弟被淘汰了,,而我順利通過(guò)了審核進(jìn)入下發(fā)環(huán)節(jié),。我依靠著一身武藝和好的身世背景,順利進(jìn)入尖子班,,并在每一階梯流量中脫穎而出,。”

現(xiàn)代人每天都在接觸個(gè)性化推薦,,例如常刷的今日頭條,、騰訊新聞、抖音等APP,。

個(gè)性化推薦是特定場(chǎng)景下人和信息更有效率的連接,,粗顆粒度理解就是斷物識(shí)人:左邊是內(nèi)容(斷物),右邊是用戶(識(shí)人),,中間通過(guò)推薦引擎鏈接兩者,,追求的是一種高效連接。

在開(kāi)篇的自白里,,高質(zhì)量下發(fā)的核心:識(shí)別藍(lán)忘機(jī)愛(ài)的是魏無(wú)羨,,并且把魏無(wú)羨推給他。

魏無(wú)羨:我經(jīng)歷的各種“黑盒子”——內(nèi)容庫(kù)

各式各樣的黑盒子,,都是為了建立人機(jī)結(jié)合的用戶喜愛(ài)的高質(zhì)量?jī)?nèi)容生成系統(tǒng),,這個(gè)實(shí)時(shí)、高效的系統(tǒng)需要具備哪些特征,?

  1. 能夠持續(xù)發(fā)掘“高質(zhì)量”內(nèi)容,;
  2. 能夠持續(xù)發(fā)掘用戶興趣;
  3. 能夠給用戶發(fā)送感興趣的“高質(zhì)量”內(nèi)容,。

個(gè)性化推薦從一個(gè)好的內(nèi)容庫(kù)開(kāi)始(第一個(gè)黑盒子),,目的是為個(gè)性化推薦提供精準(zhǔn)的內(nèi)容數(shù)據(jù)基礎(chǔ),為了創(chuàng)造一個(gè)好的內(nèi)容庫(kù),,要做哪些工作,?

總地來(lái)說(shuō),,是把不能分發(fā)或影響體驗(yàn)的內(nèi)容剔除:

  1. 硬質(zhì)量過(guò)濾:如排版錯(cuò)誤、言之無(wú)物等
  2. 低俗色情過(guò)濾
  3. 敏感惡心過(guò)濾
  4. 高度一致過(guò)濾
  5. 政審安全過(guò)濾
  6. 推薦優(yōu)化:標(biāo)題,、圖片,、正文等優(yōu)化
  7. 其他

除了部分運(yùn)營(yíng)內(nèi)容外,推出的內(nèi)容基本來(lái)自?xún)?nèi)容庫(kù),,內(nèi)容的質(zhì)量奠定了個(gè)性化推薦的基調(diào),。內(nèi)容庫(kù)里的內(nèi)容根據(jù)一定規(guī)則形成內(nèi)容候選,機(jī)器就開(kāi)始挑內(nèi)容進(jìn)行后續(xù)的個(gè)性化推薦,。

魏無(wú)羨奔向的藍(lán)忘機(jī)長(zhǎng)啥樣,? ——用戶畫(huà)像

如果你介紹一位朋友,在不同的場(chǎng)合,,你也許會(huì)有不同的介紹方法,。

  • 在公司,你會(huì)介紹他是一位牛逼的開(kāi)發(fā)大大,;
  • 在球場(chǎng),,你會(huì)介紹他是北大的流川楓;
  • 在相親局,,你會(huì)介紹他是你“兩眼淚汪汪”的同鄉(xiāng),。

正是因?yàn)槭挛锞哂卸嗝嫘院蛷?fù)雜性的特點(diǎn),不是一兩個(gè)詞就能概括全的,。標(biāo)簽實(shí)質(zhì)上是我們對(duì)多維事物的降維理解,,抽象出事物更具有表意性、更為顯著的特點(diǎn),,所以需要有針對(duì)性的投射,,以換取信息匹配效率最大化。

用戶畫(huà)像根據(jù)用戶自然屬性,、社會(huì)屬性,、閱讀習(xí)慣和線上行為等信息抽象出的一個(gè)標(biāo)簽化的用戶模型,常用于用戶數(shù)據(jù)化,、個(gè)性化推薦,、各大業(yè)務(wù)支撐等等。簡(jiǎn)單概括為“他是誰(shuí)”,,“他喜歡什么”,,為個(gè)性化推薦提供豐富而精準(zhǔn)的用戶畫(huà)像。

資訊推薦的用戶畫(huà)像一般會(huì)分為長(zhǎng)期畫(huà)像和短期畫(huà)像,,前者為離線處理,,后者為在線處理。

  • 長(zhǎng)期畫(huà)像:是一段時(shí)間內(nèi)的行為+用戶自主選擇或填寫(xiě)的畫(huà)像+外部渠道補(bǔ)充的畫(huà)像等,,相對(duì)穩(wěn)定。
  • 短期畫(huà)像:是近幾天的行為(例如近7天內(nèi)點(diǎn)擊的100條item),受時(shí)間衰減影響較大,。
  • 綜合畫(huà)像:是以上兩者融合,。

用戶畫(huà)像的建立更像一門(mén)統(tǒng)計(jì)學(xué),在處理數(shù)據(jù)的時(shí)候有些關(guān)注點(diǎn):

  • 噪音處理:如熱門(mén)事件會(huì)有惡意噪聲
  • 時(shí)間衰減:自建短期模型,,新動(dòng)作提高權(quán)重
  • 反向懲罰:如曝光未點(diǎn)擊進(jìn)行懲罰
  • 歸一化:使計(jì)算結(jié)果具有可比性
  • 其他

除了用戶在APP的閱讀行為,,完善用戶畫(huà)像還有哪些路徑?

  • 外部渠道數(shù)據(jù)(渠道,、喚醒物料,、矩陣畫(huà)像、APPlist等),;
  • 借助產(chǎn)品設(shè)計(jì)(如新手引導(dǎo)的興趣預(yù)選),;
  • 借助運(yùn)營(yíng)活動(dòng)(如支付寶活動(dòng)收集好友關(guān)系)。

畫(huà)像優(yōu)化如何評(píng)估,?

以下指標(biāo)可供參考:

  • 畫(huà)像覆蓋率,、人均畫(huà)像個(gè)數(shù);
  • 畫(huà)像準(zhǔn)確率:離線人工評(píng)估->在線abtest(點(diǎn)擊率,、時(shí)長(zhǎng)等指標(biāo)),。

關(guān)于用戶畫(huà)像,還有一點(diǎn)需要了解:不是有了用戶畫(huà)像,,便能驅(qū)動(dòng)和提高業(yè)務(wù),,而是為了驅(qū)動(dòng)和提高業(yè)務(wù),才需要用戶畫(huà)像,。

藍(lán)忘機(jī)還記得魏三歲的好嗎,?——NLP

藍(lán)忘機(jī)已有畫(huà)像,魏無(wú)羨的標(biāo)簽怎么打,?也就是機(jī)器怎么做,?

資訊推薦常見(jiàn)的標(biāo)簽有:分類(lèi)(CATEGORY)、興趣點(diǎn)(POI),、關(guān)鍵詞(TAG),、主題(TOPIC),顆粒度由小到大:KEYWORD<TAG<POI<TOPIC<CATEGORY,。

KEYWORD
  1. 思路:與文章關(guān)聯(lián)度越高,,出現(xiàn)頻次越高,與別的詞關(guān)聯(lián)度越高,,其重要度就越高,。
  2. 算法:tfidf,textrank,,embedding,。
TAG
  1. 思路:人工標(biāo)注(行業(yè)知識(shí)庫(kù)),、機(jī)器候選
  2. 算法:分詞+關(guān)鍵詞提取+詞典匹配(保留命名實(shí)體)
POI
  1. 思路:人工整理基于關(guān)鍵詞的實(shí)體興趣點(diǎn)(POW,如:彩票)+概念興趣點(diǎn)(POC,,如:財(cái)經(jīng))
  2. 算法:分詞+關(guān)鍵詞抽取+詞典匹配
TOPIC
  1. 思路:隱式主題,,粒度比分類(lèi)細(xì)
  2. 算法:機(jī)器無(wú)監(jiān)督學(xué)習(xí),聚簇,,難點(diǎn)是數(shù)據(jù)預(yù)處理 + 調(diào)參
CATEGORY
  1. 思路:(有監(jiān)督)機(jī)器學(xué)習(xí)模型或深度學(xué)習(xí)模型
  2. 其他:資訊類(lèi)APP的分類(lèi),,少則幾十,多則上百,,層級(jí)多為2-5級(jí),,應(yīng)用分類(lèi)時(shí)必須考慮分類(lèi)權(quán)威性和信息完備性問(wèn)題,避免因?yàn)樽庸?jié)點(diǎn)覆蓋不全或分類(lèi)錯(cuò)誤導(dǎo)致的認(rèn)知問(wèn)題,。

過(guò)往標(biāo)簽推薦較多,,現(xiàn)在更多嘗試向量化(embedding)推薦,即把特征表征為多維向量,,可通過(guò)距離衡量語(yǔ)義相關(guān)性,,YouTube的視頻推薦率先實(shí)踐。

給想了解深度學(xué)習(xí)(Deep Learning)的產(chǎn)品汪推薦《Deep Learning with Python》[美]弗朗素瓦·肖萊 著,,閱讀第一章即可(畢竟是一本開(kāi)發(fā)教程書(shū)),,詳見(jiàn)下一篇推送。

通過(guò)所有特征標(biāo)注,,魏無(wú)羨隨千軍萬(wàn)馬過(guò)獨(dú)木橋 ——召回

一篇文章是如何被推薦到你眼前的,?

打上標(biāo)簽的內(nèi)容一起涌來(lái),機(jī)器怎么挑,?在召回環(huán)節(jié),,通過(guò)索引,幾十個(gè)召回模塊一共召回幾千條內(nèi)容,,各召回模塊的召回條數(shù)有限制,,例如本地召回限制最多召回30條內(nèi)容,召回的內(nèi)容會(huì)根據(jù)一定條件(例如CTR,、篇均時(shí)長(zhǎng),、互動(dòng)指標(biāo)等)排序后截?cái)啵姓倩啬K召回的內(nèi)容匯總到一塊,,成為一個(gè)初步的候選集,。

這些召回模塊都有他自己存在的理由,例如根據(jù)地理位置的召回,、根據(jù)分類(lèi)興趣的召回,、根據(jù)關(guān)鍵詞的召回、根據(jù)熱議度的召回等等,,都是產(chǎn)品經(jīng)理或開(kāi)發(fā)的想法的一種嘗試,,大致可分為四類(lèi):

1. 興趣
  • 基于內(nèi)容及用戶模型進(jìn)行推薦,;
  • 基于訂閱收藏等互動(dòng)行為進(jìn)行推薦。
2. 協(xié)同
  • 基于內(nèi)容:內(nèi)容的協(xié)同
  • 基于用戶:用戶的協(xié)同
  • 基于用戶:內(nèi)容的協(xié)同
3. 熱門(mén)
  • 流量熱門(mén)推薦:用戶行為表現(xiàn)熱門(mén)的內(nèi)容,;
  • 事件熱門(mén)推薦:最近發(fā)生的熱搜事件,。
4. 本地
  • 本地內(nèi)容推薦;
  • 地域內(nèi)容推薦,。

產(chǎn)品汪基于業(yè)務(wù)需求,在召回模塊的探索有:增減召回模塊,、召回模塊邏輯/效果優(yōu)化,、調(diào)整召回條數(shù)配額。

此類(lèi)abtest除了關(guān)注整體指標(biāo)外,,還需要關(guān)注對(duì)召回模塊的影響:

召回過(guò)后會(huì)有一個(gè)小的過(guò)濾環(huán)節(jié),,主要是一些拉黑過(guò)濾,重復(fù)過(guò)濾等等,,把一些不能推或影響體驗(yàn)的內(nèi)容過(guò)濾掉,。此環(huán)節(jié)的過(guò)濾和索引前內(nèi)容候選的過(guò)濾不同,前者是具有普適性的過(guò)濾(例如低點(diǎn)擊過(guò)濾,、過(guò)期過(guò)濾等),,后者和用戶的行為、屬性有關(guān),。

尖子生魏無(wú)羨重新加持,,開(kāi)始 CTR PK 環(huán)節(jié)——排序

排序環(huán)節(jié)關(guān)注三個(gè)詞:模型、特征和權(quán)重,。

  1. 模型:如LR,、XGBoost等,單模型或多模型融合都有可能,。
  2. 特征:一般有幾百個(gè),,如分類(lèi)、興趣點(diǎn),、閱讀時(shí)長(zhǎng),、閱讀速度等等,應(yīng)有盡有,,只怕你想不到,。
  3. 權(quán)重:特征之間相互PK,權(quán)重高的特征對(duì)排序結(jié)果影響較大,,權(quán)重可以是機(jī)器學(xué)習(xí)的自然結(jié)果,,也可能是人工干預(yù)的結(jié)果。

所以CTR工程師的工作就是選擇模型,、采樣數(shù)據(jù)優(yōu)化,、增刪特征和調(diào)參,,字少事大的又一典型。

奔向藍(lán)忘機(jī)之前,,魏無(wú)羨還要過(guò)一道人工坎——重排

重排環(huán)節(jié)主要處理一些業(yè)務(wù)規(guī)則,。例如視頻推薦占比不超過(guò)60%、第2個(gè)位置固定出運(yùn)營(yíng)內(nèi)容,、相同興趣點(diǎn)新聞黏連不能超過(guò)3條等等,,都需要在重排環(huán)節(jié)處理,這塊代碼是開(kāi)發(fā)最不忍直視,。

規(guī)則是最快的上線生效途徑,,可以用于糾偏、提權(quán)等操作,。例如,,希望增加視頻推薦,一開(kāi)始可在重排環(huán)節(jié)強(qiáng)出視頻(召回環(huán)節(jié)簡(jiǎn)單做),,保證視頻的曝光增多,,abtest驗(yàn)證加入視頻推薦可行后,再?gòu)膬?nèi)容池,、召回等環(huán)節(jié)精細(xì)化開(kāi)發(fā),,走一個(gè)較長(zhǎng)的排期。

總地來(lái)說(shuō),,短期的人工干預(yù)應(yīng)該逐步被長(zhǎng)期的機(jī)制所替換,。過(guò)多的“補(bǔ)丁”會(huì)嚴(yán)重增加系統(tǒng)的復(fù)雜度,降低可理解性,。所以更建議優(yōu)化召回模塊優(yōu)先于排序模塊,,因?yàn)樾薷恼倩啬K擴(kuò)充候選集能擁有更多可能性;而主觀修改排序模塊則極有可能損失公平,,降低效率,。

Happy Ending

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào),。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類(lèi)似文章 更多