今日頭條首席算法架構(gòu)師曹歡歡
打開(kāi)今日頭條,,我們看到的是滿屏的新聞資訊,。從內(nèi)容上看,今日頭條很像其他新聞客戶端,;從功能上看,,今日頭條又特別像互聯(lián)網(wǎng)媒體。但在今日頭條CEO張一鳴眼中,,今日頭條卻是一款個(gè)性化推薦引擎產(chǎn)品。 百度是專注信息搜索的大引擎,,今日頭條是專注信息推薦的垂直引擎,。從這個(gè)角度講,今日頭條跟百度十分相似,。曾經(jīng)百度新聞也是靠機(jī)器算法來(lái)篩選新聞,,但后來(lái)被今日頭條甩出幾條街。 個(gè)性化推薦算法 今日頭條由張一鳴于2012年3月創(chuàng)建,,在不到四年的時(shí)間里便輕松超過(guò)包括百度新聞在內(nèi)的其他新聞客戶端,,一躍成為互聯(lián)網(wǎng)媒體的后起之秀。今天頭條的成功崛起,,主要得益于背后的個(gè)性化推薦算法,。 在張一鳴看來(lái),算法是今日頭條的核心。
當(dāng)用戶使用微博,、QQ等社交賬號(hào)登陸今日頭條時(shí),,它也能在5秒鐘內(nèi)通過(guò)算法解讀使用者的興趣DNA,用戶每次動(dòng)作后,,10秒更新用戶模型,,越用越懂用戶,從而進(jìn)行精準(zhǔn)的閱讀內(nèi)容推薦,。 正是由于這套算法,,使得今日頭條在短短兩年多的時(shí)間內(nèi)便擁有了2.2億用戶,每天有超過(guò)2000萬(wàn)用戶在今日頭條上閱讀自己感興趣的文章,。 基于用戶投票和標(biāo)簽實(shí)現(xiàn)個(gè)性化推薦 基于精心設(shè)計(jì)的機(jī)器學(xué)習(xí)引擎和大數(shù)據(jù)處理架構(gòu),,今日頭條能實(shí)現(xiàn)特定用戶的個(gè)性化推薦。據(jù)官方描述,,今日頭條可以在0.1秒內(nèi)計(jì)算出推薦結(jié)果,,3秒完成文章提取、挖掘,、消重,、分類,5秒計(jì)算出新用戶興趣分配,,10秒內(nèi)更新用戶模型,。 算法聽(tīng)起來(lái)很厲害,但基本原理很簡(jiǎn)單,。其核心理念就是投票,,每個(gè)用戶一票,喜歡哪一篇文章就把票投給這篇文章,,經(jīng)過(guò)統(tǒng)計(jì),,最后得到結(jié)果很可能是在這個(gè)人群下最好的文章,并把這篇文章推薦給同人群用戶,。實(shí)際上個(gè)性化推薦并不是機(jī)器給用戶推薦,,而是用戶之間在互相推薦,看起來(lái)似乎很簡(jiǎn)單,,但實(shí)際上這需要基于海量的用戶行為數(shù)據(jù)挖掘與分析,。 具體而言,,今日頭條會(huì)給每位用戶打上各種標(biāo)簽,比如科技,、小米,、足球、NBA等,。當(dāng)文章包含標(biāo)簽關(guān)鍵詞時(shí),,系統(tǒng)會(huì)自動(dòng)推薦給具有這些標(biāo)簽的用戶,即實(shí)現(xiàn)所謂的個(gè)性化推薦,。個(gè)性化推薦其實(shí)就是不斷匹配標(biāo)簽的過(guò)程,,只是實(shí)現(xiàn)過(guò)程比較復(fù)雜而已。 真正關(guān)心的內(nèi)容上不了頭條 雖然今日頭條的個(gè)性化推薦算法實(shí)現(xiàn)了海量用戶的精準(zhǔn)送達(dá),,但因流量至上帶來(lái)的低俗化也飽受社會(huì)質(zhì)疑,。 在今日頭條網(wǎng)站,排在首頁(yè)的內(nèi)容很大一部分是娛樂(lè)八卦和負(fù)面的社會(huì)新聞,。該類內(nèi)容吸引讀者,,流量大,可以理解,,但這并不代表用戶真正關(guān)心的就是這些內(nèi)容,。 人性中天然存在獵奇、惰性等特點(diǎn),,給算法提供了可乘之機(jī),。只根據(jù)數(shù)據(jù)勘測(cè)某條資訊閱讀量、轉(zhuǎn)發(fā)量高,,就粗暴地推薦給用戶,,或根據(jù)用戶過(guò)往點(diǎn)擊行為,猜測(cè)喜歡看因一時(shí)好奇而點(diǎn)擊的低俗內(nèi)容,,就不斷給用戶推薦類似內(nèi)容,,與其說(shuō)算法跌入人性陷阱,不如說(shuō)算法利用人性弱點(diǎn)將用戶局限在信息的繭房里,。 有時(shí)候,,很多用戶閱讀娛樂(lè)八卦只是為了短暫的放松,并不代表用戶真正關(guān)心的內(nèi)容是娛樂(lè)八卦,。有時(shí)候偶爾點(diǎn)擊一些低俗內(nèi)容,,也只是一種好奇心理在作怪,。單純根據(jù)用戶點(diǎn)擊來(lái)判斷用戶的興趣,,其實(shí)是非常片面的,也是不合理的,。正是在這種算法下,,越來(lái)越多的娛樂(lè)八卦甚至低俗內(nèi)容充斥其中,,許多高質(zhì)量?jī)?nèi)容則逐漸被邊緣化,最終造成媒體劣幣驅(qū)逐良幣,、用戶被低俗內(nèi)容吞噬等后果,。 人民日?qǐng)?bào)也曾經(jīng)發(fā)文怒懟今日頭條,直言新聞莫被算法'綁架',。 搭上所謂算法的“便車”,,一些原本信息量豐富的新聞客戶端推薦的內(nèi)容越來(lái)越單一,一些原本客觀公正的內(nèi)容生產(chǎn)者變得越來(lái)越偏激,,一些新聞媒體原本宏大的格局變得越來(lái)越狹小,。 算法不是萬(wàn)能的 任何一種算法都有本身的局限性,今日頭條更不例外,。很多時(shí)候,,你沒(méi)點(diǎn)擊過(guò)的內(nèi)容可能才是你真正感興趣的內(nèi)容,但這些內(nèi)容在今日頭條上根本找不到,。在沒(méi)有選擇的情況下,,你只能點(diǎn)擊娛樂(lè)八卦等內(nèi)容。所以,,算法也要及時(shí)做出改進(jìn),,適當(dāng)推薦用戶沒(méi)點(diǎn)擊過(guò)的內(nèi)容。 此外,,算法推薦和人工干預(yù)相結(jié)合也是大勢(shì)所趨,。最重要的新聞不一定是點(diǎn)擊率最高的新聞,時(shí)政,、財(cái)經(jīng)等嚴(yán)肅新聞需要人工進(jìn)行強(qiáng)干預(yù),,以修正機(jī)器的錯(cuò)覺(jué)。在這方面,,今日頭條可以學(xué)學(xué)一點(diǎn)資訊和天天快報(bào),。 成也算法,敗也算法,。算法給今日頭條帶來(lái)了巨大的流量和收益,,但也給今日頭條帶來(lái)了飽受質(zhì)疑的負(fù)面影響。如何抵住流量誘惑,,真正贏得用戶口碑才是今日頭條目前需要真正考慮的問(wèn)題,。 |
|
來(lái)自: 心的問(wèn)候 > 《今日頭條內(nèi)容》