1 認(rèn)識(shí)用戶畫像 1.1 什么是用戶畫像用戶畫像是一個(gè)描述用戶的工具,刻畫出用戶個(gè)體或者用戶群體全方位的特征,,為運(yùn)營(yíng)分析人員提供用戶的偏好,、行為等信息進(jìn)而優(yōu)化運(yùn)營(yíng)策略,為產(chǎn)品提供準(zhǔn)確的用戶角色信息以便進(jìn)行針對(duì)性的產(chǎn)品設(shè)計(jì)。 用戶畫像系統(tǒng)集用戶畫像的生產(chǎn)與應(yīng)用于一身,,對(duì)外(如產(chǎn)品運(yùn)營(yíng),、推薦系統(tǒng)等)封裝提供用戶畫像信息,以便對(duì)產(chǎn)品更好的設(shè)計(jì)以及對(duì)用戶更好的運(yùn)營(yíng),。 1.2 用戶畫像與數(shù)倉(cāng)的關(guān)系那么用戶畫像與數(shù)倉(cāng)是一個(gè)什么樣的關(guān)系,?一般來說,數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)的是結(jié)構(gòu)化的數(shù)據(jù),,而構(gòu)建用戶畫像需要結(jié)構(gòu)化數(shù)據(jù),,也有非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),既擁有結(jié)構(gòu)化數(shù)據(jù)又擁有半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的系統(tǒng)稱之為數(shù)據(jù)湖,。相對(duì)來說,,結(jié)構(gòu)化的數(shù)據(jù)更容易構(gòu)建用戶畫像,只需要對(duì)結(jié)構(gòu)化的數(shù)據(jù)直接進(jìn)行標(biāo)簽化,,而非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)需要通過算法進(jìn)行處理后再進(jìn)行標(biāo)簽化,。用戶畫像與數(shù)倉(cāng)的關(guān)系為數(shù)據(jù)源與數(shù)據(jù)應(yīng)用的關(guān)系,兩者相輔相成,,關(guān)系圖如下: 1.3 用戶畫像(User Profile)與用戶角色(User Persona)區(qū)別經(jīng)常有人搞不清楚用戶畫像與用戶角色的區(qū)別,,其實(shí)兩者本質(zhì)上是不一樣的,先來看看兩者的對(duì)比圖表: ①性質(zhì):用戶角色為定性研究,,只考慮用戶的特征性質(zhì)不考慮程度,,而用戶畫像是對(duì)用戶的精細(xì)刻畫,為定量研究,; ②使用時(shí)機(jī):一般來說,,用戶角色的使用場(chǎng)景在產(chǎn)品上線之前,此時(shí)幾乎沒有任何數(shù)據(jù),,需要產(chǎn)品同學(xué)針對(duì)產(chǎn)品的使用方進(jìn)行特征描繪,,以便了解目標(biāo)群體進(jìn)行針對(duì)性的設(shè)計(jì),用戶畫像的使用場(chǎng)景在產(chǎn)品上線后,,此時(shí)已積累了一定的數(shù)據(jù)量,,可以對(duì)用戶進(jìn)行數(shù)據(jù)統(tǒng)計(jì)構(gòu)建用戶畫像,獲得精細(xì)化運(yùn)營(yíng)的能力,; ③描述程度:用戶角色是對(duì)某個(gè)用戶群體特征進(jìn)行高度概括,,用戶畫像是對(duì)用戶個(gè)體或者用戶群體的精細(xì)描述; ④用途:用戶角色用于輔助產(chǎn)品進(jìn)行設(shè)計(jì),,研究用戶體驗(yàn),,例如權(quán)限控制系統(tǒng)會(huì)分為以下幾個(gè)角色:分析師、產(chǎn)品,、運(yùn)營(yíng)、數(shù)據(jù)科學(xué)家等角色,用戶畫像用于了解用戶特征以及偏好,,以便提供個(gè)性化的服務(wù)和提高盈利,。 2 用戶畫像規(guī)劃在構(gòu)建用戶畫像之前,需要產(chǎn)品同學(xué)進(jìn)行一個(gè)規(guī)劃,,說明下項(xiàng)目的背景以及做這個(gè)系統(tǒng)的必要性,,最終要實(shí)現(xiàn)的目標(biāo)是什么,即提供什么樣的功能,,為了達(dá)成這個(gè)目標(biāo)需要的人力以及物力資源,。 2.1 所需物力資源這里需要計(jì)算一下需要什么硬件,如多大的磁盤,、內(nèi)存,,需要哪些,具體可以將硬盤和內(nèi)存分配到每個(gè)存儲(chǔ)及計(jì)算組件上,,這個(gè)工作可與技術(shù)同學(xué)協(xié)商完成,。 2.2 所需人力資源基于前面的介紹,設(shè)備的維護(hù)以及各存儲(chǔ)計(jì)算組件的運(yùn)行保障這里需要運(yùn)維工程師,,數(shù)據(jù)的清洗需要ETL工程師,。數(shù)據(jù)的存儲(chǔ)、標(biāo)簽生成,、流式計(jì)算等需要用到多種的大數(shù)據(jù)組件,,這就需要大數(shù)據(jù)開發(fā)工程師,同時(shí)存儲(chǔ)的數(shù)據(jù)庫(kù)各種備份維護(hù)等工作需要配備數(shù)據(jù)庫(kù)工程師,。非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)需要經(jīng)過算法處理,,所以算法工程師也是必需的,最后,,用戶畫像需要進(jìn)行可視化,,還需要配備一個(gè)前端工程師。根據(jù)以上分析,,所需的工程師如下(具體需要人數(shù)視項(xiàng)目而定,,有的全棧工程師可以身兼多職就不需要這么多): 3 怎么構(gòu)建用戶畫像3.1 用戶畫像實(shí)施在開始構(gòu)建用戶畫像之前,需要數(shù)據(jù)產(chǎn)品出一個(gè)詳細(xì)的實(shí)施文檔,,如果說用戶畫像規(guī)劃文檔是說做什么的話,,那用戶畫像實(shí)施文檔就是說明具體要怎么做,這樣開發(fā)人員才知道具體的邏輯著手實(shí)施,,如受多個(gè)因素影響的標(biāo)簽每個(gè)因素的權(quán)重是多少,,這樣才能計(jì)算出最終標(biāo)簽的值。以下各步驟均要在實(shí)施文檔里面詳細(xì)說明,。 3.2 數(shù)據(jù)建模數(shù)據(jù)的如何從原始數(shù)據(jù)最終轉(zhuǎn)化成標(biāo)簽數(shù)據(jù),,需要定義一個(gè)標(biāo)準(zhǔn)處理流程,這就是數(shù)據(jù)建模。 3.2.1 建模流程以上圖片為使用多項(xiàng) Logistic 回歸算法對(duì)電信業(yè)客戶進(jìn)行分類的建模流程,,從圖片上看,,數(shù)據(jù)建模可以分為以下幾個(gè)步驟: ①獲取原始數(shù)據(jù),,包含用戶訪問的行為日志,、用戶基本屬性等,具體需要的數(shù)據(jù)視用途而定,,這里預(yù)測(cè)客戶類別用到的信息有地區(qū),、年齡、婚姻狀況,、地址,、收入、教育程度,、行業(yè),、退休、性別,、居住地和客戶類別,; ②數(shù)據(jù)預(yù)處理,挖掘出事實(shí)標(biāo)簽,,對(duì)用戶數(shù)據(jù)進(jìn)行過濾,、清洗、簡(jiǎn)化表示,,例如:過濾掉表中的無關(guān)字段,,指定字段類型,處理缺省值等,; ③分析用戶行為及屬性,,構(gòu)建用戶畫像的模型標(biāo)簽,通過用戶行為屬性分析,得到各類型用戶的行為規(guī)律及特征屬性,,構(gòu)建用戶行為屬性模型,,訓(xùn)練出最終模型; ④調(diào)優(yōu)模型,,對(duì)模型進(jìn)行調(diào)優(yōu),,使預(yù)測(cè)結(jié)果更準(zhǔn)確; ⑤通過模型進(jìn)行預(yù)測(cè),,完善用戶畫像,,預(yù)測(cè)用戶的操作行為。 3.2.2 建模常用模型以下列出常見的建模模型,,以便了解熟悉各模型的常見用途,。 ①文本挖掘模型(TF-IDF):常用于文本的特征提取,,處理與清洗數(shù)據(jù),匹配標(biāo)識(shí)用戶數(shù)據(jù),,TF-IDF的主要思想是:如果某個(gè)詞或短語在一篇文章中出現(xiàn)的頻率越高,,并且在其他文章中很少出現(xiàn),則認(rèn)為此詞或者短語具有很好的類別區(qū)分能力,,能更好的代表本篇文章,適合用來分類,; ②分類聚類模型(貝葉斯,、KNN、K-Means):通過分析有相同特征的群體信息,,對(duì)用戶進(jìn)行劃分,; ③機(jī)器學(xué)習(xí):通過特征提取挖掘出標(biāo)簽; ④相似度模型(余弦相似度,、皮爾遜相似度):用于輔助分類,、聚類; ⑤推薦算法(Apriori):根據(jù)用戶訪問情況推薦出興趣標(biāo)簽,,完善畫像,; 3.3 用戶畫像維度拆解思考通過各種維度來全方位描述用戶畫像,根據(jù)產(chǎn)品是To B還是To C注重的方向又不一樣,,To C類型產(chǎn)品會(huì)關(guān)注用戶的性別,、年齡、興趣,、職業(yè)等信息,,而To B類產(chǎn)品不太關(guān)注這些,會(huì)更傾向于研究用戶的工作能力,、行為習(xí)慣等,。產(chǎn)品所處的行業(yè)對(duì)用戶畫像側(cè)重點(diǎn)也有影響,社交類和金融類的產(chǎn)品關(guān)注點(diǎn)又不一樣,。一般來說,,可通過以下信息來基本構(gòu)建用戶畫像,其余的維度視具體需求再進(jìn)行定制化開發(fā),。 總之,,用戶畫像的多維度刻畫需要遵循MECE法則進(jìn)行全方位不重復(fù)的拆解,這里同時(shí)引出了一個(gè)問題,,維度的細(xì)分是不是越細(xì)越好,? 如果用戶畫像的顆粒度過于精細(xì)。意味著開發(fā)成本直線提升,,同時(shí),,過細(xì)的拆分意味著每個(gè)類別對(duì)應(yīng)的用戶量變少,,造成服務(wù)目標(biāo)單一化,舉一個(gè)比較極端不存在的例子,,將用戶ID作為標(biāo)簽,,則每個(gè)ID對(duì)應(yīng)一個(gè)用戶,這樣的細(xì)分對(duì)精細(xì)化運(yùn)營(yíng)是沒有幫助的,。在維度細(xì)化拆分的過程中也要不停關(guān)注標(biāo)簽值覆蓋面來進(jìn)行微調(diào),。 3.4 用戶畫像標(biāo)簽生成由于用戶需求和用戶場(chǎng)景不斷更新,所以標(biāo)簽體系需要持續(xù)完善,。不同的用戶需求和業(yè)務(wù)場(chǎng)景,,不同的業(yè)務(wù)標(biāo)簽,用戶標(biāo)簽系統(tǒng)就不同,。 3.4.1 標(biāo)簽的生成標(biāo)簽從生成邏輯上來區(qū)分主要有幾大類:統(tǒng)計(jì)標(biāo)簽,、規(guī)則標(biāo)簽、模型標(biāo)簽,、算法標(biāo)簽,。 ①統(tǒng)計(jì)標(biāo)簽:根據(jù)已有數(shù)據(jù)進(jìn)行統(tǒng)計(jì),如統(tǒng)計(jì)用戶近30天的消費(fèi)金額,; ②規(guī)則標(biāo)簽:根據(jù)一定的業(yè)務(wù)規(guī)則進(jìn)行劃分,,如根據(jù)用戶的歷史消費(fèi)情況給用戶劃分對(duì)應(yīng)的消費(fèi)等級(jí); ③模型標(biāo)簽:基于一些分析模型對(duì)用戶進(jìn)行打標(biāo)簽,,如RFM模型,; ④算法標(biāo)簽:此類標(biāo)簽可用于預(yù)測(cè),如預(yù)測(cè)用戶是否是潛在付費(fèi)用戶,。 下面在RFM模型基礎(chǔ)上,,結(jié)合AHP分析法對(duì)用戶進(jìn)行打標(biāo)簽: 某產(chǎn)品有以下購(gòu)買消費(fèi)數(shù)據(jù): 如果我們想知道每個(gè)用戶的價(jià)值是多少的話需要怎么評(píng)估,用戶價(jià)值有多個(gè)因素影響,,這里的影響因素就是RFM三個(gè)因素,,計(jì)算步驟如下: (1)構(gòu)建層次結(jié)構(gòu)模型 (2)構(gòu)造判斷矩陣 根據(jù)以上打分規(guī)則,由經(jīng)驗(yàn)豐富,、判斷力強(qiáng)的專家對(duì)三個(gè)因素兩兩打分給出判斷矩陣,。 上表意味著專家評(píng)判RFM三個(gè)因素的權(quán)重順序分別是M>F>R. (3)計(jì)算特征向量 通過判斷矩陣計(jì)算特征向量(也就是權(quán)重)。 (4)判斷矩陣一致性檢驗(yàn) 有了以上權(quán)重,,還要進(jìn)行一致性檢驗(yàn),,判斷權(quán)重分配是否合理,避免出現(xiàn)類似M>F,F>R,R>M的情況,,由于篇幅問題,,就不進(jìn)行詳細(xì)的計(jì)算,網(wǎng)上也提供了在線計(jì)算工具只需要輸入判斷矩陣即可得出一致性檢驗(yàn)結(jié)果,。 從以上計(jì)算,,我們得出了RFM三個(gè)因素的權(quán)重,,接下來就要根據(jù)這些權(quán)重以及各用戶的RFM具體的值來計(jì)算用戶價(jià)值。 (1)RFM值標(biāo)準(zhǔn)化計(jì)算價(jià)值 因?yàn)镽FM值的量綱不一樣,,需要進(jìn)行標(biāo)準(zhǔn)化才有可比性,,可通過以下兩個(gè)公式進(jìn)行標(biāo)準(zhǔn)化。 兩個(gè)公式應(yīng)用的場(chǎng)景不一樣,,第一個(gè)公式適用于該因素對(duì)結(jié)果有正向影響時(shí)使用,,第二個(gè)公式適用于該因素對(duì)結(jié)果有負(fù)向影響時(shí)使用。RFM因素中,,R值越小對(duì)用戶價(jià)值影響越大,,因此使用第二個(gè)公式,F(xiàn)值和M值越大對(duì)用戶價(jià)值影響越大,,因此使用第一個(gè)公式。使用以上兩個(gè)公式進(jìn)行標(biāo)準(zhǔn)化后,,將得到標(biāo)準(zhǔn)化后的值分別乘以該因素對(duì)應(yīng)的權(quán)重即可得到每個(gè)用戶的價(jià)值,。 (2)生成標(biāo)簽 根據(jù)上面計(jì)算出來的值生成各因素對(duì)應(yīng)的標(biāo)簽,可以用均值區(qū)分,,均值以上的為1,,均值以下的為0,最終生成的標(biāo)簽如下: 以上有R,、F,、M、價(jià)值四個(gè)因素,,每個(gè)因素有0或者1兩種情況,,總共可以組合成16種情況,即可以將用戶分為16層,,針對(duì)每層用戶特點(diǎn)進(jìn)行個(gè)性化服務(wù),。 3.5 標(biāo)簽值映射規(guī)則各類標(biāo)簽在底層存儲(chǔ)中并不會(huì)儲(chǔ)存具有實(shí)際意義的值,為了節(jié)省存儲(chǔ)成本和提高查詢效率通常用0,、1等簡(jiǎn)單字符來表示,,所以具體的映射規(guī)則需要數(shù)據(jù)產(chǎn)品進(jìn)行定義并維護(hù),業(yè)務(wù)人員咨詢某標(biāo)簽里面的1代表什么意思的時(shí)候不至于一頭霧水,。 3.6 用戶畫像質(zhì)量評(píng)估經(jīng)過以上步驟,,用戶畫像的維度逐漸豐富,此時(shí)需要對(duì)用戶畫像的質(zhì)量進(jìn)行檢驗(yàn),,主要從以下幾個(gè)方面: 用戶覆蓋率:用戶畫像具體能夠覆蓋到多少用戶,,如年齡標(biāo)簽有80萬人打上的具體的值,有20萬人沒打上,,則年齡標(biāo)簽的用戶覆蓋率是80%.覆蓋率是用戶畫像應(yīng)用的一個(gè)評(píng)價(jià),,覆蓋率越高,,對(duì)后續(xù)精準(zhǔn)營(yíng)銷的策略選擇越準(zhǔn)確。 準(zhǔn)確率:標(biāo)簽有值但是打錯(cuò)了標(biāo)簽也是質(zhì)量差的一個(gè)表現(xiàn),,,,使用算法模型導(dǎo)致的用戶分群錯(cuò)誤或者對(duì)用戶的購(gòu)買意向預(yù)測(cè)錯(cuò)誤,將直接影響購(gòu)買率,,影響GMV,。此項(xiàng)指標(biāo)可以通過灰度測(cè)試來驗(yàn)證。 可拓展:用戶畫像系統(tǒng)在維度刻畫方面應(yīng)該是可擴(kuò)展的,,支持后續(xù)方便的增加其他標(biāo)簽維度,。 及時(shí)性:標(biāo)簽的實(shí)時(shí)更新對(duì)一些場(chǎng)景化推薦營(yíng)銷起到至關(guān)重要的作用,需要對(duì)近10分鐘內(nèi)做過某些行為的用戶進(jìn)行針對(duì)性廣告推薦,,如果用戶做了該行為但是標(biāo)簽沒有及時(shí)更新的話那這個(gè)推薦系統(tǒng)將起不到任何作用,。此項(xiàng)指標(biāo)可以人工進(jìn)行操作后觀察用戶畫像更新的時(shí)長(zhǎng)。 3.7 用戶畫像可視化用戶畫像完成之后,,需要對(duì)用戶畫像進(jìn)行可視化以便只管感受,,可通過Echarts、Tableau等可視化工具進(jìn)行繪圖,。對(duì)于用戶個(gè)體,,可生成類似于簡(jiǎn)歷的用戶信息描述,對(duì)于用戶群體,,可展示該群體在各個(gè)維度的分布情況,。 4 用戶畫像的應(yīng)用用戶畫像的應(yīng)用場(chǎng)景十分廣泛,無論是用戶精細(xì)化運(yùn)營(yíng)還是系統(tǒng)個(gè)性化服務(wù)都能很好的支持,,以下列舉一些用戶畫像常見的應(yīng)用: ①精準(zhǔn)營(yíng)銷,,分析產(chǎn)品潛在用戶,針對(duì)特定群體利用短信郵件等方式進(jìn)行營(yíng)銷,; ②用戶統(tǒng)計(jì),,比如APP用戶的性別、年齡分布,; ③推薦系統(tǒng),,通過數(shù)據(jù)挖掘利用關(guān)聯(lián)規(guī)則計(jì)算,進(jìn)行物品關(guān)聯(lián)推薦,,利用聚類算法分析,,上班一族使用APP的時(shí)間分布情況; ④廣告推薦,,其實(shí)也是推薦系統(tǒng)的一種,; ⑤提供種子用戶,篩選出與種子用戶類似的用戶群體或者相反的用戶群體,,進(jìn)行定制化的服務(wù),。 |
|