用戶畫像標(biāo)簽體系? 用戶畫像的核心在于給用戶“打標(biāo)簽”,,每一個標(biāo)簽通常是人為規(guī)定的特征標(biāo)識,用高度精煉的特征描述一類人,,例如年齡,、性別、興趣偏好等,不同的標(biāo)簽通過結(jié)構(gòu)化的數(shù)據(jù)體系整合,,就可與組合出不同的用戶畫像,。 ? 梳理標(biāo)簽體系是實現(xiàn)用戶畫像過程中最基礎(chǔ)、也是最核心的工作,,后續(xù)的建模,、數(shù)據(jù)倉庫搭建都會依賴于標(biāo)簽體系。 ? 為什么需要梳理標(biāo)簽體系,,因為不同的企業(yè)做用戶畫像有不同的戰(zhàn)略目的,,廣告公司做用戶畫像是為精準(zhǔn)廣告服務(wù),電商做用戶畫像是為用戶購買更多商品,,內(nèi)容平臺做用戶畫像是推薦用戶更感興趣的內(nèi)容提升流量再變現(xiàn),,金融行業(yè)做用戶畫像是為了尋找到目標(biāo)客戶的同時做好風(fēng)險的控制。 ? 所以第一步,,我們要結(jié)合所在的行業(yè),,業(yè)務(wù)去分析我們用戶畫像的目的。這其實就是戰(zhàn)略,,我們要通過戰(zhàn)略去指引我們最終的方向,。 對于電商企業(yè)來說,可能最重要的兩個問題就是: 現(xiàn)有用戶- 我的現(xiàn)存用戶是誰,?為什么買我的產(chǎn)品,?他們有什么偏好?哪些用戶價值最高,? 潛在客戶- 我的潛在用戶在哪兒,?他們喜歡什么?哪些渠道能找到他們,?獲客成本是多少,? 而對于金融企業(yè),還要加上一條: 用戶風(fēng)險—用戶的收入能力怎么樣,?他們是否有過貸款或者信用卡的逾期,?他們的征信有問題嗎? 我們做用戶畫像的目的也就是根據(jù)我們指定的戰(zhàn)略方向最終去解決這些問題,。 在梳理標(biāo)簽的過程還要緊密的結(jié)合我們的數(shù)據(jù),,不能脫離了數(shù)據(jù)去空想,當(dāng)然如果是我們必須要的數(shù)據(jù),,我們可能需要想辦法去獲取這些數(shù)據(jù),,這就是數(shù)據(jù)采集的問題,我們之后會深入的討論,。 先展示兩種常見的標(biāo)簽體系,,隨后我們將按步驟建立我們的標(biāo)簽體系,。 電商類標(biāo)簽體系可以看到電商類的標(biāo)簽體系,更關(guān)注用戶的屬性,,行為等等信息,。那么我們需要的數(shù)據(jù)也就來源于用戶可提供的基本信息,以及用戶的行為信息,,這些我們可以通過埋點獲取,,而用戶的訂單情況也是非常的重要的標(biāo)簽。 金融類標(biāo)簽體系對于金融行業(yè),,最明顯的區(qū)別是增加了用戶的價值和用戶風(fēng)險的信息,。這些信息在用戶申請貸款時一般都可以提供,還有很多信息需要通過征信獲取,。 最終,,不管是電商還是金融或者其他領(lǐng)域,我們都可以通過數(shù)據(jù)對用戶進(jìn)行畫像,,最終建立標(biāo)簽體系,,影響我們的業(yè)務(wù),最終實現(xiàn)戰(zhàn)略目的,。 下面我們來具體看一下如何一步步的分析建立整體標(biāo)簽體系,。 標(biāo)簽的維度與類型在我們建立用戶標(biāo)簽時,首先要明確基于哪種維度去建立標(biāo)簽,。 一般除了基于用戶維度(userid)建立用戶標(biāo)簽體系外,,還有基于設(shè)備維度(cookieid)建立相應(yīng)的標(biāo)簽體系,當(dāng)用戶沒有登錄設(shè)備時,,就需要這個維度,。當(dāng)然這兩個維度還可以進(jìn)行關(guān)聯(lián)。 而兩者的關(guān)聯(lián)就是需要ID-Mapping算法來解決,,這也是一個非常復(fù)雜的算法,。更多的時候我們還是以用戶的唯一標(biāo)識來建立用戶畫像。 而標(biāo)簽也分為很多種類型,,這里參照常見的分類方式,, 從對用戶打標(biāo)簽的方式來看,一般分為三種類型:1,、基于統(tǒng)計類的標(biāo)簽,;2、基于規(guī)則類的標(biāo)簽,、3,、基于挖掘類的標(biāo)簽。下面我們介紹這三種類型標(biāo)簽的區(qū)別:
標(biāo)簽的類型是對標(biāo)簽的一個區(qū)分,,方便我們了解標(biāo)簽是在數(shù)據(jù)處理的哪個階段產(chǎn)生的,也更方便我們管理,。 標(biāo)簽分級分類標(biāo)簽需要進(jìn)行分級分類的管理,,一方面使得標(biāo)簽更加的清晰有條件,另一方面也方便我們對標(biāo)簽進(jìn)行存儲查詢,,也就是管理標(biāo)簽,。 用戶畫像體系和標(biāo)簽分類從兩個不同角度來梳理標(biāo)簽,用戶畫像體系偏戰(zhàn)略和應(yīng)用,,標(biāo)簽分類偏管理和技術(shù)實現(xiàn)側(cè),。 把標(biāo)簽分成不同的層級和類別,一是方便管理數(shù)千個標(biāo)簽,,讓散亂的標(biāo)簽體系化,;二是維度并不孤立,標(biāo)簽之間互有關(guān)聯(lián),;三可以為標(biāo)簽建模提供標(biāo)簽子集,。 梳理某類別的子分類時,,盡可能的遵循MECE原則(相互獨(dú)立、完全窮盡),,尤其是一些有關(guān)用戶分類的,,要能覆蓋所有用戶,但又不交叉,。比如:用戶活躍度的劃分為核心用戶,、活躍用戶、新用戶,、老用戶,、流失用戶,用戶消費(fèi)能力分為超強(qiáng),、強(qiáng),、中、弱,,這樣按照給定的規(guī)則每個用戶都有分到不同的組里,。 標(biāo)簽命名標(biāo)簽的命名也是為了我們可以對標(biāo)簽進(jìn)行統(tǒng)一的管理,也更好識別出是什么標(biāo)簽,。 這是一種非常好的命名方式,,解釋如下: 標(biāo)簽主題:用于刻畫屬于那種類型的標(biāo)簽,如用戶屬性,、用戶行為,、用戶消費(fèi)、風(fēng)險控制等多種類型,,可用A,、B、C,、D等 最終形成得標(biāo)簽示例: 對于用戶是男是女這個標(biāo)簽,,標(biāo)簽主題是用戶屬性,,標(biāo)簽類型屬于分類型,開發(fā)方式為統(tǒng)計型,,為互斥關(guān)系,,用戶 標(biāo)簽存儲與管理Hive與Druid數(shù)倉存儲標(biāo)簽計算結(jié)果集因為數(shù)據(jù)非常大,,所以跑標(biāo)簽出來的結(jié)果必須要通過hive和druid數(shù)倉引擎來完成。 在數(shù)據(jù)倉庫的建模過程中,,主要是事實表和維度表的開發(fā),。 事實表依據(jù)業(yè)務(wù)來開發(fā),,描述業(yè)務(wù)的過程,可以理解為我們對原始數(shù)據(jù)做ETL整理后業(yè)務(wù)事實,。 而維度表就是我們最終形成的用戶維度,,維度表是實時變化的,逐漸的建立起用戶的畫像,。 比如用戶維度標(biāo)簽: 首先我們根據(jù)之前討論的用戶指標(biāo)體系,,將用戶按照人口,行為,,消費(fèi)等等建立相關(guān)中間表,,注意表的命名。 第一張人口屬性表: 同樣的,,其他的也按這種方式進(jìn)行存儲,,這種屬性類的計算很容易篩選出來。 然后,,我們將用戶的標(biāo)簽查詢出來,,匯總到用戶身上: 最終用戶的標(biāo)簽就形成了 當(dāng)然,對于復(fù)雜的規(guī)則和算法類標(biāo)簽,,就需要在計算中間表時做更復(fù)雜的計算,,我們需要在Flink里解決這些復(fù)雜的計算,未來開發(fā)中我們會詳細(xì)的討論,,這一部分先根據(jù)標(biāo)簽體系把相應(yīng)的表結(jié)構(gòu)都設(shè)計出來,。 Mysql存儲標(biāo)簽元數(shù)據(jù)Mysql對于小數(shù)據(jù)量的讀寫速度更快,也更適合我們對標(biāo)簽定義,,管理,。我們也可以在前端開發(fā)標(biāo)簽的管理頁面。 我們在mysql存儲的字段如圖所示,,在頁面上提供編輯等功能,,在開發(fā)標(biāo)簽的過程中,就可以控制標(biāo)簽的使用了,。 這樣,,我們的標(biāo)簽體系已經(jīng)根據(jù)實際的業(yè)務(wù)情況建立起來了,在明確了標(biāo)簽體系以后,,也就明確了我們的業(yè)務(wù)支撐,,從下一章開始我們將正式開始搭建大數(shù)據(jù)集群,接入數(shù)據(jù),,進(jìn)行標(biāo)簽開發(fā),,未完待續(xù)~ 參考文獻(xiàn) 《用戶畫像:方法論與工程化解決方案》 更多實時數(shù)據(jù)分析相關(guān)博文與科技資訊,歡迎關(guān)注 “實時流式計算” 獲取用戶畫像相關(guān)資料 請關(guān)注 “實時流式計算” 回復(fù) “用戶畫像”
|
|