久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

用戶畫像標(biāo)簽體系——從零開始搭建實時用戶畫像(三)

 行者花雕 2022-03-21

用戶畫像標(biāo)簽體系

? 用戶畫像的核心在于給用戶“打標(biāo)簽”,,每一個標(biāo)簽通常是人為規(guī)定的特征標(biāo)識,用高度精煉的特征描述一類人,,例如年齡,、性別、興趣偏好等,不同的標(biāo)簽通過結(jié)構(gòu)化的數(shù)據(jù)體系整合,,就可與組合出不同的用戶畫像,。

? 梳理標(biāo)簽體系是實現(xiàn)用戶畫像過程中最基礎(chǔ)、也是最核心的工作,,后續(xù)的建模,、數(shù)據(jù)倉庫搭建都會依賴于標(biāo)簽體系。

? 為什么需要梳理標(biāo)簽體系,,因為不同的企業(yè)做用戶畫像有不同的戰(zhàn)略目的,,廣告公司做用戶畫像是為精準(zhǔn)廣告服務(wù),電商做用戶畫像是為用戶購買更多商品,,內(nèi)容平臺做用戶畫像是推薦用戶更感興趣的內(nèi)容提升流量再變現(xiàn),,金融行業(yè)做用戶畫像是為了尋找到目標(biāo)客戶的同時做好風(fēng)險的控制。

? 所以第一步,,我們要結(jié)合所在的行業(yè),,業(yè)務(wù)去分析我們用戶畫像的目的。這其實就是戰(zhàn)略,,我們要通過戰(zhàn)略去指引我們最終的方向,。

對于電商企業(yè)來說,可能最重要的兩個問題就是:

現(xiàn)有用戶- 我的現(xiàn)存用戶是誰,?為什么買我的產(chǎn)品,?他們有什么偏好?哪些用戶價值最高,?

潛在客戶- 我的潛在用戶在哪兒,?他們喜歡什么?哪些渠道能找到他們,?獲客成本是多少,?

而對于金融企業(yè),還要加上一條:

用戶風(fēng)險—用戶的收入能力怎么樣,?他們是否有過貸款或者信用卡的逾期,?他們的征信有問題嗎?

我們做用戶畫像的目的也就是根據(jù)我們指定的戰(zhàn)略方向最終去解決這些問題,。

在梳理標(biāo)簽的過程還要緊密的結(jié)合我們的數(shù)據(jù),,不能脫離了數(shù)據(jù)去空想,當(dāng)然如果是我們必須要的數(shù)據(jù),,我們可能需要想辦法去獲取這些數(shù)據(jù),,這就是數(shù)據(jù)采集的問題,我們之后會深入的討論,。

先展示兩種常見的標(biāo)簽體系,,隨后我們將按步驟建立我們的標(biāo)簽體系,。

電商類標(biāo)簽體系

可以看到電商類的標(biāo)簽體系,更關(guān)注用戶的屬性,,行為等等信息,。那么我們需要的數(shù)據(jù)也就來源于用戶可提供的基本信息,以及用戶的行為信息,,這些我們可以通過埋點獲取,,而用戶的訂單情況也是非常的重要的標(biāo)簽。

金融類標(biāo)簽體系

對于金融行業(yè),,最明顯的區(qū)別是增加了用戶的價值和用戶風(fēng)險的信息,。這些信息在用戶申請貸款時一般都可以提供,還有很多信息需要通過征信獲取,。

最終,,不管是電商還是金融或者其他領(lǐng)域,我們都可以通過數(shù)據(jù)對用戶進(jìn)行畫像,,最終建立標(biāo)簽體系,,影響我們的業(yè)務(wù),最終實現(xiàn)戰(zhàn)略目的,。

下面我們來具體看一下如何一步步的分析建立整體標(biāo)簽體系,。

標(biāo)簽的維度與類型

在我們建立用戶標(biāo)簽時,首先要明確基于哪種維度去建立標(biāo)簽,。

一般除了基于用戶維度(userid)建立用戶標(biāo)簽體系外,,還有基于設(shè)備維度(cookieid)建立相應(yīng)的標(biāo)簽體系,當(dāng)用戶沒有登錄設(shè)備時,,就需要這個維度,。當(dāng)然這兩個維度還可以進(jìn)行關(guān)聯(lián)。

而兩者的關(guān)聯(lián)就是需要ID-Mapping算法來解決,,這也是一個非常復(fù)雜的算法,。更多的時候我們還是以用戶的唯一標(biāo)識來建立用戶畫像。

而標(biāo)簽也分為很多種類型,,這里參照常見的分類方式,,

從對用戶打標(biāo)簽的方式來看,一般分為三種類型:1,、基于統(tǒng)計類的標(biāo)簽,;2、基于規(guī)則類的標(biāo)簽,、3,、基于挖掘類的標(biāo)簽。下面我們介紹這三種類型標(biāo)簽的區(qū)別:

  • 統(tǒng)計類標(biāo)簽:這類標(biāo)簽是最為基礎(chǔ)也最為常見的標(biāo)簽類型,,例如對于某個用戶來說,,他的性別,、年齡、城市,、星座、近7日活躍時長,、近7日活躍天數(shù),、近7日活躍次數(shù)等字段可以從用戶注冊數(shù)據(jù)、用戶訪問,、消費(fèi)類數(shù)據(jù)中統(tǒng)計得出,。該類標(biāo)簽構(gòu)成了用戶畫像的基礎(chǔ);

  • 規(guī)則類標(biāo)簽:該類標(biāo)簽基于用戶行為及確定的規(guī)則產(chǎn)生,。例如對平臺上“消費(fèi)活躍”用戶這一口徑的定義為近30天交易次數(shù)>=2,。在實際開發(fā)畫像的過程中,由于運(yùn)營人員對業(yè)務(wù)更為熟悉,、而數(shù)據(jù)人員對數(shù)據(jù)的結(jié)構(gòu),、分布、特征更為熟悉,,因此規(guī)則類標(biāo)簽的規(guī)則確定由運(yùn)營人員和數(shù)據(jù)人員共同協(xié)商確定,;

  • 機(jī)器學(xué)習(xí)挖掘類標(biāo)簽:該類標(biāo)簽通過數(shù)據(jù)挖掘產(chǎn)生,應(yīng)用在對用戶的某些屬性或某些行為進(jìn)行預(yù)測判斷,。例如根據(jù)一個用戶的行為習(xí)慣判斷該用戶是男性還是女性,,根據(jù)一個用戶的消費(fèi)習(xí)慣判斷其對某商品的偏好程度。該類標(biāo)簽需要通過算法挖掘產(chǎn)生,。

標(biāo)簽的類型是對標(biāo)簽的一個區(qū)分,,方便我們了解標(biāo)簽是在數(shù)據(jù)處理的哪個階段產(chǎn)生的,也更方便我們管理,。

標(biāo)簽分級分類

標(biāo)簽需要進(jìn)行分級分類的管理,,一方面使得標(biāo)簽更加的清晰有條件,另一方面也方便我們對標(biāo)簽進(jìn)行存儲查詢,,也就是管理標(biāo)簽,。

用戶畫像體系和標(biāo)簽分類從兩個不同角度來梳理標(biāo)簽,用戶畫像體系偏戰(zhàn)略和應(yīng)用,,標(biāo)簽分類偏管理和技術(shù)實現(xiàn)側(cè),。

把標(biāo)簽分成不同的層級和類別,一是方便管理數(shù)千個標(biāo)簽,,讓散亂的標(biāo)簽體系化,;二是維度并不孤立,標(biāo)簽之間互有關(guān)聯(lián),;三可以為標(biāo)簽建模提供標(biāo)簽子集,。

梳理某類別的子分類時,,盡可能的遵循MECE原則(相互獨(dú)立、完全窮盡),,尤其是一些有關(guān)用戶分類的,,要能覆蓋所有用戶,但又不交叉,。比如:用戶活躍度的劃分為核心用戶,、活躍用戶、新用戶,、老用戶,、流失用戶,用戶消費(fèi)能力分為超強(qiáng),、強(qiáng),、中、弱,,這樣按照給定的規(guī)則每個用戶都有分到不同的組里,。

標(biāo)簽命名

標(biāo)簽的命名也是為了我們可以對標(biāo)簽進(jìn)行統(tǒng)一的管理,也更好識別出是什么標(biāo)簽,。

這是一種非常好的命名方式,,解釋如下:

標(biāo)簽主題:用于刻畫屬于那種類型的標(biāo)簽,如用戶屬性,、用戶行為,、用戶消費(fèi)、風(fēng)險控制等多種類型,,可用A,、B、C,、D等
字母表示各標(biāo)簽主題,;
? 標(biāo)簽類型:標(biāo)簽類型可劃為分類型和統(tǒng)計型這兩種類型,其中分類型用于刻畫用戶屬于哪種類型,,如是男是女,、是否是會員、
是否已流失等標(biāo)簽,,統(tǒng)計型標(biāo)簽用于刻畫統(tǒng)計用戶的某些行為次數(shù),,如歷史購買金額、優(yōu)惠券使用次數(shù),、近30日登陸次數(shù)等
標(biāo)簽,,這類標(biāo)簽都需要對應(yīng)一個用戶相應(yīng)行為的權(quán)重次數(shù);
? 開發(fā)方式:開發(fā)方式可分為統(tǒng)計型開發(fā)和算法型開發(fā)兩大開發(fā)方式,。其中統(tǒng)計型開發(fā)可直接從數(shù)據(jù)倉庫中各主題表建模加工
而成,,算法型開發(fā)需要對數(shù)據(jù)做機(jī)器學(xué)習(xí)的算法處理得到相應(yīng)的標(biāo)簽,;
? 是否互斥標(biāo)簽:對應(yīng)同一級類目下(如一級標(biāo)簽、二級標(biāo)簽),,各標(biāo)簽之間的關(guān)系是否為互斥,,可將標(biāo)簽劃分為互斥關(guān)系和
非互斥關(guān)系。例如對于男,、女標(biāo)簽就是互斥關(guān)系,,同一個用戶不是被打上男性標(biāo)簽就是女性標(biāo)簽,對于高活躍,、中活躍、低
活躍標(biāo)簽也是互斥關(guān)系,;
? 用戶維度:用于刻畫該標(biāo)簽是打在用戶唯一標(biāo)識(userid)上,,還是打在用戶使用的設(shè)備(cookieid)上??捎肬,、C等字
母分別標(biāo)識userid和cookieid維度。

最終形成得標(biāo)簽示例:

對于用戶是男是女這個標(biāo)簽,,標(biāo)簽主題是用戶屬性,,標(biāo)簽類型屬于分類型,開發(fā)方式為統(tǒng)計型,,為互斥關(guān)系,,用戶
維度為userid。這樣給男性用戶打上標(biāo)簽“A111U001_001”,,女性用戶打上標(biāo)簽“A111U001_002”,,其中
“A111U”為上面介紹的命名方式,“001”為一級標(biāo)簽的id,,后面對于用戶屬性維度的其他一級標(biāo)簽可用“002”,、
“003”等方式追加命名,“_”后面的“001”和“002”為該一級標(biāo)簽下的標(biāo)簽明細(xì),,如果是劃分高,、中、低活躍
用戶的,,對應(yīng)一級標(biāo)簽下的明細(xì)可劃分為“001”,、“002”、“003”,。

標(biāo)簽存儲與管理

Hive與Druid數(shù)倉存儲標(biāo)簽計算結(jié)果集

因為數(shù)據(jù)非常大,,所以跑標(biāo)簽出來的結(jié)果必須要通過hive和druid數(shù)倉引擎來完成。

在數(shù)據(jù)倉庫的建模過程中,,主要是事實表和維度表的開發(fā),。

事實表依據(jù)業(yè)務(wù)來開發(fā),,描述業(yè)務(wù)的過程,可以理解為我們對原始數(shù)據(jù)做ETL整理后業(yè)務(wù)事實,。

而維度表就是我們最終形成的用戶維度,,維度表是實時變化的,逐漸的建立起用戶的畫像,。

比如用戶維度標(biāo)簽:

首先我們根據(jù)之前討論的用戶指標(biāo)體系,,將用戶按照人口,行為,,消費(fèi)等等建立相關(guān)中間表,,注意表的命名。

第一張人口屬性表:

同樣的,,其他的也按這種方式進(jìn)行存儲,,這種屬性類的計算很容易篩選出來。

然后,,我們將用戶的標(biāo)簽查詢出來,,匯總到用戶身上:

最終用戶的標(biāo)簽就形成了

當(dāng)然,對于復(fù)雜的規(guī)則和算法類標(biāo)簽,,就需要在計算中間表時做更復(fù)雜的計算,,我們需要在Flink里解決這些復(fù)雜的計算,未來開發(fā)中我們會詳細(xì)的討論,,這一部分先根據(jù)標(biāo)簽體系把相應(yīng)的表結(jié)構(gòu)都設(shè)計出來,。

Mysql存儲標(biāo)簽元數(shù)據(jù)

Mysql對于小數(shù)據(jù)量的讀寫速度更快,也更適合我們對標(biāo)簽定義,,管理,。我們也可以在前端開發(fā)標(biāo)簽的管理頁面。

我們在mysql存儲的字段如圖所示,,在頁面上提供編輯等功能,,在開發(fā)標(biāo)簽的過程中,就可以控制標(biāo)簽的使用了,。

這樣,,我們的標(biāo)簽體系已經(jīng)根據(jù)實際的業(yè)務(wù)情況建立起來了,在明確了標(biāo)簽體系以后,,也就明確了我們的業(yè)務(wù)支撐,,從下一章開始我們將正式開始搭建大數(shù)據(jù)集群,接入數(shù)據(jù),,進(jìn)行標(biāo)簽開發(fā),,未完待續(xù)~

參考文獻(xiàn)

《用戶畫像:方法論與工程化解決方案》

更多實時數(shù)據(jù)分析相關(guān)博文與科技資訊,歡迎關(guān)注 “實時流式計算” 獲取用戶畫像相關(guān)資料 請關(guān)注 “實時流式計算” 回復(fù) “用戶畫像”

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點,。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報,。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多