【PPT】AdMaster大數(shù)據(jù)商業(yè)化的智能應(yīng)用
【靜.沙龍主題分享】圍繞大數(shù)據(jù),、人工智能、前沿科技與人文等主題進(jìn)行微信群的在線交流與探討,。
【靜.沙龍主題分享】5月13日 2015年第6期 主講嘉賓:盧億雷 主持人:中國(guó)經(jīng)濟(jì)網(wǎng)經(jīng)營(yíng)顧問 楊靜 嘉賓介紹: 【盧億雷】AdMaster技術(shù)副總裁,,資深大數(shù)據(jù)技術(shù)專家。關(guān)注高可靠,、高可用,、高擴(kuò)展、高性能系統(tǒng)服務(wù),,關(guān)注Hadoop/HBase/Storm/Spark等離線,、流式及實(shí)時(shí)分布式計(jì)算技術(shù)。曾在聯(lián)想研究院,、百度基礎(chǔ)架構(gòu)部,、Carbonite China工作;擁有超過10年云存儲(chǔ),、云計(jì)算開發(fā)及架構(gòu)工作經(jīng)驗(yàn),,多年Hadoop實(shí)戰(zhàn)經(jīng)驗(yàn),專注于分布式存儲(chǔ)、分布式計(jì)算,、大數(shù)據(jù)分析等方向,,有多個(gè)發(fā)明專利,《一種分布式文件系統(tǒng)及其數(shù)據(jù)訪問方法》和《一種數(shù)據(jù)備份的版本管理方法及裝置》等,。曾多次被51CTO,、CSDN、InfoQ,、阿里技術(shù)邀請(qǐng)為嘉賓分享Hadoop大數(shù)據(jù)在互聯(lián)網(wǎng)的應(yīng)用,。 5月13日靜沙龍?jiān)诰€分享主題精彩回放
【盧億雷】 內(nèi)容提綱:介紹由于廣告數(shù)據(jù)的多樣化,包括有曝光,、點(diǎn)擊等被動(dòng)獲取的請(qǐng)求,;微博、新聞,、博客,、論壇、行業(yè)網(wǎng)站等主動(dòng)抓取的請(qǐng)求,;問卷調(diào)查數(shù)據(jù)的補(bǔ)充,;第三方數(shù)據(jù)的輸入等形成的混合異構(gòu)數(shù)據(jù)。使得對(duì)數(shù)據(jù)的清洗(ETL),、存儲(chǔ)(Data Storage),、挖掘(Data Mining)都提出非常高的要求。將會(huì)介紹每天近100億請(qǐng)求的性能是如何優(yōu)化的,,以及每天近1000億數(shù)據(jù)的數(shù)據(jù)分析是如何實(shí)現(xiàn)的,,還有數(shù)據(jù)從多IDC采集到同步中心機(jī)房如何實(shí)現(xiàn)分鐘級(jí)的計(jì)算。還會(huì)重點(diǎn)介紹人群管理與人工智能是怎么樣很好的融合,,最后會(huì)通過AdMaster的可口可樂案例'昵稱瓶'(如:“高富帥”,、“白富美”、“月光族”,、“喵星人”)來說明二者的結(jié)合,。 大數(shù)據(jù)商業(yè)化:千億量級(jí)混合異構(gòu)數(shù)據(jù)平臺(tái) 【楊靜lillian】今晚的【靜沙龍?jiān)诰€分享】即將開始,這也是新智能時(shí)代論壇后的第一個(gè)在線沙龍,,時(shí)間是晚9點(diǎn)到10點(diǎn)半。 【盧億雷】大家好,,我是AdMaster(精碩科技)技術(shù)副總裁盧億雷,。AdMaster是中國(guó)領(lǐng)先的數(shù)據(jù)解決方案提供商,主要專注數(shù)據(jù)挖掘,、分析和管理,。AdMaster通過尖端的專業(yè)技術(shù),完成了海量數(shù)據(jù)中的價(jià)值挖掘,以軟件即服務(wù)(SAAS)的商業(yè)模式,,幫助企業(yè)創(chuàng)造價(jià)值,。業(yè)務(wù)主要覆蓋:第三方數(shù)字廣告審計(jì)和社會(huì)化媒體、電商及跨多屏整合領(lǐng)域的大數(shù)據(jù)分析,、管理,、應(yīng)用及綜合解決方案,終端涵蓋個(gè)人電腦及移動(dòng)設(shè)備,。 大家看到我給異構(gòu)數(shù)據(jù)進(jìn)行了一個(gè)簡(jiǎn)單分類,,中間是用虛線分開,意思是說他們沒有嚴(yán)格意義的劃分,。接下來我們看一下混合異構(gòu)數(shù)據(jù)的最重要的部分-采集,。 數(shù)字、字符等稱為格式化數(shù)據(jù),;文本,、圖形、圖像,、聲音,、視頻等稱為非格式化數(shù)據(jù); 融合分析這些數(shù)據(jù)的第一步是數(shù)據(jù)的預(yù)處理,,傳統(tǒng)企業(yè)信息系統(tǒng)中ETL是群內(nèi)各位最熟悉的一種預(yù)處理過程,。當(dāng)我們進(jìn)入大數(shù)據(jù)之后,僅僅進(jìn)行數(shù)據(jù)的抽取,、轉(zhuǎn)換和加載往往會(huì)帶來災(zāi)難,,我們必須花費(fèi)很大的努力去做數(shù)據(jù)清洗,確保寶貴的大數(shù)據(jù)算力和存儲(chǔ)資源用在了有價(jià)值的分析計(jì)算之上,。對(duì)于數(shù)據(jù)清洗,,以前我們是采取的是不斷發(fā)現(xiàn)問題,持續(xù)優(yōu)化模型,。由于以前建好了模型,,所以現(xiàn)基本已經(jīng)沒有人工介入了。 接下來我們看混合異構(gòu)數(shù)據(jù)最具有技術(shù)含量的數(shù)據(jù)分析,。這里我以AdMaster的場(chǎng)景給大家分析,。 最主要是把模型里字段定義清晰,另外增加若干個(gè)自定義的字段,,方便后面擴(kuò)展,。像我們由于數(shù)據(jù)采集的源多種多樣,所以需要建立各種模型,。舉個(gè)例子來說,,通過爬蟲獲取數(shù)據(jù)時(shí),需要對(duì)各種網(wǎng)站進(jìn)行適應(yīng)。 例如公眾號(hào)發(fā)的文章是可以獲取的,。只需要知道你公眾號(hào)就可以獲取了,,另外根據(jù)文章內(nèi)容也可以搜索到,目前搜狗就提供這樣的服務(wù),。 AdMaster混合異構(gòu)數(shù)據(jù)平臺(tái)架構(gòu)分為6層:數(shù)據(jù)采集,分布式計(jì)算,數(shù)據(jù)挖掘,API 服務(wù),應(yīng)用服務(wù),數(shù)據(jù)可視化,。做大數(shù)據(jù)大家可能都聽過Hadoop,但是對(duì)整個(gè)生態(tài)系統(tǒng)可能了解的稍少一些,。 這里重點(diǎn)說兩個(gè)系統(tǒng)一個(gè)是Flink,,一個(gè)Elasticsearch。 Flink是一個(gè)高效,、分布式,、基于Java實(shí)現(xiàn)的通用大數(shù)據(jù)分析引擎,它具有分布式MapReduce一類平臺(tái)的高效性,、靈活性和擴(kuò)展性以及并行數(shù)據(jù)庫(kù)查詢優(yōu)化方案,,它支持批量和基于流的數(shù)據(jù)分析,且提供了基于Java和Scala的API,。 ElasticSearch是一個(gè)基于Lucene的搜索服務(wù)器,。它提供了一個(gè)分布式多用戶能力的全文搜索引擎,基于RESTful web接口,。 【楊靜lillian】這里面Pig是什么意思? 【盧億雷】楊老師看的很仔細(xì) Pig是一種編程語(yǔ)言,。你可以理解成用Pig語(yǔ)言可以比較簡(jiǎn)單對(duì)Hadoop進(jìn)行查詢等各種操作,。用Pig的話,你就不用去寫復(fù)雜的MapReduce程序了,。 【盧億雷】在講實(shí)際分析前,,我先介紹一下我們基于Hadoop做了哪些優(yōu)化。ADH(Advertising Distribution Hadoop)是AdMaster根據(jù)累積了超過7年的實(shí)際廣告主和品牌的網(wǎng)絡(luò)營(yíng)銷數(shù)千個(gè)實(shí)際案例的經(jīng)驗(yàn),,自身研發(fā)的專門針對(duì)廣告來做的分析系統(tǒng),。 由于我們每天超過100億的采集請(qǐng)求,,每天需要對(duì)1000億數(shù)據(jù)上1000個(gè)維度的分析和計(jì)算,所以系統(tǒng)結(jié)構(gòu)會(huì)顯得比較復(fù)雜。 下面是在線數(shù)據(jù)分析,里面就有用到情感分析,,NLP等各種算法,。 廣告也智能:人群管理與人工智能的融合
人群管理主要通過打標(biāo)簽、標(biāo)準(zhǔn)化,、多維細(xì)分,最后通過Lookalike輻射到更多受眾,。 接下來讓我們看一下AdMaster常見的應(yīng)用場(chǎng)景,。這是一個(gè)我們將文本自然語(yǔ)言數(shù)據(jù)和廣告和站點(diǎn)訪問日志結(jié)合的應(yīng)用,用于提取匿名用戶的訪問瀏覽興趣,,并針對(duì)頁(yè)面的內(nèi)容進(jìn)行關(guān)鍵詞的抽取,。 在提取了大量用戶的訪問瀏覽興趣之后,并配合調(diào)研,、社交和電商等基礎(chǔ)數(shù)據(jù),,我們可以通過聚類的方法,將類似的訪問者進(jìn)行多個(gè)維度的切分,,并且預(yù)估用戶潛在的興趣愛好和需求,。一些廣告主已經(jīng)逐漸意識(shí)到受眾細(xì)分的重要性,,他們也提供一些脫敏的CRM數(shù)據(jù),在和AdMaster采集的數(shù)據(jù)進(jìn)行連接后,,更好地優(yōu)化受眾的分類模型,。 我們可以通過頁(yè)面瀏覽行為,網(wǎng)站瀏覽行為,,社交網(wǎng)絡(luò)行為,,調(diào)研問卷結(jié)果,網(wǎng)上購(gòu)買行為等分析用戶的人群屬性,。人群識(shí)別里用了機(jī)器學(xué)習(xí)各種模型,。因?yàn)槲覀冃枰梢阎念A(yù)測(cè)出未知。 引用王飛躍老師的平行理論,,與廣告數(shù)據(jù)智能化分析是一致的,。 接下來我們來看看我們會(huì)用到哪些核心算法。核心算法主要用到有SVM,,自然語(yǔ)言處理,,聚類分析,回歸分析,,時(shí)間序列分析,。具體每個(gè)算法我就不詳細(xì)介紹了,,這里我主要介紹一下時(shí)間序列分析,這可能跟王飛躍老師的平行理論又類似了,。 同一個(gè)人在不同的時(shí)間段具有不同的角色,,舉例子一個(gè)男人在上班的時(shí)候是職員,回家后就是父親的角色了,。如果在上班的時(shí)候你給他推薦兒童用品,,他一般不會(huì)購(gòu)買的,但回家后你再推薦他就可能會(huì)購(gòu)買了,。 【陳文光】請(qǐng)問每個(gè)分析的數(shù)據(jù)規(guī)模有多大,?都是1000億*1000維度嗎,?最大數(shù)據(jù)量有多大,? 【盧億雷】分各種場(chǎng)景,,主要是看時(shí)間維度,是一個(gè)月的還是一周的,,一天的維度是都要執(zhí)行的,。我們現(xiàn)在大概幾十P的數(shù)據(jù)量。 【張文強(qiáng)】移動(dòng)終端和PC端的數(shù)據(jù)采集,,行為分析是否采用不同方式和方法,?移動(dòng)端的用戶反饋在數(shù)據(jù)訓(xùn)練和測(cè)試階段有使用嗎? 【盧億雷】我發(fā)您一張圖,,移動(dòng)與PC是不一樣的,,網(wǎng)絡(luò)也是不一樣的。PC端主要是通過API和JS采集的,。移動(dòng)端目前我們雖然提供API方式,但最主要的是SDK,。像愛奇藝就跟我們對(duì)接了SDK的。我們是MMA協(xié)會(huì)的成員,。移動(dòng)端的在數(shù)據(jù)訓(xùn)練和測(cè)試階段有使用的,,目前現(xiàn)在我們是根據(jù)我們自己的數(shù)據(jù)源與一些外部數(shù)據(jù)源做結(jié)合分析,。結(jié)合點(diǎn)就是通過各種設(shè)備的Device ID,像IOS 的IDFA,,Android的Android ID, IMEI, MAC等,。 【盧億雷】每次提到大數(shù)據(jù),,我們都會(huì)想到隱私的問題。這里我們給出一個(gè)方案,,大家可能更容易理解一些,。 大家可能都了解在2013年,,可口可樂出過一批帶各式昵稱的可樂,。像“高富帥”、“白富美”,、“月光族”,、“喵星人”等。 AdMaster主要通過捕捉社交媒體過億數(shù)據(jù),,提取最頻繁使用的熱詞,,然后從多個(gè)維度進(jìn)行定量比較(例如聲量、互動(dòng)性以及發(fā)帖率),,初步選出300個(gè)熱詞,。 AdMaster當(dāng)時(shí)幫助可口可樂全程監(jiān)測(cè)了”昵稱瓶”在社交媒體上的表現(xiàn),分析數(shù)據(jù)顯示,在這次的夏季活動(dòng)中,,社交元素由始至終進(jìn)行了完整的貫穿,。歸功于社會(huì)化媒體的“滾雪球式”傳播,廣告宣傳達(dá)到了近20億次,,吸引了超過100萬個(gè)關(guān)鍵意見領(lǐng)袖自發(fā)代表品牌傳播這些熱詞,。在參與本次活動(dòng)的人群中,僅新浪微博上,,36.9%的人覺得可樂非常親民可愛,,更有25%的人直接表達(dá)了自己購(gòu)買可樂的意愿。相比普通的活動(dòng),,這種比例是非常高的,。 通過全面追蹤活動(dòng)分享傳播情況,用人工智能深挖評(píng)估其營(yíng)銷價(jià)值,,最后用通過各種終端精準(zhǔn)推送廣告,。以后有可能是機(jī)器人直接送東西到家,然后由用戶決定是否購(gòu)買,。 關(guān)于廣告智能化趨勢(shì)的預(yù)測(cè)與展望我先直接都發(fā)完了,,大家看有什么問題吧。 社交圖譜與用戶畫像:廣告智能化趨勢(shì)的預(yù)測(cè)與展望 【楊靜lillian】也就是說,,你們提供的不僅是在線廣告監(jiān)測(cè)服務(wù),,也包括大數(shù)據(jù)分析和智能廣告服務(wù)? 【盧億雷】AdMaster是全球領(lǐng)先的營(yíng)銷數(shù)據(jù)技術(shù)公司主要專注數(shù)據(jù)挖掘,、分析和管理,。AdMaster通過尖端的專業(yè)技術(shù),,完成了海量數(shù)據(jù)中的價(jià)值挖掘,以軟件即服務(wù)(SAAS)的商業(yè)模式,,幫助企業(yè)創(chuàng)造價(jià)值,。業(yè)務(wù)主要覆蓋:第三方數(shù)字廣告審計(jì)和社會(huì)化媒體、電商及跨多屏整合領(lǐng)域的大數(shù)據(jù)分析,、管理,、應(yīng)用及綜合解決方案,終端涵蓋個(gè)人電腦及移動(dòng)設(shè)備,。 【楊靜lillian】我想知道華揚(yáng)聯(lián)眾和好耶這類公司是否也有這類大數(shù)據(jù)分析系統(tǒng),?藍(lán)色光標(biāo)這種公司呢?他們的技術(shù)實(shí)力如何,? 【盧億雷】華揚(yáng)聯(lián)眾是廣告投放和代理公司,,好耶主要是SSP。藍(lán)色光標(biāo)投的公司太多了,,包括有DSP,,DMP等很多營(yíng)銷類的技術(shù)公司,去年的C輪他就投了我們,。技術(shù)實(shí)力都不錯(cuò)的,。 可視化不僅僅是前端呈現(xiàn),在大數(shù)據(jù)時(shí)代,,用戶使用數(shù)據(jù)可視化工具,,展現(xiàn)多源、多維度,、多指標(biāo)數(shù)據(jù)的動(dòng)態(tài)趨勢(shì),,并進(jìn)行拖拽式交互查詢。因此如何將數(shù)據(jù)的呈現(xiàn)和業(yè)務(wù)邏輯解偶是重點(diǎn),。 通過全面追蹤活動(dòng)分享傳播情況,,用人工智能深挖評(píng)估其營(yíng)銷價(jià)值,最后用通過各種終端精準(zhǔn)推送廣告,。以后有可能是機(jī)器人直接送東西到家,,然后由用戶決定是否購(gòu)買 【袁勇-中科院自動(dòng)化所】盧總好,admaster現(xiàn)在對(duì)接其他dsp嗎,?還是我們本身也做dsp,。 【盧億雷】我們不做DSP,但我們會(huì)監(jiān)測(cè)DSP投放的效果,。 【思彤】我前幾天在上海參加第三屆中國(guó)調(diào)查學(xué)術(shù)研討會(huì),,聽一位網(wǎng)絡(luò)公司的CEO說,現(xiàn)在微博上活躍著很多水軍,,其中有70受雇于各類公司,。你們?cè)谧ト≡紨?shù)據(jù)時(shí)會(huì)考慮水軍的帖子嗎,?有沒有比較好的辦法進(jìn)行清洗 【盧億雷】有考慮的,我們跟新浪是高級(jí)合作伙伴,,主要是通過他們的API給我們供數(shù)的,。另外在數(shù)據(jù)建模的時(shí)候,我們自己建了語(yǔ)義庫(kù),,會(huì)將相關(guān)性,、相似度等各種因素考慮,同時(shí)我們還有一些人工過濾的方法,。 【楊靜lillian】您再詳細(xì)談?wù)動(dòng)嘘P(guān)智能廣告精準(zhǔn)人群投放的案例,? 【盧億雷】智能廣告精準(zhǔn)投放很不錯(cuò)的案例購(gòu)買汽車的案例,具體就是指通過用戶訪問的行為,,通過機(jī)器學(xué)習(xí)的方法來判斷用戶的年齡、性別,、收入,、職業(yè)、愛好等一系列標(biāo)簽,,最終給用戶推薦對(duì)應(yīng)的車的品牌和車型,。 【王健宗】盧總,精準(zhǔn)營(yíng)銷廣告投放這塊如何將來用Deep Learning,? 【袁勇-中科院自動(dòng)化所】人群管理這方面,,現(xiàn)在許多dsp(如品友)有自己預(yù)定義的人群分類體系,我看咱們的人群標(biāo)簽是根據(jù)熱詞由算法生成的,,在監(jiān)控dsp投放效果時(shí)是否會(huì)出現(xiàn)人群標(biāo)簽不匹配,? 【盧億雷】您說的確實(shí)存在這樣的問題,目前業(yè)界還沒有統(tǒng)一起來,,AdMaster自己做了一個(gè)非常完善的標(biāo)簽庫(kù),,大概分為五級(jí),后面我們會(huì)發(fā)布出來,,然后跟各家看用什么進(jìn)行對(duì)比,。 【王健宗】在用戶畫像問題上,從不同源獲取的數(shù)據(jù),,比如微博和微信還有自己收集的其他,,如何去判斷這是同一個(gè)人,然后對(duì)其用戶畫像,,一個(gè)用戶畫像的維度多少,?目前大約分幾個(gè)類別的人?還是每次依據(jù)產(chǎn)品不同聚類,? 【盧億雷】我們有自己的樣本庫(kù),,還有就是我們對(duì)GPU也有用,,像前段時(shí)間提的社交圖譜我們就是用GPU來計(jì)算的。我們用戶畫像的維度最多達(dá)到了3000個(gè),。不是根據(jù)產(chǎn)品聚類的,,我們目前做了一個(gè)OLAP的SSD集群,可以快速統(tǒng)計(jì)出你所需要的結(jié)果,。 【王健宗】盧總,,GPU這塊是如何用的,Hadoop或者Spark利用GPU,,還是用其他的一些DL TOOLS,? 【盧億雷】GPU這塊我們目前還沒有用在Hadoop上,還是只是用到模型的訓(xùn)練上,。 【楊靜lillian】請(qǐng)問社交圖譜現(xiàn)在都有些什么內(nèi)容,?有哪些特色? 【盧億雷】社交圖譜是主要基于社交關(guān)系分析的產(chǎn)品,。例如微博中的關(guān)系和賬號(hào)組成了一張巨大的網(wǎng)絡(luò),。而社交圖譜就是在此網(wǎng)絡(luò)上的計(jì)算,從而為客戶提供更多insight,。社交圖譜的原理基于“圖”的一系列算法,。圖指包含一組節(jié)點(diǎn)和它們之間的邊的集合。而微博微信本質(zhì)上都是圖的一種形式,。 【袁勇-中科院自動(dòng)化所】期待您的標(biāo)簽庫(kù),,希望在用戶畫像方面交流合作計(jì)算廣告是非常適合做平行的,我們團(tuán)隊(duì)也一直在做,,有小成,,利用用戶畫像技術(shù)做人工人,但離飛躍教授的要求還有距離,,期待合作 【盧億雷】這個(gè)標(biāo)簽庫(kù)我們花了很多心思,,集合了很多家的共同點(diǎn),也抽象出了很多特點(diǎn),。應(yīng)該有很多合作點(diǎn)的,。目前我們數(shù)據(jù)這塊還是很豐富,現(xiàn)在理論這塊我們需要加強(qiáng) 【王健宗】盧總 SSD這塊是怎么用的,?我看你們用戶3000多個(gè)維度數(shù)據(jù)組織是HBASE,?有進(jìn)行一些優(yōu)化嗎?冷熱之間的Cache機(jī)制是怎么做的,? 【盧億雷】用SSD是由于我們需要在幾千個(gè)維度里實(shí)時(shí)統(tǒng)計(jì)和過濾,,我們要做到的是秒級(jí)查詢。HBase存的是全量數(shù)據(jù),用SSD建的集群存的是熱數(shù)據(jù),。冷熱之間數(shù)據(jù)的區(qū)分,,目前我們主要是以時(shí)間維度區(qū)分的。 【靜點(diǎn)評(píng)】非常感謝盧億雷的分享,,原來現(xiàn)在廣告監(jiān)測(cè)也進(jìn)入了高科技的時(shí)代,。首先,面對(duì)每天超過100億的采集請(qǐng)求,,每天需要針對(duì)1000億數(shù)據(jù)上1000個(gè)維度的分析和計(jì)算,,面對(duì)多屏異構(gòu)數(shù)據(jù),必須建設(shè)智能化的混合異構(gòu)數(shù)據(jù)平臺(tái),;其次,,人工智能技術(shù),自然語(yǔ)言處理,,大數(shù)據(jù)商業(yè)化平臺(tái),,都在給廣告客戶的精準(zhǔn)投放和高效傳播提供新的手段與工具;最后,,社交圖譜,、用戶畫像等商業(yè)化智能廣告系統(tǒng)的架構(gòu),讓廣告也科學(xué),、廣告也智能的新時(shí)代掀開嶄新一幕。多謝盧億雷的專業(yè)分享,,也感謝各位群友的積極參與和互動(dòng),。
|
|