本文主要圍繞如下幾個(gè)部分展開:
滴滴數(shù)據(jù)中臺發(fā)展 滴滴精益數(shù)據(jù)管理體系 滴滴數(shù)據(jù)系統(tǒng)組成
任何一個(gè)中臺,不管是技術(shù)中臺,、AI 中臺,,本質(zhì)上為了更好支撐業(yè)務(wù),讓業(yè)務(wù)能夠更好的去把用戶價(jià)值做出來,。 從技術(shù)角度來講創(chuàng)造價(jià)值的核心就是兩點(diǎn): 保證穩(wěn)定且持續(xù)的研發(fā)生產(chǎn),,持續(xù)輸出既有價(jià)值。 在生產(chǎn)過程中去找到可以改進(jìn)的地方,,找到新的創(chuàng)新點(diǎn),,創(chuàng)造更大的新價(jià)值。 看幾組數(shù)據(jù),,這幾組數(shù)據(jù)看起來挺大的,,但目的不是為了吹牛逼,目的是為了講這個(gè)東西,。其實(shí)滴滴也好,,阿里巴巴也好,這些大公司數(shù)據(jù)都經(jīng)歷了四個(gè)階段,,每個(gè)階段有不同的挑戰(zhàn),,相信在座的同學(xué)不同公司也處于不同的階段,或者說有可能也走到了這四個(gè)階段的下一次循環(huán),。業(yè)務(wù)發(fā)展驅(qū)動(dòng)數(shù)據(jù)進(jìn)化 其實(shí)滴滴很幸運(yùn),正好趕上了移動(dòng)互聯(lián)網(wǎng)那一波,,把個(gè)人的位置信息進(jìn)行信息化了,,同時(shí)智能手機(jī)價(jià)格急劇下降,從四五千到幾百塊錢,,任何一個(gè)群體都能買到智能手機(jī),,最大的核心變革是什么?你的位置與狀態(tài)隨時(shí)隨地都在線,,這就是完成了第一個(gè)核心業(yè)務(wù)的信息化,,滴滴趕上了這波一飛沖天。第二波當(dāng)業(yè)務(wù)構(gòu)建起來各個(gè)地方有數(shù)據(jù)被記錄下來,,如果 10 多年前有同學(xué)在做數(shù)據(jù),,當(dāng)時(shí)肯定會去跟 DBA 吵,你這個(gè)數(shù)據(jù)量太大了,,DBA 肯定會說:你刪數(shù)據(jù)吧,。因?yàn)橐郧昂芏嗟臄?shù)據(jù)是存在數(shù)據(jù)庫里面的,而從 2006 年開始從記錄事務(wù)本身到記錄過程,。這個(gè)背后的核心是什么,?背后是邏輯范式的變化,,因?yàn)橛辛嘶ヂ?lián)網(wǎng)?;ヂ?lián)網(wǎng)之前所有的交流,、互動(dòng)其實(shí)是中心節(jié)點(diǎn)下面有很多小節(jié)點(diǎn)單獨(dú)跟他溝通。比如說我去和銀行辦業(yè)務(wù),,我去打電話給某一個(gè)人都是這樣子的,,最多一對 N,互相之間是沒有別的互動(dòng),,去銀行辦各種業(yè)務(wù),,顧客間是沒有互動(dòng)的。但是有了互聯(lián)網(wǎng)之后,,所有的節(jié)點(diǎn)之間是可以被連通的,,所有的節(jié)點(diǎn)是可以被連接的,所有的信息從記錄的節(jié)點(diǎn)上變成了這個(gè)信息是記錄到邊上,,這種范式變成了什么呢,?數(shù)據(jù)的量巨大膨脹,這個(gè)時(shí)候面臨最大的問題是算不動(dòng)存不了,,包括我們在講很多的實(shí)時(shí)計(jì)算也是一樣的道理,。隨著我們的業(yè)務(wù)發(fā)展、人是需要實(shí)時(shí)進(jìn)行反饋,,那就意味著實(shí)時(shí)計(jì)算需要的計(jì)算能力和存儲能力變成更大的問題,,當(dāng)信息變成數(shù)據(jù)化之后一定會有這樣的情況。當(dāng)有更多的數(shù)據(jù)被記錄下來的時(shí)候,,數(shù)據(jù)不再僅僅是 BI,,意味著每個(gè)人開始去用數(shù)據(jù),每個(gè)人用的數(shù)據(jù)很有可能自己產(chǎn)生的結(jié)果,,同時(shí)是別人的輸入,。這個(gè)時(shí)候就意味著一張公司里的數(shù)據(jù)網(wǎng)開始在編制起來,或者說最簡單的數(shù)據(jù)鏈條在編制起來,。這個(gè)時(shí)候會出現(xiàn)很多扯皮的事情了,,上游說自己解決自己問題,數(shù)據(jù)的問題是自己用的,,為什么要給你用,?你依賴我的數(shù)據(jù)就依賴,出問題我不負(fù)責(zé),。被依賴很多上游說要改一個(gè)東西,,下游說不能改,你改了,,所有的代碼也得改,。上游說不改怎么行呢,,上面的業(yè)務(wù)要變。這個(gè)時(shí)候數(shù)據(jù)用的越多,,扯皮事情就越來越多,,為什么會扯皮呢?不是大家有什么問題,,而是公司里面沒有數(shù)據(jù)的文化,,我們核心判斷這件事情誰對誰錯(cuò)的價(jià)值觀,背后唯一判斷標(biāo)準(zhǔn)是什么呢,?很多公司是沒有的,,因?yàn)閿?shù)據(jù)越多,產(chǎn)生出來的各種扯皮就出現(xiàn)了,。這樣就到第三個(gè)階段,,每個(gè)地方都有大量的數(shù)據(jù),每個(gè)業(yè)務(wù)都在消費(fèi)大量的數(shù)據(jù),。廣告業(yè)務(wù),、運(yùn)營、財(cái)務(wù),、現(xiàn)在還有越來越多的算法,、人工智能,各個(gè)地方都在用數(shù)據(jù),,每個(gè)部門都有數(shù)據(jù),,每個(gè)部門都有自己的數(shù)據(jù)團(tuán)隊(duì),這個(gè)時(shí)候開始煙囪林立,。有些時(shí)候數(shù)據(jù)在一個(gè)地方用的好,,可能在別的地方用的不好。當(dāng)年在阿里的時(shí)候,,2012 年左右的時(shí)候最大的問題,怎么把消費(fèi)者的數(shù)據(jù)打通,。因?yàn)椴煌臉I(yè)務(wù)環(huán)節(jié)里面同一個(gè)消費(fèi)者 ID 可能都不一樣,,到滴滴后來也面臨同樣的問題,快車,、順風(fēng)車,、出租車快速的發(fā)展,從來沒有考慮過數(shù)據(jù)打通問題,。每個(gè)部門都覺得數(shù)據(jù)是自己的私產(chǎn),,我對這個(gè)數(shù)據(jù)質(zhì)量保證只為自己負(fù)責(zé)。數(shù)據(jù)資產(chǎn)從公司角度來講它是沒有被盤點(diǎn)的,,只在點(diǎn)上產(chǎn)生價(jià)值,。在滴滴我們是面臨強(qiáng)監(jiān)管的公司,,可能在別的公司大家沒有受到這么強(qiáng)的監(jiān)管。所以數(shù)據(jù)本身的安全合規(guī)對于我們講是非常重要的事情,,還好 2017 年加入到滴滴,,對這件事情的重視程度比較高,第一個(gè)解決了隱私數(shù)據(jù)的處理,,第二個(gè)數(shù)據(jù)分級管控,,第三個(gè)數(shù)據(jù)的安全打標(biāo),還有關(guān)鍵的權(quán)限管理,。最近我跑的公司也比較多,,發(fā)現(xiàn)做一些互聯(lián)網(wǎng)金融類的公司內(nèi)部的數(shù)據(jù)都沒有做權(quán)限管理,這是非??植赖囊患虑?。第三個(gè)一定得有對應(yīng)的安全合規(guī)管控,這樣公司才能走的長久,,不然數(shù)據(jù)做的越大,,很有可能就成為公司歸零的大風(fēng)險(xiǎn)。第三個(gè)是數(shù)據(jù)資產(chǎn)面臨一個(gè)問題,,可能這個(gè)資產(chǎn)在很久之前很多咨詢公司會講一個(gè)東西叫做數(shù)據(jù)治理,。包括像最近的 G20 各個(gè)政府的首腦也提到這個(gè)問題,數(shù)據(jù)越來越重要,,數(shù)據(jù)需要流動(dòng)起來才能產(chǎn)生價(jià)值,,如果不把它標(biāo)準(zhǔn)化好,數(shù)據(jù)的價(jià)值是很難打通的,。但是我們可以發(fā)現(xiàn)很多的企業(yè)去做數(shù)據(jù)治理的時(shí)候,,這個(gè)項(xiàng)目都是無疾而終,或者做了項(xiàng)目很好,,但是用著用著這個(gè)數(shù)據(jù)又不行了,,不得不過一段時(shí)間又提一個(gè)大項(xiàng)目勞民傷財(cái)去做這件事情,背后本質(zhì)上的問題是什么呢,?為什么數(shù)據(jù)治理這件事情這么困難,,投入這么大資金去做,但是產(chǎn)出卻很少,,而且數(shù)據(jù)是越治一會兒又難用了,,能不能讓這個(gè)數(shù)據(jù)越用越好用呢?我們發(fā)現(xiàn)背后還是一些本質(zhì)上的東西去用的,。我們都在講用大數(shù)據(jù)去賦能別人,,大數(shù)據(jù)去做廣告,大數(shù)據(jù)去賦能 AI,讓 AI 更高效解決各種問題,。但我們有沒有想過我們用數(shù)據(jù)能治理自己本身呢,?這也是我們當(dāng)時(shí)的思考。我們重要核心問題在數(shù)據(jù)資產(chǎn)化這個(gè)階段要解決兩個(gè)問題:數(shù)據(jù)質(zhì)量混亂的問題,。 高投入低產(chǎn)出問題,,我好像做了標(biāo)準(zhǔn)化的事情,做了治理的事情,,好像不太管用,。 最后,當(dāng)數(shù)據(jù)梳理通順了,,這個(gè)資產(chǎn)在公司里面流動(dòng)起來,,大概在 2018 年左右滴滴所有的數(shù)據(jù)在內(nèi)部都是開放的。當(dāng)然是分等級的,,需要走相應(yīng)的合規(guī)申請流程,,每一個(gè)人經(jīng)過相應(yīng)的安全申請都能獲得所有的數(shù)據(jù),相應(yīng)的合規(guī)數(shù)據(jù)都能做查詢,、分析,,甚至做研發(fā)。這樣的情況我們作用到第四個(gè)階段,,怎么樣把數(shù)據(jù)的價(jià)值最大化,?怎么樣變現(xiàn)?現(xiàn)在我們來看一下主要三個(gè)方面:一個(gè)是賦能人,,讓數(shù)據(jù)的門檻下降,,讓每一個(gè)人都能把數(shù)據(jù)用起來,這是我們背后非常難的理念,。在座各位很多都在做各種各樣數(shù)據(jù)產(chǎn)品,,有的是面向于工程師,有的面向分析師,,但我們希望是整個(gè)數(shù)據(jù)平臺體系能讓公司所有的人在他需要的時(shí)候把數(shù)據(jù)用起來,,把數(shù)據(jù)做到平民化。第二個(gè)現(xiàn)在越來越多系統(tǒng)應(yīng)用是數(shù)據(jù)密集型的,,再往下一步走是數(shù)據(jù)智能化的,,需要有算法、規(guī)則,、數(shù)據(jù)來反饋這樣的應(yīng)用系統(tǒng),,數(shù)據(jù)必須把它服務(wù)化,,去和前臺的業(yè)務(wù)集成打通,。第三個(gè)滴滴是一個(gè)非常依賴數(shù)據(jù)的公司,后面我會講為什么,絕大部分業(yè)務(wù)是靠算法來去驅(qū)動(dòng)的,。所以算法需要的大量特征本質(zhì)上就是來源于中臺數(shù)據(jù)再次加工,,怎么能夠更好賦能 AI?這也是變現(xiàn)里面第三個(gè)難題,。 滴滴究竟在數(shù)據(jù)方面和傳統(tǒng)的互聯(lián)網(wǎng)或者說 BATJ 這樣的公司有什么樣的不同,?左邊這個(gè)圖是工業(yè)領(lǐng)域常用的東西叫做資源投入和業(yè)務(wù)價(jià)值產(chǎn)出的微笑曲線,當(dāng)一個(gè)公司在兩頭進(jìn)行投入,,同樣投入產(chǎn)出會更高,,公司在研發(fā)、實(shí)驗(yàn),、營銷,、運(yùn)營。其實(shí),,前面的很多同學(xué)分享都提到這一點(diǎn),,我們?nèi)プ鰻I銷投入一塊錢到工程師那兒,我們能通過廣告收回來多少錢,。 即便沒有廣告平臺,,投入到自己的營銷上面拉了更多新客也會賺更多的錢,投入到研發(fā)也會讓產(chǎn)品競爭力更高,,賺更多的錢,。但滴滴有點(diǎn)不一樣,我們除了在研發(fā)實(shí)驗(yàn)投入資源產(chǎn)出的效益很高之外,,我們在營銷領(lǐng)域產(chǎn)出并不高,,我們更多是要把它投入到生產(chǎn)領(lǐng)域。在日本精益思想里面,,他們說了日本企業(yè)和中國企業(yè)最大的區(qū)別是什么,?中國企業(yè)只知道在微笑的兩端引進(jìn)新技術(shù)獲得增長,但不知道把中間這塊進(jìn)行更好的管理,,把微笑曲線變成武藏曲線,。這是一家日本企業(yè)都能活的很好很久的原因,他們把曲線拉的更平,,從研發(fā),、實(shí)驗(yàn),、生產(chǎn)、運(yùn)營,、營銷各個(gè)環(huán)節(jié)都能做到很好的競爭力,。為什么滴滴微笑曲線會是這樣呢,?任何一家大型互聯(lián)網(wǎng)公司本質(zhì)上是這兩個(gè)商業(yè)模型的內(nèi)核雙輪驅(qū)動(dòng),網(wǎng)絡(luò)效應(yīng)和數(shù)據(jù)智能,。而且往往是網(wǎng)絡(luò)效應(yīng)是大于數(shù)據(jù)智能,,但是滴滴卻是反著的,本身這個(gè)平臺沒有太大的網(wǎng)絡(luò)效應(yīng),,乘客與乘客之間是不互動(dòng)的,,司機(jī)與司機(jī)也是不互動(dòng)的。司機(jī)和乘客之間的連接是靠當(dāng)時(shí)的時(shí)刻和那個(gè)時(shí)間節(jié)點(diǎn)上空間正好能匹配,,系統(tǒng)硬拉在一起的,。我們沒有太多的網(wǎng)絡(luò)效應(yīng),我們只有規(guī)模效應(yīng),,乘客越多可能會吸引司機(jī)一下,,司機(jī)說你這兒好拉活。司機(jī)越多可能會吸引乘客一下,,這塊我打車的概率也高一點(diǎn),,但本質(zhì)上這個(gè)護(hù)城河很低。我們在這兒是沒有商業(yè)模式護(hù)城河,,唯一一個(gè)護(hù)城河是來自于數(shù)據(jù)智能,,怎么樣通過更好的算法找到更好的匹配,怎么去做供需的預(yù)測,,怎么去做調(diào)度,,怎么去做時(shí)間的分配,怎么去鼓勵(lì)司機(jī)在什么樣的情況下往哪個(gè)方向去,。我們在每一個(gè)出行環(huán)節(jié)里面我們都需要用數(shù)據(jù)進(jìn)去結(jié)合起相應(yīng)的算法,,把這個(gè)效率做到最高。所以從這個(gè)角度來講在滴滴去做數(shù)據(jù)平臺或者做數(shù)據(jù)中后臺工作壓力非常大的,。因?yàn)檎麄€(gè)公司的護(hù)城河是依賴數(shù)據(jù)的,,網(wǎng)絡(luò)效應(yīng)在我們這兒是大大縮小。中臺數(shù)據(jù)體系建設(shè)的核心困難 我們再看一下為什么在滴滴中臺數(shù)據(jù)體系建設(shè)這么困難,?數(shù)據(jù)其實(shí)是要在兩條價(jià)值線上去發(fā)揮價(jià)值,。第一個(gè)每天日常生產(chǎn)價(jià)值線,每天業(yè)務(wù)要保障正常運(yùn)轉(zhuǎn),,要從一個(gè)狀態(tài)變到另一個(gè)狀態(tài),,用戶進(jìn)來要從一個(gè)業(yè)務(wù)做完,要穩(wěn)定的生產(chǎn),,讓我們客戶能打到車,,這里面很多的算法通過數(shù)據(jù),,生產(chǎn)加工到最后產(chǎn)生價(jià)值,。 這里面隨時(shí)隨地在提三個(gè)詞,,質(zhì)量、效率,、成本,,因?yàn)槲覀儧]有大規(guī)模的網(wǎng)絡(luò)效應(yīng),我們依賴網(wǎng)絡(luò)效應(yīng)去做創(chuàng)新的空間沒有那么大,,我們只能在各個(gè)業(yè)務(wù)的環(huán)節(jié),,用數(shù)據(jù)去發(fā)現(xiàn)這樣的效率增加的地方,或者在里面去做模式的挖掘,。這樣對于數(shù)據(jù)來去驅(qū)動(dòng)創(chuàng)新的壓力更大了,,我們可能不像抖音,或者是說不像淘寶,,我們可以做一個(gè)消費(fèi)者靠主觀感受發(fā)現(xiàn)有哪些模式可以把網(wǎng)絡(luò)效應(yīng)激發(fā)出來,。對于我們來講必須用數(shù)據(jù)看整個(gè)滴滴出行網(wǎng)絡(luò)里面有些什么樣的模式,有些什么樣的問題,,有些什么樣關(guān)聯(lián)的情況能夠被我們發(fā)現(xiàn)出來,,有哪些 idea 去做實(shí)驗(yàn),一堆篩選以后找到一個(gè)真正產(chǎn)生正價(jià)值的 idea,。每個(gè)這樣的想法要通過大量的數(shù)據(jù)分析,、數(shù)據(jù)驅(qū)動(dòng)的方式,才能最終融入到數(shù)據(jù)生產(chǎn)價(jià)值線來,。這個(gè)時(shí)候?qū)τ跀?shù)據(jù)平臺團(tuán)隊(duì)來講意味著很糾結(jié)了,一條線要求穩(wěn)定,。另外一條線要求數(shù)據(jù)質(zhì)量高情況下還要快速,,必須得盡快把相應(yīng)的數(shù)據(jù)支援到我,,你希望把很多沒有穩(wěn)定下的數(shù)據(jù)業(yè)務(wù)背后的數(shù)據(jù)支援到我,,這是非常困難的一件事情。因?yàn)榈蔚伟迅偁幜Ψ旁诹藬?shù)據(jù)智能這塊,,意味著我們是互聯(lián)企業(yè)里面對于數(shù)據(jù)場景使用最多的一個(gè)企業(yè)了。總結(jié)了一下大概有 13 個(gè)主要數(shù)據(jù)使用場景,,從最簡單的看報(bào)表、臨時(shí)分析,、做對比,,再去做相應(yīng)的聚類分析,,再去做模式挖掘,再去做算法,、人工智能驅(qū)動(dòng),,每一個(gè)環(huán)節(jié)需要大量的數(shù)據(jù)和平臺支撐它。另外,,用的場景越多,,涉及到的鏈路越復(fù)雜,這個(gè)背后代表的是團(tuán)隊(duì),,大家知道了人多了就有江湖,,有了江湖很多事情就很麻煩,組織上我們會面臨巨大的困難,。兩個(gè)不同的目標(biāo),,這么多的場景,這么多的組織在一起,,這時(shí)我們需要支撐 6 個(gè)最大業(yè)務(wù)場景的人員,,數(shù)據(jù)工程人員,業(yè)務(wù)分析的人員,,產(chǎn)品研發(fā)的人員,,數(shù)據(jù)科學(xué)的人員,人工智能,,其實(shí)背后還有一個(gè)財(cái)務(wù),。每個(gè)人的訴求都不一樣,每個(gè)人在數(shù)據(jù)鏈條的環(huán)節(jié)都不一樣,,他們每一個(gè)人的能量也不一樣,,所以做一個(gè)數(shù)據(jù)平臺團(tuán)隊(duì)是如履薄冰,我們面臨非常大的困難,。我們怎么來解呢,?因?yàn)榈蔚魏蛙囉嘘P(guān)系,我們背后是這么復(fù)雜的,,這條鏈?zhǔn)欠€(wěn)定的高質(zhì)量數(shù)據(jù)交付,,在整個(gè)全世界的生產(chǎn)制造環(huán)節(jié)里面,什么樣的鏈?zhǔn)街圃煸谀膫€(gè)行業(yè)里面最復(fù)雜,、最穩(wěn)定的呢,?是汽車制造行業(yè)。在這里面做的最好的是豐田,,我們就借鑒了豐田精益制造的理念,,以它為基礎(chǔ)變成了我們精益數(shù)據(jù)的管理體系。首先我們定義目標(biāo),,我們究竟做數(shù)據(jù)平臺的目的是什么,,是要處理更多的數(shù)據(jù),,還是要算的更快,還是說出各種各樣很好看的報(bào)表,。我們認(rèn)為最核心的是高價(jià)值,、高可靠、高效率,、低成本,、少浪費(fèi)的做數(shù)據(jù)服務(wù)的交付。我們不一定做應(yīng)用,,不一定自己去拿到很好的業(yè)務(wù)效果,但是我們關(guān)鍵是要把數(shù)據(jù)賦能業(yè)務(wù)的同學(xué),,把數(shù)據(jù)的價(jià)值交付出去,。基于這樣的目標(biāo),我們認(rèn)為最關(guān)鍵的點(diǎn)首先要有文化,,不然組織間的摩擦?xí)泻艽蟆?/section>這個(gè)東西也是和滴滴高層管理一起往下推,,從廟堂和江湖之間一起去發(fā)力。關(guān)鍵的兩個(gè):一個(gè)是持續(xù)改進(jìn),,我們認(rèn)為數(shù)據(jù)平臺,、數(shù)據(jù)體系或者數(shù)據(jù)中臺不是一天能夠建成的,也不是一個(gè)大項(xiàng)目做了數(shù)據(jù)治理,,做了數(shù)據(jù)資產(chǎn)管理,,這事就完事了。很多企業(yè),,尤其是傳統(tǒng)產(chǎn)業(yè)企業(yè)領(lǐng)導(dǎo)覺得數(shù)據(jù)這件事情交給 CIO 或者數(shù)據(jù)平臺的領(lǐng)導(dǎo)者就好了,,把這個(gè)數(shù)據(jù)弄好,后面就好了,,其實(shí)不是這樣子的,。數(shù)據(jù)是跟著業(yè)務(wù)在發(fā)展和生產(chǎn)的,必須得持續(xù)改進(jìn)才能跟上業(yè)務(wù)的節(jié)奏,。數(shù)據(jù)本質(zhì)上背后是人,,人用數(shù)據(jù),人開發(fā)的 AI 用數(shù)據(jù),,我們必須得尊重人,,尊重人是什么樣的意思?尊重人的創(chuàng)意,,我們應(yīng)該讓每一個(gè)人都有機(jī)會平等用上數(shù)據(jù),,所以要把這個(gè)門檻降到最低。第二個(gè)數(shù)據(jù)的鏈路里面涉及到的方方面面各種各樣的人,,我們一定要讓每一個(gè)鏈路中的人意識到,,你做的任何一件事情都有可能會影響到上游或者下游,,那核心價(jià)值觀是不要給別人添麻煩,客戶第一,。以這個(gè)為基礎(chǔ)的價(jià)值觀遇到很多問題的時(shí)候,,我們就回到這樣的初心,再來看怎么做持續(xù)改進(jìn),。基于這樣的數(shù)據(jù)文化,,我們?nèi)プ隽司娴臄?shù)據(jù)生產(chǎn)的體系,我們把它總結(jié)為以價(jià)值鏈來拉動(dòng),。在滴滴梳理出來了將近 2000 多條數(shù)據(jù)生產(chǎn)的鏈條一路,,從數(shù)據(jù)的采集再到數(shù)據(jù)的使用,經(jīng)過這樣的梳理來判斷哪些數(shù)據(jù)產(chǎn)生的價(jià)值更大,,哪些數(shù)據(jù)的影響面更廣,。基于這樣的數(shù)據(jù)價(jià)值鏈我們就做了下面相應(yīng)的工作,很多是像豐田生產(chǎn)流水線學(xué)習(xí)的,。 第一個(gè)是分級,,我們認(rèn)為不可能把所有的數(shù)據(jù)問題用所有的精力解決掉,這也是不現(xiàn)實(shí)的,,或者這個(gè)是浪費(fèi),。精益里面最關(guān)鍵一點(diǎn)是減少浪費(fèi),把所有的東西用同樣的方式做同樣的處理,,所以第一個(gè)分級,,對數(shù)據(jù)做了 T1、T2,、T3 的分級,。第二個(gè)監(jiān)控,我們必須實(shí)時(shí)知道這個(gè)數(shù)據(jù)在怎么被加工處理,,進(jìn)入的情況是什么樣的,,產(chǎn)出的情況是什么樣的,加工處理過程中間的產(chǎn)出各種日志是什么樣的,。在《管理》那本書里要提到要控制好任何一個(gè)生產(chǎn)線的質(zhì)量,,最關(guān)鍵的就是持續(xù)統(tǒng)計(jì)管理。在生產(chǎn)過程中任何數(shù)據(jù)都被統(tǒng)計(jì)下來,,來發(fā)現(xiàn)這里面的問題,。第三個(gè)復(fù)盤,有了監(jiān)控之后知道系統(tǒng)里面會出現(xiàn)哪些問題,、變化,,每一個(gè)這樣的異常、變化和問題都會有一個(gè)小組召開相應(yīng)的復(fù)盤。從 2017 年 4 月份到 2019 年 1 月份做了 150 多次的復(fù)盤,,復(fù)盤率超過了 89%,,相應(yīng)每一次復(fù)盤對于系統(tǒng)的改進(jìn)都是巨大的。最后把復(fù)盤得到的從人員,、流程,、系統(tǒng)上得到改進(jìn)的方案,通過系統(tǒng)的方式把它給沉淀下來,。我們認(rèn)為只有通過自動(dòng)化的方式,,才能真正的去落地規(guī)范,才能真正落地文化和流程,。所以說在自動(dòng)里面用了一個(gè)日文字,,我們認(rèn)為這個(gè)“働”,不僅僅是要流程串在一起,,有一個(gè)程序讓它跑起來就行了,,這里面需要人參與的。人在這里面持續(xù)迭代更新它,,人是最聰明的,,以及現(xiàn)在人還可以做出人工智能來替它更高效優(yōu)化,。另外一條支柱我們有了穩(wěn)定的數(shù)據(jù)生產(chǎn)鏈,,我們有方法可以讓它持續(xù)穩(wěn)定下來之后,另外開始著手建立數(shù)據(jù)創(chuàng)新的體系,。我們從哪兒去借鑒呢,?這 20 多年來敏捷的軟件開發(fā)就在我們身邊,我們完完全全可以借鑒這套,,包括從五年前開始火起來的 DevOps,。我認(rèn)為是數(shù)據(jù)體系需要認(rèn)認(rèn)真真去學(xué)習(xí)這個(gè)方法論,而不是有些時(shí)候過于強(qiáng)調(diào)數(shù)據(jù)工程的獨(dú)特性,。我們把數(shù)據(jù)工程很多處理的方式歸結(jié)為 ETL 模型,,但是隨著現(xiàn)在越來越多的應(yīng)用隨著數(shù)據(jù)驅(qū)動(dòng),大家現(xiàn)在看到數(shù)據(jù)實(shí)時(shí)計(jì)算平臺非?;馃?,本質(zhì)上是前臺的業(yè)務(wù)需要數(shù)據(jù)實(shí)時(shí)反饋來驅(qū)動(dòng)它。也就是說,,大量的數(shù)據(jù)工程本身就應(yīng)該是和業(yè)務(wù)的應(yīng)用,,用一套方法論體系,一套軟件工程體系去構(gòu)建,。這樣才能讓一個(gè)公司的軟件開發(fā)人員能夠更快速的去交付相應(yīng)的軟件價(jià)值,,不然一個(gè)公司里面會越來越臃腫。從這個(gè)角度來講我們?nèi)フJ(rèn)認(rèn)真真把軟件工程去看了一遍,,創(chuàng)新要容忍混亂,,混亂來自什么,?或者換句話說叫活力,活力來自于連接,,連接越多活力越大,,所以我們構(gòu)建一個(gè)創(chuàng)新網(wǎng),把整個(gè)數(shù)據(jù)平臺采集到的各種各樣數(shù)據(jù),,以及數(shù)據(jù)在加工處理過程中,,以及數(shù)據(jù)流動(dòng)處理過程中間再次沉淀下來的數(shù)據(jù),我們都把它記錄下來,,以及產(chǎn)生這個(gè)數(shù)據(jù)的物和人,,也記錄下來,從而形成了背后數(shù)據(jù)的知識圖譜,。我們知道這個(gè)數(shù)據(jù)從哪兒來到哪兒去,,被什么人來使用,使用的過程是什么樣的,,使用的反饋是什么樣的,,使用完之后沉淀下來的感悟是什么樣的,比如說分析方法論是什么樣的,,數(shù)據(jù)工程師使用這個(gè)數(shù)據(jù)發(fā)現(xiàn)的問題是什么,?我們把這些東西都沉淀下來,并且和內(nèi)部的效能工具做打通,,和運(yùn)維數(shù)據(jù)做打通,,和財(cái)務(wù)系統(tǒng)做打通,去和各種各樣的流程審批系統(tǒng)做打通,,這樣構(gòu)建了數(shù)據(jù)創(chuàng)新的網(wǎng)絡(luò),。我們再把相應(yīng)的用戶群進(jìn)行分層,我們認(rèn)為一部分人是直接用數(shù)據(jù)的,,所以說把這個(gè)定義成用結(jié)果,,這里面就是傳統(tǒng)的報(bào)表體系。我們?yōu)榱税褕?bào)表的東西做到更敏捷,,我們做了一個(gè)什么事呢,?我們發(fā)現(xiàn)公司很多的用戶不需要把它做的太漂亮,尤其是一線員工,,更多是看數(shù)據(jù)來反饋前幾天的系統(tǒng)和系統(tǒng)上實(shí)時(shí)操作的結(jié)果是什么樣子的,。其實(shí)有自己的辦法去做相應(yīng)的可視化分析,我們把很多的報(bào)表再做了簡化,,我們認(rèn)為不用發(fā)很多可視化報(bào)表,,就把它數(shù)據(jù)模板化就好了,并且給他一定的靈活性,第二步自配置,。我們現(xiàn)在每天可以產(chǎn)生 600 多個(gè)分析的小模板,,來自于各個(gè)業(yè)務(wù)方向,復(fù)盤,、實(shí)驗(yàn),、測試,大家可以想到背后什么,,每一個(gè)一線業(yè)務(wù)同學(xué),,不管是產(chǎn)品還是運(yùn)營,都在用數(shù)據(jù)驅(qū)動(dòng)它做任何改進(jìn)的事情,,滴滴的創(chuàng)新就這樣起來,。第三個(gè)模仿做,這里面代表的思想是什么,?一切皆代碼,,很多情況下你要模仿別人做一個(gè)東西,你看花花綠綠的東西,,你不知道背后的東西是什么,,其實(shí)是很難模仿的。我們盡可能在數(shù)據(jù)分析這一塊,,把數(shù)據(jù)背后分析的代碼都開放給用戶,。比如說我看到這樣的數(shù)據(jù)結(jié)果,我會讓它找到背后分析的代碼是什么,,我看到這個(gè)報(bào)表,,我會告訴他背后分析的 DSL 是什么,。這樣一些高階的用戶基于代碼更快速的理解背后的邏輯是什么,,進(jìn)一步模仿可以去做。這樣會讓我們很多中低階的同學(xué),,在這塊技能不是那么豐富的同學(xué)可以做一些偏高階的工作,,降低成本,提升效率,。最后自主化,,我們通過對于前面精益數(shù)據(jù)生產(chǎn)鏈路,去徹底打通數(shù)據(jù)從采集,、加工,、預(yù)處理、分析和系統(tǒng)對接再到服務(wù)化,,我們打通了整個(gè)流程環(huán)節(jié),,任何一個(gè)稍微懂一點(diǎn)數(shù)據(jù)的同學(xué),就能完成從數(shù)據(jù)的接入,再到數(shù)據(jù)的處理,。這樣不會有很多的數(shù)據(jù)門檻,,不需要一個(gè)同學(xué)要去做分析的時(shí)候,要去做數(shù)據(jù)探索的時(shí)候,,需要有相應(yīng)的工程師同學(xué)去配合他,,才能完成相應(yīng)的動(dòng)作。基于這樣的方法論,,我們就去開發(fā)數(shù)據(jù)系統(tǒng)的工具鏈,,這個(gè)工具鏈要達(dá)到前面的分級監(jiān)控、復(fù)盤和自動(dòng)化,,要去能夠讓大家各個(gè)層面上方便降門檻去用數(shù)據(jù),。在這里面產(chǎn)品設(shè)計(jì)秉承核心的方法論,第一個(gè)數(shù)據(jù)要越用越好用,,要把數(shù)據(jù)引入到產(chǎn)品設(shè)計(jì)中驅(qū)動(dòng)產(chǎn)品設(shè)計(jì)的優(yōu)化,。第二個(gè)目標(biāo)是讓盡可能多的人能夠把數(shù)據(jù)用起來,所以數(shù)據(jù)工具之間必須去做強(qiáng)打通,,讓每一個(gè)人都能完成數(shù)據(jù)處理工作,,這是產(chǎn)品設(shè)計(jì)的核心方法論,我們還通過相應(yīng)的指標(biāo)體系來去衡量是否在往這個(gè)方向去發(fā)展,。 數(shù)據(jù)基礎(chǔ)設(shè)施,,還是基于開源的體系來去做?;谶@樣的方式做了兩年,,2017 年 4 月份加入到滴滴,第二天就出了很大的故障,。從那個(gè)時(shí)候開始一直到年底基本上每周兩次,,每天晚上被短信吵起來很多次,我下面的幾十號兄弟每天都得起來好幾次,。我們有了這套東西我們持續(xù)改正之后,,從用戶價(jià)值來講每個(gè) Q 都會做 NPS 調(diào)研,打 8 分,、9 分,、10 分的人減去打 1 分、2 分的人,,打 5,、6 分的人我們不認(rèn)為他滿意。這個(gè)是非??量痰?,很多公司很多產(chǎn)品 NPS 能做到 30% 是不錯(cuò)了,,從 2017 年的 4 月份 19% 還詬病比較多的,到最近的一次調(diào)研做到 60%,。在相應(yīng)的數(shù)據(jù)生產(chǎn)這一塊,,事故從一年十幾次其實(shí)是二十次到去年可能只發(fā)生了一次。我們核心的數(shù)據(jù)產(chǎn)出時(shí)間最晚的處理時(shí)間已經(jīng)提前到了 5 點(diǎn),,我們把所有數(shù)據(jù)采集的生產(chǎn)鏈路實(shí)時(shí)化,,根據(jù)后面的用戶需要來選擇究竟是實(shí)時(shí)還是準(zhǔn)實(shí)時(shí),還是小時(shí),,還是按天,。另外,我們創(chuàng)新體系里面有一個(gè)衡量的指標(biāo),,我們的同事每天都在問很多問題,,這些代表在思考解決很多新問題,可能在組合很多情況去解決復(fù)雜問題,,我們認(rèn)為這都在做微創(chuàng)新,,從兩天任務(wù)變到了 2 萬個(gè),有了十倍的增加,。為了把這兩套體系連接起來,,發(fā)揮更大的作用,我們構(gòu)建的智能數(shù)據(jù)目錄,,相當(dāng)于每周會有 20% 的員工在高頻的使用,。相當(dāng)于 20% 的員工在去找公司里面有哪些數(shù)據(jù)可以幫助到他做各種各樣業(yè)務(wù)的問題,目前也在系統(tǒng)性對外進(jìn)行輸出,。 另外,,敏捷的數(shù)據(jù)治理,很多時(shí)候是數(shù)據(jù)治好一段時(shí)間,,然后又壞,,怎么能夠讓它好用起來呢?第一個(gè)必須得全面量化,,第二個(gè)改變思路,。以前的思路是我的數(shù)據(jù)治理目標(biāo)數(shù)據(jù)質(zhì)量好,,我們想數(shù)據(jù)質(zhì)量好的本質(zhì)是什么,?能夠把數(shù)據(jù)用起來,我們認(rèn)為所有的數(shù)據(jù)治理目標(biāo)是讓更多人把數(shù)據(jù)用起來,,能夠用起來的第一點(diǎn)是量化,,數(shù)據(jù)怎么在被使用。我們把整個(gè)數(shù)據(jù)體系里面的任何數(shù)據(jù)存儲引擎,,數(shù)據(jù)分析的產(chǎn)品,,用戶的日志都記錄下來,。我們希望對用戶行為進(jìn)行相應(yīng)的結(jié)構(gòu)化,我們來看用戶在怎么用這些數(shù)據(jù),,我們在看數(shù)據(jù)依賴關(guān)系是什么,,哪些數(shù)據(jù)是高價(jià)值的,哪些數(shù)據(jù)是低價(jià)值的,,哪些數(shù)據(jù)是影響面寬的,,我們形成了幾百萬個(gè)節(jié)點(diǎn),將近 4 億條邊的數(shù)據(jù)圖譜,。基于這樣的圖譜,,借鑒了 Google 的 PageRank 算法,我們來計(jì)算出來哪些數(shù)據(jù)價(jià)值高,,哪些數(shù)據(jù)的影響面廣,。我們做了一些對比,通過專家做這個(gè)評測,,我們發(fā)現(xiàn)用算法算出來的,,基本上和專家的打分是一致的,所以很快應(yīng)用到生產(chǎn)體系里面去,。我們用這種東西來衡量治理的效果是什么樣的,,實(shí)時(shí)監(jiān)控,每天都產(chǎn)出這樣的情況來,,從 2018 年初 40 分到現(xiàn)在 70 分,,我們整體的數(shù)據(jù)使用處于持續(xù)好轉(zhuǎn)的階段,現(xiàn)在應(yīng)該說還比較不錯(cuò),。因?yàn)槲覍?shù)據(jù)進(jìn)行量化,,我知道哪些是高價(jià)值的數(shù)據(jù),高影響的數(shù)據(jù),,我們發(fā)現(xiàn)非常有趣的現(xiàn)象,,10% 的數(shù)據(jù)支撐了公司 90% 的業(yè)務(wù)和使用。所以我們只需投入更少的資源去解決那 10% 的數(shù)據(jù)治理問題,,我們可以讓這些資源每天盯著,,10% 的數(shù)據(jù)量。我們可以通過全面的量化做到重點(diǎn)的攻關(guān)和突破,,而其他的 90% 使用眾包和 AI,。 我們有了知識圖譜之后可以構(gòu)建各種各樣的算法來提示大家或者驅(qū)動(dòng)大家做什么樣的優(yōu)化,舉一個(gè)最簡單的例子,,我們通過解析,,發(fā)現(xiàn)大量數(shù)據(jù)處理的模式。我們把這些都推給了相應(yīng)的數(shù)據(jù)工程師,,他們拿到這個(gè)東西之后可以快速做相應(yīng)的改進(jìn),。這樣讓我們的數(shù)據(jù)倉庫又能快速的響應(yīng)需求的同時(shí),,上面各種各樣業(yè)務(wù)創(chuàng)新人員去做數(shù)據(jù)查詢,性能也得到更好的提升,。 最后數(shù)據(jù)的文化,,我們一年多的時(shí)間將近兩年做了 150 次的復(fù)盤,每一次復(fù)盤都落地到從流程,、人員到系統(tǒng),,都有詳細(xì)的改進(jìn)計(jì)劃,我們成立了專門全鏈路的小組來去跟進(jìn),,每一塊必須得落地到位,。基于這樣整體的建設(shè),我們整個(gè)中臺用戶使用的活躍度,,從兩年前的 1700 人到 5000 人,,現(xiàn)在數(shù)據(jù)最新是 5400 左右。相當(dāng)于滴滴 49% 的員工一周會用一次數(shù)據(jù),,這在整個(gè)行業(yè)里面相當(dāng)高的,,我們做了一些調(diào)研,但不是特別全面,,發(fā)現(xiàn)這個(gè)數(shù)據(jù)大概在 20-25%,。基于這樣的方法論,我們系統(tǒng)這樣去搭建的,,這個(gè)和阿里的數(shù)據(jù)中臺的組成部分或者網(wǎng)易數(shù)據(jù)中臺組成部分很類似,。核心還是前面方法論,我想說的東西是什么呢,?這個(gè)東西就像武器,,先進(jìn)的武器大家是可以買得來的,可能花錢買或者雇人能夠造的出來,,各種各樣的經(jīng)驗(yàn)大家也能夠借鑒,。但是一支能打勝仗的隊(duì)伍,只有本國的軍隊(duì),、自己的軍事理論,,再加上持續(xù)的訓(xùn)練和實(shí)戰(zhàn)才能錘煉出來,勝利不是靠買來的,。這些只是你需要的武器而已,,你需要公司的文化、公司組織,、公司業(yè)務(wù)來去靈活制定數(shù)據(jù)體系的方法論,,才能拿到相應(yīng)的結(jié)果。 這就是我們產(chǎn)品做出來的情況,,這是智能的數(shù)據(jù)目錄,,讓數(shù)據(jù)越用越好用的方式。所有的數(shù)據(jù)資產(chǎn)在這兒都能通過檢索的方式做到,,基本上這樣的數(shù)據(jù)還能做推薦,,把它變成相應(yīng)的數(shù)據(jù)支持實(shí)體,做及時(shí)的溝通,,還能評價(jià),,還能 diss 你,很多同學(xué)也能點(diǎn)贊,。 讓數(shù)據(jù)持續(xù)可靠,,從最開始怎么做好技術(shù)質(zhì)量,再到怎么找到相應(yīng)的數(shù)據(jù),,再到最后更簡單的去使用數(shù)據(jù),。數(shù)據(jù)的服務(wù)化,數(shù)據(jù)能夠持續(xù)被人依賴,,被服務(wù)依賴,。 實(shí)時(shí)數(shù)據(jù)的集成,我沒有把它寫成數(shù)據(jù)的實(shí)時(shí)計(jì)算,,我認(rèn)為更多是把數(shù)據(jù)集成,,把集成好的數(shù)據(jù)交付給更多的前臺業(yè)務(wù)應(yīng)用去使用。監(jiān)控其實(shí)是里面價(jià)值最低的,,更多是怎么能夠驅(qū)動(dòng)前臺實(shí)時(shí)響應(yīng)類的應(yīng)用,,來給用戶發(fā)揮價(jià)值。這是運(yùn)營輕量級分析的流程,,就像剛剛提到的從兩年前的 2000 次再到現(xiàn)在的 2 萬次,。這是數(shù)據(jù)可能今后發(fā)揮價(jià)值最大的地方,去賦能 AI,。通過建立好數(shù)據(jù)中臺服務(wù)層,,再把它演變成對應(yīng)的特征層,來驅(qū)動(dòng)出這樣強(qiáng)化學(xué)習(xí)的營銷體系,。
最后想講的感悟,,數(shù)據(jù)中臺不是買來的,也不是簡單地把數(shù)據(jù)相應(yīng)的模塊系統(tǒng)放在公司里面搭建起來就 OK 的,。它其實(shí)是尊重公司內(nèi)部的客觀經(jīng)濟(jì)規(guī)律,,包括公司的文化、組織,、人員,、業(yè)務(wù)模式管理和治理的結(jié)果。其實(shí)更多的是需要大家用同樣的價(jià)值觀面向長期用戶價(jià)值合理的分工,,以及基于分工下合理的協(xié)同,,怎么去梳理出價(jià)值鏈,?怎么梳理出創(chuàng)新網(wǎng)?本質(zhì)上做這樣的事情,,所以說到最后中臺其實(shí)是組織和體系建設(shè)的一個(gè)成果,,背后是靠大數(shù)據(jù)技術(shù)和系統(tǒng)來做支撐。
|