前幾天我面向粉絲,,嘗試著做了兩節(jié)數(shù)據(jù)分析的入門視頻,,效果還不錯,很多粉絲都給我提出了寶貴的意見,,為此我也在加緊為大家制作后面的視頻,,以期幫助大家學(xué)習(xí)。 但是為了解大家對數(shù)據(jù)分析的真正需求,,我特意列出了第一節(jié)關(guān)于數(shù)據(jù)分析入門流程的內(nèi)容,,希望大家能夠多提建議!
什么是數(shù)據(jù)分析,?無論你是剛接觸數(shù)據(jù)分析,,還是一位分析大神,我想很多人都不知道,,數(shù)據(jù)分析究竟是什么,,或者說數(shù)據(jù)分析的本質(zhì)是什么。 其實(shí)很多公司和企業(yè),,也不明白數(shù)據(jù)分析是什么,,很多人從網(wǎng)上看到公司招數(shù)據(jù)分析師,,進(jìn)入了之后發(fā)現(xiàn)是做什么的呢?就是天天用sql取數(shù)給業(yè)務(wù)用,,十分機(jī)械而且也沒成就感,。 這叫做數(shù)據(jù)分析嗎,?當(dāng)然不叫!所以我們要先對數(shù)據(jù)分析有個整體的認(rèn)知,。 先看一下教科書上的定義: 數(shù)據(jù)分析是用恰當(dāng)?shù)慕y(tǒng)計(jì)分析方法對收集來的大量數(shù)據(jù)進(jìn)行分析,,然后加以處理和加工,以開發(fā)數(shù)據(jù)的功能,、挖掘數(shù)據(jù)的價值,,主要目的是為了清洗出有用的信息并形成結(jié)論。 這個定義過于繁瑣,,很多剛剛接觸數(shù)據(jù)分析的人都不一定能看得懂,,因此我自己給數(shù)據(jù)分析下了個定義: 數(shù)據(jù)分析,,就是針對某個問題,,將獲取后的數(shù)據(jù)用分析手段加以處理,并發(fā)現(xiàn)業(yè)務(wù)價值的過程,。 大家可以看到我把五個關(guān)鍵詞給標(biāo)紅了,,這一句話,基本上可以包含數(shù)據(jù)分析所必須的流程點(diǎn),,我們一個個講,。 一,、問題首先第一個關(guān)鍵詞是“問題”,我們可以把這個詞解釋“發(fā)現(xiàn)問題”或者是“目標(biāo)”,。 數(shù)據(jù)分析一定要有目標(biāo),!哪怕業(yè)務(wù)人員給你提出的問題或者需求,根本不是那么明確和清晰,,你也要找到自己要分析的目標(biāo),! 舉個最簡單的例子,業(yè)務(wù)方最近新上線了一個功能,,想讓你分析一下目前這個功能的使用情況,。這時候你該怎么做? 你會覺得“分析業(yè)務(wù)功能情況”是目標(biāo),,然后根據(jù)這個模糊的目標(biāo)你只能做一些描述性的統(tǒng)計(jì)分析,,告訴業(yè)務(wù)方每天UV的最大值,,最小值,中位數(shù),,平均數(shù),,方差,標(biāo)準(zhǔn)差……看起來很厲害的樣子,,但這些數(shù)據(jù)有啥意義呢,。 這樣子的目標(biāo)就是在做樣子,應(yīng)該怎么做呢,? 要明確業(yè)務(wù)方的需求是什么,,然后分析業(yè)務(wù)最終的目的,把這個目的進(jìn)行拆解,;比如剛才的例子,,業(yè)務(wù)真正想要了解的是什么,是這個新功能的目的,,是為了提升客戶的留存率,?還是為了提升客戶的轉(zhuǎn)化率?還是其他的,?然后再把這個目的給拆解,,確定我們的指標(biāo),然后再進(jìn)行分析,。 這才是真正的目標(biāo)思維,。 二、獲取第二個關(guān)鍵詞是“獲取”,,叫做“數(shù)據(jù)獲取”或者“數(shù)據(jù)采集” 數(shù)據(jù)采集就是將原始數(shù)據(jù)從數(shù)據(jù)庫中取出來,,主要工作是:搞清楚數(shù)據(jù)放在哪里+怎么把數(shù)據(jù)取出來。 1,、數(shù)據(jù)存放在哪里,? 很簡單的答案,很多人都知道公司的業(yè)務(wù)數(shù)據(jù)一般都是放在數(shù)據(jù)庫里的,,但是相同的數(shù)據(jù)庫,,數(shù)據(jù)源不一樣相同,我們所取的數(shù)據(jù)一定保證數(shù)據(jù)源的一致,,否則會造成數(shù)據(jù)混亂,。 比如說,,不同的數(shù)據(jù)存儲系統(tǒng),mysol,、oracle,、sqlserver等等,,數(shù)據(jù)倉庫結(jié)構(gòu)以及各庫表之間的關(guān)聯(lián)方式也可能有所不同,星型,?雪花型,?數(shù)據(jù)指標(biāo)是否相同,名稱,、含義,、字段類型、約束條件等等,?是否經(jīng)過了ETL處理,,清洗規(guī)則是什么樣的?這些都是我們在進(jìn)行數(shù)據(jù)提取之前所必需了解的,。 2,、那么怎么把數(shù)據(jù)取出來呢? 其實(shí)只要搞清楚了數(shù)據(jù)放在那里,,取出來就是水到渠成的事情,。 一般來說SQL是進(jìn)行數(shù)據(jù)采集的必備技能,目前也是數(shù)據(jù)分析實(shí)際業(yè)務(wù)場景中最常使用的取數(shù)方式,。當(dāng)然了,,能取出什么樣的數(shù)據(jù),也要看你是否精通sql,,比如單張數(shù)據(jù)庫表的提取很容易就做到了,,但是跨表查詢提取的時候很多人就不行了。 再比如更為復(fù)雜一點(diǎn)的復(fù)雜查詢,、聯(lián)機(jī)處理等等,這些做數(shù)倉的人用的很多,,我們數(shù)據(jù)分析師不必設(shè)計(jì)這么深,,我們只要熟練掌握就行了; 當(dāng)然,,有很多數(shù)據(jù)分析師最后也做了數(shù)倉師,、架構(gòu)師,如果你以后考慮往這個方向發(fā)展,,sql肯定是要精通的,。 三、數(shù)據(jù)第三個關(guān)鍵詞是“數(shù)據(jù)”,,這里說的數(shù)據(jù)是廣義上的數(shù)據(jù),,包括數(shù)據(jù)庫中的數(shù)據(jù),也可以概括為數(shù)據(jù)場景,,也可以理解為經(jīng)過清洗后的數(shù)據(jù),。 總之,,這個數(shù)據(jù)指的是我們可以直接拿來分析的信息,而不是一堆臟亂差的原始數(shù)據(jù),。 1,、數(shù)據(jù)庫數(shù)據(jù) 數(shù)據(jù)庫數(shù)據(jù)這里就不細(xì)講了,我們只要知道數(shù)據(jù)庫中的數(shù)據(jù)都有哪些就行了,,比如業(yè)務(wù)數(shù)據(jù),、日志數(shù)據(jù)之類的。 2,、數(shù)據(jù)場景 很多人都問我為什么看資料看的好好的,,一到實(shí)際業(yè)務(wù)場景中都歇菜了? 這是因?yàn)樵趯?shí)際業(yè)務(wù)分析中,,我們分析的不是數(shù)據(jù),,而是場景。那我們怎么根據(jù)場景找數(shù)據(jù)呢,?最重要的方法是建立分析指標(biāo)體系: 我很喜歡用點(diǎn)線面體的定義來解釋指標(biāo)體系,,如果用點(diǎn)線面來解釋,搭建分析指標(biāo)體系就是分析整個“體”,,將分析框架的體系化,,明確每個點(diǎn)都是什么指標(biāo),任何一個分析路徑都能對應(yīng)到指標(biāo),。 指標(biāo)體系搭建一般都是要放在數(shù)據(jù)提取之前做的工作,,方便我們這一步的數(shù)據(jù)清洗。以電商為例,,我們在取數(shù)前遵循“人貨場”的思維邏輯,,這就是我們的體,我們的大體指標(biāo)框架,。然后我們要找人貨場各自的業(yè)務(wù)邏輯,,也就是場景,電商常用的業(yè)務(wù)分析場景有哪些呢,?無非就是銷售,、商品、渠道,、競品,、會員等等,這就是我們的面,。而商品可進(jìn)一步細(xì)分為商品的庫存,、商品的利潤以及關(guān)聯(lián)銷售分析,這就是線和點(diǎn)。 總結(jié)起來就是,在整個業(yè)務(wù)分析體系中,,確保先分析什么,,后分析什么,從體及線,,從線及點(diǎn),,有了點(diǎn),我們就知道該需要什么數(shù)據(jù)了,。 3,、清洗數(shù)據(jù) 數(shù)據(jù)分析工作里數(shù)據(jù)清洗基本上比較占時間,包括臟數(shù)據(jù)的排除,、重復(fù)數(shù)據(jù)檢索,、無效數(shù)據(jù)等等,如果你的數(shù)據(jù)源比較混亂,,那么還需要篩選數(shù)據(jù)指標(biāo),、整合核心數(shù)據(jù)等等工作,總體來說比較耗費(fèi)精力,。 最后要注意一點(diǎn),,很多人喜歡采集大數(shù)據(jù),認(rèn)為數(shù)據(jù)越多越好,,不管什么規(guī)則,、質(zhì)量好壞,這是不對的,,我們在進(jìn)行數(shù)據(jù)獲取的時候,,一定要保證我們數(shù)據(jù)的質(zhì)量,避免臟亂差數(shù)據(jù),。 四,、分析手段這里就是我們狹義上所說的數(shù)據(jù)分析了,根據(jù)實(shí)際場景需要可以分為四種:描述分析,、統(tǒng)計(jì)分析、挖掘分析,、建模分析 1,、描述分析 其實(shí)就是數(shù)據(jù)分析思維,其實(shí)業(yè)務(wù)很喜歡讓你做描述性的分析,,因?yàn)椴粫玫剿惴ㄖ惖臇|西,,業(yè)務(wù)能看得懂,就能跟你扯皮。 描述分析包括:
2、數(shù)理分析 數(shù)理分析,,基本要用到一些數(shù)理統(tǒng)計(jì)學(xué)基礎(chǔ)的分析方法,,比如:
3、建模分析 第三個是建模分析,,也就是數(shù)據(jù)分析模型,,常見的一些我們都會講到:
4、挖掘分析 最后就是挖掘分析,,基于我們的一些數(shù)據(jù)分析和挖掘工具,,比如常用的excel和python、BI等,,這里不多做介紹,。 五、業(yè)務(wù)價值最后一個關(guān)鍵詞是“業(yè)務(wù)價值”,,這是數(shù)據(jù)分析最核心也是最終的目的 企業(yè)是做什么的呢,?企業(yè)的作用是向市場提供產(chǎn)品或服務(wù),為客戶創(chuàng)造價值,。那我們數(shù)據(jù)分析就是為企業(yè)提供服務(wù)和產(chǎn)品,,為企業(yè)創(chuàng)造價值。 價值體現(xiàn)在兩點(diǎn): 一是將盈利時間拉長,,一是將單位時間內(nèi)盈利量做大,。 第一點(diǎn),需創(chuàng)造的價值讓越來越多的客戶知道并認(rèn)可,,獲得用戶粘性,,從而實(shí)現(xiàn)持續(xù)增長,其實(shí)就是用戶體驗(yàn),;第二點(diǎn),,需提高企業(yè)創(chuàng)造價值的效率。 所以我們要做的數(shù)據(jù)分析也要跟緊緊貼合這兩個點(diǎn),,這就要求我們在進(jìn)行數(shù)據(jù)分析最后一步——數(shù)據(jù)可視化,、數(shù)據(jù)報(bào)告等等時,要緊緊貼合業(yè)務(wù),,給領(lǐng)導(dǎo)或者業(yè)務(wù)最想看的數(shù)據(jù),,這也是一門學(xué)問,。 |
|