數(shù)據(jù)分析有三大問:
關(guān)于第一問,,想必讀完我公眾號(hào)《10周入門系列文章》的同學(xué),應(yīng)該有大致的認(rèn)識(shí),。 今天開始講第二大問題——數(shù)據(jù)分析工具,! 對(duì)于數(shù)據(jù)分析,,我一直強(qiáng)調(diào)核心是業(yè)務(wù),通過業(yè)務(wù)的分析邏輯影射到數(shù)據(jù)分析的處理邏輯,,而數(shù)據(jù)分析工具則是幫助我們實(shí)現(xiàn)結(jié)果的手段,。 但是,你說工具不重要吧,,他又很重要,,就像什么樣的路選擇什么樣的交通工具,合適的工具能幫我們更快的達(dá)到終點(diǎn),。對(duì)應(yīng)數(shù)據(jù)分析的不同環(huán)節(jié),,也要選擇不同的工具,甚至選擇更容易上手,。 今天這篇文章,,就是來掃盲工具的。 PS:估計(jì)網(wǎng)上沒有比這個(gè)更全面的了 一,、從工具屬性和分析師需求來劃分在企業(yè)中,,數(shù)據(jù)分析師往往分為業(yè)務(wù)和技術(shù)兩類,兩者能力和工作內(nèi)容有較大區(qū)別,,對(duì)于工具的要求也各有側(cè)重,。 業(yè)務(wù) or 技術(shù) 業(yè)務(wù)類分析師,往往在營運(yùn)部,,市場(chǎng)部,,銷售部等,根據(jù)服務(wù)的業(yè)務(wù)部門的不同,,可能叫數(shù)據(jù)運(yùn)營,,經(jīng)營分析,會(huì)員分析,,商業(yè)分析師等名字,。因?yàn)楦鱾€(gè)業(yè)務(wù)線具體考慮的問題不同,分析思路與體系均有不同,,所以會(huì)有這種區(qū)別,。日常的工作更多是整理業(yè)務(wù)報(bào)表,針對(duì)特定業(yè)務(wù)做專題分析,,圍繞業(yè)務(wù)增長(zhǎng)做需要用到數(shù)據(jù)的測(cè)算,、規(guī)劃、方案等,。 技術(shù)類分析師,,往往在IT部、數(shù)據(jù)中心,。根據(jù)從事的工作環(huán)節(jié)不同,,被分成數(shù)據(jù)庫工程師,,ETL工程師,爬蟲工程師,,算法工程師等角色,。在中小企業(yè),往往一個(gè)技術(shù)小哥通吃這些流程,。在大企業(yè),,一個(gè)標(biāo)準(zhǔn)的數(shù)據(jù)中心,一般都有數(shù)據(jù)倉庫,、專題分析,、建模分析等組來完成數(shù)據(jù)開發(fā)工作,再大的公司,,還有專門負(fù)責(zé)數(shù)據(jù)治理的小組,。之所以有這個(gè)區(qū)分,是因?yàn)樯a(chǎn)數(shù)據(jù),,需要一個(gè)多層次的復(fù)雜的數(shù)據(jù)系統(tǒng),。一個(gè)數(shù)據(jù)系統(tǒng),需要數(shù)據(jù)采集,、數(shù)據(jù)集成,、數(shù)據(jù)庫管理、數(shù)據(jù)算法開發(fā),、報(bào)表設(shè)計(jì)幾個(gè)環(huán)節(jié)組合,。這樣才能把分散在各處的一點(diǎn)一滴的數(shù)據(jù)集中起來,計(jì)算成常用的指標(biāo),,展示成各種炫酷的圖表,。這里每一個(gè)環(huán)節(jié)都需要對(duì)應(yīng)的技術(shù)支持和人員工作,因此有了不同的崗位,。 PS:大家在找數(shù)據(jù)分析崗時(shí),,一定要區(qū)分是技術(shù)還是業(yè)務(wù),,和自己的職業(yè)傾向是否匹配,。 分析師有技術(shù)和業(yè)務(wù)之分,那對(duì)應(yīng)工具也有這樣的屬性側(cè)重,。 分析類工具 對(duì)于初級(jí)數(shù)據(jù)分析師,,玩轉(zhuǎn)Excel是必須的,數(shù)據(jù)透視表和公式使用必須熟練,,VBA是加分,。另外,還要學(xué)會(huì)一個(gè)統(tǒng)計(jì)分析工具,,SPSS作為入門是比較好的,。 對(duì)于高級(jí)數(shù)據(jù)分析師,,使用分析工具是核心能力,VBA基本必備,,SPSS/SAS/R至少要熟練使用其中之一,,其他分析工具(如Matlab)視情況而定。 對(duì)于數(shù)據(jù)挖掘工程師……嗯,,R和Python必備,,要靠寫代碼來解決。 代碼類工具 對(duì)于初級(jí)數(shù)據(jù)分析師,,會(huì)寫SQL查詢,,有需要的話寫寫Hadoop和Hive查詢,基本就OK了,。 對(duì)于高級(jí)數(shù)據(jù)分析師,,除了SQL以外,學(xué)習(xí)Python是很有必要的,,用來獲取和處理數(shù)據(jù)都是事半功倍,。當(dāng)然其他編程語言也是可以的。 對(duì)于數(shù)據(jù)挖掘工程師,,Hadoop得熟悉,,Python/Java/C++至少得熟悉一門,Shell得會(huì)用……總之編程語言絕對(duì)是數(shù)據(jù)挖掘工程師的最核心能力,。 一圖說明問題: 二,、從企業(yè)數(shù)據(jù)應(yīng)用架構(gòu)來劃分工具的使用還要看企業(yè)的需求和環(huán)境,。為什么小企業(yè)招數(shù)據(jù)分析師其實(shí)就是Excel做報(bào)表,大企業(yè)找數(shù)據(jù)分析是卻是把玩高大上的Python,、R,?這就要看企業(yè)的數(shù)據(jù)架構(gòu)。 站在IT的角度,,實(shí)際應(yīng)用中可以把數(shù)據(jù)工具分為兩個(gè)維度: 第一維度:數(shù)據(jù)存儲(chǔ)層——數(shù)據(jù)報(bào)表層——數(shù)據(jù)分析層——數(shù)據(jù)展現(xiàn)層 第二維度:用戶級(jí)——部門級(jí)——企業(yè)級(jí)——BI級(jí) 1,、數(shù)據(jù)存儲(chǔ)層 數(shù)據(jù)存儲(chǔ)設(shè)計(jì)到數(shù)據(jù)庫的概念和數(shù)據(jù)庫語言,這方面不一定要深鉆研,,畢竟有專業(yè)的DBA,。但至少要理解數(shù)據(jù)的存儲(chǔ)方式,數(shù)據(jù)的基本結(jié)構(gòu)和數(shù)據(jù)類型,。SQL查詢語言必不可少,,精通最好??蓮某S玫膕elece查詢,,update修改,,delete刪除,insert插入的基本結(jié)構(gòu)和讀取入手,。 Access這是最基本的個(gè)人數(shù)據(jù)庫,,經(jīng)常用于個(gè)人或部分基本的數(shù)據(jù)存儲(chǔ);MySQL數(shù)據(jù)庫,,這個(gè)對(duì)于部門級(jí)或者互聯(lián)網(wǎng)的數(shù)據(jù)庫應(yīng)用是必要的,,這個(gè)時(shí)候關(guān)鍵掌握數(shù)據(jù)庫的庫結(jié)構(gòu)和SQL語言的數(shù)據(jù)查詢能力。SQL Server2005或更高版本,,對(duì)中小企業(yè),,一些大型企業(yè)也可以采用SQL Server數(shù)據(jù)庫,其實(shí)這個(gè)時(shí)候本身除了數(shù)據(jù)存儲(chǔ),,也包括了數(shù)據(jù)報(bào)表和數(shù)據(jù)分析了,。 DB2,Oracle數(shù)據(jù)庫都是大型數(shù)據(jù)庫,,主要是企業(yè)級(jí),,特別是大型企業(yè)或者對(duì)數(shù)據(jù)海量存儲(chǔ)需求的就是必須的了,一般大型數(shù)據(jù)庫公司都提供非常好的數(shù)據(jù)整合應(yīng)用平臺(tái),。 BI級(jí)別,,實(shí)際上這個(gè)不是數(shù)據(jù)庫,而是建立在前面數(shù)據(jù)庫基礎(chǔ)上的,,企業(yè)級(jí)應(yīng)用的數(shù)據(jù)倉庫,。Data Warehouse,建立在DW機(jī)上的數(shù)據(jù)存儲(chǔ)基本上都是商業(yè)智能平臺(tái),,整合了各種數(shù)據(jù)分析,,報(bào)表、分析和展現(xiàn),。 2,、報(bào)表/BI層 企業(yè)存儲(chǔ)了數(shù)據(jù)需要讀取,需要展現(xiàn),,報(bào)表工具則是最普遍應(yīng)用的工具,,尤其是在國內(nèi)。過去傳統(tǒng)報(bào)表大多解決的是展現(xiàn)問題,,如今衍生了一些分析型報(bào)表工具,,也會(huì)和其他應(yīng)用交叉,,做數(shù)據(jù)分析報(bào)表,,通過接口開放功能、填報(bào),、決策報(bào)表功能,,能夠做到打通數(shù)據(jù)的進(jìn)出,,涵蓋了早期商業(yè)智能的功能。 像Tableau,、PowerBI,、FineBI、Qlikview這類BI(商業(yè)智能)工具,,涵蓋了報(bào)表,、數(shù)據(jù)分析、可視化等多層,。底層還可于數(shù)據(jù)倉庫銜接,,構(gòu)建OLAP分析模型。 3,、數(shù)據(jù)分析層 這個(gè)層其實(shí)有很多分析工具,,當(dāng)然我們最常用的就是Excel。 Excel軟件,,首先版本越高越好用這是肯定的,。當(dāng)然對(duì)excel來講很多人只是掌握了5%Excel功能,Excel功能非常強(qiáng)大,,甚至可以完成所有的統(tǒng)計(jì)分析工作,!但是我也常說,有能力把Excel玩成統(tǒng)計(jì)工具不如專門學(xué)會(huì)統(tǒng)計(jì)軟件,。 SPSS軟件:當(dāng)前版本是18,,名字也改成了PASW Statistics;我從3.0開始Dos環(huán)境下編程分析,,到現(xiàn)在版本的變遷也可以看出SPSS社會(huì)科學(xué)統(tǒng)計(jì)軟件包的變化,,從重視醫(yī)學(xué)、化學(xué)等開始越來越重視商業(yè)分析,,現(xiàn)在已經(jīng)成為了預(yù)測(cè)分析軟件,。 SAS軟件:SAS相對(duì)SPSS其實(shí)功能更強(qiáng)大,SAS是平臺(tái)化的,,EM挖掘模塊平臺(tái)整合,,相對(duì)來講,SAS比較難學(xué)些,,但如果掌握了SAS會(huì)更有價(jià)值,,比如離散選擇模型,抽樣問題,,正交實(shí)驗(yàn)設(shè)計(jì)等還是SAS比較好用,,另外,SAS的學(xué)習(xí)材料比較多。 其他還有Python和R,,后面還會(huì)詳細(xì)講,。 4、表現(xiàn)層 表現(xiàn)層也叫數(shù)據(jù)可視化,,以上每種工具都幾乎提供了一點(diǎn)展現(xiàn)功能,。但要說企業(yè)級(jí)最常應(yīng)用的還是BI,做分析做報(bào)告,。 PS:需要說明的是,,這樣的分類并不是區(qū)分軟件,,只是想說明軟件的應(yīng)用。有時(shí)候我們把數(shù)據(jù)庫就用來進(jìn)行報(bào)表分析,,有時(shí)候報(bào)表就是分析,,有時(shí)候分析就是展現(xiàn);當(dāng)然有時(shí)候展現(xiàn)就是分析,,分析也是報(bào)表,,報(bào)表就是數(shù)據(jù)存儲(chǔ)了! 三,、4大工具盤點(diǎn)以上啰嗦了那么多,,具體講講Excel、R,、Python,、BI吧。 >>>>Excel 適用場(chǎng)景: 1.一般的辦公需求下的數(shù)據(jù)處理工作,; 2.中小公司數(shù)據(jù)管理,,存儲(chǔ)(很多國有企業(yè)都用); 3.學(xué)校學(xué)生,,老師做簡(jiǎn)單的統(tǒng)計(jì)分析(如方差分析,,回歸分析); 4.結(jié)合Word,,PowerPoint制作數(shù)據(jù)分析報(bào)告,; 5.數(shù)據(jù)分析師的主力分析工具(部分?jǐn)?shù)據(jù)分析師的輔助工具); 6.部分商業(yè)雜志,,報(bào)刊圖表制作(數(shù)據(jù)可視化),; 優(yōu)點(diǎn): 1.容易上手; 2.學(xué)習(xí)資源十分豐富,; 3.可以用Excel做很多事情,,建模,可視化,報(bào)表,,動(dòng)態(tài)圖表; 4.幫助你在進(jìn)一步學(xué)習(xí)其它工具之前(比如Python,,R),,理解很多操作的含義; 缺點(diǎn): 1.深入學(xué)習(xí)需要掌握VBA,,難度還是很高,; 2.當(dāng)數(shù)據(jù)量較大時(shí),會(huì)出現(xiàn)卡頓的情況,; 3.到Excel2016版,,在不借助其它工具的情況下,Excel數(shù)據(jù)文件本身能夠容納的數(shù)據(jù)僅有108萬行,,不適合處理大規(guī)模數(shù)據(jù)集,; 4.內(nèi)置統(tǒng)計(jì)分析種類太簡(jiǎn)單,實(shí)用價(jià)值不大,; 5.不像Python,,R語言等開源軟件,正版Excel需要付費(fèi),,比如我用office365.每年需要支付300多塊錢(不過也值了) >>>>R 使用場(chǎng)景: 通過擴(kuò)展的第三方R包,,R能夠做的事情幾乎涵蓋了任何需要數(shù)據(jù)的領(lǐng)域。就我們一般的數(shù)據(jù)分析或者學(xué)術(shù)數(shù)據(jù)分析工作而言,,R能做的事情包括但不限于如下方面: 1.數(shù)據(jù)清洗與整理,; 2.網(wǎng)絡(luò)爬蟲; 3.數(shù)據(jù)可視化,; 4.統(tǒng)計(jì)假設(shè)檢驗(yàn)(t檢驗(yàn),,方差分析,卡方檢驗(yàn)等),; 5.統(tǒng)計(jì)建模(線性回歸,,邏輯回歸,樹模型,,神經(jīng)網(wǎng)絡(luò)等),; 6.數(shù)據(jù)分析報(bào)告輸出(Rmarkdown); R容易學(xué)嗎,? 從我個(gè)人來看,,想要入門R是非常簡(jiǎn)單的,10天的集中學(xué)習(xí),,對(duì)于掌握R的基本使用,,基本數(shù)據(jù)結(jié)構(gòu),數(shù)據(jù)導(dǎo)入導(dǎo)出,簡(jiǎn)單的數(shù)據(jù)可視化,,是完全沒有問題的,。有了這些基礎(chǔ),在遇到實(shí)際的問題時(shí),,去找到需要使用的R包,,通過閱讀R的幫助文檔,以及網(wǎng)絡(luò)上的資料,,就能夠相對(duì)快速的解決具體問題了,。 >>>>Python R語言和Python同為需要編程的數(shù)據(jù)分析工具,所不同的是,,R專門用于數(shù)據(jù)分析領(lǐng)域,,而科學(xué)計(jì)算與數(shù)據(jù)分析只是Python的一個(gè)應(yīng)用分支,Python還可以用來開發(fā)web頁面,,開發(fā)游戲,,做系統(tǒng)的后端開發(fā),以及運(yùn)維工作,。 現(xiàn)在的一個(gè)趨勢(shì)是,,Python在數(shù)據(jù)分析領(lǐng)域正在追趕R,在某些方面已經(jīng)超越了R,,比如機(jī)器學(xué)習(xí),,文本挖掘等偏編程的領(lǐng)域,但R語言在偏統(tǒng)計(jì)的領(lǐng)域仍然保持優(yōu)勢(shì),。Python在數(shù)據(jù)分析方面的發(fā)展,,很多地方借鑒了R語言中的一些特色。所以,,如果你現(xiàn)在還是一片空白,,還沒開始學(xué)習(xí),要做決定學(xué)習(xí)R還是Python的話,,建議從Python入手,。 Python和R都比較容易學(xué)習(xí),但是如果你同時(shí)學(xué)習(xí)兩者,,由于在很多地方它們非常相似,,就會(huì)很容易混淆,所以建議不要同時(shí)學(xué)習(xí)它們,。等其中一個(gè)掌握到一定的程度,,再著手學(xué)習(xí)另外一個(gè)。 Python能做什么,? 1.網(wǎng)絡(luò)數(shù)據(jù)爬取,,使用Python能夠很容易的編寫強(qiáng)大的爬蟲,,抓取網(wǎng)絡(luò)數(shù)據(jù); 2.數(shù)據(jù)清洗,; 3.數(shù)據(jù)建模,; 4.根據(jù)業(yè)務(wù)場(chǎng)景和實(shí)際問題構(gòu)造數(shù)據(jù)分析算法; 5.數(shù)據(jù)可視化(個(gè)人感覺不如R好用),; 6.機(jī)器學(xué)習(xí),,文本挖掘等高級(jí)數(shù)據(jù)挖掘與分析領(lǐng)域; 應(yīng)該學(xué)習(xí)R還是Python,? 如果因?yàn)闀r(shí)間有限,,只能選擇其中的一種來學(xué)習(xí)的話,,我建議使用Python,。但我仍然建議兩者都了解一下,畢竟每個(gè)人都不一樣,??赡苣阍谀承┑胤铰犝f,Python在工作中更加常用,,但是工作中,,解決問題才是最重要的,如果你能夠用R高效的解決問題,,那就用R,。實(shí)際上,Python很多數(shù)據(jù)分析方面的特色,,是模仿R來實(shí)現(xiàn)的,,比如pandas的數(shù)據(jù)框,正在開發(fā)中的ggplot可視化包模仿的是R語言中非常著名的ggplot2. >>>>BI 多數(shù)分析師日常的工作就是做報(bào)表,,而數(shù)據(jù)分析師更多用到的報(bào)表是BI,。 BI全稱商業(yè)智能,在傳統(tǒng)企業(yè)中,,它是一套完整的解決方案,。將企業(yè)的數(shù)據(jù)有效整合,快速制作出報(bào)表以作出決策,。涉及數(shù)據(jù)倉庫,,ETL,OLAP,,權(quán)限控制等模塊,。 BI工具主要有兩種用途。一種是利用BI制作自動(dòng)化報(bào)表,,數(shù)據(jù)類工作每天都會(huì)接觸大量數(shù)據(jù),,并且需要整理匯總,,這是一塊很大的工作量。這部分工作可以交給BI自動(dòng)化完成,,從數(shù)據(jù)規(guī)整,、建模到下載。 另外一種是使用其可視化功能進(jìn)行分析,,BI的優(yōu)點(diǎn)在于它提供比Excel更豐富的可視化功能,,操作簡(jiǎn)單上手,而且美觀,,如果大家每天作圖需要兩小時(shí),,BI會(huì)縮短一半時(shí)間。 BI作為企業(yè)級(jí)應(yīng)用,,可以通過它連接公司數(shù)據(jù)庫,,實(shí)現(xiàn)企業(yè)級(jí)報(bào)表的制作。這塊涉及數(shù)據(jù)架構(gòu),,就不深入講了,。 關(guān)于BI,像Tableau,、PowerBI,、FineBI、Qlikview這類BI(商業(yè)智能)工具,,涵蓋了報(bào)表,、數(shù)據(jù)分析、可視化等多層,。底層還可于數(shù)據(jù)倉庫銜接,,構(gòu)建OLAP分析模型。 個(gè)人覺得,,要想快速上手?jǐn)?shù)據(jù)分析,,前期數(shù)據(jù)思維的養(yǎng)成,BI工具無疑是最容易上手的,。下一篇文章,,就要教大家動(dòng)手搭建BI分析平臺(tái),并學(xué)會(huì)操作一款BI工具,! |
|