作為數(shù)據(jù)分析師,,具有編程能力很重要。曾經(jīng)很多次你使用過非編程工具,,如Excel,,但是最好和最常用的一些工具,如Pandas,、Numpy,,以及其他一些庫,都是基于編程的,。使用這些基于編程的工具,,你能夠做更深入、更高效的分析,。由于流行度高,,Python和R都是很好的入門編程語言。 統(tǒng)計學(xué) 最低要求,,你應(yīng)該能理解基本的統(tǒng)計描述和統(tǒng)計推斷,。你應(yīng)該理解分布的不同類型,哪種統(tǒng)計檢驗適用于哪種文本,,還要能夠在面試中解釋線性回歸的基礎(chǔ)知識。 機器學(xué)習 如果你有大量數(shù)據(jù),,機器學(xué)習中的技術(shù)是難以置信的強大,。你需要用這些數(shù)據(jù)去預(yù)測未來,或者給出合適的建議,。你應(yīng)該懂得一些最常用的監(jiān)督學(xué)習和非監(jiān)督學(xué)習的算法(他們是兩種不同類別的機器學(xué)習算法),,比如k最近鄰算法、支持向量機和k均值聚類,。你可能不必懂得這些算法背后的理論和實現(xiàn)細節(jié),,但知道什么時候使用這些算法很重要。 數(shù)據(jù)清理 在理想的世界里,,你面對的數(shù)據(jù)集是干凈的,、準備好進行分析的。然而,,現(xiàn)實世界中,,絕少是這樣的。你的數(shù)據(jù)集很可能缺失數(shù)值,、格式錯誤,、或者輸入錯誤,。例如,讓我們討論一些日期,,一些系統(tǒng)表示2014年9月1日為9.1.2014,,其他一些系統(tǒng)會表示為09/01/2014。像這樣的情況,,你的數(shù)據(jù)清理技能會派上用場,。 溝通和數(shù)據(jù)可視化 作為數(shù)據(jù)分析師,你的工作不僅要解釋數(shù)據(jù),,還要同其他利益相關(guān)者高效交流你的發(fā)現(xiàn),,這樣你就能幫他們做出數(shù)據(jù)提供的決策。許多利益相關(guān)者不會對你的分析背后的技術(shù)細節(jié)感興趣,,這就是為什么你能通過易于理解的途徑交流和展示你的發(fā)現(xiàn)很重要,。 工具 這里使你入門的是你要熟知的一些最流行的編程語言和工具。 Python或R:不僅僅是這些編程語言易于學(xué)習(相對于C來說),,一些最流行的數(shù)據(jù)科學(xué)庫,,從數(shù)據(jù)分析到數(shù)據(jù)可視化,都是在這兩種編程語言之上建立的,。 Pandas/Numpy/Scipy:Python數(shù)據(jù)科學(xué)庫中的三駕馬車一起工作真的很好,。Pandas有助于結(jié)構(gòu)化數(shù)值或時間系列數(shù)據(jù),這樣數(shù)據(jù)就容易用于分析和處理,。Numpy有助于實現(xiàn)許多常用的科學(xué)和數(shù)學(xué)運算,,如矩陣乘法,所以你不必重復(fù)發(fā)明輪子,。Scipy在Numpy基礎(chǔ)上拓展,,包含很多比你能在Numpy找到的數(shù)學(xué)運算功能更完備的版本。 Scikit-Learn:機器學(xué)習算法難以高效且正確地實現(xiàn),。Scikit-Learn是一個經(jīng)過實戰(zhàn)測試的工具,,它是一個已經(jīng)為你實現(xiàn)了常用機器學(xué)習算法的Python庫,從組合方法到k均值到SVM,,它都有,。 當你準備創(chuàng)建一個指數(shù)尺度的散點圖和成千上萬的數(shù)據(jù)點,Mattplotib和Ggplot2應(yīng)該是你要找的庫,。他們分別是Python和R的實質(zhì)上的繪圖可視化標準庫,。 這是列表中僅有的JavaScript庫。如果你想創(chuàng)建靜態(tài)可視化或圖形,,Mattplotib和Ggplot2很棒,。然而,如果你想創(chuàng)建交互式可視化,例如當你的鼠標停在圖形上,,一些東西彈出,,或改變形狀,D3.js是你要的庫,。不過,,你要使用一些HTML、CSS和JavaScript,,所以在嘗試D3.js之前,,確保復(fù)習一下你的前端web開發(fā)技能。 |
|