原文作者:Tirthajyoti Sarkar 呆鳥說:“數(shù)學(xué),讓我頭痛,,翻譯本文讓我頭疼欲裂,。不過,數(shù)據(jù)分析師不懂點(diǎn)數(shù)學(xué),,也實(shí)在說不過去,,所以就有了這篇文章?!?/p> 介紹 數(shù)學(xué)是現(xiàn)代科學(xué)的基石,,幾乎所有現(xiàn)代科學(xué)都與數(shù)學(xué)密不可分,尤其是數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí),。 要想成為資深數(shù)據(jù)分析師,,必須具備一定的數(shù)學(xué)知識,熟練應(yīng)用數(shù)學(xué)技巧,,才能更好地使用程序自帶的算法,。比如說,理解了算法背后的數(shù)學(xué)知識,,能更好地理解用戶推薦系統(tǒng)的機(jī)制,。 總之,學(xué)好數(shù)學(xué)對數(shù)據(jù)分析師來說,,有百利而無一害,,既可以讓你在工作中脫穎而出,還可以讓你更加自信,。相信我,,了解算法背后的運(yùn)行機(jī)制,比那些只會使用工具的同行會有更多優(yōu)勢,。 毋庸置疑,,成為頂級數(shù)據(jù)分析師并不容易,高超的編程技能,、精明的商業(yè)頭腦,、對數(shù)據(jù)的獨(dú)特見解,,以及強(qiáng)烈的好奇心,這些一樣都不可少,。而本文要告訴你的是,,想要成為優(yōu)秀數(shù)據(jù)分析師要掌握哪些必要的數(shù)學(xué)知識。 新手入門 計算機(jī)硬件,、商務(wù)零售,、醫(yī)療保健、商業(yè)管理等領(lǐng)域浸淫已久的專業(yè)人士想轉(zhuǎn)行數(shù)據(jù)分析這一領(lǐng)域,,首先要掌握一些必要的數(shù)學(xué)知識,。 雖然,有人可能會覺得之前的工作已經(jīng)處理過大量的數(shù)據(jù)報表,、完成了大量的數(shù)據(jù)計算和趨勢預(yù)測工作,,但數(shù)據(jù)分析工作所需的數(shù)學(xué)技能和這些數(shù)字工作的區(qū)別其實(shí)很大。 為什么數(shù)學(xué)如此重要 - 因?yàn)閿?shù)據(jù)科學(xué)是科學(xué),,而不只是數(shù)據(jù) 網(wǎng)絡(luò)工程師也好,,商業(yè)分析師也罷,即便每天處理很多數(shù)據(jù),,但他們的工作重點(diǎn)并不是數(shù)據(jù)建模,。因?yàn)闀r間壓力,往往只是“用數(shù)據(jù)完成手頭上的工作,,趕緊過關(guān)了事”,,而不是深入研究數(shù)據(jù),探索數(shù)據(jù)的內(nèi)在關(guān)系,。不管怎樣,, 數(shù)據(jù)科學(xué)是科學(xué),而不只是數(shù)據(jù),。那么數(shù)學(xué)能力都有哪些呢,?可以參考如下幾點(diǎn):
這些都是為了培養(yǎng)對理解枯燥的數(shù)字,、抽象的數(shù)學(xué)實(shí)體及其性質(zhì)和關(guān)系的能力,在大學(xué)四年的數(shù)學(xué)課程中即可學(xué)到,,并且,,不必非得從頂級大學(xué)中以優(yōu)異的成績畢業(yè)才能獲得這些數(shù)學(xué)能力。 況且,,我要說的還不是大一學(xué)的微積分,,而是一些簡單的東西,比如數(shù)字2,,請看下面這個場景…
啥……,,您剛才說什么有理,? 瞧,不懂點(diǎn)數(shù)學(xué),,直接就懵逼了…… 打斷一下,,告訴我怎么干能成功就可以了 這正是我想說的,想學(xué)好數(shù)據(jù)分析沒有一定之規(guī),。數(shù)據(jù)分析,,從根本上來說,是一種職能,,而非行業(yè)領(lǐng)域,,數(shù)據(jù)分析可以處理癌癥診斷,社交行為分析等各類現(xiàn)象,,由此產(chǎn)生的交叉可能性包括多維數(shù)組數(shù)學(xué)對象,、統(tǒng)計分布、優(yōu)化客觀函數(shù)等等等等…… 打住,,您先歇會兒…… 這都說的是什么東西?。空娴募俚?? 怎么說呢,,要想玩轉(zhuǎn)數(shù)據(jù)分析,下面這些內(nèi)容可要費(fèi)點(diǎn)心思好好研究一下,。 一,、函數(shù)、變量,、方程,、圖 學(xué)什么 從最簡單的學(xué)起,比如線性方程,、二項(xiàng)式定理及其性質(zhì),。
怎么用 要理解百萬量級數(shù)據(jù)排序后再搜索會快多少,,首先要理解什么是二分法搜索,,要理解二分法搜索,就要懂得什么是對數(shù),,什么是遞歸方程式,。還有,如果想分析時間序列,,就要了解周期函數(shù)和指數(shù)衰減的概念,。 在哪兒學(xué)
二、統(tǒng)計學(xué) 學(xué)什么 統(tǒng)計學(xué)可是數(shù)據(jù)分析師的必備技能,。想做數(shù)據(jù)分析必須要有堅實(shí)的統(tǒng)計學(xué)與概率論基礎(chǔ),,這點(diǎn)就不用多說了。除了新出現(xiàn)的神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí),,傳統(tǒng)的機(jī)器學(xué)習(xí)其實(shí)就是統(tǒng)計學(xué)習(xí),,比如李航的統(tǒng)計學(xué)習(xí)方法講的就是機(jī)器學(xué)習(xí)原理。統(tǒng)計學(xué)的內(nèi)容非常廣泛,,我們只要關(guān)注最核心的概念就可以了,。
怎么用 面試的時候就會用得上,,相信我,,作為準(zhǔn)數(shù)據(jù)科學(xué)家,如果把統(tǒng)計學(xué)的概念搞得清清楚楚,、明明白白,,一定能讓面試官刮目相看。當(dāng)上了數(shù)據(jù)科學(xué)家,,統(tǒng)計學(xué)更是常用的工具,。 在哪兒學(xué)
三、線性代數(shù) 學(xué)什么 Facebook上的朋友推薦,、Spotify上的歌曲推薦,,通過深度學(xué)習(xí)把自拍照片轉(zhuǎn)換為薩爾瓦多·達(dá)利風(fēng)格的人像畫,試問這些操作的共同點(diǎn)是什么,?其實(shí)就是它們都離不開矩陣和矩陣代數(shù)的知識,。 線性代數(shù)這一重要的數(shù)學(xué)分支,研究的是機(jī)器學(xué)習(xí)算法如何從數(shù)據(jù)流中獲取有價值信息,。下列是必學(xué)的線性代數(shù)知識:
怎么用 使用降維技術(shù)實(shí)現(xiàn)主成分分析時,,要用奇異值分解來縮減維度,讓數(shù)據(jù)集參數(shù)變得更少,。所有神經(jīng)網(wǎng)絡(luò)算法都使用線性代數(shù)處理網(wǎng)絡(luò)結(jié)構(gòu)和學(xué)習(xí)操作,。 在哪兒學(xué)
五、微積分 在上大學(xué)的時候,,微積分是最讓人頭疼的課程,,不過,在數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)領(lǐng)域里,,微積分可是無處不在,,最簡單的普通最小二乘法問題的分析解決方案離不開微積分,神經(jīng)網(wǎng)絡(luò)中用于學(xué)習(xí)新模式的反向傳播里也少不了微積分,??梢哉f,微積分是你的技能庫里最有價(zhi)值(qian)的技能,。下列是要掌握的微積分知識點(diǎn):
怎么用 理解邏輯回歸算法需要微積分的知識,比如怎樣通過“梯度下降”找到最小損失函數(shù),。要了解梯度下降的機(jī)制,,就會用到微積分的概念 - 梯度、導(dǎo)數(shù),、極限和鏈?zhǔn)椒▌t,。 在哪兒學(xué)
五,、離散數(shù)學(xué) 探討數(shù)據(jù)科學(xué)的數(shù)學(xué)知識時,很少會談及離散數(shù)學(xué)這個話題,,但幾乎所有現(xiàn)代數(shù)據(jù)科學(xué)都需要計算系統(tǒng)的支持,,而這些系統(tǒng)的核心恰恰是離散數(shù)學(xué),。大一學(xué)生在學(xué)習(xí)離散數(shù)學(xué)時會被告知:初學(xué)者一定要掌握日常分析項(xiàng)目使用的算法和數(shù)據(jù)結(jié)構(gòu)。離散數(shù)學(xué)核心知識點(diǎn)如下:
怎么用 對于任何社交網(wǎng)絡(luò)分析,,都需要理解圖形性質(zhì)與快速算法來查找和遍歷網(wǎng)絡(luò),。不管選擇哪種算法都要理解算法的時空復(fù)雜性,比如隨著輸入數(shù)據(jù)大小的變化,,運(yùn)算所需的時空需求如何變化,,這時通常會用到大O符號法。 在哪兒學(xué)
六,、最優(yōu)化、運(yùn)籌學(xué) 學(xué)什么 這一部分主題說得都是與應(yīng)用數(shù)學(xué)相關(guān)的知識,,最常用的是計算機(jī)科學(xué)原理,、控制論、運(yùn)籌學(xué)等,。理解這些概念對機(jī)器學(xué)習(xí)實(shí)踐來說非常重要,。實(shí)際上,每種機(jī)器學(xué)習(xí)算法都要在限制條件下實(shí)現(xiàn)誤差估計最小化,,這就是優(yōu)化,。要學(xué)習(xí)的內(nèi)容如下: 怎么用 用最小二乘法損失函數(shù)解決簡單線性回歸問題一般能得到較為精確的分析解,但在解決邏輯回歸問題時就不行了,。要想理解其中的原因,,就要理解最優(yōu)化里的凸性概念。這個概念還告訴我們,,在絕大多數(shù)機(jī)器學(xué)習(xí)問題里要能夠接受近似解,,這是個毋庸置疑的事實(shí)。 在哪兒學(xué)
相關(guān)文獻(xiàn)
結(jié)語 即使數(shù)學(xué)不好也不用過于擔(dān)心,,更不用迷茫無助,。想成為資深數(shù)據(jù)分析師要學(xué)的東西很多,如果平時不怎么應(yīng)用數(shù)學(xué)知識,,就更要下些工夫,。但是,如今這個時代最好的地方就是網(wǎng)上有超多優(yōu)秀的資源,,比如各類視頻教程,。只要花些時間,投入精力,,就可以找到適合自己的學(xué)習(xí)資源,。 我可以保證,即便在大學(xué)學(xué)過這些內(nèi)容,,現(xiàn)在重溫或?qū)W習(xí)新的數(shù)學(xué)知識以后,,你會發(fā)現(xiàn)這些時間與精力沒有白費(fèi),一定能一點(diǎn)一點(diǎn)地開始理解數(shù)據(jù)分析與機(jī)器學(xué)習(xí)項(xiàng)目背后所隱藏的旋律,。這就是進(jìn)階成為數(shù)據(jù)科學(xué)家所要邁出的一大步,。 如有任何問題或想法,請聯(lián)系作者 Tirthajyoti. 也可以去看看他的 GitHub項(xiàng)目 ,,查看更多 Python,、R 與 MATLAB 代碼及機(jī)器學(xué)習(xí)資源。如果喜歡數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí),,也可以添加作者為領(lǐng)英好友或在 Twitter上加關(guān)注,。 作者簡介: Tirthajyoti Sarkar ,半導(dǎo)體專家,、電子信息工程博士,、專業(yè)博主、科技作家,、機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)的忠粉,。 Tirthajyoti Sarkar 譯注:因?yàn)閿?shù)學(xué)不好,雖然查證了一些數(shù)學(xué)書籍,,也咨詢了學(xué)數(shù)學(xué)與統(tǒng)計的朋友,,但畢竟內(nèi)容較多,難免有所疏漏,,如有讀者發(fā)現(xiàn)錯誤,,請留言告知,,避免誤人子弟,多謝多謝,! 另,,翻譯不易,四處求證,、三天翻譯,、兩天校對,只求一秒點(diǎn)贊 如覺有用,,還望轉(zhuǎn)發(fā):) 帶課程鏈接的完整文章請看我的簡書專題【呆鳥譯Py】:https://www.jianshu.com/p/4d7d489111f8 |
|