久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

數(shù)據(jù)科學(xué)家的自我修養(yǎng)

 快讀書館 2017-10-26 發(fā)布于北京



編者按:謹(jǐn)以此文向著名統(tǒng)計(jì)學(xué)家,、中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院教授吳喜之教授致敬!


正文:


繼云計(jì)算之后,,大數(shù)據(jù)已然成為IT行業(yè)的熱點(diǎn),。《哈佛商業(yè)評(píng)論》更是宣稱“數(shù)據(jù)科學(xué)家”是二十一世紀(jì)最性感的職業(yè),。所謂性感,,既代表著難以名狀的誘惑,又說明了大家都不知道它干的是什么,。這里我不想重復(fù)什么是大數(shù)據(jù),,什么是數(shù)據(jù)科學(xué),而是直接從數(shù)據(jù)科學(xué)家這樣一個(gè)神秘的群體開始讓大家對(duì)大數(shù)據(jù)和數(shù)據(jù)科學(xué)有個(gè)基本的認(rèn)識(shí),。


認(rèn)識(shí)數(shù)據(jù)科學(xué)家


 “數(shù)據(jù)科學(xué)家”是舶來(lái)語(yǔ),,翻譯自英文“Data scientist”,用來(lái)描述“一些能綜合運(yùn)用編程和統(tǒng)計(jì)技術(shù)的人,,致力于通過各種方式讓將數(shù)據(jù)更發(fā)揮作用”的一個(gè)群體,。數(shù)據(jù)科學(xué)家是一個(gè)頭銜,而不是職位,。狹義上“數(shù)據(jù)科學(xué)家”是有一定影響力的數(shù)據(jù)科學(xué)和人工智能專家,。如圖中的神經(jīng)網(wǎng)絡(luò)之父Geoffrey Hinton  、神經(jīng)網(wǎng)絡(luò)專家Yann以及大名鼎鼎的吳恩達(dá),。



廣義上數(shù)據(jù)科學(xué)家是一個(gè)泛指,,類似于“網(wǎng)紅”,,在國(guó)內(nèi)我們聽到的數(shù)據(jù)分析師、數(shù)據(jù)挖掘工程師,、算法工程師和大數(shù)據(jù)工程師也都可以被稱為“數(shù)據(jù)科學(xué)家”,。


毫無(wú)疑問,這是一個(gè)自帶光環(huán),、高大上的群體,,如果你有志于成為他們的一員,可以從以下這么幾個(gè)方向開始,。


明確學(xué)習(xí)目標(biāo)


首先你要有自己職業(yè)規(guī)劃,,知道數(shù)據(jù)分析和大數(shù)據(jù)是做什么的、能解決什么問題,,給自己定一個(gè)小目標(biāo),。一個(gè)有經(jīng)驗(yàn)的數(shù)據(jù)科學(xué)家:最少要有2到3年工作經(jīng)驗(yàn),而工作經(jīng)驗(yàn)體現(xiàn)在運(yùn)用數(shù)據(jù)科學(xué)處理各種商業(yè)問題的能力上,,同時(shí)需要具備以下技能:


  • 一流的分析技巧:探索凌亂的數(shù)據(jù)集并提取洞察的能力,;

  • 在SQL運(yùn)用能力方面是一名內(nèi)行;

  • 能很好的掌握假設(shè)檢驗(yàn),、分配,、回歸分析和貝葉斯方法;

  • 有與商業(yè)方面的機(jī)器學(xué)習(xí)經(jīng)驗(yàn),;

  • 對(duì)于Python語(yǔ)言和Jupyter環(huán)境有經(jīng)驗(yàn),;

  • 對(duì)于pandas、numpy,、sk-learn和NLTK有一定操作經(jīng)驗(yàn),;

  • 具備寫編寫Latex格式文檔的能力;

  • 在統(tǒng)計(jì)學(xué),,運(yùn)籌學(xué),,經(jīng)濟(jì)學(xué),計(jì)算機(jī)科學(xué),,或其它相關(guān)領(lǐng)域具有本科或碩士學(xué)歷,。


未來(lái)數(shù)據(jù)分析是一種工具,在金融,、互聯(lián)網(wǎng),、電子商務(wù)、公共服務(wù),、醫(yī)療健康等領(lǐng)域非常廣泛,,職位上面偏業(yè)務(wù)的有數(shù)據(jù)分析師、數(shù)據(jù)產(chǎn)品經(jīng)理,、數(shù)據(jù)規(guī)劃師等職位,,偏技術(shù)的有大數(shù)據(jù)工程師,、大數(shù)據(jù)架構(gòu)師、算法工程師等職位,。


◆數(shù)據(jù)分析師:業(yè)務(wù)線,,負(fù)責(zé)通過數(shù)據(jù)分析手段發(fā)現(xiàn)和分析業(yè)務(wù)問題,為決策作支持,。

◆數(shù)據(jù)挖掘工程師:偏技術(shù)線,,負(fù)責(zé)通過建立模型、算法,、預(yù)測(cè)等提供一些通用的解決方案,當(dāng)然也有針對(duì)某業(yè)務(wù)的,。

◆數(shù)據(jù)工程師:技術(shù)線,,負(fù)責(zé)搭建倉(cāng)庫(kù)搭建、數(shù)據(jù)的存儲(chǔ),、處理,、計(jì)算處理、報(bào)表開發(fā)等,。


吳喜之語(yǔ)錄:

如果你擅長(zhǎng)數(shù)學(xué),,有很清晰的邏輯思維能力,有技能組合,,就可能當(dāng)上數(shù)據(jù)科學(xué)家,。相比專長(zhǎng)于任何特定編程語(yǔ)言,泛型變成技巧更重要,。真正適合干這一行的人,,會(huì)在業(yè)余時(shí)間里編程序、分析數(shù)據(jù),。


學(xué)好數(shù)學(xué)相關(guān)課程


數(shù)學(xué)是學(xué)科之王,,物理、化學(xué)的終極領(lǐng)域就是數(shù)學(xué),。工業(yè)革命的首先是科學(xué)技術(shù)的革命,,數(shù)學(xué)在其中扮演了非常重要的作用,17世紀(jì)的英國(guó),、18世紀(jì)的法國(guó),、德國(guó),19世紀(jì)的俄國(guó)和美國(guó),,無(wú)一例外是數(shù)學(xué)強(qiáng)國(guó),。數(shù)學(xué)科學(xué)分析和研究的對(duì)象就是業(yè)務(wù)和數(shù)據(jù)的關(guān)系,而數(shù)據(jù)在脫離了上下文的時(shí)候就是數(shù)字,,要處理數(shù)據(jù)必須運(yùn)用大量的軟件工具和數(shù)學(xué)知識(shí),。

如果你還在學(xué)校,,最重要任務(wù)就是打好數(shù)學(xué)基礎(chǔ),學(xué)好高等數(shù)學(xué),、線性代數(shù),、概率與數(shù)理統(tǒng)計(jì)、數(shù)值分析,、多元分析,、泛函分析等相關(guān)課程。數(shù)學(xué)是一門基礎(chǔ)學(xué)科,,需要長(zhǎng)時(shí)間的學(xué)習(xí)和知識(shí)積累,,而且數(shù)學(xué)課程離開學(xué)校是沒地方補(bǔ)的,數(shù)據(jù)分析的其他能力(如編程)可以通過其他渠道學(xué)習(xí),。


吳喜之語(yǔ)錄:

統(tǒng)計(jì)學(xué)對(duì)課程基礎(chǔ)的要求比較高,,沒有辦法速成。單純的編程比較容易學(xué),。

 

多關(guān)注領(lǐng)域知識(shí)(Domainknowlage)


學(xué)習(xí)一門技術(shù)要和行業(yè)靠攏,,沒有行業(yè)背景的技術(shù)如空中樓閣。大數(shù)據(jù)是技術(shù)工具,,最終的應(yīng)用需要深入理解業(yè)務(wù)企業(yè)的業(yè)務(wù)場(chǎng)景和商業(yè)模式,,甚至有人說不懂業(yè)務(wù)就不要談大數(shù)據(jù),可見領(lǐng)域知識(shí)的重要性,。近幾年在頂尖科學(xué)雜志《Nature》與《Science》上發(fā)表的大數(shù)據(jù)文章都是來(lái)自行業(yè)專家,,而并非計(jì)算機(jī)專家,這從另外一個(gè)方面反映了業(yè)務(wù)知識(shí)的重要性,。在PPV課課堂上有一個(gè)案例是《電力系統(tǒng)偷漏電分析》,,在這個(gè)案例中,如果你不了解工廠的生產(chǎn)規(guī)律是無(wú)法進(jìn)行特征提取的,,更不要說建立有效的數(shù)學(xué)模型,。


吳喜之語(yǔ)錄:

最根本的就是領(lǐng)域知識(shí),你必須了解領(lǐng)域知識(shí),,你才能夠知道該怎么做,。如果你僅僅是一個(gè)干巴巴的統(tǒng)計(jì)學(xué)家,你不了解統(tǒng)計(jì),,你可以做很多荒謬的事,,不了解實(shí)際問題。


掌握泛編程能力


先看一份國(guó)外的調(diào)查報(bào)告《O’Reilly關(guān)于數(shù)據(jù)科學(xué)職位薪酬研究》,,研究的983個(gè)樣本來(lái)自45個(gè)國(guó)家以及美國(guó)45個(gè)州的不同行業(yè),。通過本次調(diào)查的64個(gè)問題,研究了數(shù)據(jù)科學(xué)家、分析師與工程師所要使用的工具,,工作涉及的任務(wù)以及薪酬的內(nèi)容,。


調(diào)查結(jié)果發(fā)現(xiàn)包括:

1.   Python和Spark是對(duì)薪水貢獻(xiàn)最大的兩大工具。

2.    在那些寫代碼的人中,,寫代碼最多的人最高,。

3.   SQL,Excel,,R和Python是最常用的工具,。

4.   參加會(huì)議越多,賺得更多,。

5.   做同樣的事情,,女人比男人的工資少。

6.   使用工具方面薪資差別最顯著在于,,那些主要使用Excel,,SQL和少量關(guān)閉源工具的人員以及使用更多開源工具并花費(fèi)更多時(shí)間編碼的人員之間。

7.   R用于各個(gè)部門:即使是那些不編程太多或者使用很多開源工具的人,,也會(huì)使用R.

8.    年輕的一批大量使用Python的數(shù)據(jù)科學(xué)家、數(shù)據(jù)分析師比起原來(lái)使用大量各種工具的人,,獲得的薪水更高,。

 

簡(jiǎn)單的可以理解為數(shù)據(jù)科學(xué)家這個(gè)職位寫代碼越多工資越高。

那么對(duì)于沒有編程基礎(chǔ)和計(jì)算機(jī)背景的同學(xué)而言,,是不是就無(wú)法從事數(shù)據(jù)科學(xué)了呢,?也不盡然,借助于腳本語(yǔ)言或類腳本語(yǔ)言(SQL/R/matlab/各種shell),,你只要掌握了算法抽象的邏輯和原理,,也可以很好的使用這些工具進(jìn)行數(shù)據(jù)處理和數(shù)據(jù)分析。

所謂的泛編程也稱之為泛化編程或者泛型編程,,原本的意思是指編程過程中忽略數(shù)據(jù)類型,,只關(guān)注算法抽象的一種編程方法。借用這種思路,,類似SQL/R/matlab這樣的類腳本語(yǔ)言其實(shí)都可以理解泛編程工具,。也就是說,你即使不是一個(gè)程序員,,也需要掌握如何對(duì)算法進(jìn)行抽象,,如何用計(jì)算機(jī)工具進(jìn)行數(shù)據(jù)處理,而SQl/R/Matlab以及各種shell語(yǔ)言為廣大的非計(jì)算機(jī)領(lǐng)域的同學(xué)從事數(shù)據(jù)科學(xué)提供了更適合他們的計(jì)算機(jī)工具,,這一點(diǎn)對(duì)沒有編程基礎(chǔ)的業(yè)務(wù)數(shù)據(jù)分析師,、統(tǒng)計(jì)分析師而言顯的尤為重要。

 

吳喜之語(yǔ)錄:

計(jì)算機(jī)科學(xué),不是一兩個(gè)盜版傻瓜軟件點(diǎn)鼠標(biāo)就是計(jì)算機(jī)科學(xué)了,。還加上網(wǎng)絡(luò)漫游能力和泛型編程能力,,我說的這個(gè)泛型編程能力是計(jì)算機(jī)編程理念。


嘗試跨界


跳出學(xué)科界線,,嘗試跨界學(xué)習(xí),,關(guān)注人文、經(jīng)濟(jì),、心理學(xué),、運(yùn)籌學(xué)這些領(lǐng)域,今年的諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)得主理查德·塞勒1967年獲凱斯西儲(chǔ)大學(xué)學(xué)士學(xué)位,,1970和1974年分獲羅徹斯特大學(xué)文學(xué)碩士學(xué)位和哲學(xué)博士學(xué)位,,而他后來(lái)研究的領(lǐng)域和他的專業(yè)卻沒有直接關(guān)系,事實(shí)上他專注的是心理學(xué),、經(jīng)濟(jì)學(xué)等交叉學(xué)科的研究,,并最終獲得了成功,說他是跨界之王一點(diǎn)也不為過,。


 

優(yōu)秀的數(shù)據(jù)科學(xué)家是一些能綜合運(yùn)用編程和統(tǒng)計(jì)技術(shù)的人,,他們致力于通過各種方式讓將數(shù)據(jù)更發(fā)揮作用,他們通常橫跨數(shù)學(xué),、計(jì)算機(jī),、人工智能等多個(gè)領(lǐng)域。你需要學(xué)好統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)相關(guān)課程,,并嘗試去了解兩種文化之間的差異,。


吳喜之語(yǔ)錄:

你離得越遠(yuǎn)看得越清楚,站得越高了解的全局越好,。整個(gè)統(tǒng)計(jì)學(xué)界的問題太多,,所以就需要改造。把它從數(shù)學(xué)假定主導(dǎo)的思維方式改造過來(lái),,從模型驅(qū)動(dòng)改變成數(shù)據(jù)驅(qū)動(dòng)或問題驅(qū)動(dòng),,機(jī)器學(xué)習(xí)是實(shí)現(xiàn)這種改造的一個(gè)最佳方式。

 

要有批判性思維


我們都是有偏見的,,雖然我們希望我們不是,。我們?cè)诿褡濉⒎N族,、性別,、年齡、階層等方面有著不同的三觀,,要防止把偏見注入到算法中,,這種情況在做模型假設(shè)以及在為訓(xùn)練數(shù)據(jù)打標(biāo)簽時(shí)都有可能發(fā)生,。



舉個(gè)例子:美國(guó)新聞機(jī)構(gòu)“人民(propublica)調(diào)查了一個(gè)稱為“累犯風(fēng)險(xiǎn)“的算法。這個(gè)算法在佛羅里達(dá)州的寫著期間被法官采用,。伯綱德,,左邊的那個(gè)黑人,10分中得了滿分,;右邊迪倫,,10分中得了3分。10分代表高風(fēng)險(xiǎn),,3分代表低風(fēng)險(xiǎn),,他們都因?yàn)槌钟卸酒范粠нM(jìn)了監(jiān)獄,他們都有犯罪記錄,,但迪倫曾有一個(gè)重罪,,而伯納德沒有。打分結(jié)果和實(shí)際情況是存在偏差的,,這是由于人的偏見導(dǎo)入的,。

思維的不足和偏差,一直是數(shù)據(jù)分析實(shí)踐中錯(cuò)誤和問題的重要來(lái)源之一,。為此,,你必須保持警惕,尤其是你的分析結(jié)果將成為沖裁和判斷真相的重要依據(jù)時(shí),。


吳喜之語(yǔ)錄:

要有基于數(shù)據(jù)的批判性思維,,而不是基于主觀經(jīng)驗(yàn)、權(quán)威或者是局部的知識(shí),,也不是迎合取寵式的思維。 科學(xué)意味著沒有權(quán)威,,不要迷信那些權(quán)威,,中國(guó)人喜歡崇拜權(quán)威。任何科學(xué)研究的目的是基于數(shù)據(jù),,顛覆舊的理論,,這樣才能往前進(jìn),所以你必須要有科學(xué)精神,。

 

快速的自學(xué)能力


大數(shù)據(jù)時(shí)代的知識(shí),,沒有像印刷時(shí)代對(duì)知識(shí)結(jié)構(gòu)視為必須具備的“基礎(chǔ)”知識(shí),知識(shí)是非線性的,,可以自由組合,、切割,處于一種分散和游離的狀態(tài),。未來(lái),,你必須具備快速自學(xué)和捕捉知識(shí)的能力,從一個(gè)“知識(shí)儲(chǔ)備,學(xué)以致用”的過程,,向“知識(shí)構(gòu)建,,用時(shí)再學(xué)”的過程轉(zhuǎn)變,學(xué)習(xí)將是一個(gè)持續(xù)的,,乃至終身學(xué)習(xí)的過程,。為此你需要具備一種快速而靈活的學(xué)習(xí)方式。

著名統(tǒng)計(jì)學(xué)家,、中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院吳喜之教授在授課之余仍然堅(jiān)持寫代碼和調(diào)試程序,,作為青年一代應(yīng)以他為榜樣,不斷從知識(shí)海洋中探索和學(xué)習(xí),。

 

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多