木木自由 昨天以下文章來源于一個(gè)數(shù)據(jù)人的自留地 ,,作者大師兄 大家好,我是大師兄,。 很多同學(xué)抱怨自己很想學(xué)好Python,,但學(xué)了好久,書也買不少,,視頻課程也看了不少,,但是總是學(xué)了一段時(shí)間,感覺還是沒什么收獲,,碰到問題沒思路,,有思路寫不出多少行代碼,遇到報(bào)錯(cuò)時(shí)也不知道怎么處理,。 從入門到放棄,,這是很多學(xué)習(xí)python的同學(xué)常常掛在嘴邊上的口頭禪。今天我分享一些自己學(xué)習(xí)Python的心得,,并用一個(gè)案例來說明python解決問題的基本思路和框架,。 1 如何學(xué)好Python1.1 明確自己的需求(最好是剛需)聽到別人說Python很牛很厲害,也想跟著學(xué),,這樣的人肯定是學(xué)不好python的。沒有明確的需求和動(dòng)力,,就會(huì)導(dǎo)致你學(xué)python兩天打魚三天曬網(wǎng),,沒有恒心也沒有決心。 假如你有明確的需求,,比如:
當(dāng)你面對(duì)這樣一些需求時(shí),,你還無法求助他人幫忙時(shí),,這個(gè)時(shí)候,你就必須學(xué)習(xí)Python來幫你處理了,。 1.2 明確Python的學(xué)習(xí)方向Python的學(xué)習(xí)方向有很多,,比如:
我是日常用Python主要做數(shù)據(jù)處理和數(shù)據(jù)分析工作,所以我選擇的是數(shù)據(jù)處理和數(shù)據(jù)分析方向,,其他Python功能接觸的比較少,。 1.3 掌握Python的基本語法
不管你選擇了什么方向,Python的基本語法是必須掌握的,。對(duì)于沒有編程經(jīng)驗(yàn)的人,,Python是一門非常適合入門的編程語言,因?yàn)樗歉叨确庋b的,不需要對(duì)于底層特別了解,也能夠很好學(xué)習(xí)使用。python語法非常簡單,代碼可讀性高,對(duì)于零基礎(chǔ)的人來說更容易接受和使用,。 1.4 掌握Python數(shù)據(jù)處理方法
利用Python做數(shù)據(jù)處理,,線性代數(shù)和統(tǒng)計(jì)學(xué)這兩門基本理論知識(shí)還是要會(huì)點(diǎn),,線性代數(shù)你至少得需要知道矩陣和矩陣運(yùn)算規(guī)則,統(tǒng)計(jì)學(xué)你至少要知道描述性統(tǒng)計(jì),。 常用的Python數(shù)據(jù)處理模塊有Pandas和Numpy這兩個(gè),,這是必須要掌握的,另外,,Matplotlib模塊是數(shù)據(jù)可視化模塊,,也是必須會(huì)的。 數(shù)據(jù)導(dǎo)入,、清洗和準(zhǔn)備,、規(guī)整、分組等操作,,都是數(shù)據(jù)處理中常用的方法,,平常對(duì)比Excel數(shù)據(jù)操作,Python都可以實(shí)現(xiàn),,而且一行簡單的代碼,,就可以操作比較復(fù)雜的數(shù)據(jù)處理方法。 1.5 多練,!多練,!多練!
重要的事情說三遍,多練,!多練,!多練! Python和數(shù)據(jù)分析都是實(shí)踐學(xué)科,,光學(xué)理論,,不練習(xí),是不會(huì)有任何收獲的,,學(xué)完之后不練就忘掉了,。最好的方式,就是先掌握一點(diǎn)基礎(chǔ)語法,,然后把Python融合到工作中,,解決日常工作中碰到的問題。在解決問題的時(shí)候,,你會(huì)碰到各種問題,,可以去"百度"尋找答案。最后,,要定期總結(jié)和輸出,。 特別提示,假如你沒有基礎(chǔ)或者基礎(chǔ)薄弱的話,建議工作期間不要嘗試用Python解決復(fù)雜的問題,,這是一個(gè)很浪費(fèi)時(shí)間的事情,,中間各種問題,會(huì)讓你崩潰,。最終Python沒學(xué)好,,還耽誤了工作。所以,,要利用工作之余的時(shí)間,,把python基礎(chǔ)打扎實(shí)。 2 Python數(shù)據(jù)處理示例2.1 安裝并搭建python環(huán)境首先,,需要安裝python,我要推薦Anaconda3,,從事數(shù)據(jù)分析的伙伴們,嚴(yán)重推薦此軟件,! Anaconda降低了數(shù)據(jù)分析初學(xué)者的學(xué)習(xí)門檻,,因?yàn)檫@個(gè)軟件自帶了python中大概有1000多個(gè)數(shù)據(jù)科學(xué)包,讓你無需單獨(dú)學(xué)習(xí)每個(gè)庫的安裝方法,。另外,,還自帶了Jupter notebook代碼編譯器。現(xiàn)在,,Anaconda和Jupyter notebook已成為數(shù)據(jù)分析的標(biāo)準(zhǔn)環(huán)境,。 具體的安裝方法參考如下鏈接: https://mp.weixin.qq.com/s/53-KvHGYqCSx8qtUnub_vw 安裝完成后,打開Jupter Notebook,,就可以在上面輸入代碼。 2.2 問題說明現(xiàn)在工作中面臨一個(gè)批量化文件處理的問題:就是要把每個(gè)二級(jí)文件下csv文件合并到一個(gè)數(shù)據(jù)表里,,同時(shí)要在最終的數(shù)據(jù)表里增加兩列,,一列是一級(jí)文件目錄名稱,另一列是二級(jí)文件目錄名稱,。
當(dāng)工作中,,碰到這樣的問題時(shí),我用最笨拙的方法——人工,,一個(gè)一個(gè)文件整理,,但是效率比較低,可能需要一個(gè)人一天的工作量,。當(dāng)然,,我也可以尋找技術(shù)的幫忙,找一個(gè)Java工程師,,這個(gè)問題也很容易解決,但麻煩別人一次,沒問題,。以后碰到類似的問題,總是麻煩,,就不好了。假如自己掌握了Python,,這個(gè)問題就變得很簡單了,。 2.3 程序?qū)崿F(xiàn)其實(shí)這個(gè)問題,對(duì)于一個(gè)專業(yè)的Python程序員來說,,是一個(gè)再簡單不過的問題,。但是對(duì)于一個(gè)初學(xué)者來說,要解決這個(gè)問題,,恐怕需要費(fèi)一點(diǎn)時(shí)間和腦力,。 編程之前,我是如何思考的: 1,、首先,,要讀取文件名稱,需要引入OS模塊下的listdir函數(shù) 2,、其次,,遍歷所有一級(jí)、二級(jí),、三級(jí)文件名稱,,需要用到for循環(huán)和循環(huán)嵌套 3、然后,,讀取文件下csv表,,需要用到pandas模塊下的read_csv函數(shù) 4、最后,,整理合并后的所有表,,需要用到DataFrame的操作方法 實(shí)現(xiàn)代碼如下:
這段代碼雖然簡單,但基本攘括了Python的大部分基本語法,,接下來我?guī)Т蠹乙灰唤馄氏逻@些基本語法,。
3 Python基本語法詳解3.1 import詳解下面程序使用導(dǎo)入整個(gè)模塊的最簡單語法來導(dǎo)入指定模塊:
使用Python進(jìn)行編程時(shí),有些功能沒必須自己實(shí)現(xiàn),,可以借助Python現(xiàn)有的標(biāo)準(zhǔn)庫或者其他人提供的第三方庫,。像OS和pandas,都是標(biāo)準(zhǔn)庫,,導(dǎo)入后,,就可以在程序中使用其模塊內(nèi)的函數(shù),使用時(shí)必須添加模塊名作為前綴,。
假如模塊名長,,就可以取別名,,比如pandas模塊,取別名為pd,。像os模塊,,由于比較簡短,就沒有取別名,。別名的作用,,就是調(diào)用該模塊下的函數(shù)時(shí),減少代碼的復(fù)雜度,。
3.2 數(shù)據(jù)導(dǎo)入和導(dǎo)出數(shù)據(jù)的導(dǎo)入是數(shù)據(jù)處理和分析的第一步,,日常我使用的比較多的是利用pandas進(jìn)行數(shù)據(jù)輸入和輸出,盡管其他庫中也有許多工具可幫助我們讀取和寫入各種格式的數(shù)據(jù),。 將表格型數(shù)據(jù)讀取為DataFrame對(duì)象是pandas的重要特性
當(dāng)然,數(shù)據(jù)的輸入,,也有與數(shù)據(jù)庫交互讀取數(shù)據(jù),,也有與WEB API交互讀取數(shù)據(jù),這個(gè)是屬于進(jìn)階的內(nèi)容,,后期帶大家學(xué)習(xí),。 3.3 聲明變量變量是Python語言中一個(gè)非常重要的概念,其作用就是為Python程序中的某個(gè)值起一個(gè)名字,。類似于"張三",、"李四"一樣的名字。在Python語言中,,聲明變量的同時(shí)需要為其賦值,,畢竟不代表任何值的變量毫無意義。
聲明變量非常簡單,,語法結(jié)構(gòu):等號(hào)(=)左側(cè)是變量名,,右側(cè)是變量值,Python編譯器會(huì)自動(dòng)識(shí)別變量的數(shù)據(jù)類型,。 說到變量,就不得不談Python的基本數(shù)據(jù)類型,,Python有6個(gè)標(biāo)準(zhǔn)的數(shù)據(jù)類型:
學(xué)習(xí)Python,,掌握其基本數(shù)據(jù)類型,特別重要,!重要,!重要!詳細(xì)的介紹,,見: https://www.runoob.com/python3/python3-data-type.html 3.4 控制語句我們所見到的程序,,有很多程序都是按照順序從上到下執(zhí)行它們,。如果你想要改變語句流的執(zhí)行順序,也就是說你想讓程序做一些決定,,根據(jù)不同的情況做不同的事情,。這個(gè)時(shí)候,就需要通過控制流語句來實(shí)現(xiàn),。 在Python中有三種控制流語句——if,、for和while。詳細(xì)的知識(shí)點(diǎn),,見如下: if語法講解 https://www.runoob.com/python/python-if-statement.html while語法講解 https://www.runoob.com/python/python-while-loop.html for語法講解 https://www.runoob.com/python/python-for-loop.html 嵌套for語法講解 https://www.runoob.com/python/python-nested-loops.html 本次實(shí)例中,,需要讀取一級(jí)文件目錄名稱、二級(jí)文件目錄名稱,、三級(jí)csv文件目錄名稱,,并逐個(gè)遍歷它,于是選擇了for循環(huán),。for循環(huán)就是個(gè)迭代器,,當(dāng)我們?cè)谑褂胒or循環(huán)時(shí),即重復(fù)運(yùn)行一個(gè)代碼塊,,或者不斷迭代容器對(duì)象中的元素,,比如一些序列對(duì)象,列表,,字典,,元組,甚至文件等,,而for循環(huán)的本質(zhì)取出可迭代對(duì)象中的迭代器然后對(duì)迭代器不斷的操作,。
3.5 模塊函數(shù)調(diào)用函數(shù)是組織好的,可重復(fù)使用的,,用來實(shí)現(xiàn)單一,、或者相關(guān)功能的代碼段。 函數(shù)能提高程序的模塊性,,和代碼的重復(fù)利用率,。Python提供了許多標(biāo)準(zhǔn)模塊的內(nèi)建函數(shù),比如os模塊下的listdir函數(shù),,用來讀取文件的名稱,,pandas模塊下的read_csv函數(shù),用來讀取csv文件的數(shù)據(jù),。當(dāng)然,,也可以自己創(chuàng)建函數(shù),,也就是所謂的自定義函數(shù),下一節(jié)詳細(xì)講,。
3.6 自定義函數(shù)我們可以自定義一個(gè)自己想要的功能函數(shù),,通常遵循以下規(guī)則:
定義一個(gè)函數(shù)只給了函數(shù)一個(gè)名稱,指定了函數(shù)里包含的參數(shù)和代碼結(jié)構(gòu),。這個(gè)函數(shù)的基本機(jī)構(gòu)完成以后,,你就可以通過調(diào)用該函數(shù)來實(shí)現(xiàn)你想要的返回結(jié)果。
3.7 Lamda表達(dá)式Lambda是一個(gè)表達(dá)式,,定義了一個(gè)匿名函數(shù),代碼x為入口參數(shù),,x[0:7]為函數(shù)體,。非常容易理解,在這里lambda簡化了函數(shù)定義的書寫形式,。使得代碼更為簡潔,,更為直觀易理解。 但是lambda函數(shù),,在Python社區(qū)是一個(gè)存在爭議的函數(shù),,支持方認(rèn)為,Lambda函數(shù)的使用,,使得代碼更加緊湊,。反對(duì)法認(rèn)為該函數(shù)用多了反而看起來不那么清晰。
在用pandas做數(shù)據(jù)處理的時(shí)候,,個(gè)人習(xí)慣,,apply+lambda配合使用,可以對(duì)dataframe數(shù)據(jù)集中的列做很多很多事情,。 3.8 Dataframe及操作DataFrame是一種表格型數(shù)據(jù)結(jié)構(gòu),在概念上,,它跟關(guān)系型數(shù)據(jù)庫的一張表,,Excel里的數(shù)據(jù)表一樣,。 創(chuàng)建一個(gè)DataFrame
日常數(shù)據(jù)處理的過程中,通常是通過讀取文件生成DataFrame,,最常用的是read_csv,,read_table方法。下面是最簡單的讀取文件語句,,該方法中有很多重要的參數(shù),,在導(dǎo)入文件時(shí)候,通過這些參數(shù),,可以控制導(dǎo)入數(shù)據(jù)的格式和數(shù)量,。其他創(chuàng)建DataFrame的方式也有很多,比如我經(jīng)常會(huì)從SQL SERVER讀取數(shù)據(jù)來生成,。這里就不詳細(xì)介紹,。
DataFrame索引、切片 我們可以根據(jù)列名來選取一列,,返回一個(gè)Series,,同時(shí)也可以對(duì)這一列的數(shù)據(jù)進(jìn)行操作。
4 總結(jié)最后,,我說下Python與Excel之間的關(guān)系,,為什么要拿這兩個(gè)工具比較,因?yàn)楹苋擞X得:
從根本上來說,Python和excel都可以作為數(shù)據(jù)處理和分析以及展現(xiàn)的工具,,工具本身沒有好與壞,,關(guān)鍵在于使用者的業(yè)務(wù)場(chǎng)景以及使用自身對(duì)工具的掌握程度。當(dāng)兩種工具都能達(dá)到使用者業(yè)務(wù)場(chǎng)景想要的效果時(shí),,使用者會(huì)更傾向于使用自己熟練或者更易于實(shí)現(xiàn)的工具高效地解決實(shí)際問題,。 所以說,日常大部分與數(shù)據(jù)相關(guān)的工作中,,少量數(shù)據(jù)的處理和分析,,excel都足以勝任,除非遇到大樣本數(shù)據(jù)導(dǎo)致excel無法處理或者計(jì)算很慢時(shí),,這時(shí)候python的優(yōu)勢(shì)才會(huì)體現(xiàn)出來,。 除此之外,如果使用者的業(yè)務(wù)場(chǎng)景是報(bào)表呈現(xiàn)時(shí),,excel做出來的結(jié)果直接就是可以交付的結(jié)果,。 當(dāng)然,,當(dāng)面臨大量需要重復(fù)處理的文件或者經(jīng)常要做的數(shù)據(jù)工作,這個(gè)時(shí)候,,如果自動(dòng)化,,會(huì)大大提高工作效率,這個(gè)時(shí)候,,python的優(yōu)勢(shì)也很明顯,。 |
|