這里有8個(gè)流行的Python可視化工具包,，你喜歡哪個(gè),？

geoallan 2019-04-28

展開全文

喜歡用 Python 做項(xiàng)目的小伙伴不免會(huì)遇到這種情況：做圖表時(shí)，用哪種好看又實(shí)用的可視化工具包呢,？之前文章里出現(xiàn)過(guò)漂亮的圖表時(shí),，也總有讀者在后臺(tái)留言問(wèn)該圖表時(shí)用什么工具做的。下面,，作者介紹了八種在 Python 中實(shí)現(xiàn)的可視化工具包,，其中有些包還能用在其它語(yǔ)言中?？靵?lái)試試你喜歡哪個(gè),？

用 Python 創(chuàng)建圖形的方法有很多，但是哪種方法是最好的呢,？當(dāng)我們做可視化之前,，要先明確一些關(guān)于圖像目標(biāo)的問(wèn)題：你是想初步了解數(shù)據(jù)的分布情況？想展示時(shí)給人們留下深刻印象,？也許你想給某人展示一個(gè)內(nèi)在的形象,，一個(gè)中庸的形象？

本文將介紹一些常用的 Python 可視化包,，包括這些包的優(yōu)缺點(diǎn)以及分別適用于什么樣的場(chǎng)景,。這篇文章只擴(kuò)展到 2D 圖，為下一次講 3D 圖和商業(yè)報(bào)表（dashboard）留了一些空間,，不過(guò)這次要講的包中,，許多都可以很好地支持 3D 圖和商業(yè)報(bào)表。

Matplotlib,、Seaborn 和 Pandas

把這三個(gè)包放在一起有幾個(gè)原因：首先 Seaborn 和 Pandas 是建立在 Matplotlib 之上的,，當(dāng)你在用 Seaborn 或 Pandas 中的 df.plot() 時(shí)，用的其實(shí)是別人用 Matplotlib 寫的代碼,。因此,，這些圖在美化方面是相似的，自定義圖時(shí)用的語(yǔ)法也都非常相似,。

當(dāng)提到這些可視化工具時(shí),，我想到三個(gè)詞：探索（Exploratory）,、數(shù)據(jù)（Data）、分析（Analysis）,。這些包都很適合第一次探索數(shù)據(jù),，但要做演示時(shí)用這些包就不夠了。

Matplotlib 是比較低級(jí)的庫(kù),，但它所支持的自定義程度令人難以置信（所以不要簡(jiǎn)單地將其排除在演示所用的包之外?。€有其它更適合做展示的工具,。

Matplotlib 還可以選擇樣式（style selection）,，它模擬了像 ggplot2 和 xkcd 等很流行的美化工具。下面是我用 Matplotlib 及相關(guān)工具所做的示例圖：

在處理籃球隊(duì)薪資數(shù)據(jù)時(shí),，我想找出薪資中位數(shù)最高的團(tuán)隊(duì),。為了展示結(jié)果，我將每個(gè)球隊(duì)的工資用顏色標(biāo)成條形圖,，來(lái)說(shuō)明球員加入哪一支球隊(duì)才能獲得更好的待遇,。

import seaborn as snsimport matplotlib.pyplot as pltcolor_order = ['xkcd:cerulean', 'xkcd:ocean', 'xkcd:black','xkcd:royal purple', 'xkcd:royal purple', 'xkcd:navy blue', 'xkcd:powder blue', 'xkcd:light maroon', 'xkcd:lightish blue','xkcd:navy']sns.barplot(x=top10.Team, y=top10.Salary, palette=color_order).set_title('Teams with Highest Median Salary')plt.ticklabel_format(style='sci', axis='y', scilimits=(0,0))

這里有8個(gè)流行的Python可視化工具包，你喜歡哪個(gè),？

第二個(gè)圖是回歸實(shí)驗(yàn)殘差的 Q-Q 圖,。這張圖的主要目的是展示如何用盡量少的線條做出一張有用的圖，當(dāng)然也許它可能不那么美觀,。

import matplotlib.pyplot as pltimport scipy.stats as stats#model2 is a regression modellog_resid = model2.predict(X_test)-y_teststats.probplot(log_resid, dist='norm', plot=plt)plt.title('Normal Q-Q plot')plt.show()

這里有8個(gè)流行的Python可視化工具包，你喜歡哪個(gè),？

最終證明,，Matplotlib 及其相關(guān)工具的效率很高，但就演示而言它們并不是最好的工具,。

ggplot(2)

你可能會(huì)問(wèn),，「Aaron，ggplot 是 R 中最常用的可視化包,，但你不是要寫 Python 的包嗎,？」。人們已經(jīng)在 Python 中實(shí)現(xiàn)了 ggplot2,，復(fù)制了這個(gè)包從美化到語(yǔ)法的一切內(nèi)容,。

在我看過(guò)的所有材料中，它的一切都和 ggplot2 很像,，但這個(gè)包的好處是它依賴于 Pandas Python 包,。不過(guò) Pandas Python 包最近棄用了一些方法，導(dǎo)致 Python 版本不兼容,。

如果你想在 R 中用真正的 ggplot（除了依賴關(guān)系外,，它們的外觀,、感覺以及語(yǔ)法都是一樣的），我在另外一篇文章中對(duì)此進(jìn)行過(guò)討論,。

也就是說(shuō),，如果你一定要在 Python 中用 ggplot，那你就必須要安裝 0.19.2 版的 Pandas,，但我建議你最好不要為了使用較低級(jí)的繪圖包而降低 Pandas 的版本,。

ggplot2（我覺得也包括 Python 的 ggplot）舉足輕重的原因是它們用「圖形語(yǔ)法」來(lái)構(gòu)建圖片?；厩疤崾悄憧梢詫?shí)例化圖,，然后分別添加不同的特征；也就是說(shuō),，你可以分別對(duì)標(biāo)題,、坐標(biāo)軸、數(shù)據(jù)點(diǎn)以及趨勢(shì)線等進(jìn)行美化,。

下面是 ggplot 代碼的簡(jiǎn)單示例,。我們先用 ggplot 實(shí)例化圖，設(shè)置美化屬性和數(shù)據(jù),，然后添加點(diǎn),、主題以及坐標(biāo)軸和標(biāo)題標(biāo)簽。

#All Salariesggplot(data=df, aes(x=season_start, y=salary, colour=team)) + geom_point() + theme(legend.position='none') + labs(title = 'Salary Over Time', x='Year', y='Salary ($)')

這里有8個(gè)流行的Python可視化工具包,，你喜歡哪個(gè),？

Bokeh

Bokeh 很美。從概念上講,，Bokeh 類似于 ggplot,，它們都是用圖形語(yǔ)法來(lái)構(gòu)建圖片，但 Bokeh 具備可以做出專業(yè)圖形和商業(yè)報(bào)表且便于使用的界面,。為了說(shuō)明這一點(diǎn),，我根據(jù) 538 Masculinity Survey 數(shù)據(jù)集寫了制作直方圖的代碼：

import pandas as pdfrom bokeh.plotting import figurefrom bokeh.io import show# is_masc is a one-hot encoded dataframe of responses to the question:# 'Do you identify as masculine?'#Dataframe Prepcounts = is_masc.sum()resps = is_masc.columns#Bokehp2 = figure(title='Do You View Yourself As Masculine?', x_axis_label='Response', y_axis_label='Count', x_range=list(resps))p2.vbar(x=resps, top=counts, width=0.6, fill_color='red', line_color='black')show(p2)#Pandascounts.plot(kind='bar')

這里有8個(gè)流行的Python可視化工具包，你喜歡哪個(gè),？

用 Bokeh 表示調(diào)查結(jié)果

紅色的條形圖表示 538 個(gè)人關(guān)于「你認(rèn)為自己有男子漢氣概嗎,？」這一問(wèn)題的答案。9~14 行的 Bokeh 代碼構(gòu)建了優(yōu)雅且專業(yè)的響應(yīng)計(jì)數(shù)直方圖——字體大小,、y 軸刻度和格式等都很合理,。

我寫的代碼大部分都用于標(biāo)記坐標(biāo)軸和標(biāo)題，以及為條形圖添加顏色和邊框,。在制作美觀且表現(xiàn)力強(qiáng)的圖片時(shí),，我更傾向于使用 Bokeh——它已經(jīng)幫我們完成了大量美化工作。

這里有8個(gè)流行的Python可視化工具包,，你喜歡哪個(gè),？

用 Pandas 表示相同的數(shù)據(jù)

藍(lán)色的圖是上面的第 17 行代碼,。這兩個(gè)直方圖的值是一樣的，但目的不同,。在探索性設(shè)置中,，用 Pandas 寫一行代碼查看數(shù)據(jù)很方便，但 Bokeh 的美化功能非常強(qiáng)大,。

Bokeh 提供的所有便利都要在 matplotlib 中自定義,，包括 x 軸標(biāo)簽的角度、背景線,、y 軸刻度以及字體（大小,、斜體、粗體）等,。下圖展示了一些隨機(jī)趨勢(shì),，其自定義程度更高：使用了圖例和不同的顏色和線條。

這里有8個(gè)流行的Python可視化工具包,，你喜歡哪個(gè),？

Bokeh 還是制作交互式商業(yè)報(bào)表的絕佳工具。

Plotly

Plotly 非常強(qiáng)大,，但用它設(shè)置和創(chuàng)建圖形都要花費(fèi)大量時(shí)間,，而且都不直觀。在用 Plotly 忙活了大半個(gè)上午后,，我?guī)缀跏裁炊紱](méi)做出來(lái),，干脆直接去吃飯了。我只創(chuàng)建了不帶坐標(biāo)標(biāo)簽的條形圖,，以及無(wú)法刪掉線條的「散點(diǎn)圖」,。Ploty 入門時(shí)有一些要注意的點(diǎn)：

安裝時(shí)要有 API 秘鑰，還要注冊(cè),，不是只用 pip 安裝就可以；
Plotly 所繪制的數(shù)據(jù)和布局對(duì)象是獨(dú)一無(wú)二的,，但并不直觀,；
圖片布局對(duì)我來(lái)說(shuō)沒(méi)有用（40 行代碼毫無(wú)意義！）

但它也有優(yōu)點(diǎn),，而且設(shè)置中的所有缺點(diǎn)都有相應(yīng)的解決方法：

你可以在 Plotly 網(wǎng)站和 Python 環(huán)境中編輯圖片,；
支持交互式圖片和商業(yè)報(bào)表；
Plotly 與 Mapbox 合作,，可以自定義地圖,；
很有潛力繪制優(yōu)秀圖形。

以下是我針對(duì)這個(gè)包編寫的代碼：

#plot 1 - barplot# **note** - the layout lines do nothing and trip no errorsdata = [go.Bar(x=team_ave_df.team, y=team_ave_df.turnovers_per_mp)]layout = go.Layout( title=go.layout.Title( text='Turnovers per Minute by Team', xref='paper', x=0 ), xaxis=go.layout.XAxis( title = go.layout.xaxis.Title( text='Team', font=dict( family='Courier New, monospace', size=18, color='#7f7f7f' ) ) ), yaxis=go.layout.YAxis( title = go.layout.yaxis.Title( text='Average Turnovers/Minute', font=dict( family='Courier New, monospace', size=18, color='#7f7f7f' ) ) ), autosize=True, hovermode='closest')py.iplot(figure_or_data=data, layout=layout, filename='jupyter-plot', sharing='public', fileopt='overwrite')#plot 2 - attempt at a scatterplotdata = [go.Scatter(x=player_year.minutes_played, y=player_year.salary, marker=go.scatter.Marker(color='red', size=3))]layout = go.Layout(title='test', xaxis=dict(title='why'), yaxis=dict(title='plotly'))py.iplot(figure_or_data=data, layout=layout, filename='jupyter-plot2', sharing='public')[Image: image.png]

這里有8個(gè)流行的Python可視化工具包,，你喜歡哪個(gè),？

表示不同 NBA 球隊(duì)每分鐘平均失誤數(shù)的條形圖,。

這里有8個(gè)流行的Python可視化工具包，你喜歡哪個(gè),？

表示薪水和在 NBA 的打球時(shí)間之間關(guān)系的散點(diǎn)圖

總體來(lái)說(shuō),，開箱即用的美化工具看起來(lái)很好，但我多次嘗試逐字復(fù)制文檔和修改坐標(biāo)軸標(biāo)簽時(shí)卻失敗了,。但下面的圖展示了 Plotly 的潛力,，以及我為什么要在它身上花好幾個(gè)小時(shí)：

這里有8個(gè)流行的Python可視化工具包，你喜歡哪個(gè),？

Plotly 頁(yè)面上的一些示例圖

Pygal

Pygal 的名氣就不那么大了,，和其它常用的繪圖包一樣，它也是用圖形框架語(yǔ)法來(lái)構(gòu)建圖像的,。由于繪圖目標(biāo)比較簡(jiǎn)單,，因此這是一個(gè)相對(duì)簡(jiǎn)單的繪圖包。使用 Pygal 非常簡(jiǎn)單：

實(shí)例化圖片,；
用圖片目標(biāo)屬性格式化,；
用 figure.add() 將數(shù)據(jù)添加到圖片中。

我在使用 Pygal 的過(guò)程中遇到的主要問(wèn)題在于圖片渲染,。必須要用 render_to_file 選項(xiàng),，然后在 web 瀏覽器中打開文件，才能看見我剛剛構(gòu)建的東西,。

最終看來(lái)這是值得的,，因?yàn)閳D片是交互式的，有令人滿意而且便于自定義的美化功能,?？偠灾@個(gè)包看起來(lái)不錯(cuò),，但在文件的創(chuàng)建和渲染部分比較麻煩,。

這里有8個(gè)流行的Python可視化工具包，你喜歡哪個(gè),？

Networkx

雖然 Networkx 是基于 matplotlib 的,，但它仍是圖形分析和可視化的絕佳解決方案。圖形和網(wǎng)絡(luò)不是我的專業(yè)領(lǐng)域,，但 Networkx 可以快速簡(jiǎn)便地用圖形表示網(wǎng)絡(luò)之間的連接,。以下是我針對(duì)一個(gè)簡(jiǎn)單圖形構(gòu)建的不同的表示，以及一些從斯坦福 SNAP 下載的代碼（關(guān)于繪制小型 Facebook 網(wǎng)絡(luò)）,。

這里有8個(gè)流行的Python可視化工具包,，你喜歡哪個(gè)？

我按編號(hào)（1~10）用顏色編碼了每個(gè)節(jié)點(diǎn)，代碼如下：

options = { 'node_color' : range(len(G)), 'node_size' : 300, 'width' : 1, 'with_labels' : False, 'cmap' : plt.cm.coolwarm}nx.draw(G, **options)

這里有8個(gè)流行的Python可視化工具包,，你喜歡哪個(gè),？

用于可視化上面提到的稀疏 Facebook 圖形的代碼如下：

import itertoolsimport networkx as nximport matplotlib.pyplot as pltf = open('data/facebook/1684.circles', 'r')circles = [line.split() for line in f]f.close()network = []for circ in circles: cleaned = [int(val) for val in circ[1:]] network.append(cleaned)G = nx.Graph()for v in network: G.add_nodes_from(v)edges = [itertools.combinations(net,2) for net in network]for edge_group in edges: G.add_edges_from(edge_group)options = { 'node_color' : 'lime', 'node_size' : 3, 'width' : 1, 'with_labels' : False,}nx.draw(G, **options)

這里有8個(gè)流行的Python可視化工具包，你喜歡哪個(gè),？

這個(gè)圖形非常稀疏,，Networkx 通過(guò)最大化每個(gè)集群的間隔展現(xiàn)了這種稀疏化。

有很多數(shù)據(jù)可視化的包,，但沒(méi)法說(shuō)哪個(gè)是最好的,。希望閱讀本文后，你可以了解到在不同的情境下,，該如何使用不同的美化工具和代碼,。

原文鏈接：https:///reviewing-python-visualization-packages-fa7fe12e622b

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布,，不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào),。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自： geoallan > 《數(shù)據(jù)分析》

舉報(bào)/認(rèn)領(lǐng)