探索性數(shù)據(jù)分析是一種非常重要的數(shù)據(jù)探索技術(shù),用于了解數(shù)據(jù)的各個(gè)方面,這是執(zhí)行任何機(jī)器學(xué)習(xí)或深度學(xué)習(xí)任務(wù)之前最重要的步驟之一,。 探索性數(shù)據(jù)分析可以幫助識(shí)別明顯的錯(cuò)誤,區(qū)分?jǐn)?shù)據(jù)集中的異常,,發(fā)現(xiàn)重要元素,,發(fā)現(xiàn)內(nèi)部信息的設(shè)計(jì)并提供新的知識(shí)。 背景在任何機(jī)器學(xué)習(xí)項(xiàng)目的生命周期中,,我們?cè)跀?shù)據(jù)分析、特征選擇,、特征工程等環(huán)節(jié)耗費(fèi)時(shí)間占整個(gè)項(xiàng)目的 60% 的以上,,一方面它是數(shù)據(jù)科學(xué)項(xiàng)目中最重要的部分,另一方面它是必須要進(jìn)行的,,比如清理數(shù)據(jù),、處理缺失值、處理異常值,、處理不平衡的數(shù)據(jù)集,、等等,高效完成數(shù)據(jù)探索任務(wù)勢(shì)在必行,。 自動(dòng)化探索性數(shù)據(jù)分析今天我給大家分享4款自動(dòng)化探索數(shù)據(jù)分析的頂級(jí) Python 庫(kù),,列表如下:
1、D-taleD-tale 是一個(gè)在 2020 年 2 月推出的庫(kù),,可讓我們輕松可視化 pandas 數(shù)據(jù)框,。它具有許多功能,對(duì)于探索性數(shù)據(jù)分析非常方便,、支持交互式繪圖,、3d 繪圖、熱圖,、特征之間的相關(guān)性,、構(gòu)建自定義列等等。 安裝 pip install dtale 首先,,我們分享一個(gè) d-tale 的案例
上述代碼的輸出如下所示:它提供許多選項(xiàng),,例如對(duì)數(shù)據(jù)進(jìn)行排序,、描述數(shù)據(jù)集、列分析等等,,也可以自行查看此功能,。如果單擊'Describe',則會(huì)顯示所選列的統(tǒng)計(jì)分析,,例如平均值,、中位數(shù)、最大值,、最小值方差,、標(biāo)準(zhǔn)差、四分位數(shù)等等,。也可以自行嘗試其他功能,,例如列分析、格式,、過(guò)濾器,。如何相互關(guān)聯(lián)呢?圖表 - 建立自定義圖表,,如折線圖,、條形圖、餅圖,、堆疊圖,、散點(diǎn)圖、地質(zhì)圖等,。這個(gè)工具非常方便,,與使用傳統(tǒng)的機(jī)器學(xué)習(xí)庫(kù)(如 pandas、matplotlib 等)相比,,它探索性數(shù)據(jù)分析更快,。 2、Pandas Profiling它是一個(gè)用 python 編寫(xiě)的開(kāi)源庫(kù),,生成交互式 HTML 報(bào)告并描述數(shù)據(jù)集的各個(gè)方面,。關(guān)鍵功能包括處理缺失值、數(shù)據(jù)集的統(tǒng)計(jì)數(shù)據(jù)(如平均值,、眾數(shù),、中位數(shù)、偏度,、標(biāo)準(zhǔn)差等),,以及直方圖和相關(guān)性等圖表。 安裝 pip install pandas-profiling 讓我們深入研究使用這個(gè)庫(kù)的探索性數(shù)據(jù)分析。使用示例數(shù)據(jù)集從 pandas 分析開(kāi)始:
下面是上述代碼輸出 這是一個(gè)數(shù)據(jù)分析報(bào)告,,它返回?cái)?shù)據(jù)集中的變量數(shù)量,、行數(shù)、數(shù)據(jù)集中缺失的單元格,、缺失單元格的百分比,、重復(fù)行的數(shù)量和百分比。缺失和重復(fù)的單元格數(shù)據(jù)對(duì)于我們的分析非常重要,,因?yàn)樗枋隽藬?shù)據(jù)集的更廣泛情況,。該報(bào)告還顯示內(nèi)存的總大小。 變量部分顯示特定列的分析,。例如對(duì)于分類變量,,將出現(xiàn)以下輸出它提供對(duì)數(shù)值變量的深入分析,例如分位數(shù),、均值,、中位數(shù)和、方差,、單調(diào)性,、范圍、峰度,、四分位間距等等,。 描述變量如何相互關(guān)聯(lián),這些數(shù)據(jù)對(duì)于數(shù)據(jù)科學(xué)家來(lái)說(shuō)是非常必要的,。 3,、SweetvizSweetviz 是一個(gè)開(kāi)源的 Python 庫(kù),,用于獲得可視化效果,,只需幾行代碼即可用于探索性數(shù)據(jù)分析。該庫(kù)可用于可視化變量和比較數(shù)據(jù)集,。 安裝 pip install sweetviz 讓我們深入研究使用這個(gè)庫(kù)的探索性數(shù)據(jù)分析,,使用示例數(shù)據(jù)集開(kāi)始
4、AutovizAutoviz 代表自動(dòng)可視化,,只需幾行代碼,,就可以使用任意大小的數(shù)據(jù)集進(jìn)行可視化。安裝 pip install autoviz 可視化
|
|