久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

這4款數(shù)據(jù)自動(dòng)化探索 Python 神器,,解決99%的數(shù)據(jù)分析問(wèn)題!

 阿明哥哥資料區(qū) 2022-07-31 發(fā)布于上海

探索性數(shù)據(jù)分析是一種非常重要的數(shù)據(jù)探索技術(shù),用于了解數(shù)據(jù)的各個(gè)方面,這是執(zhí)行任何機(jī)器學(xué)習(xí)或深度學(xué)習(xí)任務(wù)之前最重要的步驟之一,。

探索性數(shù)據(jù)分析可以幫助識(shí)別明顯的錯(cuò)誤,區(qū)分?jǐn)?shù)據(jù)集中的異常,,發(fā)現(xiàn)重要元素,,發(fā)現(xiàn)內(nèi)部信息的設(shè)計(jì)并提供新的知識(shí)。圖片

背景

在任何機(jī)器學(xué)習(xí)項(xiàng)目的生命周期中,,我們?cè)跀?shù)據(jù)分析、特征選擇,、特征工程等環(huán)節(jié)耗費(fèi)時(shí)間占整個(gè)項(xiàng)目的 60% 的以上,,一方面它是數(shù)據(jù)科學(xué)項(xiàng)目中最重要的部分,另一方面它是必須要進(jìn)行的,,比如清理數(shù)據(jù),、處理缺失值、處理異常值,、處理不平衡的數(shù)據(jù)集,、等等,高效完成數(shù)據(jù)探索任務(wù)勢(shì)在必行,。

自動(dòng)化探索性數(shù)據(jù)分析

今天我給大家分享4款自動(dòng)化探索數(shù)據(jù)分析的頂級(jí) Python 庫(kù),,列表如下:

  • dtale
  • pandas profiling
  • sweetviz
  • autoviz
1、D-tale

圖片D-tale 是一個(gè)在 2020 年 2 月推出的庫(kù),,可讓我們輕松可視化 pandas 數(shù)據(jù)框,。它具有許多功能,對(duì)于探索性數(shù)據(jù)分析非常方便,、支持交互式繪圖,、3d 繪圖、熱圖,、特征之間的相關(guān)性,、構(gòu)建自定義列等等。

安裝

pip install dtale

首先,,我們分享一個(gè) d-tale 的案例

import dtale
import pandas as pd
df = pd.read_csv('data.csv')
d = dtale.show(df)
d.open_browser()

上述代碼的輸出如下所示:圖片它提供許多選項(xiàng),,例如對(duì)數(shù)據(jù)進(jìn)行排序,、描述數(shù)據(jù)集、列分析等等,,也可以自行查看此功能,。圖片如果單擊'Describe',則會(huì)顯示所選列的統(tǒng)計(jì)分析,,例如平均值,、中位數(shù)、最大值,、最小值方差,、標(biāo)準(zhǔn)差、四分位數(shù)等等,。圖片也可以自行嘗試其他功能,,例如列分析、格式,、過(guò)濾器,。圖片如何相互關(guān)聯(lián)呢?圖片圖表 - 建立自定義圖表,,如折線圖,、條形圖、餅圖,、堆疊圖,、散點(diǎn)圖、地質(zhì)圖等,。圖片這個(gè)工具非常方便,,與使用傳統(tǒng)的機(jī)器學(xué)習(xí)庫(kù)(如 pandas、matplotlib 等)相比,,它探索性數(shù)據(jù)分析更快,。

2、Pandas Profiling

圖片它是一個(gè)用 python 編寫(xiě)的開(kāi)源庫(kù),,生成交互式 HTML 報(bào)告并描述數(shù)據(jù)集的各個(gè)方面,。關(guān)鍵功能包括處理缺失值、數(shù)據(jù)集的統(tǒng)計(jì)數(shù)據(jù)(如平均值,、眾數(shù),、中位數(shù)、偏度,、標(biāo)準(zhǔn)差等),,以及直方圖和相關(guān)性等圖表。

安裝

pip install pandas-profiling

讓我們深入研究使用這個(gè)庫(kù)的探索性數(shù)據(jù)分析。使用示例數(shù)據(jù)集從 pandas 分析開(kāi)始:

#importing required packages
import pandas as pd
import pandas_profiling
import numpy as np

#importing the data
df = pd.read_csv('sample.csv')

#descriptive statistics
pandas_profiling.ProfileReport(df)

下面是上述代碼輸出圖片

這是一個(gè)數(shù)據(jù)分析報(bào)告,,它返回?cái)?shù)據(jù)集中的變量數(shù)量,、行數(shù)、數(shù)據(jù)集中缺失的單元格,、缺失單元格的百分比,、重復(fù)行的數(shù)量和百分比。缺失和重復(fù)的單元格數(shù)據(jù)對(duì)于我們的分析非常重要,,因?yàn)樗枋隽藬?shù)據(jù)集的更廣泛情況,。該報(bào)告還顯示內(nèi)存的總大小。

變量部分顯示特定列的分析,。例如對(duì)于分類變量,,將出現(xiàn)以下輸出圖片圖片它提供對(duì)數(shù)值變量的深入分析,例如分位數(shù),、均值,、中位數(shù)和、方差,、單調(diào)性,、范圍、峰度,、四分位間距等等,。

描述變量如何相互關(guān)聯(lián),這些數(shù)據(jù)對(duì)于數(shù)據(jù)科學(xué)家來(lái)說(shuō)是非常必要的,。圖片

3,、Sweetviz

Sweetviz 是一個(gè)開(kāi)源的 Python 庫(kù),,用于獲得可視化效果,,只需幾行代碼即可用于探索性數(shù)據(jù)分析。該庫(kù)可用于可視化變量和比較數(shù)據(jù)集,。圖片

安裝

pip install sweetviz

讓我們深入研究使用這個(gè)庫(kù)的探索性數(shù)據(jù)分析,,使用示例數(shù)據(jù)集開(kāi)始

import sweetviz
import pandas as pd
df = pd.read_csv('sample.csv')
my_report  = sweetviz.analyze([df,'Train'], target_feat='SalePrice')
my_report.show_html('FinalReport.html')
圖片
4、Autoviz

Autoviz 代表自動(dòng)可視化,,只需幾行代碼,,就可以使用任意大小的數(shù)據(jù)集進(jìn)行可視化。圖片安裝

pip install autoviz

可視化

from autoviz.AutoViz_Class import AutoViz_Class
AV = AutoViz_Class()
df = AV.AutoViz('sample.csv')

圖片圖片圖片

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購(gòu)買等信息,,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào),。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多