久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

你愿意花十分鐘系統(tǒng)了解數(shù)據(jù)分析方法嗎?

 yxrsky 2019-02-15

你愿意花十分鐘系統(tǒng)了解數(shù)據(jù)分析方法嗎,?

本系列文章將從數(shù)據(jù)特征的分布分析,、對比分析、統(tǒng)計(jì)分析,、貢獻(xiàn)度分析(帕累托分析),、和特征的相關(guān)性分析來識別數(shù)據(jù)集整體上的一些重要性質(zhì)。

作者:艾德寶器來源:數(shù)據(jù)分析成長手冊

通常在拿到一份數(shù)據(jù)進(jìn)行相關(guān)的模型訓(xùn)練之前,,我們需要進(jìn)行數(shù)據(jù)清洗以便得到干凈的數(shù)據(jù),。進(jìn)一步需要找到與問題有關(guān)的特征信息,并把這些特征轉(zhuǎn)換成特征矩陣的數(shù)值,,這也就是機(jī)器學(xué)習(xí)實(shí)踐中的重要步驟之一,,特征工程。本系列文章將從數(shù)據(jù)特征的分布分析,、對比分析,、統(tǒng)計(jì)分析、貢獻(xiàn)度分析(帕累托分析),、和特征的相關(guān)性分析來識別數(shù)據(jù)集整體上的一些重要性質(zhì),。

本文目錄

  1. 特征分布分析
  2. 特征對比分析
  3. 特征統(tǒng)計(jì)分析
  4. 特征貢獻(xiàn)度分析
  5. 特征相關(guān)性分析

01、分布分析

理論介紹:分布分析是用來解釋數(shù)據(jù)的分布類型和分布特征,,顯示其分布情況,。所以可以對一開始拿到數(shù)據(jù)可以首先進(jìn)行初步的分布分析。分布分析主要分成兩種:

  • ①對定量的數(shù)據(jù)進(jìn)行分布分析
  • ②對定性的數(shù)據(jù)進(jìn)行分布分析,。

對定量數(shù)據(jù)的分布分析按照如下步驟進(jìn)行:

  1. 求極差
  2. 決定組距與組數(shù)
  3. 決定分點(diǎn)
  4. 繪制頻率分布圖

對定性的數(shù)據(jù)分布分析:

  • 根據(jù)變量的分類類型來確定分組,,然后使用圖形對信息進(jìn)行顯示。

Python分析結(jié)果:

  • 比如現(xiàn)在你爬取到某地區(qū)的二手房信息數(shù)據(jù),針對這一批數(shù)據(jù)的房價(jià)你要做一次定量分布分析,,以及對不同房子的朝向做一個定性的分布分析,,以便初步的了解房子的一些特征分布。

參考房價(jià)定量分析

1.首先利用pandas讀取數(shù)據(jù)并取前五條數(shù)據(jù)得到如下信息,。

你愿意花十分鐘系統(tǒng)了解數(shù)據(jù)分析方法嗎?

2.求參考總價(jià)的分組區(qū)間并在原始數(shù)據(jù)中添加一個新的字段“參考總價(jià)分組區(qū)間”,。

你愿意花十分鐘系統(tǒng)了解數(shù)據(jù)分析方法嗎?

3.計(jì)算每段參考總價(jià)的區(qū)間的頻數(shù),、頻率并繪制直方圖,。

你愿意花十分鐘系統(tǒng)了解數(shù)據(jù)分析方法嗎,?

房屋朝向定性分析

對不同房屋朝向占比可繪制一個餅圖,。

你愿意花十分鐘系統(tǒng)了解數(shù)據(jù)分析方法嗎,?

02,、對比分析

理論介紹:對比分析是指把兩個相互聯(lián)系的指標(biāo)進(jìn)行比較,從數(shù)量上展示和說明研究對象規(guī)模的大小,、水平的高低,、速度的快慢,以及各種關(guān)系是否協(xié)調(diào),。特別適用于指標(biāo)間的橫縱向比較,、時間序列的比較分析。在對比分析中,,選擇合適的對比標(biāo)準(zhǔn)是十分關(guān)鍵的步驟,,選擇合適,才能做出客觀的評價(jià),,選擇不合適,,評價(jià)可能得出錯誤的結(jié)論。

對比分析主要分為以下兩種形式:

絕對數(shù)比較

利用這組指標(biāo)絕對數(shù)進(jìn)行對比,,從而尋找差異的一種方法,。

相對數(shù)比較

它是由兩個有聯(lián)系的指標(biāo)對比計(jì)算的,用以反映客觀現(xiàn)象之間數(shù)量聯(lián)系程度的綜合指標(biāo),,其數(shù)值表現(xiàn)為相對數(shù)。由于研究目的和對比基礎(chǔ)不用,,相對數(shù)可以分為以下幾種:結(jié)構(gòu)相對數(shù),、比例相對數(shù)、動態(tài)相對數(shù)和空間相對數(shù)

Python分析結(jié)果:

絕對數(shù)比較案例:比如現(xiàn)在有某公司的A、B產(chǎn)品某月銷量數(shù)據(jù),,這里我們可以對A,、B產(chǎn)品的銷量做絕對數(shù)對比。

你愿意花十分鐘系統(tǒng)了解數(shù)據(jù)分析方法嗎,?

相對數(shù)比較案例:

結(jié)構(gòu)相對數(shù):在分組基礎(chǔ)上,各組總量指標(biāo)與總體的總量指標(biāo)對比,,計(jì)算出各組數(shù)量在總量中所占比重,。例如,30天內(nèi)A,、B產(chǎn)品的日銷售額,,由于 A、B產(chǎn)品銷售額量級不同,,計(jì)算出A,、B產(chǎn)品每日銷售額占該月各自總銷售額對比。

你愿意花十分鐘系統(tǒng)了解數(shù)據(jù)分析方法嗎,?

比例相對數(shù):比例相對數(shù) = 總體中某一部分?jǐn)?shù)值 / 總體中另一部分?jǐn)?shù)值 。如 “基本建設(shè)投資額中工業(yè),、農(nóng)業(yè),、教育投資的比例”、“男女比例”

空間相對數(shù)(橫向):比如說同樣的2017年北京和深圳膜拜單車使用量,,空間是比較抽象的更多的是在時間相同的情況下,,不同的元素的比較 。

你愿意花十分鐘系統(tǒng)了解數(shù)據(jù)分析方法嗎,?

動態(tài)相對數(shù)(縱向):將同一現(xiàn)象在不同時期的指標(biāo)數(shù)值對比,用以說明發(fā)展方向和變化的速度,,如發(fā)展速度,、增長速度等。例如求A產(chǎn)品的某月的定基增長速度額環(huán)比增長速度

你愿意花十分鐘系統(tǒng)了解數(shù)據(jù)分析方法嗎,?

03、統(tǒng)計(jì)分析

  1. 理論介紹:對一組數(shù)據(jù)用統(tǒng)計(jì)指標(biāo)定量的分析數(shù)據(jù),,一般從集中趨勢和離中趨勢兩個方面來衡量數(shù)據(jù),。
  2. 數(shù)據(jù)的集中趨勢:指一組數(shù)據(jù)向某一中心靠攏的傾向,核心在于尋找數(shù)據(jù)的代表值或中心值 ,,所以需要找到數(shù)據(jù)的統(tǒng)計(jì)平均數(shù)來衡量,。統(tǒng)計(jì)平均數(shù)可分為,,①算術(shù)平均數(shù)、加權(quán)算術(shù)平均數(shù)②位置平均數(shù),。
  3. 數(shù)據(jù)的離中趨勢:指一組數(shù)據(jù)中各數(shù)據(jù)以不同程度的距離偏離中心的趨勢,,可用極差與分位差、方差與標(biāo)準(zhǔn)差,、離散系數(shù) 等衡量,。

Python結(jié)果分析:

對某一組數(shù)據(jù)分析其集中趨勢結(jié)果:

你愿意花十分鐘系統(tǒng)了解數(shù)據(jù)分析方法嗎,?

對某一組數(shù)據(jù)分析其離中趨勢結(jié)果:

  • 你要比較A,、B數(shù)據(jù)的分散程度,可求得其分位差和其他指標(biāo),。你可以繪制箱型圖對比,。 

你愿意花十分鐘系統(tǒng)了解數(shù)據(jù)分析方法嗎,?

04,、帕累托分析

理論介紹:帕累托分析又叫貢獻(xiàn)度分析,原理是20/80定律,,即80%的利潤常常來自于20%的產(chǎn)品,。一般來說投入產(chǎn)出,努力和報(bào)酬之間并不是絕對的線性關(guān)系,,總有一些關(guān)鍵因素起著至關(guān)重要的作用,,而帕累托分析就是找到影響事務(wù)的關(guān)鍵因素,分清主次,。

Python代碼結(jié)果分析:

例如現(xiàn)在你有一份餐廳的不同菜品的盈利數(shù)據(jù),,你想找到哪些菜對該菜廳的盈利貢獻(xiàn)最大??砂凑杖缦虏襟E來實(shí)現(xiàn)貢獻(xiàn)度分析:

  • 對不同菜品按盈利額排序
  • 計(jì)算累積占比
  • 找到累積占比85%的菜品,,并找到其對應(yīng)的索引位置。
  • 繪制盈利圖并標(biāo)記核心位置,。 

你愿意花十分鐘系統(tǒng)了解數(shù)據(jù)分析方法嗎?

05,、相關(guān)性分析

理論介紹:相關(guān)性分析是研究兩個或兩個以上處于同等地位的隨機(jī)變量間的相關(guān)關(guān)系的統(tǒng)計(jì)分析方法,。例如,人的身高和體重之間;空氣中的相對濕度與降雨量之間的相關(guān)關(guān)系都是相關(guān)分析研究的問題,。相關(guān)分析與回歸分析之間的區(qū)別:回歸分析側(cè)重于研究隨機(jī)變量間的依賴關(guān)系,,以便用一個變量去預(yù)測另一個變量;相關(guān)分析側(cè)重于發(fā)現(xiàn)隨機(jī)變量間的種種相關(guān)特性??捎孟嚓P(guān)系數(shù)r來衡量兩個特征之間的相關(guān)性,。

相關(guān)系數(shù)r的解讀:

  • 正相關(guān):如果x,y變化的方向一致,,如登陸次數(shù)和商機(jī)用戶的關(guān)系,,r>0;一般地,, |r|>0.95 存在顯著性相關(guān)|r|≥0.8 高度相關(guān);0.5≤|r|<0.8 中度相關(guān)0.3≤|r|<0.5 低度相關(guān);|r|<0.3 關(guān)系極弱,認(rèn)為不相關(guān),。
  • 負(fù)相關(guān):如果x,y變化的方向相反,,如吸煙與肺功能的關(guān)系,r<0
  • 無線性相關(guān):r=0,。

關(guān)于相關(guān)系數(shù)的計(jì)算有三種:

  • ①Pearson相關(guān)系數(shù)
  • ②Spearman秩相關(guān)系數(shù)
  • ③Kendall相關(guān)系數(shù),。

注意點(diǎn):皮爾遜相關(guān)系數(shù)的計(jì)算是數(shù)據(jù)分布為正太分布,所以計(jì)算之前要先進(jìn)行正態(tài)性檢驗(yàn),。對于不服從正太分布變量的關(guān)聯(lián)性可用斯皮爾曼相關(guān)系數(shù)來計(jì)算,,也叫等級相關(guān)系數(shù)。

Python結(jié)果分析:

首先對數(shù)據(jù)進(jìn)行正太性檢驗(yàn),,利用scipy里面集成好的K-S檢驗(yàn)方法,。

你愿意花十分鐘系統(tǒng)了解數(shù)據(jù)分析方法嗎,?

2. 利用pandas里面集成好的相關(guān)系數(shù)計(jì)算方法,。

你愿意花十分鐘系統(tǒng)了解數(shù)據(jù)分析方法嗎,?

總結(jié):本文對數(shù)據(jù)特征的一些常用分析方法進(jìn)行了系統(tǒng)介紹,,并利用Python里面的科學(xué)計(jì)算庫Numpy、Pandas,、Scipy,、Matplotlib實(shí)現(xiàn)了每一種分析方法的分析結(jié)果,并且將結(jié)果圖形化顯示出來,。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn),。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多