你愿意花十分鐘系統(tǒng)了解數(shù)據(jù)分析方法嗎,?本系列文章將從數(shù)據(jù)特征的分布分析,、對比分析、統(tǒng)計(jì)分析,、貢獻(xiàn)度分析(帕累托分析),、和特征的相關(guān)性分析來識別數(shù)據(jù)集整體上的一些重要性質(zhì)。
通常在拿到一份數(shù)據(jù)進(jìn)行相關(guān)的模型訓(xùn)練之前,,我們需要進(jìn)行數(shù)據(jù)清洗以便得到干凈的數(shù)據(jù),。進(jìn)一步需要找到與問題有關(guān)的特征信息,并把這些特征轉(zhuǎn)換成特征矩陣的數(shù)值,,這也就是機(jī)器學(xué)習(xí)實(shí)踐中的重要步驟之一,,特征工程。本系列文章將從數(shù)據(jù)特征的分布分析,、對比分析,、統(tǒng)計(jì)分析、貢獻(xiàn)度分析(帕累托分析),、和特征的相關(guān)性分析來識別數(shù)據(jù)集整體上的一些重要性質(zhì),。 本文目錄
01、分布分析 理論介紹:分布分析是用來解釋數(shù)據(jù)的分布類型和分布特征,,顯示其分布情況,。所以可以對一開始拿到數(shù)據(jù)可以首先進(jìn)行初步的分布分析。分布分析主要分成兩種:
對定量數(shù)據(jù)的分布分析按照如下步驟進(jìn)行:
對定性的數(shù)據(jù)分布分析:
Python分析結(jié)果:
參考房價(jià)定量分析 1.首先利用pandas讀取數(shù)據(jù)并取前五條數(shù)據(jù)得到如下信息,。 2.求參考總價(jià)的分組區(qū)間并在原始數(shù)據(jù)中添加一個新的字段“參考總價(jià)分組區(qū)間”,。 3.計(jì)算每段參考總價(jià)的區(qū)間的頻數(shù),、頻率并繪制直方圖,。 房屋朝向定性分析 對不同房屋朝向占比可繪制一個餅圖,。 02,、對比分析 理論介紹:對比分析是指把兩個相互聯(lián)系的指標(biāo)進(jìn)行比較,從數(shù)量上展示和說明研究對象規(guī)模的大小,、水平的高低,、速度的快慢,以及各種關(guān)系是否協(xié)調(diào),。特別適用于指標(biāo)間的橫縱向比較,、時間序列的比較分析。在對比分析中,,選擇合適的對比標(biāo)準(zhǔn)是十分關(guān)鍵的步驟,,選擇合適,才能做出客觀的評價(jià),,選擇不合適,,評價(jià)可能得出錯誤的結(jié)論。 對比分析主要分為以下兩種形式: 絕對數(shù)比較 利用這組指標(biāo)絕對數(shù)進(jìn)行對比,,從而尋找差異的一種方法,。 相對數(shù)比較 它是由兩個有聯(lián)系的指標(biāo)對比計(jì)算的,用以反映客觀現(xiàn)象之間數(shù)量聯(lián)系程度的綜合指標(biāo),,其數(shù)值表現(xiàn)為相對數(shù)。由于研究目的和對比基礎(chǔ)不用,,相對數(shù)可以分為以下幾種:結(jié)構(gòu)相對數(shù),、比例相對數(shù)、動態(tài)相對數(shù)和空間相對數(shù) Python分析結(jié)果: 絕對數(shù)比較案例:比如現(xiàn)在有某公司的A、B產(chǎn)品某月銷量數(shù)據(jù),,這里我們可以對A,、B產(chǎn)品的銷量做絕對數(shù)對比。 相對數(shù)比較案例: 結(jié)構(gòu)相對數(shù):在分組基礎(chǔ)上,各組總量指標(biāo)與總體的總量指標(biāo)對比,,計(jì)算出各組數(shù)量在總量中所占比重,。例如,30天內(nèi)A,、B產(chǎn)品的日銷售額,,由于 A、B產(chǎn)品銷售額量級不同,,計(jì)算出A,、B產(chǎn)品每日銷售額占該月各自總銷售額對比。 比例相對數(shù):比例相對數(shù) = 總體中某一部分?jǐn)?shù)值 / 總體中另一部分?jǐn)?shù)值 。如 “基本建設(shè)投資額中工業(yè),、農(nóng)業(yè),、教育投資的比例”、“男女比例” 空間相對數(shù)(橫向):比如說同樣的2017年北京和深圳膜拜單車使用量,,空間是比較抽象的更多的是在時間相同的情況下,,不同的元素的比較 。 動態(tài)相對數(shù)(縱向):將同一現(xiàn)象在不同時期的指標(biāo)數(shù)值對比,用以說明發(fā)展方向和變化的速度,,如發(fā)展速度,、增長速度等。例如求A產(chǎn)品的某月的定基增長速度額環(huán)比增長速度 03、統(tǒng)計(jì)分析
Python結(jié)果分析: 對某一組數(shù)據(jù)分析其集中趨勢結(jié)果: 對某一組數(shù)據(jù)分析其離中趨勢結(jié)果:
04,、帕累托分析 理論介紹:帕累托分析又叫貢獻(xiàn)度分析,原理是20/80定律,,即80%的利潤常常來自于20%的產(chǎn)品,。一般來說投入產(chǎn)出,努力和報(bào)酬之間并不是絕對的線性關(guān)系,,總有一些關(guān)鍵因素起著至關(guān)重要的作用,,而帕累托分析就是找到影響事務(wù)的關(guān)鍵因素,分清主次,。 Python代碼結(jié)果分析: 例如現(xiàn)在你有一份餐廳的不同菜品的盈利數(shù)據(jù),,你想找到哪些菜對該菜廳的盈利貢獻(xiàn)最大??砂凑杖缦虏襟E來實(shí)現(xiàn)貢獻(xiàn)度分析:
05,、相關(guān)性分析 理論介紹:相關(guān)性分析是研究兩個或兩個以上處于同等地位的隨機(jī)變量間的相關(guān)關(guān)系的統(tǒng)計(jì)分析方法,。例如,人的身高和體重之間;空氣中的相對濕度與降雨量之間的相關(guān)關(guān)系都是相關(guān)分析研究的問題,。相關(guān)分析與回歸分析之間的區(qū)別:回歸分析側(cè)重于研究隨機(jī)變量間的依賴關(guān)系,,以便用一個變量去預(yù)測另一個變量;相關(guān)分析側(cè)重于發(fā)現(xiàn)隨機(jī)變量間的種種相關(guān)特性??捎孟嚓P(guān)系數(shù)r來衡量兩個特征之間的相關(guān)性,。 相關(guān)系數(shù)r的解讀:
關(guān)于相關(guān)系數(shù)的計(jì)算有三種:
注意點(diǎn):皮爾遜相關(guān)系數(shù)的計(jì)算是數(shù)據(jù)分布為正太分布,所以計(jì)算之前要先進(jìn)行正態(tài)性檢驗(yàn),。對于不服從正太分布變量的關(guān)聯(lián)性可用斯皮爾曼相關(guān)系數(shù)來計(jì)算,,也叫等級相關(guān)系數(shù)。 Python結(jié)果分析: 首先對數(shù)據(jù)進(jìn)行正太性檢驗(yàn),,利用scipy里面集成好的K-S檢驗(yàn)方法,。 2. 利用pandas里面集成好的相關(guān)系數(shù)計(jì)算方法,。 總結(jié):本文對數(shù)據(jù)特征的一些常用分析方法進(jìn)行了系統(tǒng)介紹,,并利用Python里面的科學(xué)計(jì)算庫Numpy、Pandas,、Scipy,、Matplotlib實(shí)現(xiàn)了每一種分析方法的分析結(jié)果,并且將結(jié)果圖形化顯示出來,。 |
|