讓我們的腦海里浮現(xiàn)這么一幅畫(huà)面: 經(jīng)過(guò)一番艱(bu)苦(kan)卓(hui)絕(shou)的努力—— 也許是焚膏繼晷與小白鼠的斗智斗勇,, 也許是分子實(shí)驗(yàn)室里寂寞的離心和電泳,, 也許是對(duì)病人的軟磨硬泡, 也許是病例故紙堆里的上下求索—— 反正莫問(wèn)出處吧,,現(xiàn)在你的數(shù)據(jù)已經(jīng)收集完畢,,乖乖地呆在電腦硬盤(pán)的一個(gè)Excel文件里了,那么,, 請(qǐng)問(wèn)你接下來(lái)要做什么呢,? 也許你正覺(jué)得自己像個(gè)躊躇滿志的統(tǒng)帥,手下那可是一眾精兵強(qiáng)將,,比如說(shuō)什么t檢驗(yàn)將軍啦,、線性回歸元帥啦,營(yíng)帳里還坐著互相有點(diǎn)不太待見(jiàn),、但都身懷絕技的費(fèi)希爾和貝葉斯兩位軍師(戳這里回顧上一集《貝葉斯vs頻率派:武功到底哪家強(qiáng),?》),個(gè)個(gè)磨刀霍霍,,就只等著你大手一揮,,一擁而上把你的Science文章手到擒來(lái)? 這時(shí)請(qǐng)容我在你耳邊幽幽地說(shuō)一句: 且慢且慢,。 孫子有云:“知己知彼,,百戰(zhàn)不殆?!痹诖髴?zhàn)三百回合之前,,千萬(wàn)別忘了先打量打量你的數(shù)據(jù)到底長(zhǎng)什么樣子??刹灰】催@似乎沒(méi)啥技術(shù)含量的一步,,要是缺了它,,十次里有九次咱們可是要陰溝翻船的。今天我們就來(lái)聊一聊為什么需要它,,以及具體有哪些需要關(guān)注的地方,。 在正式地對(duì)數(shù)據(jù)進(jìn)行嚴(yán)格的統(tǒng)計(jì)學(xué)檢驗(yàn)之前,獲取和檢查數(shù)據(jù)基本信息的步驟,,統(tǒng)稱為“探索性數(shù)據(jù)分析”(exploratory data analysis),,也有人把它叫做“預(yù)處理”(pre-processing)。 這里的“探索性”,,意思是說(shuō),,此時(shí)的分析并不是為了驗(yàn)證某個(gè)特定的假說(shuō)或者擬合具體的模型,而是要對(duì)數(shù)據(jù)的總體情況有一個(gè)基本的了解,。 為什么說(shuō)探索性數(shù)據(jù)分析是必不可少的呢,? 它主要可以實(shí)現(xiàn)下面幾個(gè)目標(biāo): 一、發(fā)現(xiàn)數(shù)據(jù)中可能存在的錯(cuò)誤和遺漏,。大家都知道,,數(shù)據(jù)的收集和整理是一件繁雜的工作,有時(shí)這個(gè)過(guò)程可能耗時(shí)很長(zhǎng),,又或者是團(tuán)隊(duì)合作的結(jié)果,。在這樣的情況下,出現(xiàn)各種各樣的錯(cuò)誤,、紕漏在所難免,。我們除了在數(shù)據(jù)收集過(guò)程中要采取預(yù)防措施、盡量減少錯(cuò)誤以外,,還需要通過(guò)探索性數(shù)據(jù)分析進(jìn)行最后的把關(guān),。 二、掌握數(shù)據(jù)的基本情況,,獲得進(jìn)一步分析的靈感,。通過(guò)探索性數(shù)據(jù)分析,我們可以初步了解數(shù)據(jù)的面貌,,比如取值范圍,、中值、分散程度等,。這些信息還可以提示我們數(shù)據(jù)中也許存在的關(guān)聯(lián),,讓我們發(fā)現(xiàn)也許之前未曾考慮過(guò)的有趣的現(xiàn)象,指引我們形成具體的科學(xué)假設(shè),。 三,、檢查我們想要執(zhí)行的統(tǒng)計(jì)檢驗(yàn)的假設(shè)是否成立,。許多統(tǒng)計(jì)檢驗(yàn)對(duì)數(shù)據(jù)本身有一定的要求(尤其是它們的分布形態(tài)),,只有當(dāng)我們的數(shù)據(jù)滿足這些假設(shè)時(shí),,統(tǒng)計(jì)檢驗(yàn)的結(jié)果才有意義。探索性數(shù)據(jù)分析可以幫助我們做出初步的判斷,,排除不適用的統(tǒng)計(jì)檢驗(yàn),。 ? 上面說(shuō)了探索性數(shù)據(jù)分析的重要性,我知道你也許還有些云里霧里,。別著急,,我們馬上就會(huì)講到探索性數(shù)據(jù)分析的具體方法,到那時(shí)我們就能更清楚地了解其作用了,。 不過(guò),,我們需要先講一講數(shù)據(jù)可以分為哪些類型,因?yàn)?strong>不同類型的數(shù)據(jù)需要用到不同的探索性分析方法,。 最簡(jiǎn)單,、但又最重要的數(shù)據(jù)類型有兩種,離散型數(shù)據(jù)(discrete data)和連續(xù)型數(shù)據(jù)(continuous data),。 離散型數(shù)據(jù)本質(zhì)上是一種分類,。最典型的例子,就是性別,、種族,、職業(yè)、教育程度等,。在多數(shù)情況下,,離散型數(shù)據(jù)并沒(méi)有具體的數(shù)值(比如性別中的男和女),或者雖然形式上由數(shù)值表示,,但數(shù)值本身并沒(méi)有明確的意義(比如用郵政編碼來(lái)記錄受試者居住的地域),。 你也許會(huì)意識(shí)到,對(duì)于有些離散變量來(lái)說(shuō),,不同的分類是有某種順序關(guān)系的,,比如說(shuō)教育程度可以從低到高排列,而有些離散變量并沒(méi)有這種順序,,比如說(shuō)某個(gè)基因的基因型,。這兩種情況分別稱為有序變量(ordinal variable)和名義變量(nominal variable)。 那么連續(xù)型數(shù)據(jù)呢,?顧名思義,,連續(xù)型數(shù)據(jù)的數(shù)值有具體的科學(xué)意義,并且可以在數(shù)軸上的某個(gè)范圍連續(xù)取值,。如果不受測(cè)量精度的限制,,它在理論上可能的取值是無(wú)限多的。比如身高、體重,、血糖濃度,、腎小球?yàn)V過(guò)率等。有些數(shù)據(jù)理論上并沒(méi)有無(wú)限多的取值(比如人口只能取整數(shù),,商品的價(jià)格最高的精度只能是最小幣值),,嚴(yán)格來(lái)說(shuō)應(yīng)該是有序離散變量,但由于它們可能的取值足夠繁多,,因此在實(shí)際處理時(shí)當(dāng)成連續(xù)型數(shù)據(jù)更加方便,。 要對(duì)離散型數(shù)據(jù)進(jìn)行探索性分析,最簡(jiǎn)單,、最有效的方法是算出一個(gè)包含所有情況的頻數(shù)(或頻率)表,。 用性別來(lái)做一個(gè)最簡(jiǎn)單的例子,我們可以用軟件很容易地算出數(shù)據(jù)中“性別”這個(gè)變量的所有不同情況的數(shù)量以及百分比,。這能夠給我們提供哪些信息,? 首先,我們可以很快了解數(shù)據(jù)中男女性的比例,,還可以看到是否有異常的數(shù)據(jù)點(diǎn)出現(xiàn),。假設(shè)我們都用中文“男”“女”來(lái)標(biāo)注受試者的性別,那么性別變量應(yīng)該只有這兩種情況,。如果我們不清楚部分受試者的性別,,則還會(huì)有第三種情況。但是,,如果你在頻數(shù)表中發(fā)現(xiàn)了還有一個(gè)類別“M”,,那么很可能是在錄入個(gè)別受試者的數(shù)據(jù)時(shí)不小心打了英文。 其次,,如果我們的研究中需要對(duì)男女性受試者進(jìn)行比較,,根據(jù)頻數(shù)的信息,我們還可以考慮當(dāng)前數(shù)據(jù)是否能夠滿足我們的需要(男,、女性的數(shù)量是否都足夠多,,兩者數(shù)量比例如何等)。 如果你自認(rèn)為是一個(gè)視覺(jué)動(dòng)物,,也可以選擇繪制餅狀圖(pie chart,,如下圖),它展示的信息與頻數(shù)(頻率)表是完全相同的,。 相比起離散型數(shù)據(jù),,連續(xù)型數(shù)據(jù)往往能提供更多的信息,因此探索性數(shù)據(jù)分析的內(nèi)容和方法也更復(fù)雜一些,。對(duì)于一個(gè)連續(xù)性變量,,每一個(gè)數(shù)據(jù)點(diǎn)可能都有不同的取值。在這些紛繁復(fù)雜之中,我們首先想知道的自然是大勢(shì)所趨——我們感興趣的整個(gè)群體平均而言是多大一個(gè)數(shù),?用高大上的統(tǒng)計(jì)學(xué)術(shù)語(yǔ)來(lái)說(shuō),,這叫做集中趨勢(shì)(central tendency)。 不必被術(shù)語(yǔ)嚇到,,回想一下初中甚至小學(xué)時(shí)學(xué)過(guò)的最初級(jí)的統(tǒng)計(jì)學(xué)知識(shí),其實(shí)不就是平均數(shù)(mean)嘛,! 不錯(cuò),,算術(shù)平均數(shù)(arithmatic mean)是對(duì)集中趨勢(shì)的最常用的描述。但是,,別忘了平均數(shù)還有一個(gè)兄弟,,叫做中位數(shù)(median)。中位數(shù)的計(jì)算,,是把該變量所有取值從小到大(或從大到?。┡判颍∽钪虚g的一個(gè)(例如總共有21個(gè)數(shù),,則取排行第11的),。如果樣本量是偶數(shù),則取中間兩個(gè)數(shù)的平均,。換句話說(shuō),,在數(shù)據(jù)集里,恰好有一半的數(shù)據(jù)點(diǎn)比中位數(shù)大,,而另一半的數(shù)據(jù)點(diǎn)比它小,。 許多人都會(huì)對(duì)中位數(shù)有些嫌棄,因?yàn)樗幌袼阈g(shù)平均數(shù)那樣有一個(gè)固定又簡(jiǎn)單的式子,。為什么我們還需要它,?相比起算術(shù)平均數(shù),中位數(shù)有一個(gè)突出的優(yōu)點(diǎn):根據(jù)它的定義,,它就是所有數(shù)據(jù)點(diǎn)里最中不溜秋的一個(gè),,所以它有一種穩(wěn)如泰山的性格(統(tǒng)計(jì)學(xué)中稱為穩(wěn)健性,robustness),。 比如說(shuō),,如果有人算了算現(xiàn)任上海籍全國(guó)政協(xié)委員的身高平均值,很可能會(huì)得到一個(gè)比一般人的身高要大的一個(gè)數(shù),。難道長(zhǎng)得高更容易當(dāng)選全國(guó)政協(xié)委員,?不是。這個(gè)平均值只是個(gè)假象,,因?yàn)槿珖?guó)政協(xié)委員里面的上海人里有個(gè)姚明,。在存在極端值的情況下,中位數(shù)比算術(shù)平均值更能反映樣本的普遍水平,因?yàn)樗阈g(shù)平均值很容易受到極端值的影響,,而中位數(shù)則不然,。 與此類似的是,如果我們感興趣的變量分布不對(duì)稱時(shí),,中位數(shù)和算術(shù)平均數(shù)也會(huì)有比較大的差別,。最經(jīng)典的例子是個(gè)人收入,這個(gè)數(shù)字是有下限的(零),,然而卻是上不封頂(幾天前的那個(gè)晚上廣大剁手黨又給馬云同志做了多少貢獻(xiàn),?),所以算術(shù)平均往往會(huì)被最大的那一小撮數(shù)據(jù)點(diǎn)拉高,。因此,,我們?nèi)绻霃娜司杖肜锿茢嘁粋€(gè)國(guó)家或地區(qū)普通居民的經(jīng)濟(jì)情況,可能就不太準(zhǔn)確了,。這個(gè)時(shí)候該找誰(shuí),?不錯(cuò),就是中位數(shù),! 集中趨勢(shì)只是數(shù)據(jù)中所蘊(yùn)含信息的一個(gè)部分,,要得到進(jìn)一步的知識(shí)我們還需要知道數(shù)據(jù)的波動(dòng)或發(fā)散程度,也稱為展布(spread),。 我們?yōu)槭裁匆P(guān)心數(shù)據(jù)的波動(dòng)程度呢,?集中趨勢(shì)能讓我們靠近表面以下的本質(zhì)規(guī)律,但是展布卻告訴我們這一本質(zhì)表現(xiàn)得有多穩(wěn)定,。設(shè)想一下,,兩個(gè)程度相當(dāng)?shù)膶W(xué)生,一個(gè)四平八穩(wěn),,另一個(gè)則是一把神經(jīng)刀,,一會(huì)兒超常發(fā)揮一會(huì)兒大跌眼鏡,他們倆進(jìn)高考考場(chǎng)時(shí)的心態(tài)必然不一樣吧,? 展布有幾種常見(jiàn)的表示方式,。其一是樣本方差(variance),它的公式是 也就是說(shuō),,取每個(gè)數(shù)據(jù)點(diǎn)與平均值之差的平方(可以將其視為各數(shù)據(jù)點(diǎn)到平均值的“距離”),,并把它們都加起來(lái)然后除以n-1。 這個(gè)定義并不難理解,,無(wú)非只是把各個(gè)數(shù)據(jù)點(diǎn)與中心的偏離程度匯總起來(lái)而已,。至于為什么除的是n-1而不是n,涉及到稍微復(fù)雜一些的理論,,我們暫時(shí)先不深究,。由于平方的存在,,方差的量綱也帶上了平方(例如血壓的方差的單位就成了毫米平方汞柱)。為了讓量綱和原來(lái)的數(shù)據(jù)一致,,我們可以給樣本方差開(kāi)個(gè)根號(hào),,這也就是大家常見(jiàn)的標(biāo)準(zhǔn)差(standard deviation)了。 聰明的你一定會(huì)想到,,方差和標(biāo)準(zhǔn)差都有和算術(shù)平均數(shù)一樣的毛病,,就是容易被極端值帶跑。那么有沒(méi)有像中位數(shù)那樣的穩(wěn)健的表示展布的量呢,?沿用尋找中位數(shù)的思路,,我們把所有數(shù)據(jù)點(diǎn)從小到大排列,并且分成樣本量相等的四塊,。那么,,這四塊之間就會(huì)產(chǎn)生三個(gè)分界點(diǎn)(稱為四分位點(diǎn),,quartile),,從小到大分別用Q1, Q2, Q3表示(見(jiàn)下表)。 如果我們?nèi)3和Q1之差,,那么這就是四分位差(interquartile range),,也稱為內(nèi)距。由于四分位差不考慮首尾兩端的數(shù)據(jù)點(diǎn),,因此,,它是一個(gè)不容易受極端值干擾的表示展布的統(tǒng)計(jì)量。 上面討論的這些統(tǒng)計(jì)量,,可以很方便地用圖形來(lái)表示,。其中一種選擇是箱線圖(boxplot),它匯集了中位數(shù),、四分位差以及一些其他信息,,能夠使我們對(duì)樣本的分布有一個(gè)直觀的了解,也可以讓我們快速發(fā)現(xiàn)數(shù)據(jù)中可能存在的錯(cuò)誤(例如因?yàn)閿?shù)據(jù)錄入或單位錯(cuò)誤導(dǎo)致的異常值),。 它之所以被稱為箱線圖,,是因?yàn)樗靡粋€(gè)“箱子”來(lái)表示我們的數(shù)據(jù)中最靠中間的一半(即Q1和Q3之間的所有數(shù)據(jù)點(diǎn)),而用箱子上下的兩根“胡須”來(lái)表示數(shù)據(jù)的上下限范圍,。箱線圖的畫(huà)法以及含義見(jiàn)下圖,。 不難看到,箱線圖提供了相當(dāng)豐富的信息,,但仍然不是全部,。比如說(shuō),箱子里那50%的數(shù)據(jù)是怎樣分布的,?我們無(wú)法在箱線圖上得知,。這時(shí),,我們需要請(qǐng)出探索性數(shù)據(jù)分析的最大殺器——頻率直方圖(histogram)。 頻率直方圖是對(duì)樣本數(shù)據(jù)分布狀況的一種可視化的展現(xiàn)方式,。它最初來(lái)源于大家在中學(xué)都聽(tīng)說(shuō)過(guò)的高爾頓釘板(下圖),。 我們可以把我們的每一個(gè)數(shù)據(jù)點(diǎn)想象成一個(gè)從上方以某種規(guī)律落下的小球(當(dāng)然不一定像高爾頓釘板那樣),那么頻率直方圖描繪的就是落到下方不同區(qū)域的球的數(shù)量,。 要畫(huà)出一張頻率直方圖,,首先要將變量的整個(gè)取值范圍劃出若干區(qū)間(通常等距)。比如說(shuō),,我們有一個(gè)樣本,,其中受試者體重的最小值和最大值分別是48公斤到73公斤,如果以5公斤作為組距(bin),,那么我們可以把整個(gè)體重的范圍分成[48,53], [53, 58], [58,63], [63, 68], [68,73]這些區(qū)間,。然后以體重為橫坐標(biāo),受試者的數(shù)量除以組距為縱坐標(biāo)(這樣每個(gè)矩形的面積就是該區(qū)間內(nèi)受試者的數(shù)量),,畫(huà)出受試者在這些區(qū)間中的分布,。 頻率直方圖可以讓我們對(duì)樣本的整體分布一目了然,得到分布形態(tài),、對(duì)稱程度等關(guān)鍵信息(見(jiàn)下圖),。頻率直方圖一個(gè)關(guān)鍵的地方,在于區(qū)間數(shù)量的確定:區(qū)間數(shù)量太少的話,,頻率直方圖過(guò)于粗略,,會(huì)掩蓋真實(shí)的分布;區(qū)間數(shù)量太多,,則變得過(guò)于瑣碎,,不容易看出分布的大趨勢(shì)。區(qū)間數(shù)量多少合適,,取決于樣本量的大小和數(shù)據(jù)的具體分布情況,,在實(shí)際應(yīng)用時(shí)一般都要通過(guò)反復(fù)嘗試才能獲得比較好的選擇。 要注意,,千萬(wàn)不要把頻率直方圖和另一種常見(jiàn)的統(tǒng)計(jì)圖——條形圖(bar plot,,或稱柱狀圖)混為一談。頻率直方圖呈現(xiàn)的是某個(gè)連續(xù)變量的整體分布情況(在不同取值范圍里出現(xiàn)的次數(shù)多少),,而柱狀圖描繪的是不同組別或個(gè)體的某一種用連續(xù)變量來(lái)表示的性質(zhì),。因此,頻率直方圖(下圖右)的橫軸必然是該變量本身,,而且必須覆蓋這個(gè)變量取值的整個(gè)范圍,,矩形的高度表示的是落在對(duì)應(yīng)區(qū)間的數(shù)據(jù)點(diǎn)的個(gè)數(shù)(或個(gè)數(shù)除以區(qū)間寬度);而條形圖(下圖左)的橫軸則是某個(gè)分類(如組別,、個(gè)體,、年份等),,矩形的高度則是這些分類各自的某個(gè)連續(xù)變量的值。 探索性數(shù)據(jù)分析的方法很多,,這里介紹的只是其中最常用,、最重要的一小部分。但是,,萬(wàn)變不離其宗,,不論用哪種方法,我們的目的都是要管中窺豹,,盡可能全面地了解手上數(shù)據(jù)的情況,。千里之行,始于足下,,不管你要做怎樣的數(shù)據(jù)分析,,都別忘了這關(guān)鍵的第一步哦! ? 參考文獻(xiàn):Seltman, H. J. (2012). Experimental design and analysis. Online at: http://www. stat. cmu. edu/, hseltman/309/Book/Book. pdf 回復(fù)「說(shuō)人話的統(tǒng)計(jì)學(xué)」查看本系列全部文章,。 作者:張之昊 編輯:燈盞細(xì)辛 |
|