1,、T檢驗(yàn)和F檢驗(yàn)的由來 一般而言,,為了確定從樣本(sample)統(tǒng)計(jì)結(jié)果推論至總體時(shí)所犯錯(cuò)的概率,我們會利用統(tǒng)計(jì)學(xué)家所開發(fā)的一些統(tǒng)計(jì)方法,,進(jìn)行統(tǒng)計(jì)檢定,。 通過把所得到的統(tǒng)計(jì)檢定值,與統(tǒng)計(jì)學(xué)家建立了一些隨機(jī)變量的概率分布(probability distribution)進(jìn)行比較,,我們可以知道在多少%的機(jī)會下會得到目前的結(jié)果,。倘若經(jīng)比較后發(fā)現(xiàn),出現(xiàn)這結(jié)果的機(jī)率很少,,亦即是說,,是在機(jī)會很少、很罕有的情況下才出現(xiàn),;那我們便可以有信心的說,,這不是巧合,是具有統(tǒng)計(jì)學(xué)上的意義的(用統(tǒng)計(jì)學(xué)的話講,,就是能夠拒絕虛無假設(shè)null hypothesis,Ho),。相反,若比較后發(fā)現(xiàn),,出現(xiàn)的機(jī)率很高,,并不罕見;那我們便不能很有信心的直指這不是巧合,,也許是巧合,,也許不是,,但我們沒能確定。 F值和t值就是這些統(tǒng)計(jì)檢定值,,與它們相對應(yīng)的概率分布,,就是F分布和t分布。統(tǒng)計(jì)顯著性(sig)就是出現(xiàn)目前樣本這結(jié)果的機(jī)率,。
2,,統(tǒng)計(jì)學(xué)意義(P值或sig值) 結(jié)果的統(tǒng)計(jì)學(xué)意義是結(jié)果真實(shí)程度(能夠代表總體)的一種估計(jì)方法。專業(yè)上,,p值為結(jié)果可信程度的一個(gè)遞減指標(biāo),,p值越大,我們越不能認(rèn)為樣本中變量的關(guān)聯(lián)是總體中各變量關(guān)聯(lián)的可靠指標(biāo),。p值是將觀察結(jié)果認(rèn)為有效即具有總體代表性的犯錯(cuò)概率。如p=0.05提示樣本中變量關(guān)聯(lián)有5%的可能是由于偶然性造成的,。即假設(shè)總體中任意變量間均無關(guān)聯(lián),,我們重復(fù)類似實(shí)驗(yàn),會發(fā)現(xiàn)約20個(gè)實(shí)驗(yàn)中有一個(gè)實(shí)驗(yàn),,我們所研究的變量關(guān)聯(lián)將等于或強(qiáng)于我們的實(shí)驗(yàn)結(jié)果,。(這并不是說如果變量間存在關(guān)聯(lián),我們可得到5%或95%次數(shù)的相同結(jié)果,,當(dāng)總體中的變量存在關(guān)聯(lián),,重復(fù)研究和發(fā)現(xiàn)關(guān)聯(lián)的可能性與設(shè)計(jì)的統(tǒng)計(jì)學(xué)效力有關(guān)。)在許多研究領(lǐng)域,,0.05的p值通常被認(rèn)為是可接受錯(cuò)誤的邊界水平。
3,,T檢驗(yàn)和F檢驗(yàn) 至於具體要檢定的內(nèi)容,,須看你是在做哪一個(gè)統(tǒng)計(jì)程序。 舉一個(gè)例子,,比如,,你要檢驗(yàn)兩獨(dú)立樣本均數(shù)差異是否能推論至總體,而行的t檢驗(yàn),。 兩樣本(如某班男生和女生)某變量(如身高)的均數(shù)并不相同,,但這差別是否能推論至總體,,代表總體的情況也是存在著差異呢? 會不會總體中男女生根本沒有差別,,只不過是你那麼巧抽到這2樣本的數(shù)值不同? 為此,,我們進(jìn)行t檢定,,算出一個(gè)t檢定值。 與統(tǒng)計(jì)學(xué)家建立的以「總體中沒差別」作基礎(chǔ)的隨機(jī)變量t分布進(jìn)行比較,,看看在多少%的機(jī)會(亦即顯著性sig值)下會得到目前的結(jié)果,。 若顯著性sig值很少,比如<0.05(少於5%機(jī)率),,亦即是說,,「如果」總體「真的」沒有差別,那麼就只有在機(jī)會很少(5%),、很罕有的情況下,,才會出現(xiàn)目前這樣本的情況。雖然還是有5%機(jī)會出錯(cuò)(1-0.05=5%),,但我們還是可以「比較有信心」的說:目前樣本中這情況(男女生出現(xiàn)差異的情況)不是巧合,,是具統(tǒng)計(jì)學(xué)意義的,「總體中男女生不存差異」的虛無假設(shè)應(yīng)予拒絕,,簡言之,,總體應(yīng)該存在著差異。 每一種統(tǒng)計(jì)方法的檢定的內(nèi)容都不相同,,同樣是t-檢定,,可能是上述的檢定總體中是否存在差異,也同能是檢定總體中的單一值是否等於0或者等於某一個(gè)數(shù)值,。 至於F-檢定,,方差分析(或譯變異數(shù)分析,Analysis of Variance),,它的原理大致也是上面說的,,但它是透過檢視變量的方差而進(jìn)行的。它主要用于:均數(shù)差別的顯著性檢驗(yàn),、分離各有關(guān)因素并估計(jì)其對總變異的作用,、分析因素間的交互作用、方差齊性(Equality of Variances)檢驗(yàn)等情況,。
4,,T檢驗(yàn)和F檢驗(yàn)的關(guān)系 t檢驗(yàn)過程,是對兩樣本均數(shù)(mean)差別的顯著性進(jìn)行檢驗(yàn),。惟t檢驗(yàn)須知道兩個(gè)總體的方差(Variances)是否相等,;t檢驗(yàn)值的計(jì)算會因方差是否相等而有所不同,。也就是說,t檢驗(yàn)須視乎方差齊性(Equality of Variances)結(jié)果,。所以,,SPSS在進(jìn)行t-test for Equality of Means的同時(shí),也要做Levene's Test for Equality of Variances ,。 1.在Levene's Test for Equality of Variances一欄中 F值為2.36, Sig.為.128,,表示方差齊性檢驗(yàn)「沒有顯著差異」,即兩方差齊(Equal Variances),,故下面t檢驗(yàn)的結(jié)果表中要看第一排的數(shù)據(jù),,亦即方差齊的情況下的t檢驗(yàn)的結(jié)果。 2.在t-test for Equality of Means中,,第一排(Variances=Equal)的情況:t=8.892, df=84, 2-Tail Sig=.000, Mean Difference=22.99 既然Sig=.000,,亦即,兩樣本均數(shù)差別有顯著性意義,! 3.到底看哪個(gè)Levene's Test for Equality of Variances一欄中sig,還是看t-test for Equality of Means中那個(gè)Sig. (2-tailed)啊? 答案是:兩個(gè)都要看,。 先看Levene's Test for 反之,,如果方差齊性檢驗(yàn)「有顯著差異」,即兩方差不齊(Unequal Variances),,故接著的t檢驗(yàn)的結(jié)果表中要看第二排的數(shù)據(jù),,亦即方差不齊的情況下的t檢驗(yàn)的結(jié)果。
4.你做的是T檢驗(yàn),,為什么會有F值呢? 就是因?yàn)橐u估兩個(gè)總體的方差(Variances)是否相等,,要做Levene's Test 另一種解釋:t檢驗(yàn)有單樣本t檢驗(yàn),配對t檢驗(yàn)和兩樣本t檢驗(yàn),。 單樣本t檢驗(yàn):是用樣本均數(shù)代表的未知總體均數(shù)和已知總體均數(shù)進(jìn)行比較,,來觀察此組樣本與總體的差異性。 配對t檢驗(yàn):是采用配對設(shè)計(jì)方法觀察以下幾種情形,,1,,兩個(gè)同質(zhì)受試對象分別接受兩種不同的處理;2,同一受試對象接受兩種不同的處理,;3,,同一受試對象處理前后。 F檢驗(yàn)又叫方差齊性檢驗(yàn),。在兩樣本t檢驗(yàn)中要用到F檢驗(yàn),。 從兩研究總體中隨機(jī)抽取樣本,要對這兩個(gè)樣本進(jìn)行比較的時(shí)候,,首先要判斷兩總體方差是否相同,,即方差齊性。若兩總體方差相等,,則直接用t檢驗(yàn),,若不等,可采用t'檢驗(yàn)或變量變換或秩和檢驗(yàn)等方法,。 其中要判斷兩總體方差是否相等,,就可以用F檢驗(yàn)。 若是單組設(shè)計(jì),,必須給出一個(gè)標(biāo)準(zhǔn)值或總體均值,,同時(shí),提供一組定量的觀測結(jié)果,,應(yīng)用t檢驗(yàn)的前提條件就是該組資料必須服從正態(tài)分布,;若是配對設(shè)計(jì),每對數(shù)據(jù)的差值必須服從正態(tài)分布,;若是成組設(shè)計(jì),,個(gè)體之間相互獨(dú)立,兩組資料均取自正態(tài)分布的總體,,并滿足方差齊性,。之所以需要這些前提條件,是因?yàn)楸仨氃谶@樣的前提下所計(jì)算出的t統(tǒng)計(jì)量才服從t分布,,而t檢驗(yàn)正是以t分布作為其理論依據(jù)的檢驗(yàn)方法,。 簡單來說就是實(shí)用T檢驗(yàn)是有條件的,其中之一就是要符合方差齊次性,,這點(diǎn)需要F檢驗(yàn)來驗(yàn)證,。
1、問:自由度是什么,?怎樣確定,? 答:(定義)構(gòu)成樣本統(tǒng)計(jì)量的獨(dú)立的樣本觀測值的數(shù)目或自由變動(dòng)的樣本觀測值的數(shù)目。用df表示,。 自由度的設(shè)定是出于這樣一個(gè)理由:在總體平均數(shù)未知時(shí),,用樣本平均數(shù)去計(jì)算離差(常用小s)會受到一個(gè)限制——要計(jì)算標(biāo)準(zhǔn)差(小s)就必須先知道樣本平均數(shù),而樣本平均數(shù)和n都知道的情況下,,數(shù)據(jù)的總和就是一個(gè)常數(shù)了,。所以,,“最后一個(gè)”樣本數(shù)據(jù)就不可以變了,因?yàn)樗亲?,總和就變了,,而這是不允許的。至于有的自由度是n-2什么的,,都是同樣道理,。 在計(jì)算作為估計(jì)量的統(tǒng)計(jì)量時(shí),引進(jìn)一個(gè)統(tǒng)計(jì)量就會失去一個(gè)自由度,。 通俗點(diǎn)說,,一個(gè)班上有50個(gè)人,我們知道他們語文成績平均分為80,,現(xiàn)在只需要知道49個(gè)人的成績就能推斷出剩下那個(gè)人的成績,。你可以隨便報(bào)出49個(gè)人的成績,但是最后一個(gè)人的你不能瞎說,,因?yàn)槠骄忠呀?jīng)固定下來了,,自由度少一個(gè)了。 簡單點(diǎn)就好比你有一百塊,,這是固定的,,已知的,假設(shè)你打算買五件東西,,那么前四件你可以隨便買你想買的東西,,只要還有錢的話,比如說你可以吃KFC可以買筆,,可以買衣服,,這些花去的錢數(shù)目不等,當(dāng)你只剩2塊錢時(shí),,或許你最多只能買一瓶可樂了,,當(dāng)然也可以買一個(gè)肉松蛋卷,但無論怎么花,,你都只有兩塊錢,,而這在你花去98塊那時(shí)就已經(jīng)定下來了。(這個(gè)例子舉的真不錯(cuò)?。,。?/span>
2、問:X方檢驗(yàn)中自由度問題 答:在正態(tài)分布檢驗(yàn)中,,這里的M(三個(gè)統(tǒng)計(jì)量)為N(總數(shù)),、平均數(shù)和標(biāo)準(zhǔn)差。 因?yàn)槲覀冊谧稣龖B(tài)檢驗(yàn)時(shí),要使用到平均數(shù)和標(biāo)準(zhǔn)差以確定該正態(tài)分布形態(tài),,此外,,要計(jì)算出各個(gè)區(qū)間的理論次數(shù),我們還需要使用到N,。 所以在正態(tài)分布檢驗(yàn)中,,自由度為K-3。(這一條比較特別,,要記住?。?/span> 在總體分布的配合度檢驗(yàn)中,,自由度為K-1。 在交叉表的獨(dú)立性檢驗(yàn)和同質(zhì)性檢驗(yàn)中,,自由度為(r-1)×(c-1),。
3、問:t檢驗(yàn)和方差分析有何區(qū)別 答:t檢驗(yàn)適用于兩個(gè)變量均數(shù)間的差異檢驗(yàn),,多于兩個(gè)變量間的均數(shù)比較要用方差分析,。 若是單組設(shè)計(jì),,必須給出一個(gè)標(biāo)準(zhǔn)值或總體均值,,同時(shí),提供一組定量的觀測結(jié)果,,應(yīng)用t檢驗(yàn)的前提條件就是該組資料必須服從正態(tài)分布,;若是配對設(shè)計(jì),每對數(shù)據(jù)的差值必須服從正態(tài)分布,;若是成組設(shè)計(jì),,個(gè)體之間相互獨(dú)立,兩組資料均取自正態(tài)分布的總體,,并滿足方差齊性,。之所以需要這些前提條件,是因?yàn)楸仨氃谶@樣的前提下所計(jì)算出的t統(tǒng)計(jì)量才服從t分布,,而t檢驗(yàn)正是以t分布作為其理論依據(jù)的檢驗(yàn)方法,。 值得注意的是,方差分析與成組設(shè)計(jì)t檢驗(yàn)的前提條件是相同的,即正態(tài)性和方差齊性,。 t檢驗(yàn)是目前醫(yī)學(xué)研究中使用頻率最高,,醫(yī)學(xué)論文中最常見到的處理定量資料的假設(shè)檢驗(yàn)方法。t檢驗(yàn)得到如此廣泛的應(yīng)用,,究其原因,,不外乎以下幾點(diǎn):現(xiàn)有的醫(yī)學(xué)期刊多在統(tǒng)計(jì)學(xué)方面作出了要求,研究結(jié)論需要統(tǒng)計(jì)學(xué)支持,;傳統(tǒng)的醫(yī)學(xué)統(tǒng)計(jì)教學(xué)都把t檢驗(yàn)作為假設(shè)檢驗(yàn)的入門方法進(jìn)行介紹,,使之成為廣大醫(yī)學(xué)研究人員最熟悉的方法;t檢驗(yàn)方法簡單,,其結(jié)果便于解釋,。簡單、熟悉加上外界的要求,,促成了t檢驗(yàn)的流行,。但是,由于某些人對該方法理解得不全面,,導(dǎo)致在應(yīng)用過程中出現(xiàn)不少問題,,有些甚至是非常嚴(yán)重的錯(cuò)誤,直接影響到結(jié)論的可靠性,。將這些問題歸類,,可大致概括為以下兩種情況:不考慮t檢驗(yàn)的應(yīng)用前提,對兩組的比較一律用t檢驗(yàn),;將各種實(shí)驗(yàn)設(shè)計(jì)類型一律視為多個(gè)單因素兩水平設(shè)計(jì),,多次用t檢驗(yàn)進(jìn)行均值之間的兩兩比較。以上兩種情況,,均不同程度地增加了得出錯(cuò)誤結(jié)論的風(fēng)險(xiǎn),。而且,在實(shí)驗(yàn)因素的個(gè)數(shù)大于等于2時(shí),,無法研究實(shí)驗(yàn)因素之間的交互作用的大小,。
問:統(tǒng)計(jì)學(xué)意義(P值) 答:結(jié)果的統(tǒng)計(jì)學(xué)意義是結(jié)果真實(shí)程度(能夠代表總體)的一種估計(jì)方法。專業(yè)上,,P值為結(jié)果可信程度的一個(gè)遞減指標(biāo),,P值越大,我們越不能認(rèn)為樣本中變量的關(guān)聯(lián)是總體中各變量關(guān)聯(lián)的可靠指標(biāo),。P值是將觀察結(jié)果認(rèn)為有效即具有總體代表性的犯錯(cuò)概率,。如P=0.05提示樣本中變量關(guān)聯(lián)有5%的可能是由于偶然性造成的。即假設(shè)總體中任意變量間均無關(guān)聯(lián),,我們重復(fù)類似實(shí)驗(yàn),,會發(fā)現(xiàn)約20個(gè)實(shí)驗(yàn)中有一個(gè)實(shí)驗(yàn),,我們所研究的變量關(guān)聯(lián)將等于或強(qiáng)于我們的實(shí)驗(yàn)結(jié)果。(這并不是說如果變量間存在關(guān)聯(lián),,我們可得到5%或95%次數(shù)的相同結(jié)果,,當(dāng)總體中的變量存在關(guān)聯(lián),重復(fù)研究和發(fā)現(xiàn)關(guān)聯(lián)的可能性與設(shè)計(jì)的統(tǒng)計(jì)學(xué)效力有關(guān),。)在許多研究領(lǐng)域,,0.05的P值通常被認(rèn)為是可接受錯(cuò)誤的邊界水平。
4,、問:如何判定結(jié)果具有真實(shí)的顯著性 答:在最后結(jié)論中判斷什么樣的顯著性水平具有統(tǒng)計(jì)學(xué)意義,,不可避免地帶有武斷性。換句話說,,認(rèn)為結(jié)果無效而被拒絕接受的水平的選擇具有武斷性,。實(shí)踐中,最后的決定通常依賴于數(shù)據(jù)集比較和分析過程中結(jié)果是先驗(yàn)性還是僅僅為均數(shù)之間的兩兩>比較,,依賴于總體數(shù)據(jù)集里結(jié)論一致的支持性證據(jù)的數(shù)量,依賴于以往該研究領(lǐng)域的慣例,。通常,,許多的科學(xué)領(lǐng)域中產(chǎn)生P值的結(jié)果≤0.05被認(rèn)為是統(tǒng)計(jì)學(xué)意義的邊界線,但是這顯著性水平還包含了相當(dāng)高的犯錯(cuò)可能性,。結(jié)果 0.05≥P>0.01被認(rèn)為是具有統(tǒng)計(jì)學(xué)意義,,而0.01≥P≥0.001被認(rèn)為具有高度統(tǒng)計(jì)學(xué)意義。但要注意這種分類僅僅是研究基礎(chǔ)上非正規(guī)的判斷常規(guī),。
5,、問:所有的檢驗(yàn)統(tǒng)計(jì)都是正態(tài)分布的嗎? 答:并不完全如此,,但大多數(shù)檢驗(yàn)都直接或間接與之有關(guān),,可以從正態(tài)分布中推導(dǎo)出來,如t檢驗(yàn),、F檢驗(yàn)或卡方檢驗(yàn),。這些檢驗(yàn)一般都要求:所分析變量在總體中呈正態(tài)分布,即滿足所謂的正態(tài)假設(shè),。許多觀察變量的確是呈正態(tài)分布的,,這也是正態(tài)分布是現(xiàn)實(shí)世界的基本特征的原因。當(dāng)人們用在正態(tài)分布基礎(chǔ)上建立的檢驗(yàn)分析非正態(tài)分布變量的數(shù)據(jù)時(shí)問題就產(chǎn)生了,,(參閱非參數(shù)和方差分析的正態(tài)性檢驗(yàn)),。這種條件下有兩種方法:一是用替代的非參數(shù)檢驗(yàn)(即無分布性檢驗(yàn)),但這種方法不方便,,因?yàn)閺乃峁┑慕Y(jié)論形式看,,這種方法統(tǒng)計(jì)效率低下、不靈活。另一種方法是:當(dāng)確定樣本量足夠大的情況下,,通常還是可以使用基于正態(tài)分布前提下的檢驗(yàn),。后一種方法是基于一個(gè)相當(dāng)重要的原則產(chǎn)生的,該原則對正態(tài)方程基礎(chǔ)上的總體檢驗(yàn)有極其重要的作用,。即,,隨著樣本量的增加,樣本分布形狀趨于正態(tài),,即使所研究的變量分布并不呈正態(tài),。
6、問:假設(shè)檢驗(yàn)的內(nèi)涵及步驟 答:在假設(shè)檢驗(yàn)中,,由于隨機(jī)性我們可能在決策上犯兩類錯(cuò)誤,,一類是假設(shè)正確,但我們拒絕了假設(shè),,這類錯(cuò)誤是“棄真”錯(cuò)誤,,被稱為第一類錯(cuò)誤;一類是假設(shè)不正確,,但我們沒拒絕假設(shè),,這類錯(cuò)誤是“取偽”錯(cuò)誤,被稱為第二類錯(cuò)誤,。一般來說,,在樣本確定的情況下,任何決策無法同時(shí)避免兩類錯(cuò)誤的發(fā)生,,即在避免第一類錯(cuò)誤發(fā)生機(jī)率的同時(shí),,會增大第二類錯(cuò)誤發(fā)生的機(jī)率;或者在避免第二類錯(cuò)誤發(fā)生機(jī)率的同時(shí),,會增大第一類錯(cuò)誤發(fā)生的機(jī)率,。人們往往根據(jù)需要選擇對那類錯(cuò)誤進(jìn)行控制,以減少發(fā)生這類錯(cuò)誤的機(jī)率,。大多數(shù)情況下,,人們會控制第一類錯(cuò)誤發(fā)生的概率。 發(fā)生第一類錯(cuò)誤的概率被稱作顯著性水平,,一般用α表示,,在進(jìn)行假設(shè)檢驗(yàn)時(shí),是通過事先給定顯著性水平α的值而來控制第一類錯(cuò)誤發(fā)生的概率,。在這個(gè)前提下,,假設(shè)檢驗(yàn)按下列步驟進(jìn)行: 到這一步,,假設(shè)檢驗(yàn)已經(jīng)基本完成,,但是由于檢驗(yàn)是利用事先給定顯著性水平的方法來控制犯錯(cuò)概率的,所以對于兩個(gè)數(shù)據(jù)比較相近的假設(shè)檢驗(yàn),,我們無法知道那一個(gè)假設(shè)更容易犯錯(cuò),,即我們通過這種方法只能知道根據(jù)這次抽樣而犯第一類錯(cuò)誤的最大概率(即給定的顯著性水平),而無法知道具體在多大概率水平上犯錯(cuò),。計(jì)算 P值有效的解決了這個(gè)問題,P值其實(shí)就是按照抽樣分布計(jì)算的一個(gè)概率值,,這個(gè)值是根據(jù)檢驗(yàn)統(tǒng)計(jì)量計(jì)算出來的,。通過直接比較P值與給定的顯著性水平α的大小就可以知道是否拒絕假設(shè),顯然這就代替了比較檢驗(yàn)統(tǒng)計(jì)量的值與臨界值的大小的方法,。而且通過這種方法,,我們還可以知道在p值小于α的情況下犯第一類錯(cuò)誤的實(shí)際概率是多少,p=0.03<α=0.05,,那么拒絕假設(shè),,這一決策可能犯錯(cuò)的概率是0.03。需要指出的是,,如果P>α,,那么假設(shè)不被拒絕,在這種情況下,,第一類錯(cuò)誤并不會發(fā)生,。
7、問:卡方檢驗(yàn)的結(jié)果,,值是越大越好,,還是越小越好,? 答:與其它檢驗(yàn)一樣,所計(jì)算出的統(tǒng)計(jì)量越大,,在分布中越接近分布的尾端,,所對應(yīng)的概率值越小。 如果試驗(yàn)設(shè)計(jì)合理,、數(shù)據(jù)正確,,顯著或不顯著都是客觀反映。沒有什么好與不好,。
8,、問:配對樣本的T檢驗(yàn)和相關(guān)樣本檢驗(yàn)有何差別? 答:配對樣本有同源配對(如動(dòng)物實(shí)驗(yàn)中雙胞胎),、條件配對(如相同的環(huán)境),、自身配對(如醫(yī)學(xué)實(shí)驗(yàn)中個(gè)體的用藥前后)等。(好像沒有解釋清楚啊,,同問這個(gè),,到底什么區(qū)別呢?)
9,、問:在比較兩組數(shù)據(jù)的率是否相同時(shí),,二項(xiàng)分布和卡方檢驗(yàn)有什么不同? 答:卡方分布主要用于多組多類的比較,,是檢驗(yàn)研究對象總數(shù)與某一類別組的觀察頻數(shù)和期望頻數(shù)之間是否存在顯著差異,,要求每格中頻數(shù)不小于5,如果小于5則合并相鄰組,。二項(xiàng)分布則沒有這個(gè)要求,。 如果分類中只有兩類還是采用二項(xiàng)檢驗(yàn)為好。 如果是2*2表格可以用fisher精確檢驗(yàn),,在小樣本下效果更好,。
10、問:如何比較兩組數(shù)據(jù)之間的差異性 答:從四個(gè)方面來回答,,
11,、問:回歸分析和相關(guān)分析的聯(lián)系和區(qū)別 答:回歸分析(Regression):Dependant variable 回歸更有用自變量解釋因變量的意思,有一點(diǎn)點(diǎn)因果關(guān)系在里面,,并且可以是線性或者非線形關(guān)系,; 相關(guān)更傾向于解釋兩兩之間的關(guān)系,但是一般都是指線形關(guān)系,,特別是相關(guān)指數(shù),,有時(shí)候圖像顯示特別強(qiáng)二次方圖像,但是相關(guān)指數(shù)仍然會很低,,而這僅僅是因?yàn)閮烧唛g不是線形關(guān)系,,并不意味著兩者之間沒有關(guān)系,因此在做相關(guān)指數(shù)的時(shí)候要特別注意怎么解釋數(shù)值,,特別建議做出圖像觀察先,。 不過,無論回歸還是相關(guān),,在做因果關(guān)系的時(shí)候都應(yīng)該特別注意,,并不是每一個(gè)顯著的回歸因子或者較高的相關(guān)指數(shù)都意味著因果關(guān)系,有可能這些因素都是受第三,,第四因素制約,,都是另外因素的因或果。 對于此二者的區(qū)別,,我想通過下面這個(gè)比方很容易理解: 對于兩個(gè)人關(guān)系,,相關(guān)關(guān)系只能知道他們是戀人關(guān)系,至于他們誰是主導(dǎo)者,,誰說話算數(shù),,誰是跟隨者,,一個(gè)打個(gè)噴嚏,,另一個(gè)會有什么反應(yīng),相關(guān)就不能勝任,,而回歸分析則能很好的解決這個(gè)問題 回歸未必有因果關(guān)係,。回歸的主要有二:一是解釋,,一是預(yù)測,。在於利用已知的自變項(xiàng)預(yù)測未知的依變數(shù)。相關(guān)係數(shù),,主要在了解兩個(gè)變數(shù)的共變情形,。如果有因果關(guān)係,,通常會進(jìn)行路徑分析(path analysis)或是線性結(jié)構(gòu)關(guān)係模式。 我覺得應(yīng)該這樣看,,我們做回歸分析是在一定的理論和直覺下,,通過自變量和因變量的數(shù)量關(guān)系探索是否有因果關(guān)系。樓上這位仁兄說“回歸未必有因果關(guān)系……如果有因果關(guān)系,,通常進(jìn)行路徑分析或線性結(jié)構(gòu)關(guān)系模式”有點(diǎn)值得商榷吧,,事實(shí)上,回歸分析可以看成是線性結(jié)構(gòu)關(guān)系模式的一個(gè)特例啊,。 我覺得說回歸是探索因果關(guān)系的并沒錯(cuò),,因?yàn)閷?shí)際上最后我們并不是完全依據(jù)統(tǒng)計(jì)的結(jié)果來判斷因果性,只有在統(tǒng)計(jì)結(jié)果和理論及現(xiàn)實(shí)比較吻合的基礎(chǔ)上我們才肯定這種因果關(guān)系,。任何統(tǒng)計(jì)方法只是一種工具,,但是不能完全依賴于這種工具。即使是SEM,,我們也不能說完全認(rèn)定其準(zhǔn)確性,,因?yàn)榧词狗椒ㄊ呛玫模亲兞康膹?fù)雜關(guān)系呈現(xiàn)的方式也是多種多樣的,,可能統(tǒng)計(jì)只能告訴你一個(gè)方向上的最優(yōu)解,,可未必是最符合實(shí)際的,更何況抽樣數(shù)據(jù)的質(zhì)量好壞也會使得結(jié)果不符合事實(shí),,從而導(dǎo)致人們懷疑統(tǒng)計(jì)方法的準(zhǔn)確性,。 統(tǒng)計(jì)只說明統(tǒng)計(jì)關(guān)聯(lián)。不證明因素關(guān)系,?;貧w有因果關(guān)系,相關(guān)未必,。 回歸分析是處理兩個(gè)及兩個(gè)以上變量間線性依存關(guān)系的統(tǒng)計(jì)方法,。此類問題很普遍,如人頭發(fā)中某種金屬元素的含量與血液中該元素的含量有關(guān)系,,人的體表面積與身高,、體重有關(guān)系;等等,?;貧w分析就是用于說明這種依存變化的數(shù)學(xué)關(guān)系。 任何事物的存在都不是孤立的,,而是相互聯(lián)系,、相互制約的。身高與體重,、體溫與脈搏,、年齡與血壓等都存在一定的聯(lián)系,。說明客觀事物相互間關(guān)系的密切程度并用適當(dāng)?shù)慕y(tǒng)計(jì)指標(biāo)表示出來,這個(gè)過程就是相關(guān)分析.
|
|