教育測量的基本方法 教育測量與教學(xué)評價(jià)是教學(xué)活動的重要組成部分,,是在教學(xué)領(lǐng)域中進(jìn)行科學(xué)管理的重要手段,合理地開展測量評價(jià)活動是提高教育質(zhì)量的有效保證. 一,、基本概念 1.教育測量 教育測量有廣義和狹義之分.從廣義上說,,教育測量泛指運(yùn)用測量手段對教育活動所進(jìn)行的量的測定。它涉及的范圍很廣,,凡是需要并能夠測量的與教育有關(guān)的活動均在研究之列,,如教育投入,、教育過程各要素、教育的效果等,。從狹義上講,,教育測量專指按一定規(guī)則對學(xué)生的知識、智能,、個(gè)性發(fā)展,、思想品德等所進(jìn)行的量的測定。通常所提及的多是狹義上的教育測量,。 2. 教學(xué)評價(jià) 教育評價(jià)是按照一定標(biāo)準(zhǔn),,運(yùn)用科學(xué)可行的方法,對教育活動所進(jìn)行的價(jià)值判斷的過程,。它包括對教學(xué)過程和教學(xué)效果的評價(jià),,諸如學(xué)校、教師的教學(xué)工作,、課堂教學(xué),、教學(xué)方法、模式和內(nèi)容以及學(xué)生的學(xué)業(yè)成就,、一般智能發(fā)展,、個(gè)性發(fā)展、思想品德狀況等評價(jià),。 3.測驗(yàn)及其種類 測驗(yàn)是指對通過一定的儀器和試題所引起的受測者的行為樣本進(jìn)行測量的系統(tǒng)程序,。教育測量的對象和內(nèi)容是非常豐富的,測驗(yàn)作為教育測量的主要工具,,種類也很繁多,,可按不同標(biāo)準(zhǔn)加以分類。 按測驗(yàn)的功用分類(1)學(xué)績測驗(yàn),; (2)能力測驗(yàn),; (3)人格測驗(yàn),。 按測驗(yàn)的目的分類(1)診斷性測驗(yàn),;(2)形成性測驗(yàn);(3)終結(jié)性測驗(yàn),。 診斷,、形成,、終結(jié)三種測驗(yàn)對照表
按測驗(yàn)的對象分類(1)個(gè)別測驗(yàn);(2)團(tuán)體測驗(yàn),。 按解釋分?jǐn)?shù)和方法分類 (1)常模參照測驗(yàn) 指參照被測群體的實(shí)際水平解釋分?jǐn)?shù)的測驗(yàn)叫做常模參照測驗(yàn),。群體的平均分?jǐn)?shù)一般可以反映群體的水平,稱為常模,。以常模為參照點(diǎn),,將被測個(gè)人的成績與常模比較,,并把比較結(jié)果所反映出來的差異數(shù)量化,作為導(dǎo)出分?jǐn)?shù),。參照常模解釋分?jǐn)?shù),,便于比較和選拔工作的進(jìn)行,它屬于相對評價(jià)的范疇,。例如,,在升學(xué)考試中,按標(biāo)準(zhǔn)化的要求進(jìn)行的分?jǐn)?shù)轉(zhuǎn)換就是參照常模得出的,。 (2)目標(biāo)參照測驗(yàn) 參照被測達(dá)到目標(biāo)的程度來解釋分?jǐn)?shù)的測驗(yàn),,叫做目標(biāo)參照測驗(yàn),也稱作標(biāo)準(zhǔn)參照測驗(yàn),。通過與特定的標(biāo)準(zhǔn)進(jìn)行比較,,了解被測的達(dá)標(biāo)程度,這是一種絕對評價(jià)方法,。例如,畢業(yè)考試就是以某一學(xué)段的教育目標(biāo)為標(biāo)準(zhǔn),,衡量學(xué)生的達(dá)標(biāo)情況而進(jìn)行的,。 常模參照測驗(yàn)和目標(biāo)參照測驗(yàn)的對照表
4.測量的要素 測量的三要素: ①參照點(diǎn) 參照點(diǎn)分絕對零點(diǎn)和相對零點(diǎn).教育測量所應(yīng)用的參照點(diǎn)都是相對零點(diǎn),。 ②統(tǒng)一的單位 ③量具(測量工具) 教育測量常用的工具是試卷,,而試卷由測題構(gòu)成,故我們必須高度重視命題的研究,,提高試題的質(zhì)量,,這樣才能保證測驗(yàn)的可靠性和有效性。 二,、數(shù)據(jù)整理 在教育測量中,,通過各種測驗(yàn)獲得大量分?jǐn)?shù),這些雜亂無章的分?jǐn)?shù)有三個(gè)問題,,一是看不清它們的分布形態(tài),,二是不了解它們的特征和變化規(guī)律,三是每個(gè)分?jǐn)?shù)表達(dá)的意義含混模糊,。因此,,需要對零亂分散的分?jǐn)?shù)進(jìn)行整理和分析,以便在此基礎(chǔ)上作出解釋和評價(jià),。 1.分?jǐn)?shù)整理 (1)順序排列表 順序排列是簡單的整理分?jǐn)?shù)的方法,。它是將所有個(gè)體的成績,按高低順序排列,,并且列于表中,,稱作順序排列表,。這種方法簡明清晰,一眼便能看到最高分?jǐn)?shù)和最低分?jǐn)?shù),,而且可以大致了解個(gè)體成績在總體中的位置,。 例1 分?jǐn)?shù)整理(用Excel ) (2)頻數(shù)分布表 頻數(shù)分布表是一種反映數(shù)據(jù)分布情況的統(tǒng)計(jì)表,。所謂頻數(shù)是指一群數(shù)據(jù)在各個(gè)數(shù)值(或區(qū)間)上所出現(xiàn)的數(shù)據(jù)的個(gè)數(shù),也稱為次數(shù),。每一個(gè)頻數(shù)除以數(shù)據(jù)的總個(gè)數(shù)稱為頻率,,或稱相對次數(shù)。 (3)頻數(shù)直方圖 由頻數(shù)分布表可以制作頻數(shù)直方圖,。方法是:以分?jǐn)?shù)為橫軸,頻數(shù)為縱軸,,建立直角坐標(biāo)系,在橫軸上標(biāo)出各組分?jǐn)?shù)的組中值,,頻數(shù)值等距標(biāo)在縱軸上;然后以組中值為底邊中點(diǎn),,組距為底邊,,組頻數(shù)為高作出各矩形,即得頻數(shù)直方圖,。 例2(柱形圖) 三,、統(tǒng)計(jì)數(shù)據(jù) 1.算術(shù)平均數(shù) 一組數(shù)值的總和除以數(shù)據(jù)的總頻數(shù)所得的商稱為算術(shù)平均數(shù),,簡稱平均數(shù)。計(jì)算公式是: = ,。 例3 用Excel求一組數(shù)據(jù)的平均數(shù),。 2.方差 一組數(shù)據(jù)中,各數(shù)離均差的平方和的算術(shù)平均數(shù)稱為這組數(shù)據(jù)的方差,。又叫均方差或變異數(shù),。用符號S2或σ2表示,。 3.標(biāo)準(zhǔn)差 方差的算術(shù)平方根稱為標(biāo)準(zhǔn)差,。用符號S或σ表示,。 標(biāo)準(zhǔn)差是反映全體考生分?jǐn)?shù)之間的離散程度和差異情況,。它與平均分一起使用,決定了某次考試分?jǐn)?shù)分布情況,。σ值越大,,表示部分考生離平均分的“差距越大”,也就是分?jǐn)?shù)分布較廣,;σ值越小,,則分?jǐn)?shù)分布較窄或說“集中在平均分附近”,。計(jì)算公式是: σ= 用CZ—1206科學(xué)計(jì)算器或Excel求平均數(shù)和標(biāo)準(zhǔn)差基本操作步驟(略) 例4.用Excel標(biāo)準(zhǔn)差。 4.差異系數(shù) 標(biāo)準(zhǔn)差較準(zhǔn)確地反映了一組分?jǐn)?shù)的離散程度,它與原數(shù)據(jù)的單位相同,,是一種絕對差異量數(shù)。在進(jìn)行不同組間離散程度比較時(shí),,適用于單位相同、平均數(shù)相近的情況,。如果各組數(shù)據(jù)單位不同,,或雖然單位同但平均數(shù)相差甚遠(yuǎn)時(shí),,不能直接用標(biāo)準(zhǔn)差比較,,這時(shí)應(yīng)使用差異系數(shù)。 差異系數(shù)是一組數(shù)據(jù)的標(biāo)準(zhǔn)差與平均數(shù)的百分比,,用CV表示: CV= 例5 某校中考成績語文的標(biāo)準(zhǔn)差S1=15,,平均分X1=85分(滿分130分),政治標(biāo)準(zhǔn)差S2=10,,平均分X2=50(滿分70分),試比較兩科的差異情況,。 語文:CV1= 政治:CV2= 因此,,政治科分?jǐn)?shù)離散程度大。 5.標(biāo)準(zhǔn)分?jǐn)?shù)(z分?jǐn)?shù)) 標(biāo)準(zhǔn)分?jǐn)?shù)是以平均分為參照點(diǎn),標(biāo)準(zhǔn)差為度量單位的分?jǐn)?shù),。它具有重要理論價(jià)值和應(yīng)用價(jià)值。按照轉(zhuǎn)換的方式和對分布形態(tài)的影響效果,,可分為兩類: ①不改變分布形態(tài)的標(biāo)準(zhǔn)分?jǐn)?shù) 定義式為: z = 其中,,xi為原始分?jǐn)?shù),, 例6.某生高考數(shù)學(xué)成績105分,,所在省的數(shù)學(xué)平均分68.40分,,標(biāo)準(zhǔn)差28.90分,,求他的標(biāo)準(zhǔn)分?jǐn)?shù),。 Z= = 1.266,。 該學(xué)生處于優(yōu)秀學(xué)生行列,但如果將他置于全國高考最好的省份,如平均分92.26分,標(biāo)準(zhǔn)差24.10分,,則Z=0.529,僅能算中等偏上,。 為了與通常記分的習(xí)慣協(xié)調(diào)一致,,對z分?jǐn)?shù)可以再施行線性變換,,以消除它的負(fù)值和小數(shù): y=Az+B. 當(dāng)A=10,B=50時(shí),,便得到了T分?jǐn)?shù):T=10z+50。 6.難度 難度是指試卷(題)的難易程度。一般用試卷(題)的得分率或答對率(P)表示,,所以難度事實(shí)上是容易度,。P值在0~1之間,數(shù)值越大,,說明試卷(題)越容易,。 有關(guān)考試難度水平估計(jì)一覽表
計(jì)算公式: P= ,。 例7.用Excel求難度,。 一般情況下,,測驗(yàn)的平均難度接近0.50時(shí),,分?jǐn)?shù)趨于正態(tài)分布,否則分?jǐn)?shù)分布將出現(xiàn)偏態(tài),。就整個(gè)測驗(yàn)而言,,當(dāng)平均難度為0.5且題目組間的相關(guān)為零的情況下,分?jǐn)?shù)呈正態(tài)分布,,而難度值越小,,則題目越難,,低分段人數(shù)必然較多,。難度值越大,題目越容易,,分?jǐn)?shù)將大部分集中在高分區(qū),。這樣,在分?jǐn)?shù)的分布上,,就會呈現(xiàn)出兩種不同的偏向,,前者為正偏態(tài),后者為負(fù)偏態(tài),。 7.區(qū)分度 是試題對不同考生的知識,、能力水平的鑒別程度。如果一個(gè)題目的測試結(jié)果使水平高的考生答對(得高分),,而水平低的考生答錯(cuò)(得低分),,它的區(qū)分能力就很強(qiáng)。題目的區(qū)分度反映了試題這種區(qū)分能力的高低,。一般認(rèn)為,,區(qū)分度的數(shù)值達(dá)到了0.3,便可以接受,;達(dá)到了0.3以上為好的題目,;在0.4以上為優(yōu)秀題目;低于0.3的題目,,區(qū)分能力差,。 1994~1995年高考數(shù)學(xué)試題區(qū)分度統(tǒng)計(jì)表
可見,題目區(qū)分度的實(shí)質(zhì)是用以鑒定一個(gè)題目有效性的指標(biāo),,它的高低變化對測驗(yàn)的質(zhì)量具有深刻的影響,。與題目的難度相比,人們更關(guān)注題目的區(qū)分度的高低,,并以此作為篩選和修改試題的主要依據(jù),。 試題的區(qū)分度的計(jì)算比較方便的方法有以下兩種: (1)得分率求差法 將受測群體按題目得分的高低排列,取高分人數(shù)的27%為一組,,他們的得分率記作PH,;低分人數(shù)的27%為另一組,,他們的得分率記作PL,用D表示區(qū)分度,,則該題的區(qū)分度為 D=PH—PL,。 (2)得分求差法 將受測群體按題目得分的高低排列,取高分人數(shù)的27%為一組,,低分人數(shù)的27%為另一組,,用D表示區(qū)分度,用H表示高分組得分總和,,用L表示低分組得分總和,, 用n表示高分組(低分組)人數(shù),XH表示該題的最高得分,,XL表示該題的最低得分,,則 D=。 例8.用Excel求區(qū)分度,。 8.信度 信度是衡量測驗(yàn)分?jǐn)?shù)一致性或可靠性的一個(gè)指標(biāo),,即用一個(gè)或一組測驗(yàn)對同一被試群體施測多次,所得結(jié)果的一致性的程度,,以及測驗(yàn)分?jǐn)?shù)所反映被試真實(shí)水平(即真分?jǐn)?shù))的可靠性程度,。 (1)分半相關(guān) 將全卷中全部試題按題號或分?jǐn)?shù)適當(dāng)分半,得到兩個(gè)平行的“子試卷”,,計(jì)算這兩個(gè)子試卷考生得分的相關(guān)系數(shù),,這樣求得的是半個(gè)試卷的信度,然后再用斯皮爾曼—布郎(Spearman—Brown)公式校正,,得到考試的分半信度系數(shù),。一般認(rèn)為分半信度系數(shù)在0.90以上比較合適。這個(gè)方法比較適合多數(shù)為選擇題的試卷,。 rtt = 其中,,rtt分半信度系數(shù),rab表示A,、B兩份試卷得分的積差相關(guān)系數(shù),。 例9.用Excel求積差相關(guān)系數(shù)。 計(jì)算公式rab= 其中,,x1i,、x2i是第i個(gè)受測者先后兩次測驗(yàn)所得分?jǐn)?shù),n是受測人數(shù),。 應(yīng)當(dāng)注意,,在應(yīng)用上式時(shí),分半的兩部分測驗(yàn)須滿足在平均數(shù),、標(biāo)準(zhǔn)差,、分布形態(tài),、測題間相關(guān)、內(nèi)容,、形式和題數(shù)都相似的假設(shè)條件,。 (2)內(nèi)部一致性信度 通常采用的是克倫巴赫(Cronbach)的α—系數(shù)公式,它適用于非選擇題(多重記分)較多的試卷,。α—系數(shù)為試卷信度的最低限,,一般認(rèn)為其值在0.80以上,考試的信度比較好,。 克倫巴赫(Cronbach)公式: rtt = 其中,,Sii 2是每個(gè)測試題目得分的方差,,St2是整份測驗(yàn)總分的方差。 國家教委考試中心對高考試題分析與評價(jià)時(shí),,即用分半相關(guān)與α—系數(shù)方法求出試卷信度,。 近3年高考數(shù)學(xué)(理科)試卷統(tǒng)計(jì)數(shù)據(jù)對比
9.效度 效度是測驗(yàn)有效性或準(zhǔn)確性的指標(biāo)。由于效度分析可以針對各種要求和運(yùn)用各種程序,,而在特定的條件下,,使用不同的分析方法可以得到不同的效度。因此,,一個(gè)測驗(yàn)可以具有不同的效度指標(biāo),。當(dāng)我們討論一個(gè)測驗(yàn)的效度時(shí),只有界定了它的條件,,效度才有確切的意義,。 對常模參照測驗(yàn)來說,主要有效標(biāo)關(guān)聯(lián)效度、內(nèi)容效度和結(jié)構(gòu)效度,。 (1)效標(biāo)關(guān)聯(lián)效度 測驗(yàn)的效標(biāo)又可稱為準(zhǔn)則,,它是衡量測驗(yàn)效度的參照標(biāo)準(zhǔn)。我們可以用一類標(biāo)準(zhǔn)化測驗(yàn)作為某次測驗(yàn)的效標(biāo)(如國家級高考,、省級各類會考等),,用積差相關(guān)法計(jì)算效度。 例10 以國家級高考的成績作為效標(biāo),,計(jì)算某考生進(jìn)入高校后的第一學(xué)期的數(shù)學(xué)學(xué)習(xí)成績的效度,。 由于客觀上的種種原因,難以確定有效的效標(biāo),,因此,,效度的計(jì)算,采用求平均區(qū)分度代替,,其公式是: r效= 其中,,r效表示試卷的效度,k表示試卷中的試題數(shù),,Di表示每道試題的區(qū)分度,。 (2)內(nèi)容效度 測驗(yàn)的題目對所要測量的內(nèi)容具有代表性的程度稱作內(nèi)容效度。它反映測驗(yàn)題目在所要測量的內(nèi)容范圍和教學(xué)目標(biāo)內(nèi)取樣是否充分和確切的問題,,主要用于學(xué)科成績測驗(yàn),。內(nèi)容效度一般不用數(shù)量化指標(biāo)來表示,主要依靠在某種依據(jù)的基礎(chǔ)上作出邏輯分析,。為了提高測驗(yàn)的內(nèi)容效度,,首先要注意界定測驗(yàn)的內(nèi)容范圍,其次要注意系統(tǒng)取樣,。目前,,大多數(shù)學(xué)科成績測驗(yàn)的編制者根據(jù)教學(xué)目標(biāo)的分類,先擬就測驗(yàn)的藍(lán)圖,,將各部分內(nèi)容和教學(xué)目標(biāo)各層次按確定的比重表達(dá)出來,,然后編制測題,以滿足提高內(nèi)容效度的要求,。 (3)結(jié)構(gòu)效度(構(gòu)造效度) 結(jié)構(gòu)效度是指考試對理論上構(gòu)造或特質(zhì)的測量程度,。 例11 測量“推理能力”考試。 確定結(jié)構(gòu)效度需三個(gè)步驟:建立理論體系(理論結(jié)構(gòu))并以此出發(fā)提出關(guān)于某一心理特征的假設(shè),;設(shè)計(jì)和編制測驗(yàn),,并進(jìn)行實(shí)施;用收集證據(jù)和邏輯分析的方法來驗(yàn)證與理論假設(shè)的相符程度,。 由于建立理論和提出假設(shè)的困難,,操作步驟較為復(fù)雜,且沒有單一的量化指標(biāo)來描述有效程度,,所以,,在一般的考試質(zhì)量分析中很少采用。 |
|