教育測(cè)評(píng)的未來(lái)發(fā)展趨勢(shì)

凡人sypls 2019-07-15

展開(kāi)全文

7月8-11日，上海市教育考試院舉辦“K-12科學(xué)測(cè)評(píng)研究項(xiàng)目”上海研討會(huì),，國(guó)際教育評(píng)價(jià)協(xié)會(huì)（IAEA）主席,、美國(guó)ETS著名專(zhuān)家Randy E.Bennett率領(lǐng)美方工作組一行四人全程參加會(huì)議，并在會(huì)議期間做了以“測(cè)評(píng)的將來(lái)”為主題的演講,。Randy對(duì)教育測(cè)評(píng)未來(lái)十年的發(fā)展趨勢(shì)所做的分析,，很值得我們學(xué)習(xí)和借鑒。

1．新技術(shù)在測(cè)評(píng)中的應(yīng)用

新的技術(shù)在教育測(cè)量方面所發(fā)揮的作用,，正在越來(lái)越凸顯出來(lái),，只要看看當(dāng)下一些主要的教育測(cè)評(píng)項(xiàng)目比如OECD的PISA測(cè)試等，就能明白,。新技術(shù)的應(yīng)用,，不僅能更有效地考查傳統(tǒng)意義上所定義的那些能力，還能考查傳統(tǒng)測(cè)評(píng)方式無(wú)法企及的新能力,，并且能夠收集和挖掘在線學(xué)習(xí)活動(dòng)蘊(yùn)含的大數(shù)據(jù),。另外，新技術(shù)讓收集和分析在線學(xué)習(xí)的“大數(shù)據(jù)”成為可能,。

2．測(cè)評(píng)新的構(gòu)念

在測(cè)量領(lǐng)域,，一個(gè)眾所周知的事實(shí)就是：我們能測(cè)的信息，遠(yuǎn)遠(yuǎn)少于在學(xué)習(xí)的活動(dòng)中所涉及到的多樣化的信息,。但隨著社會(huì)的發(fā)展,，各方所需要的人才規(guī)格也越來(lái)越多樣化，需要通過(guò)測(cè)評(píng)將具有各種特質(zhì)的人區(qū)分和辨別出來(lái),。對(duì)個(gè)體來(lái)說(shuō),，問(wèn)題解決的過(guò)程和能力、社會(huì)情緒方面的“堅(jiān)毅性”,、社會(huì)意識(shí)和自我意識(shí)等等,，都是新的構(gòu)念；從群體的角度看,，學(xué)習(xí)的環(huán)境因素、社會(huì)和學(xué)校對(duì)教育的支持、合作學(xué)習(xí)等,，也是新的構(gòu)念,。我們既需要關(guān)注新構(gòu)念的測(cè)評(píng)結(jié)果在多大程度上用于重要決策，例如高校招生或者對(duì)學(xué)校進(jìn)行問(wèn)責(zé),，還要關(guān)注新構(gòu)念的測(cè)評(píng)在多大程度上用于形成性評(píng)價(jià),。

3．將測(cè)評(píng)建立在更深層次的認(rèn)知和學(xué)習(xí)模型的基礎(chǔ)之上

測(cè)評(píng)將建立在更深層次的認(rèn)知學(xué)習(xí)和學(xué)習(xí)模型的基礎(chǔ)之上，比如說(shuō)我們現(xiàn)在所開(kāi)展的K-12科學(xué)測(cè)評(píng)項(xiàng)目,，就是建立在認(rèn)知學(xué)習(xí),、學(xué)習(xí)進(jìn)階等前沿理論的基礎(chǔ)上所進(jìn)行的探索。這樣的測(cè)評(píng)將對(duì)考試設(shè)計(jì)和試題命制提供更多參考,，對(duì)學(xué)生學(xué)習(xí)能力發(fā)展的測(cè)評(píng)也將更有意義,。

4．充分利用更復(fù)雜的測(cè)評(píng)任務(wù)

一個(gè)學(xué)科中具有熟練水平特征的活動(dòng)通常包含多樣化的問(wèn)題情境，但受限于測(cè)量任務(wù),，測(cè)量過(guò)程往往僅針對(duì)其中的某些內(nèi)容,，有很多信息并沒(méi)有體現(xiàn)出來(lái)。比如說(shuō)有的孩子動(dòng)手能力很強(qiáng),，在制作方面很有天賦,，但他的文化課成績(jī)一般，而現(xiàn)有的通過(guò)文化課測(cè)評(píng)的方式,，就很難將他動(dòng)手方面的特點(diǎn)測(cè)量出來(lái),。為了彌補(bǔ)傳統(tǒng)測(cè)量中的這些缺憾，人們?cè)O(shè)計(jì)出了通過(guò)論文,、實(shí)驗(yàn),、作品集等方式來(lái)考查學(xué)生的學(xué)科能力。近年來(lái),，開(kāi)始提倡甚至利用模擬任務(wù)或教育游戲等對(duì)學(xué)生進(jìn)行測(cè)評(píng),。當(dāng)然，測(cè)評(píng)任務(wù)越復(fù)雜,，考試的覆蓋面,、公平性，考試開(kāi)發(fā),、命題和評(píng)分的成本,，考生時(shí)間消耗等方面的問(wèn)題就越大。為此,，可以嘗試設(shè)計(jì)結(jié)構(gòu)化的任務(wù),、采用更高級(jí)的考試開(kāi)發(fā)工具、采取自動(dòng)評(píng)分等,。

5．測(cè)評(píng)更加個(gè)性化

接受教育和測(cè)評(píng)的學(xué)生,，具有不同的學(xué)習(xí)水平和學(xué)歷,、不同的學(xué)習(xí)背景和興趣，采取整齊劃一的測(cè)評(píng)手段和方法,，顯然不能將這些學(xué)生的學(xué)習(xí)狀況精準(zhǔn)地測(cè)量出來(lái),。個(gè)性化的測(cè)評(píng)有幾個(gè)主要的維度：一是普惠性，比如采取盲文試卷,、大字號(hào)試卷等,，讓殘疾的學(xué)生能夠和普通學(xué)生一樣便捷地參加測(cè)試。還有的在測(cè)評(píng)的過(guò)程中,，允許學(xué)生使用自己的計(jì)算機(jī)來(lái)參與測(cè)評(píng),，避免因?yàn)椴皇煜ぜ刑峁┑挠?jì)算機(jī)而導(dǎo)致測(cè)量的誤差；二是自適應(yīng)性測(cè)量,，也就是把考生的能力與試題的難題相匹配,，測(cè)評(píng)試卷因人而異，具有很鮮明的個(gè)性特色,；三是讓學(xué)生自己選擇測(cè)評(píng)的試題,，根據(jù)學(xué)生的選擇以及作答情況對(duì)學(xué)生的學(xué)習(xí)狀況給出評(píng)價(jià)。在一些學(xué)科的終結(jié)性評(píng)價(jià)中,，老師會(huì)讓學(xué)生選擇是寫(xiě)論文形式的開(kāi)卷考試,，還是常規(guī)測(cè)評(píng)的閉卷考試，就是如此,。四是讓學(xué)生選擇考什么,，即選擇自己的測(cè)評(píng)目標(biāo)和課程標(biāo)準(zhǔn)。新高考改革中讓學(xué)生在六門(mén)課中選擇三門(mén)課,，就體現(xiàn)出這一點(diǎn),。

6．測(cè)評(píng)是為了促進(jìn)學(xué)習(xí)

長(zhǎng)期以來(lái)，教育測(cè)評(píng)為政策制定或行政決策提供信息,，從而間接地提升學(xué)生的學(xué)習(xí)效果,。然而，教育測(cè)評(píng)的價(jià)值受到越來(lái)越多的質(zhì)疑,，如有人認(rèn)為它浪費(fèi)了教學(xué)時(shí)間,，有人甚至覺(jué)得它對(duì)考生有害。未來(lái),，教育測(cè)評(píng)不但要更好地考查學(xué)生能力,，還應(yīng)該設(shè)計(jì)一些能夠指導(dǎo)學(xué)生學(xué)習(xí)的任務(wù)，幫助學(xué)生通過(guò)考試學(xué)習(xí)一些重要的內(nèi)容,，通過(guò)為學(xué)生提供質(zhì)性評(píng)價(jià)來(lái)鼓勵(lì)學(xué)生反思解決問(wèn)題的過(guò)程,。

7．測(cè)評(píng)應(yīng)更好地考慮學(xué)生的背景

大規(guī)模的終結(jié)性考試往往是通過(guò)“去背景化”的試題對(duì)學(xué)生能力進(jìn)行推斷，忽視了學(xué)生所處的社會(huì),、學(xué)習(xí)和教學(xué)環(huán)境,。好的測(cè)評(píng)應(yīng)該結(jié)合學(xué)生背景判斷學(xué)生的真實(shí)能力,。未來(lái)可以嘗試創(chuàng)造電子化學(xué)習(xí)環(huán)境，并將測(cè)評(píng)嵌入其中,，成為“嵌入式”測(cè)評(píng),，以使測(cè)評(píng)結(jié)果更加合理可行。

8．將測(cè)評(píng)“嵌入”在教學(xué)的不同環(huán)節(jié)和階段

“嵌入”式測(cè)評(píng),，更能體現(xiàn)真實(shí)的學(xué)習(xí)情境，可以通過(guò)2種方式實(shí)現(xiàn)：第一種是對(duì)學(xué)生在學(xué)?；蚱渌麑W(xué)習(xí)環(huán)境中不同時(shí)間段的表現(xiàn)進(jìn)行隨機(jī)抽樣,，形成大數(shù)據(jù)記錄，這種測(cè)評(píng)方式可以是描述性的,，即只展示學(xué)生在做什么或?qū)W習(xí)什么,，也可以是推斷性的，即推斷出學(xué)生知道什么或能做什么,；第二種是選擇特定時(shí)間在課程中插入一系列預(yù)先設(shè)計(jì)的活動(dòng),，對(duì)學(xué)生在課堂上的反應(yīng)進(jìn)行記錄，這種測(cè)評(píng)方式對(duì)學(xué)生的行為抽樣進(jìn)行預(yù)先設(shè)計(jì),，因此比較聚焦,，對(duì)學(xué)生知識(shí)和能力的推斷也更加可靠。在理想的情況下,，最好將這2種“嵌入式”測(cè)評(píng)方式結(jié)合起來(lái),。需要注意的是，“嵌入式”測(cè)評(píng)可能引發(fā)隱私問(wèn)題,。

9．采用自動(dòng)評(píng)分技術(shù)

借助自動(dòng)評(píng)分技術(shù),，可以提高評(píng)分效率，還能夠采用更加復(fù)雜的測(cè)評(píng)任務(wù),，從而向考生提供更詳細(xì)的反饋信息,。自動(dòng)評(píng)分用于形成性評(píng)價(jià)完全可行，但用于高利害性考試則需要謹(jǐn)慎,，因?yàn)槠渌惴?lèi)似于“黑箱子”,，無(wú)法檢測(cè)，而且很多自動(dòng)評(píng)分技術(shù)的原理只是基于相關(guān)性分析進(jìn)行預(yù)測(cè),，并沒(méi)有考慮構(gòu)念,，有些考生可能因此投機(jī)取巧獲得比實(shí)際能力高的分?jǐn)?shù)。對(duì)此,，在應(yīng)用自動(dòng)評(píng)分技術(shù)之前,，需要向相關(guān)方面充分解釋算法原理；此外還應(yīng)該確保算法模型與考試的構(gòu)念相契合,。

10．把新技術(shù)整合到建模和分析中

在線學(xué)習(xí)和評(píng)估導(dǎo)致新數(shù)據(jù)類(lèi)型的出現(xiàn),，包括考生各種類(lèi)型的活動(dòng),、延續(xù)時(shí)間等，這些都是非常有用的信息,。傳統(tǒng)的心理測(cè)量學(xué)模型只適用于比較簡(jiǎn)單的數(shù)據(jù)處理,，當(dāng)我們擁有越來(lái)越多來(lái)自在線學(xué)習(xí)和在線測(cè)評(píng)的新型數(shù)據(jù)，尤其是過(guò)程性數(shù)據(jù),，就需要綜合教育數(shù)據(jù)挖掘技術(shù),、學(xué)習(xí)分析技術(shù)、教育測(cè)量學(xué),、統(tǒng)計(jì)學(xué)等領(lǐng)域的最新成果,，這些都應(yīng)該在建模和分析時(shí)加以考慮。

11．提供更加有效的分?jǐn)?shù)報(bào)告

分?jǐn)?shù)報(bào)告是考生作為用戶體驗(yàn)的重要組成部分,，能夠體現(xiàn)出測(cè)評(píng)的正面影響機(jī)制,。然而，相對(duì)于測(cè)評(píng)的其他環(huán)節(jié),，如自適應(yīng)測(cè)試,、模擬任務(wù)、自動(dòng)評(píng)分等,，分?jǐn)?shù)報(bào)告的革新還比較緩慢,。未來(lái)的分?jǐn)?shù)報(bào)告應(yīng)該以簡(jiǎn)明、直觀,、生動(dòng)的方式反饋給學(xué)生,，還能對(duì)學(xué)生的表現(xiàn)進(jìn)行重現(xiàn)，同時(shí)支持學(xué)生與分?jǐn)?shù)報(bào)告的互動(dòng)等,。

未來(lái)教育測(cè)評(píng)不會(huì)改變的幾個(gè)方面

(2019-07-20 06:17:57)

轉(zhuǎn)載▼

標(biāo)簽：

測(cè)量特征

針對(duì)問(wèn)題

社會(huì)價(jià)值

評(píng)估差異

ppl

此前的博文中提到,，在上海市教育考試院舉辦的“K-12科學(xué)測(cè)評(píng)研究項(xiàng)目”研討會(huì)上，ETS教育測(cè)評(píng)專(zhuān)家Randy（任迪）做了題為“測(cè)評(píng)的將來(lái)”的主題演講,，對(duì)教育測(cè)評(píng)未來(lái)十年的發(fā)展趨勢(shì)做了11個(gè)方面可能發(fā)生改變的預(yù)測(cè),。與此同時(shí)，他還在報(bào)告中指出,，雖然測(cè)評(píng)的很多方面都在發(fā)生改變,，但也有一些方面在未來(lái)是不大可能變化的。

Randy認(rèn)為,，以下四個(gè)方面在未來(lái)不大會(huì)發(fā)生變化：

1．測(cè)量的基本特征不會(huì)變

測(cè)量包括四個(gè)方面的基本特征：一是通過(guò)測(cè)量任務(wù)的設(shè)計(jì),、測(cè)量項(xiàng)目的編制和實(shí)施測(cè)量，來(lái)收集關(guān)于考生學(xué)力方面的證據(jù),；二是把通過(guò)測(cè)量觀測(cè)到的證據(jù)與考生個(gè)體,、群體、或者組織機(jī)構(gòu)等特征聯(lián)系起來(lái),，并進(jìn)行有意義的特征描述,；三是將測(cè)量的結(jié)果以分?jǐn)?shù)報(bào)告的形式公布出來(lái),，在教育決策的過(guò)程中應(yīng)用測(cè)量的結(jié)果；四是對(duì)測(cè)量的效度進(jìn)行分析和評(píng)估,。即評(píng)價(jià)證據(jù)收集的機(jī)會(huì),、特征，評(píng)估決策的質(zhì)量和所帶來(lái)的各方面的影響,，反過(guò)來(lái)對(duì)測(cè)量本身進(jìn)行審視,。

2．測(cè)量針對(duì)的重大社會(huì)問(wèn)題不會(huì)改變

測(cè)量針對(duì)的社會(huì)重大問(wèn)題始終包括：收集教育體制有效性的材料；監(jiān)測(cè)主要的社會(huì)群體之間教育水平,、教育成就上的差距,；為學(xué)生個(gè)人提供資源分配的信息支持（如通過(guò)測(cè)量發(fā)布各類(lèi)學(xué)校的錄取分?jǐn)?shù)控制線，等等）,；促進(jìn)學(xué)生的學(xué)習(xí)和教師的教學(xué)，以及學(xué)校整體教育質(zhì)量的提升,。

3．測(cè)量潛在的社會(huì)價(jià)值不會(huì)改變

這些社會(huì)價(jià)值包括效度,、公平性、可比性和可重復(fù)性,。所謂可重復(fù)性,，就是信度或“再來(lái)一次給我看看”，就拿上海的新高考改革來(lái)說(shuō),，連續(xù)三年的本科線都在402分左右,，就體現(xiàn)出了很好的可比性和信度，考生和家長(zhǎng)心里有數(shù)了,，就不會(huì)有很多的焦慮,。

4．形成性評(píng)估和總結(jié)性評(píng)估的差別不會(huì)改變

形成性評(píng)估是在學(xué)習(xí)的過(guò)程中不斷收集相關(guān)的學(xué)習(xí)證據(jù)，并對(duì)學(xué)生的學(xué)習(xí)情況做出評(píng)價(jià),；總結(jié)性評(píng)估則是在一個(gè)階段的學(xué)習(xí)任務(wù)完成之后,，通過(guò)特定的測(cè)量形式所進(jìn)行的評(píng)估，如期末考試,、中考,、高考等等。近些年來(lái),，人們對(duì)形成性評(píng)估有了更多的關(guān)注,，于是就有人提出可以用學(xué)習(xí)過(guò)程中收集到的測(cè)量的量化數(shù)據(jù)來(lái)完全替代總結(jié)性的評(píng)估，Randy認(rèn)為,，這兩種評(píng)估方式各有特點(diǎn),，不可能用一種取代另一種。

之所以形成性評(píng)估不可能取代總結(jié)性評(píng)估,，是因?yàn)椋旱谝?，地區(qū)之間,、學(xué)校之間、班級(jí)和班級(jí)之間的學(xué)生群體,、學(xué)習(xí)狀況差異都很大,，由此采集出來(lái)的測(cè)量數(shù)據(jù)差異也很大，這些差異巨大的數(shù)據(jù)在進(jìn)行比較的時(shí)候難度很大,；第二,，好的測(cè)量應(yīng)該不和具體的學(xué)生、學(xué)校有太密切的聯(lián)系,，所采集出來(lái)的數(shù)據(jù)要具有相對(duì)客觀性,，在這方面，形成性評(píng)估顯然做不到,，而總計(jì)性評(píng)估就能體現(xiàn)的很好,；第三，因?yàn)樾纬尚栽u(píng)估和學(xué)生,、家庭,、學(xué)校等有密切的關(guān)聯(lián)，所以容易帶來(lái)隱私是否會(huì)泄露等問(wèn)題,，一旦數(shù)據(jù)使用不當(dāng),，就會(huì)導(dǎo)致公眾對(duì)測(cè)評(píng)機(jī)構(gòu)的不信任；第四,，持續(xù)不斷地收集學(xué)生和老師的過(guò)程性的數(shù)據(jù),，有可能會(huì)遏制他們?cè)诮膛c學(xué)的過(guò)程中接受挑戰(zhàn)的態(tài)度與習(xí)慣。特別是那些把測(cè)量的結(jié)果與教師的升遷,、任期,、獎(jiǎng)金等相關(guān)聯(lián)起來(lái)的時(shí)候，會(huì)增加各方面的焦慮和不滿,。

測(cè)評(píng)隨著時(shí)代的發(fā)展不斷變化是必然的,，但其中也有一些恒常性和不變性，來(lái)保證測(cè)評(píng)在社會(huì)變革的洪流中有序改變,。測(cè)評(píng)如此,，很多領(lǐng)域也是如此。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,，所有內(nèi)容均由用戶發(fā)布,，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購(gòu)買(mǎi)等信息,，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào),。