引用格式:楊向東:素養(yǎng)導向嵌入式評價系統(tǒng)的設計與實施[J]. 中國考試, 2025(1): 1-16. 作 者 楊向東,,華東師范大學課程與教學研究所研究員,教育學部教育心理學系主任,、教授,。 摘 要:在素養(yǎng)導向的課程改革理念指導下,推進當前課程改革需要構建與課程和教學相整合的素養(yǎng)導向嵌入式評價系統(tǒng),。該系統(tǒng)以學生的核心素養(yǎng)發(fā)展為主線,,以素養(yǎng)導向的學業(yè)成就表現(xiàn)進階為參照框架,通過任務設計,、評分和測量學建模等方式,,整合貫穿課程學習過程的不同評價證據(jù),構建能夠呈現(xiàn)學生素養(yǎng)發(fā)展歷程的縱向測量尺度,,提供有實質(zhì)內(nèi)容,、能改進教學和學習的持續(xù)反饋信息。設計和實施素養(yǎng)導向嵌入式評價系統(tǒng)要強調(diào)教師和學生的主導地位,,重視教師評價素養(yǎng),、評價協(xié)調(diào)機制、數(shù)字化支持平臺等方面的建設工作,。 關鍵詞:素養(yǎng)導向嵌入式評價系統(tǒng),;核心素養(yǎng)框架;學業(yè)成就表現(xiàn)進階,;教師評價素養(yǎng),;評價協(xié)調(diào)機制,;數(shù)字化設施 隨著素養(yǎng)導向的課程改革持續(xù)推進,核心素養(yǎng)評價成為我國教育研究和實踐中的重要議題。目前,,國內(nèi)的學者和教育工作者圍繞表現(xiàn)性評價、情境化命題等開展了大量研究和探索,,但仍無法滿足素養(yǎng)導向的課程改革這一系統(tǒng)工程的多方面需求,。2020年,中共中央,、國務院印發(fā)《深化新時代教育評價改革總體方案》,,強調(diào)整合各種評價形式,探索對學生的“全過程縱向評價”和“全要素橫向評價”,,“綜合發(fā)揮導向,、鑒定、診斷,、調(diào)控和改進作用”[1],。因此,在素養(yǎng)導向的課程改革理念指導下,應采取系統(tǒng)觀思考評價的地位和作用,,整合不同的評價形式和功能,,從而構建與課程和教學緊密結合的、促進學生核心素養(yǎng)發(fā)展的新型評價體系,,即素養(yǎng)導向嵌入式評價系統(tǒng),。 一、素養(yǎng)導向嵌入式評價系統(tǒng)的特征 科學的評價系統(tǒng)需要在素養(yǎng)導向的課程改革理念下思考和建構,,一個完善的嵌入式評價系統(tǒng)至少應具備以下七個方面的特征,。 一是堅持素養(yǎng)導向。進入二十一世紀,,素養(yǎng)導向的課程改革迅速席卷全球,。我國在新一輪高中和義務教育課程標準頒布后,也正式開啟了素養(yǎng)導向的基礎教育課程改革,。堅持素養(yǎng)導向,,評價系統(tǒng)就在理念和目標上與當前課程改革保持了一致,以確保改革目標的達成,。 二是與課程和教學相協(xié)調(diào),。首先,嵌入式評價系統(tǒng)既要協(xié)調(diào)內(nèi)部各種要素之間的關系,,也要協(xié)調(diào)與系統(tǒng)外部的課程,、教學之間的關系,確保三者在教育目標,、學習結果,、學與教方式上的一致性。其次,,評價任務或形式應多元,,能全面反映素養(yǎng)導向的課程形態(tài)和教學方式的變化和要求。最后,,評價實施和反饋機制也要與課程和教學的進程,、節(jié)奏和關鍵節(jié)點協(xié)調(diào)一致,及時為學生和教師提供有針對性的證據(jù)和反饋,。 三是以真實任務(authentic task)為統(tǒng)整,。嵌入式評價系統(tǒng)應以核心素養(yǎng)為評價指向,以具有現(xiàn)實意義的真實任務為基準,,通過創(chuàng)設不同復雜度,、開放度的多樣化任務類型,采取多元評價方式收集學生的表現(xiàn)證據(jù),,實現(xiàn)對核心素養(yǎng)不同整合程度或發(fā)展水平的系統(tǒng)考查,。 四是有機整合不同來源和類型的評價證據(jù),。依據(jù)共同的目標框架和測量學標準,通過任務設計,、結果評分和測量學建模等技術,整合來自不同評價任務,、評價形式和時間節(jié)點的學生表現(xiàn),,實現(xiàn)對學生素養(yǎng)發(fā)展的科學推斷。 五是全面呈現(xiàn)學生素養(yǎng)發(fā)展歷程,。在統(tǒng)一的測量尺度上推斷和標定素養(yǎng)導向的學生學業(yè)水平縱向發(fā)展情況,,并形成學生素養(yǎng)發(fā)展報告,為增值評價,、教師教學改進和學生自主學習奠定基礎,。 六是提供有實質(zhì)內(nèi)容的持續(xù)反饋。在提供具有實質(zhì)內(nèi)容的學生素養(yǎng)發(fā)展水平或進步狀況的基礎上,,以預期目標或?qū)W業(yè)水平為參照,,給出有針對性的改進建議并建立持續(xù)性的反饋、改進機制,。 七是以教師和學生為主導,。讓教師和學生成為主導者,成為評價系統(tǒng)的研究者和使用者,。對教師而言,,應深度參與系統(tǒng)研發(fā)和應用環(huán)節(jié),如參與系統(tǒng)設計,、評價目標及學業(yè)水平的確定,、評價任務的設計與實施、評價標準的研制與使用,、評價結果的解釋與反饋等,。這樣做,既能提升教師的評價能力,,又能反哺日常的教學,、評價工作,助力評價系統(tǒng)促學,、促教功能真正落地,。對學生而言,可以通過評價系統(tǒng)的反饋信息開展自我評價,,主動改進和調(diào)整學習計劃,,培養(yǎng)自主學習能力等。 二,、素養(yǎng)導向嵌入式評價系統(tǒng)的構成要素 根據(jù)上述素養(yǎng)導向嵌入式評價系統(tǒng)應具備的七大特征,,構建評價系統(tǒng)基本概念框架,,見圖1。 圖中橫坐標表示不同課程單元的教學進程,,縱坐標表示學業(yè)質(zhì)量標準中的水平進階,,虛線表示學生核心素養(yǎng)發(fā)展軌跡。推斷證據(jù)來自教學中的過程性評價,、形成性評價,、終結性評價等真實數(shù)據(jù)?;诠餐乃仞B(yǎng)測量尺度,,評價系統(tǒng)可以給學生、教師,、學校及區(qū)域教育機構等提供有實質(zhì)內(nèi)容,、能滿足不同需求的反饋信息。該評價系統(tǒng)主要包括以下五個要素,,且各自發(fā)揮重要作用,。 (一)核心素養(yǎng)框架 核心素養(yǎng)框架在評價系統(tǒng)中具有綱領作用,決定著評價系統(tǒng)要測量的核心素養(yǎng)類別,、結構或?qū)哟侮P系,、內(nèi)涵、關鍵維度和評價指標等重要內(nèi)容,。在測量學領域,,核心素養(yǎng)框架就是評價系統(tǒng)想要測量的構念(construct)[2],代表著系統(tǒng)開發(fā)者認為重要和有價值的教育目標,。然而,,評價系統(tǒng)的核心素養(yǎng)框架不能只從評價角度思考,還要從教育視角深刻理解核心素養(yǎng)提出的時代背景,。進入二十一世紀以來,,各國教育都發(fā)生了巨大變革,一些國際組織和發(fā)達國家相繼提出核心素養(yǎng)的概念和框架,??梢哉f,核心素養(yǎng)已經(jīng)成為回應二十一世紀挑戰(zhàn)的重要教育理念,,闡明了新時期基礎教育育人要求的關鍵理論變量,,本質(zhì)上是在回答“培養(yǎng)什么人”的問題,是對基礎教育階段理想育人目標的具體界定和描述,。 建構核心素養(yǎng)框架,,需要考慮核心素養(yǎng)與課程、教學的一致性,。核心素養(yǎng)有超越具體知識和技能的合理抽象度,,也有跨越時段的內(nèi)涵穩(wěn)定性,,可以為建立課程、教學,、評價三者共享的目標框架提供可能的變量,。然而,究竟以哪些核心素養(yǎng)作為教學和評價的共享目標,,還需要有充分的學理依據(jù),。 2022年,教育部印發(fā)《義務教育課程方案和課程標準(2022年版)》(以下簡稱“新課標”),,這是國家課程的基本綱領性文件,標志著我國基礎教育課程改革進入新階段,。在新課標中,,各學科的核心素養(yǎng)都有明確和具體的要求,這是在反思學科本質(zhì),、凝練學科育人價值的基礎上提煉出來的,。理論上,每門學科都應兼有獨特的育人價值和共通的育人價值,。然而,,最新頒布的高中和義務教育階段的新課標都更多地關注了前者,而對批判性思維,、創(chuàng)造力,、團隊協(xié)作、溝通交流等跨學科核心素養(yǎng)重視不夠,。如何在學理上找到合理依據(jù),,建立學科與跨學科素養(yǎng)有機統(tǒng)整的核心素養(yǎng)框架,是亟須解決的重要問題,。 (二)以素養(yǎng)為導向的學業(yè)成就表現(xiàn)進階 對評價系統(tǒng)而言,,核心素養(yǎng)是用來刻畫和追蹤學生在不同時間節(jié)點上學業(yè)成就水平及其發(fā)展變化的進階變量(progress variable)[3]。每個變量均代表當前教育理念下學生學業(yè)成就的一個關鍵維度或方面,。作為進階變量,,核心素養(yǎng)的發(fā)展貫穿學生課程學習和教學進程始終,具有跨年級,、跨學段的連續(xù)性,;同時,其發(fā)展又依托不同學段,、模塊或主題課程內(nèi)容,,具有伴隨學習進程顯現(xiàn)的質(zhì)性階段特征。由此,,以核心素養(yǎng)為主線,,可以通過實證研究,,研制學生伴隨學習進程而呈現(xiàn)的學業(yè)水平進階,闡明不同進階的典型特征,。 在新課標中,,學業(yè)質(zhì)量標準闡述了不同學段的學生在素養(yǎng)導向?qū)W業(yè)成就上的表現(xiàn)預期。具體表現(xiàn)為以學科核心素養(yǎng)為關鍵維度,,整合學段課程內(nèi)容,,整體刻畫和描述不同學業(yè)成就水平應該具有的表現(xiàn)特征。新課標中的學業(yè)質(zhì)量標準秉持整合的,、實踐取向的學業(yè)質(zhì)量觀,,同時也蘊含著新的學習觀和知識觀[4]。其中,,整合的學業(yè)質(zhì)量觀主要強調(diào)兩個層面的整合:一是學科知識和技能層面,,學習不是孤立零碎的學科知識和技能的簡單積累,而是圍繞核心觀念不斷結構化的過程,;二是學業(yè)成就層面,,不同的核心素養(yǎng)之間并非彼此獨立,而是有機整合在學生和現(xiàn)實世界的互動實踐中,。學業(yè)水平差異體現(xiàn)了學生在整合不同素養(yǎng)及領域的知識和技能,、應對復雜情境或解決現(xiàn)實問題時的表現(xiàn)差異和發(fā)展差異。此外,,學業(yè)質(zhì)量標準旨在描繪學生群體的預期表現(xiàn),,代表了處于不同水平的學生群體所展現(xiàn)出的典型特征。相比之下,,素養(yǎng)導向嵌入式評價系統(tǒng)則通過整合學習歷程中的各種評價證據(jù),,試圖刻畫學生在素養(yǎng)導向?qū)W業(yè)成就方面的實際發(fā)展水平和變化趨勢。研究人員可以在學業(yè)質(zhì)量標準的基礎上,,結合相關課程內(nèi)容和教學過程,,建立更符合學生實際情況的學業(yè)成就表現(xiàn)進階體系。 新課標中的學業(yè)質(zhì)量標準為教育評價提供了上位理論基礎,。在具體實踐中,,研究者可以根據(jù)評價目的和現(xiàn)實需求,自主選擇評價系統(tǒng)中縱向?qū)W業(yè)成就進階的結構,、編排和呈現(xiàn)方式,。其中,最直接的方式是遵循學業(yè)質(zhì)量標準中已有的結構和編排方式,,在整合的學業(yè)質(zhì)量層面建立縱向進階,,并明確每個水平的表現(xiàn)特征。與之對應的評價系統(tǒng)可以在縱向的連續(xù)性測量尺度上推斷學生的學業(yè)成就水平,,并呈現(xiàn)和反饋學生在該水平上的綜合表現(xiàn),。另一種方式是以核心素養(yǎng)為主線,,為每個素養(yǎng)建立單獨的水平進階。與之對應的評價系統(tǒng)可以在不同測量尺度上推斷學生在不同核心素養(yǎng)上的發(fā)展,。這兩種設計方式在系統(tǒng)構成,、任務設計與實施、數(shù)據(jù)分析和建模等方面要求不同,,評價目的也不同,。此外,也可以整合上述兩種方式,,使其兼顧具體素養(yǎng)的診斷和學業(yè)成就綜合水平的推斷,,從而實現(xiàn)評價系統(tǒng)功能的多樣化。 (三)多樣化的評價形式與任務類型 評價系統(tǒng)需要創(chuàng)設多樣化的評價任務,,并規(guī)劃和組織有效的評價形式,,旨在激發(fā)學生的真實表現(xiàn)并收集相關證據(jù)。根據(jù)時間節(jié)點,,可以將評價分為教學前的診斷性評價、課堂教學中的過程性評價,、課時或單元結束后的形成性評價,,以及學期或?qū)W年結束后的終結性評價四種主要形式。其中,,前三種評價與教學活動緊密相連,,旨在通過持續(xù)的評估和反饋促進學生發(fā)展,屬于形成性評價,;第四種與日常教學有一定距離,,主要用于對學生學習成果進行概括總結,屬于終結性評價,。然而,,無論采用哪種評價形式,都要嚴格遵循素養(yǎng)導向的評價設計理念,,確保評價真實,、準確地反映學生的學業(yè)水平和素養(yǎng)發(fā)展情況。 過程性評價也常被稱作課堂評價,。在我國教育實踐中,,課堂評價往往指教師使用自編的紙筆測驗(如填空、選擇題等)檢驗即時的教學效果,。在素養(yǎng)導向的課程改革背景下,,評價系統(tǒng)要與課程和教學深度整合,全面體現(xiàn)素養(yǎng)導向的教學理念所要求的多樣化任務形態(tài),。以素養(yǎng)導向下的單元教學為例,,應強調(diào)以任務或項目為驅(qū)動,,讓學生在解決問題或完成項目的實踐過程中掌握學科知識和技能,進而發(fā)展核心素養(yǎng),。在此情境下,,單元表現(xiàn)性任務或探究項目兼具單元教學與評價的雙重功能,既是教學(或?qū)W習)任務,,也是評價任務,,因此無須再開發(fā)專門的評價任務。學生課堂展示,、小組對話或討論,、科學實驗、產(chǎn)品或作品設計(如項目計劃,、作文,、實驗報告、繪畫等),、藝術表演,、作品展覽、教師提問,、課堂觀察等活動,,都可以視為過程性評價的多種表現(xiàn)形式。學生在這些活動中的思考,、行為,、作品、解釋和討論等表現(xiàn),,都是評價可收集的學生信息,。教師則需要依據(jù)素養(yǎng)目標及表現(xiàn)進階精心研制評分標準,對學生在活動中的表現(xiàn)進行客觀,、全面的評定,,以確保評價真實準確,。 課時或單元結束后的形成性評價包括作業(yè),、單元測驗等形式,需要單獨開發(fā)評價任務,,明確核心素養(yǎng)指向及其內(nèi)涵,,并緊密結合本單元課程內(nèi)容,。除傳統(tǒng)任務類型外,還應增加整合的,、開放性的情境化任務,,如真實表現(xiàn)性任務或具有現(xiàn)實意義的探究項目等,以確保評價真實性,。終結性評價也需要單獨開發(fā)評價任務,,由于課程內(nèi)容覆蓋范圍更廣,因此題目的類型和難度區(qū)間也更大,。在素養(yǎng)導向的評價理念下,要打破終結性評價就是書面紙筆考試的固化觀念,,設計指向核心素養(yǎng)的新型任務形態(tài)和施測方式,,構建包括素養(yǎng),、內(nèi)容,、情境三大維度在內(nèi)的評價框架,,還要明確每個維度的內(nèi)涵及構成,厘清三個維度之間的關系,。在此基礎上,,還應整合不同維度,結合學業(yè)成就進階形成一系列具體的學生素養(yǎng)表現(xiàn)預期,,并將其作為評價任務設計的測評指向,。通過對任務指向、情境類型及復雜或開放程度的系統(tǒng)調(diào)整,,實現(xiàn)對核心素養(yǎng)及其水平的全面考查,。 對評價系統(tǒng)而言,不同評價形式和任務類型雖然目的各異,,但并非相互獨立,,而是在素養(yǎng)目標和學業(yè)成就進階層面具有統(tǒng)一性。本質(zhì)上,,這些素養(yǎng)及其水平進階共同構成評價系統(tǒng)的構念理論(construct theory)[5],,是規(guī)劃和指導任務設計、布局,、評分,、測量建模以及結果匯報的構念地圖(construct map)[6]。然而,,在評價的不同階段,,首先需要根據(jù)學生所在年級及當前課程具體內(nèi)容,明確評價的具體內(nèi)涵和表現(xiàn)特征,,然后再設計與之對應的任務,。縱向來看,,每個任務都指向具體的學習內(nèi)容,,具有特定的特征和要求,并引發(fā)該階段學生特有的素養(yǎng)表現(xiàn),;不同階段的不同任務可以為學生提供基于素養(yǎng)本身的多重表現(xiàn)機會,。不同時間節(jié)點的任務雖然在具體主題、內(nèi)容,、類型、評價指向及水平要求上有差異,,但在所關注的深層構念上可以進行統(tǒng)整,。這種整合既可以在同一單元或年級進行,,也可以在不同單元或年級之間進行。 (四)證據(jù)的整合,、推斷和解釋機制 要整合來自不同評價任務,、形式和時間的證據(jù),除了在設計任務時明確素養(yǎng)指向和水平要求,,還要密切聯(lián)系單個任務層面的證據(jù)識別和跨任務之間的證據(jù)整合及推斷機制,。 1.單個任務層面的證據(jù)識別 在單個任務層面,證據(jù)識別和推斷的關鍵是如何評價學生在單個任務上的表現(xiàn)水平,。概括講,,任務的評分結構要與學生任務表現(xiàn)所表征的素養(yǎng)指向和發(fā)展水平的內(nèi)在結構保持一致[2]。Briggs等認為,,如果一道選擇題的不同選項可以考查學生對某一學科核心概念的不同理解程度,,那么評分標準就應明確和細化,即選項得分與該選項所反映的理解程度要保持一致[7],。如果學生選擇了反映更高理解程度的選項,,其得分就應高于選擇反映較低理解程度的選項。對于考查多個素養(yǎng)(或同一素養(yǎng)的多個維度)的評價任務而言,,評分標準要解決兩個問題,。首先,要根據(jù)該任務所指向的素養(yǎng)結構或特征界定評價維度,,逐一明確學生表現(xiàn)與不同評價維度相對應的具體特征,。本質(zhì)上,這是一個識別和歸類的質(zhì)性問題,,即建立學生表現(xiàn)與任務所要考查的素養(yǎng)在內(nèi)涵,、維度和構成要素上的對應關系。然后,,在此基礎上,,評分標準要根據(jù)素養(yǎng)發(fā)展水平進階,進一步界定與每個評價維度相對應的,、可以反映不同素養(yǎng)發(fā)展水平的學生表現(xiàn)特征,。顯然,這是建立學生表現(xiàn)與素養(yǎng)水平之間量化關系的問題,,即什么樣的學生表現(xiàn)反映更高(或低)的核心素養(yǎng)水平,。單個任務層面的證據(jù)識別和水平判定至關重要。如果評分標準只關注任務的特有特征,,而沒有建立學生表現(xiàn)與素養(yǎng)結構或水平的聯(lián)系,,那么任務得分就不能提供學生素養(yǎng)發(fā)展情況的證據(jù),也無法實現(xiàn)跨任務間的證據(jù)整合,。 2.跨任務之間的證據(jù)整合 原則上,,跨任務之間的證據(jù)整合可以在測量理論指導下,,借助具體的測量模型和測量建模手段來完成。測量模型是形式化的數(shù)理模型,,能夠以模型參數(shù)的方式建立學生素養(yǎng)構成和水平(學生模型),、任務特征(任務模型)、學生任務得分(證據(jù)模型)三者之間在結構和水平上的概率性對應關系[8],。 需要指出的是,,公式(1)和(2)只是用形式化的概率模型建立了學生素養(yǎng)構成和水平、任務特征與得分之間一種可能的對應關系,,既不能說明這種關系是唯一的,,也不能說明它必然成立。上述模型可以看作是一種假設,,如果想在實踐中應用,,還要借助實際觀測數(shù)據(jù)進行檢驗。模型擬合檢驗既包含任務得分和素養(yǎng)指向之間結構關系的質(zhì)性檢驗,,也包含任務得分和素養(yǎng)水平之間量化關系的檢驗,。只有通過驗證的模型,才能用于整合來自不同任務的證據(jù),,并進一步推斷學生素養(yǎng)水平,。 一旦確認模擬擬合學生觀測數(shù)據(jù),就可以基于該模型得出兩個重要結果:一是基于核心素養(yǎng)模型和素養(yǎng)學業(yè)成就進階,,為每個核心素養(yǎng)建立跨越不同任務,、評價形式和時間的測量尺度;二是根據(jù)觀測數(shù)據(jù)估計每個學生的素養(yǎng)水平,,并將其標定在對應素養(yǎng)的測量尺度上,。二者結合,評價系統(tǒng)可以建立既具有實質(zhì)意義,,也能滿足測量學要求的素養(yǎng)發(fā)展尺度,,從而科學準確地測量學生素養(yǎng)水平和進步程度。 (五)結果報告與反饋機制 通過整合不同來源的證據(jù),,評價系統(tǒng)可以在一個統(tǒng)一的測量尺度上推斷學生的素養(yǎng)水平及其發(fā)展情況,,這意味著可以給每個學生建立一個縱向的素養(yǎng)發(fā)展報告(也稱學習結果畫像)。該報告可以與素養(yǎng)導向的學業(yè)成就進階對接,,進而提供更具體,、更具有實質(zhì)內(nèi)容的學業(yè)表現(xiàn)特征描述。然而,,報告中如果只呈現(xiàn)學生的素養(yǎng)水平或進步狀況,,并不能構成有效反饋。Sadler指出,,在缺乏有效反饋的情況下,,學生為了更好地理解評價結果,,不僅要對學習目標或預期學習結果有清晰的認知,還要熟悉當前表現(xiàn)和預期目標之間的差距以及可以減少或消除差距的方法等信息[10],。這對學生來說很難實現(xiàn)。因此,,在提供反饋信息時,,除了提供素養(yǎng)表現(xiàn)的基本信息,還要以預期目標或?qū)W業(yè)水平為參照,,提供三類信息:一是分析學生既有表現(xiàn)中值得肯定的地方,,激發(fā)學生繼續(xù)學習的動機;二是結合學生具體表現(xiàn)明確指出不足或有待改善的地方,;三是結合學生具體表現(xiàn)分析可能的原因,,并給出改進建議。 此外,,結果報告中的反饋信息要想真正發(fā)揮作用,,還必須滿足及時性和連續(xù)性兩個條件。一方面,,反饋要和學生當下的學習過程緊密結合,,學生在完成某個任務或環(huán)節(jié)后可以迅速獲得針對性反饋,從而幫助學生調(diào)整后續(xù)的解決思路或行動,。另一方面,,評價—反饋—改進—評價的過程要形成持續(xù)的、反復迭代的閉環(huán),,因此提供的結果反饋必須是目標導向,、改進指向、及時與連續(xù)的,。 三,、素養(yǎng)導向嵌入式評價系統(tǒng)的設計與實施 在開發(fā)素養(yǎng)導向嵌入式評價系統(tǒng)時,要遵循一條重要原則,,即不同構成要素本質(zhì)是一個有機協(xié)調(diào)整體的原則,。在該原則指導下,評價系統(tǒng)的設計與實施包括以下五個關鍵步驟,。 (一)構建素養(yǎng)目標框架與素養(yǎng)導向的學業(yè)表現(xiàn)進階 開發(fā)素養(yǎng)目標框架的關鍵是如何在教育理念,、學理依據(jù)和現(xiàn)實可操作性三者之間實現(xiàn)平衡。具體來說,,素養(yǎng)目標框架需要滿足三個條件:一是素養(yǎng)的層次,、結構或構成相對完整合理,體現(xiàn)當前教育理念對學生成長和發(fā)展的理解,;二是合理處理核心素養(yǎng)與課程內(nèi)容,、學科知識或技能之間的關系,;三是從現(xiàn)實性來講,框架中核心素養(yǎng)的數(shù)量不宜太多,。 構建素養(yǎng)目標框架的方法有多種,,其中一種是從素養(yǎng)導向的改革理念出發(fā),深入反思學科本質(zhì),,在不同層次上發(fā)掘不同學科在育人層面的共同價值和獨特價值,。筆者采用該方法從領域?qū)嵺`、社會文化實踐和反思性實踐三個層次分析學科本質(zhì),,構建跨學科和學科核心素養(yǎng)有機整合的核心素養(yǎng)冰山模型[11],,見圖2。該模型可以從學理層面反映素養(yǎng)結構,、層次與學科知識之間的關系問題,。 結合現(xiàn)實考慮,設計人員可以進一步調(diào)整核心素養(yǎng)數(shù)量,。以Wilson等開發(fā)的中學科學課程整合評價系統(tǒng)[3]為例,,該系統(tǒng)提出五大素養(yǎng)目標(也被稱為進階變量),見表1,。確定素養(yǎng)目標后,,研究人員可以根據(jù)課程內(nèi)容、學生群體等信息,,通過實證研究構建符合學生實際發(fā)展情況的素養(yǎng)發(fā)展水平進階,。在具體實踐領域,可以借鑒學習進階(learning progression)相關研究結果[12-13],。 (二)繪制與課程,、教學相整合的評價藍圖 為了確保評價與課程、教學有機結合,,研究人員要制訂素養(yǎng)評價藍圖,,明確不同教學單元需要評價的素養(yǎng)目標及其維度、任務形態(tài),、評價形式等,。評價藍圖是評價的整體規(guī)劃,是指導任務設計,、實施和評分的基礎,。 素養(yǎng)是在課程學習過程中逐漸形成和發(fā)展的,因此,,不同的內(nèi)容單元有助于培養(yǎng)學生不同的素養(yǎng)或素養(yǎng)維度,。課程規(guī)劃旨在根據(jù)不同單元和素養(yǎng)目標之間的關系,整體規(guī)劃和布局內(nèi)容學習和教學設計,以確保所有素養(yǎng)在課程學習過程中得到培養(yǎng),。相應的,,素養(yǎng)評價藍圖旨在明確評價與不同單元素養(yǎng)目標之間的對應關系,以確保評價系統(tǒng)能夠及時捕捉到學生素養(yǎng)發(fā)展的時間,,并科學規(guī)劃評價指向和評價內(nèi)容,。 表2為科學課程中素養(yǎng)目標與課程內(nèi)容相結合的評價藍圖示例,改編自Wilson等研究結果[3],。由表2可知,,不同素養(yǎng)目標及其構成維度在不同課程單元的評價指向不同。而且,,并非所有素養(yǎng)在每個課程單元都需要評價,有些單元只需要評價調(diào)查設計,,有些更適合評價證據(jù)使用和權衡,。但跨越不同課程內(nèi)容單元,評價藍圖要確保所有素養(yǎng)目標都得到合理評價,。 對整個評價系統(tǒng)而言,,除了考慮在教學單元中規(guī)劃評價指向和內(nèi)容之外,還要考慮過程性與形成性評價的銜接,,以及形成性評價與終結性評價的銜接等問題,。在過程性或形成性評價中,可以采用多重機會,、縱向設計等方式增加評價信度和內(nèi)容代表性[14],。例如,在一個學期或?qū)W年的課程進程中,,可以先選擇若干內(nèi)容單元并設計指向同一素養(yǎng)的評價任務,,然后通過增加評價任務與不同課程內(nèi)容的結合給學生提供多次機會。為建立統(tǒng)一的縱向測量尺度,,還可以在課程進程中選擇合適的節(jié)點設置鉚題或鉚測驗,,確保對學生素養(yǎng)水平推斷的前后一致性。 (三)開發(fā)評價任務與評分標準 確定評價藍圖后,,可以結合課程內(nèi)容創(chuàng)設不同形態(tài)的評價任務,,研制標準化的評分標準。 1.創(chuàng)設不同形態(tài)的評價任務 評價任務的開發(fā)要遵循五個原則,。第一,,確保每個評價任務都有清晰的素養(yǎng)指向,即在設計任務時必須明確任務考查的是哪種(些)核心素養(yǎng),。素養(yǎng)指向并非只是任務開發(fā)者的主觀意圖,,還必須有實證數(shù)據(jù)支持,以確保任務的構念效度(construct validity)。第二,,盡可能采用整合的,、情境化的真實任務。真實任務是指人們在現(xiàn)實生活或?qū)I(yè)實踐中從事或面臨的任務,,再現(xiàn)了真實世界中素養(yǎng)使用或檢驗的場景,、方式和要求[15],也是保證素養(yǎng)評價生態(tài)效度(ecological validity)的關鍵,。即便是為了更加明確地考查某個素養(yǎng),,需要對任務進行簡化,也應該盡量保持情境和限制條件的現(xiàn)實性,。第三,,每個任務所要考查的素養(yǎng)(或素養(yǎng)關鍵維度)要保持適當?shù)耐暾院途C合性,避免出現(xiàn)整體任務情境是真實的,、綜合的,、有現(xiàn)實意義的,但子任務或具體問題卻指向拆解過細的技能或知識點等情況,。例如,,名義上考查“史料實證”這一歷史素養(yǎng),但實際問題是考查學生“區(qū)分一手或二手史料”的技能,;名義上考查科學思維,,但實際問題是考查“知道實驗背后的科學原理”的知識;等等,。第四,,確保單元評價任務和形式與所在單元的教學和學習活動形成有機整體。參照評價藍圖要求,,評價任務要與單元素養(yǎng)目標一致,、與教學內(nèi)容匹配,并在形式上與單元教學活動兼容,。在具體實踐中,,可以讓教師作為評價主體,既負責整體設計單元教學和評價,,也負責開發(fā)教學和評價任務,;還可以將教學任務和評價任務合二為一,通過與教學活動相融的各種方式(如項目計劃表,、小組對話或討論,、課堂展示、產(chǎn)品或作品設計,、作品展覽及解說等)收集學生真實表現(xiàn),。第五,在評價系統(tǒng)層面,評價任務要有合理的數(shù)量和分布,,能夠?qū)崿F(xiàn)對素養(yǎng)及水平進階的系統(tǒng)考查,。具體而言,要確保在對素養(yǎng)水平進行推斷時,,在不同維度,、階段或?qū)用娑寄軡M足效度、信度,、公平性,、可推廣性等測量學指標要求。 在具體實踐中,,可以嘗試開發(fā)適用于不同情況的任務模板(task template)[16],,并將其作為評價任務設計的基礎。任務模版又稱設計模式(design pattern),,是對具有相同評價指向的一組任務共同結構和特征的抽象界定[8],。這些特征包括認知要求、學科內(nèi)容,、情境特征、學生表現(xiàn)特征等,。表3改編自Harris等研究結果[17],,是美國《下一代科學標準》(Next Generation Science Standards,NGSS)中某一成就水平的任務模板樣例,。借助任務模板,,研究人員可以創(chuàng)設具有相同抽象特征的新任務,既提高了開發(fā)效率,,也能保證質(zhì)量穩(wěn)定性,。 2.研制素養(yǎng)導向的評分標準 研制科學的評分標準是評價設計中的重要環(huán)節(jié)。素養(yǎng)評價強調(diào)整合,、開放性的情境化任務,,沒有所謂的標準答案。因此,,研制素養(yǎng)評分標準時應最大限度地考慮各種可能出現(xiàn)的情況,。在研制過程中還要解決一個關鍵問題,即如何確保每個評價任務的評分標準既與素養(yǎng)及其成就進階保持一致,,又與學生在任務上的具體表現(xiàn)相契合,。核心素養(yǎng)及其學業(yè)成就進階通常比較概括,是跨越不同任務情境或條件的抽象表述,。如果將其直接作為評分標準,,會顯得過于籠統(tǒng)、缺乏可操作性;如果只關注任務特有的學生表現(xiàn),,而沒有建立與素養(yǎng)的聯(lián)系,,也不能提供學生素養(yǎng)發(fā)展情況的有效證據(jù)。 針對上述情況,,一種可能的解決方式是將自上而下的演繹方式和自下而上的歸納方式相結合,。具體來講,首先,,根據(jù)任務的素養(yǎng)指向明確評分標準需要關注哪種(些)素養(yǎng)及其水平,;其次,結合評價任務的具體內(nèi)容或特征,,將所指向的素養(yǎng)及其水平進階中的概括性表述具體化,。例如,如果素養(yǎng)進階中的表述是“學生能否提出科學問題”,,那么在考查該素養(yǎng)與生態(tài)系統(tǒng)有關的任務上,,可以將表述具體化為“學生能否提出與當前生態(tài)系統(tǒng)有關的科學問題”,并列舉出當前生態(tài)系統(tǒng)中可能存在的科學問題,。這種演繹方式在很大程度上可以確保不同評價任務在評分標準上的一致性,,但也可能出現(xiàn)與學生實際表現(xiàn)不符的情況。補救方法是收集學生在該任務上的實際表現(xiàn),,通過進行自下而上的概括,,與演繹形成的評分標準對比后再進行調(diào)整,從而使評價標準更符合當前任務和施測群體,。 (四)收集證據(jù)與推斷學生素養(yǎng)水平 對嵌入式評價系統(tǒng)而言,,要盡量采取內(nèi)部評價方式,讓教師成為任務實施和證據(jù)收集的主導力量,。其中,,過程性和形成性評價主要由教師組織,終結性評價可以由教研組或區(qū)域教研部門負責實施,。此外,,還可以將課程進程作為證據(jù)主線,為每個學生建立一段時間內(nèi)跨越不同教學單元,、任務類型及評價形式的檔案袋,。這種做法可以收集多方位的學生證據(jù)、證據(jù)載體(任務作答,、項目計劃,、課堂討論記錄、學生作品或產(chǎn)品,、解說或表演的音視頻文件等)以及相關任務或情境等信息,。 任務評分工作也同樣以教師為主導,。教師要理解當前任務的素養(yǎng)指向,明確素養(yǎng)的具體內(nèi)涵及其水平特征,,并了解這些內(nèi)涵或特征在評分標準中的具體體現(xiàn),。在此基礎上,教師可以基于評分標準對學生提供的材料,、產(chǎn)品或作答表現(xiàn)進行全面深入分析,,從而識別出與素養(yǎng)相關的特征并判斷學生所處的不同水平。如果要更好地完成該項工作,,教師需要不斷地反省自身對評價標準的理解,,提升從學生表現(xiàn)中識別證據(jù)和基于證據(jù)進行推理的能力。具體而言,,教師可以組成團隊,,并在評價專家的指導下以教研活動的形式開展合作評分。評分過程中,,教師分享自己對評分標準的理解和對特定任務表現(xiàn)的評定結果,,團隊成員通過比較發(fā)現(xiàn)差異,再經(jīng)過反復討論和調(diào)整最終達成共識,。 證據(jù)整合和學生素養(yǎng)水平的推斷要滿足效度,、信度、可推廣性和公平性等測量學質(zhì)量指標的要求,。在項目反應理論框架指導下,,具體實踐主要分為四個步驟。 第一步,,基于學生數(shù)據(jù)對使用的模型進行擬合檢驗,。例如,,可以在模型整體,、模型假設、任務和學生個體等多層面進行檢驗,,以期全面檢驗擬合效果,。 第二步,綜合測量學規(guī)范和現(xiàn)實需求,,界定模型參數(shù)標定或測量尺度,。按照實際需求,既可以界定一個綜合的測量尺度,,也可以給每種素養(yǎng)各自界定一個測量尺度,。目前,常用的方法有三種:一是將學生參數(shù)(和任務參數(shù))界定為平均數(shù)為0,,標準差為1的尺度,;二是通過線性轉(zhuǎn)換,,形成平均數(shù)為μ,標準差為σ的尺度,;三是構建按年級或年齡呈現(xiàn)的測量尺度,,學生可以自主評價自身實際的素養(yǎng)水平與對應年齡或年級預期素養(yǎng)水平之間的差距,便于學生理解評價結果,。 第三步,,根據(jù)預先安置的鉚題或鉚測驗,將學生的表現(xiàn)證據(jù)(任務得分)標定到確定好的測量尺度上以評估其素養(yǎng)水平,,也可以同步將任務參數(shù)標定在共同尺度上,。這樣做不僅可以將不同學生的素養(yǎng)水平與素養(yǎng)導向的學業(yè)表現(xiàn)進階進行關聯(lián),還可以與特定任務表現(xiàn)進行關聯(lián),。 第四步,,根據(jù)學生實際表現(xiàn),評估其在不同時間點的素養(yǎng)水平以及學習一段時間后素養(yǎng)水平的發(fā)展變化情況,。 (五)報告與反饋評價結果 通過將學生的素養(yǎng)水平,、任務特征和素養(yǎng)學業(yè)成就進階標定在一個縱向的共同測量尺度上,評價系統(tǒng)可以超越簡單的分數(shù)或等級,,給每個學生提供具有實質(zhì)內(nèi)容的素養(yǎng)水平描述,。筆者對Griffin等提出的學生素養(yǎng)水平和任務難度分布圖進行改編,形成圖3[18],。 由圖可知:第一列是均數(shù)為0,、標準差為1的共同測量尺度,從下到上代表能力逐漸增加,;第二列是基于測量尺度的學生素養(yǎng)水平分布情況,,“x”代表處在同一素養(yǎng)水平的一個或若干個學生;第三列是基于該測量尺度的不同測驗任務的難度分布情況,,每個數(shù)字代表了具有同一難度水平的任務編碼,,如任務18對應的難度最低;第四列是某一特定素養(yǎng)由低到高的六個水平,,以及每個水平在測量尺度上的區(qū)間位置和跨度,。以素養(yǎng)水平2為例,其對應-3到-2的區(qū)間,,編碼為2,、4、27,、28,、30的五個任務考查了該水平的素養(yǎng)要求。從圖中可以看出,,處在該區(qū)間的共有8個“x”,。因此,,評價者可以依據(jù)素養(yǎng)水平2的表述,為8個“x”所代表的學生提供具有實質(zhì)內(nèi)容的素養(yǎng)水平描述,,并可以用他們在這五個任務上的具體表現(xiàn)作為例證,。 基于相同的學理,評價系統(tǒng)可以報告學生在多個核心素養(yǎng)上的表現(xiàn)情況,,見圖4[18],。其中,左邊方框圖表示編號為WRKSHP001的學生在某一素養(yǎng)上的結果報告,,中間尺度上黑色粗線表示該學生實際素養(yǎng)水平,,兩側(cè)文字是對應素養(yǎng)水平的表現(xiàn)描述;右邊方框圖為該學生在社會技能,、認知技能以及數(shù)字網(wǎng)絡化學習技能三個維度上的發(fā)展水平,,黑色粗線表示學生實際水平,并提供學生在每個維度的實際發(fā)展水平描述,。 基于上述思想,,可以匯報學生隨課程進程發(fā)生的素養(yǎng)水平發(fā)展或變化情況。以“證據(jù)和權衡”發(fā)展水平變化地圖[3]為例,,見圖5,。 其中,橢圓表示某個學生在一個學期各種評價中有關“證據(jù)使用與權衡”的得分,。這些評價包含學期初的前測,、三個內(nèi)容單元(水、材料科學,、能量)的各種過程性或形成性評價,、期末后測等。借助預先設置的三個鉚測驗,,可以將學生在不同時間點的得分標定到一個共同的測量尺度上,,即“指向公眾理解的科學教育項目(science education for public understanding project,SEPUP)”測量尺度,。一方面,,該測量尺度與證據(jù)使用與權衡素養(yǎng)的五個發(fā)展水平相關聯(lián),,因此,,可以提供素養(yǎng)的不同水平在測量尺度上的區(qū)間跨度;另一方面,,整合上述要素后,,既可以報告學生在每個單元的“證據(jù)使用與權衡”素養(yǎng)方面的發(fā)展水平,也可以報告學生素養(yǎng)隨課程進程的發(fā)展程度,。此外,,研究者還可以通過綜合素養(yǎng)水平描述和學生的具體任務表現(xiàn),,記錄和追蹤學生素養(yǎng)發(fā)展情況,如呈現(xiàn)學生已經(jīng)掌握或需要努力的地方,、提供與當前教學內(nèi)容和進度密切結合的反饋信息等,,從而真正指導教師教學和學生學習。 四,、素養(yǎng)導向嵌入式評價系統(tǒng)實施的條件保障 評價系統(tǒng)的設計和實施是一個系統(tǒng)工程,,需要一系列條件保障。其中,,提高教師評價素養(yǎng)水平,、建立評價協(xié)調(diào)機制、完善數(shù)字化支持平臺三項保障措施尤為重要,。 (一)提升教師評價素養(yǎng)水平 評價系統(tǒng)要想與課程和教學緊密結合,,教師具有不可替代的作用。教師應深度參與評價實施的全過程,,主動成為評價系統(tǒng)開發(fā)和使用的主導者,。這就需要教師能深度理解素養(yǎng)導向的評價理念,結合課程內(nèi)容制訂合理的素養(yǎng)目標,,選擇或創(chuàng)設恰當?shù)脑u價任務和形式,,采取與教學活動相互支持的證據(jù)收集方法,識別和評定來自不同評價任務,、形式或類型的學生表現(xiàn)證據(jù),,能結合當前教學情況合理解釋評價結果,在此基礎上改進教學或指導學生學習,。因此,,教師評價素養(yǎng)亟須提升,有必要加強相關培訓與指導,。 (二)建立評價協(xié)調(diào)機制 嵌入式評價系統(tǒng)涉及各種任務類型和評價形式,,包含教師、學生,、學校及區(qū)域管理人員,、專業(yè)人士等不同主體,可以通過引入評價協(xié)調(diào)(as-sessment moderation)機制,,確保從素養(yǎng)目標制訂到結果反饋等一系列環(huán)節(jié)的質(zhì)量穩(wěn)定性,。評價協(xié)調(diào)機制最初指教師集體分享、討論和協(xié)商對特定(任務)情境下學生作品或表現(xiàn)的理解和評定,,以確保參與者能夠在共同框架或評判標準下,,達成對學生表現(xiàn)的理解、評分及解釋的共識[19],。教師可以據(jù)此調(diào)整評判標準和后繼評分,,與共同標準保持一致,。評價協(xié)調(diào)機制以一種公開的、集體協(xié)商的方式進行分數(shù)評定,,有助于保證評分公平性和一致性,。利用這種方式,不僅可以提高評分質(zhì)量,,還可以作為一種教師專業(yè)發(fā)展模式,,促使教師不斷反省和改進,并提升其評價素養(yǎng),。在評價系統(tǒng)中,,可以將評價協(xié)調(diào)機制拓展到所有環(huán)節(jié),包括更多參與人員,,形成一種基于評價協(xié)調(diào)的質(zhì)量監(jiān)控機制,。 (三)建設數(shù)字化支持平臺 數(shù)字化平臺對評價系統(tǒng)不可或缺,可以在不同層面支撐評價系統(tǒng)的運行,。首先,,數(shù)字化平臺可以提高評價效率和便捷程度。借助于數(shù)字化平臺,,教師可以不受時空限制隨時開展評價,,在線記錄評價過程,收集學生表現(xiàn)或作品,。平臺可以輔助教師開發(fā)任務,,根據(jù)需求更為方便、快捷,、及時地分析和集成數(shù)據(jù),,展示評價結果和生成評價報告。第二,,數(shù)字化平臺能夠變革既有評價模式,。借助于虛擬現(xiàn)實、多媒體等技術,,數(shù)字化平臺可以支持教師創(chuàng)設虛擬的復雜情境或探究任務,,以人機互動的方式在線進行學科或跨學科任務的施測,收集動態(tài)的,、多模態(tài)的過程數(shù)據(jù),,實現(xiàn)對學生多方面核心素養(yǎng)的綜合評價。第三,,數(shù)字化平臺還能夠?qū)崿F(xiàn)評價與學習的真正融合,。以學生個性化學習和發(fā)展為核心,,通過創(chuàng)設沉浸式的學習環(huán)境,,支持學生在線開展協(xié)作式的學科或跨學科探究,,并通過生成式人工智能技術,實現(xiàn)對學生學習過程追蹤,、數(shù)據(jù)挖掘及動態(tài)評價,,提供即時的智能化和個性化的結果反饋、學習建議和資源推送,,使學習與評價真正融為一體[20],。 參考文獻略。 |
|