實踐項目 返回列表

核心素養的認知診斷測評體系建構

2020/4/26 10:31:25

核心素養是全球教育界關注的焦點問題,也是當下教育改革的風向(xiàng)标。然而,如何合理測評學(xué)科核心素養成(chéng)爲教育改革和發(fā)展的重要議題,學(xué)科核心素養的測評需加關注各種(zhǒng)新型評價形式[1]。認知診斷測評作爲一種(zhǒng)新的教育測評範式,旨在將(jiāng)嚴格的心理測量标準與形成(chéng)性評估的目标相結合[2]。通過(guò)知識鏈間的關系獲取更恰當的學(xué)習路徑和學(xué)習進(jìn)階,更好(hǎo)地指導教學(xué)實踐。本研究采用認知診斷測評理論,試圖爲核心素養的測評提供新的視角和方法。


認知診斷用于核心素養測評的可行性分析

1 核心素養的本質特征決定了它的可測性

可測性是素養測評的前提,素養的本質決定了素養的可測性,如素養是知識、技能(néng)、态度的超越和統整,是一整套可以被(bèi)觀察、教授、習得和測量的行爲[3]。素養是完成(chéng)某一情境工作任務所必需的一系列行爲模式,這(zhè)些行爲與績效表現密切相關[4]。核心素養具有可測量性,可加以評價,核心素養的表現水平可經(jīng)過(guò)推測得知,呈現出一個連續體的狀态,代表構成(chéng)要素的高低水平[5]。可見,核心素養是在繼承“三維目标”的基礎上發(fā)展出來的、更具有統整性的概念,它不能(néng)脫離知識而存在,是通過(guò)知識積累、技能(néng)發(fā)展、态度養成(chéng)而形成(chéng)的綜合行爲能(néng)力。如歐盟核心素養框架就(jiù)是將(jiāng)行爲導向(xiàng)的核心素養分解成(chéng)知識、技能(néng)和态度三個方面(miàn)來進(jìn)行評價的[6]。這(zhè)種(zhǒng)可分解性,對(duì)核心素養的認知診斷測評起(qǐ)著(zhe)至關重要的作用。


2 核心素養與認知診斷技術都(dōu)具有内隐性

核心素養具有綜合性、内隐性、情境性和适應性等特點,難以直接觀察,必須將(jiāng)核心素養依附于具體行爲,通過(guò)觀察外顯的行爲表現來間接了解内隐的核心素養狀況。如歐盟國(guó)家核心素養評價的一種(zhǒng)思路是將(jiāng)核心素養轉換爲可觀察的外顯行爲,對(duì)核心素養開(kāi)展評價[7]。認知診斷測評作爲新型的測評手段,是高級潛變量模型,主要解決通過(guò)傳統測評無法測量的内部能(néng)力問題。利用認知診斷測評技術來測量學(xué)生的核心素養,可以較好(hǎo)地將(jiāng)核心素養内隐的特征外顯化,讓核心素養的測評從模糊狀态轉爲清晰,爲了解核心素養的内部特征及其結構化特點提供新視角。


3 認知診斷測評使素養測評更加可操作

認知診斷需要將(jiāng)核心素養所代表的行爲能(néng)力分析成(chéng)認知屬性,進(jìn)而通過(guò)現代心理學(xué)和測量學(xué)的手段對(duì)核心素養的内部結構、認知規律及其在細粒度上的表現做出全面(miàn)的診斷和評價。認知診斷測評不僅注重學(xué)生個性化的評價,而且關注群體的學(xué)習路徑和學(xué)習進(jìn)階等整體狀态。因此,核心素養的認知診斷測評成(chéng)爲了評價學(xué)生學(xué)業成(chéng)就(jiù)、考量課标教材合理性、指導教學(xué)有效有序開(kāi)展的依據。此外,認知診斷測評讓核心素養的計算機自适應測評也成(chéng)爲可能(néng),如美國(guó)計算機自适應測驗已經(jīng)以不同形式存在于州立K-12教育測評中[8]。核心素養的認知診斷測評更加具體,師生對(duì)核心素養的理解更加深刻,使得有針對(duì)性地培養學(xué)生核心素養有了可操作的依據。


核心素養測評的認知診斷體系建構

1 理論假設與基礎論證

核心素養的屬性層次界定是核心素養認知診斷測評的基石,它直接影響認知診斷測評的質量。屬性層次既要符合學(xué)科邏輯思維,又要遵循學(xué)生認知規律——這(zhè)就(jiù)要求屬性層次建構者在學(xué)科理解的基礎上,充分了解學(xué)生的認知規律,既要有豐富的學(xué)科經(jīng)驗,又要有大量的學(xué)生知識。Leighton等[9]認爲,目前認知診斷屬性在達到評估和診斷目的方面(miàn)存在困難。爲解決這(zhè)一困難,國(guó)際上較爲成(chéng)熟的辦法是聯合學(xué)科專家、心理測評專家和一線教師,來開(kāi)發(fā)認知診斷屬性層次。此外,還(hái)可以采用心理研究的方法來構建适合認知診斷的屬性層次,如口語報告法、眼動研究技術等。屬性的細粒度直接影響結果的解析深度,由于測評目的不同,其屬性的劃分也存在差異。但從數據的複雜性角度來考慮,一般屬性個數以6~9個爲宜。若某一核心素養的屬性有6個,那麼(me)可能(néng)的屬性類型有以下5種(zhǒng)[10],如圖1所示。

未标題-1.jpg

圖1  屬性層次關系的基本類型


2 認知診斷測評編制

在認知診斷測評編制中,Q矩陣起(qǐ)到了結構化統領的作用。Q矩陣理論將(jiāng)被(bèi)試不可觀察的認知狀态轉化爲在項目上可觀察的作答模式,以此來分析和推測被(bèi)試的認知狀态[11]。以圖1中的C類分支型爲例,用1表示考查該屬性,0表示不考察。這(zhè)樣(yàng),一道(dào)試題總計可能(néng)的考查模式應有26個。本研究在圖1中C類屬性層次關系的限制下,計算出理想測量模式,如表1所示。


表1  C類分支型的理想測量模式屬性考查分布

未标題-2.jpg


在表1的理想測量模式中,排除學(xué)生做題過(guò)程中的猜測與忽視情況,可以推導出屬性掌握模式及其對(duì)應的理想反應模式,如表2所示。


表2  C類分支型屬性的掌握模式及其對(duì)應的理想反應模式

未标題-3.jpg


在表2中,屬性掌握模式(100100)表明學(xué)生隻掌握了第一個和第四個屬性——在這(zhè)種(zhǒng)掌握模式下,排除猜測和忽視情況,學(xué)生隻能(néng)夠做對(duì)T1、T4、T12、T15測試題。


3 認知診斷模型選擇與應用

認知診斷測評依據不同的測評條件開(kāi)發(fā)出了多種(zhǒng)模型。以RSM爲例,該模型爲了將(jiāng)測量得到的多維度數據降到二維空間進(jìn)行分類,構建了一組序偶(θ,ζ),規則空間是以(θ,ζ)爲參數的分類笛卡爾乘積二維空間。其中,θ表示項目反應理論中計算出的被(bèi)試的能(néng)力值,ζ表示警戒指标,即能(néng)力爲θ的被(bèi)試實際反應模式偏離理想反應模式的程度[12]因此,可以依據理想反應模式計算出标準的規則點(純規則點)(θRi,ζRi)和實際反應模式(θXi,ζXi)。定義ζ的值如公式(1)所示。其中,P(θ)=[P1(θ), P2(θ),…,Pi(θ)](i=1 ,2, 3, …, n),Pi(θ)指能(néng)力爲θ的被(bèi)試在第i個項目上作答正确的概率。

未标題-4.jpg

公式(1)


雙參數評估中P(θ)的計算如公式(2)所示,其中ai, bi指第i個項目的區分度和難度,D一般取常值1.7。T(θ)指正确回答項目概率的均值向(xiàng)量,其計算如公式(3)所示,其中t1(θ)的計算如公式(4)所示。

6.png

依據以上規則空間模型,計算出純規則點(θRi,ζRi)和實際反應模式(θXi,ζXi),一般采用馬氏距離判别法或貝葉斯方法,按照純規則點將(jiāng)被(bèi)試分到不同的理想反應模式中,即可達到對(duì)被(bèi)試進(jìn)行分類診斷的目的[14]


4 結果分析與診斷報告

認知診斷測評了解學(xué)生在多維、細粒度的潛在認知屬性上的差異,充分體現了學(xué)生診斷性、個性化的形成(chéng)性評估特點;同時,也可以通過(guò)知識鏈間的關系獲取更恰當的學(xué)習路徑和學(xué)習進(jìn)階,關注統整性的終結性評估。認知診斷測評模型的本質,就(jiù)是通過(guò)心理測量學(xué)手段,按照實際反應模式和理想反應模式匹配的最大概率,將(jiāng)被(bèi)試劃歸到不同的理想掌握模式中,進(jìn)而依據被(bèi)試在理想掌握模式所處的狀态對(duì)被(bèi)試進(jìn)行有針對(duì)性的屬性掌握策略與方法的補救。除此之外,認知診斷測評還(hái)可以獲得學(xué)生核心素養的學(xué)習進(jìn)階。學(xué)習進(jìn)階作爲學(xué)生學(xué)習某一領域知識的認知過(guò)程和發(fā)展順序,涉及對(duì)發(fā)展學(xué)生相關認知活動的描述,對(duì)整個教育教學(xué)有奠基作用,也可爲國(guó)家課程标準的修訂、教材的編寫、教學(xué)順序的安排以及學(xué)生學(xué)習效果的測評提供基礎性的理論支持。


核心素養的認知診斷測評的案例分析

認知診斷中屬性建構是整個測評的基礎。本研究以數感爲例進(jìn)行案例分析,將(jiāng)數感分爲9個認知屬性[15]——A1:理解整數的基本含義;A2:理解分數和小數的基本含義;A3:數字的多元化表示;A4:理解整數的相對(duì)和絕對(duì)大小;A5:理解分數的相對(duì)和絕對(duì)大小;A6:整數運算;A7:分數、小數的簡單運算;A8:分數、小數的複雜運算;A9:整數的應用。數感的認知診斷屬性模型如圖2所示。按照理想測量模式對(duì)屬性考查的要求形成(chéng)了測評工具,其部分測試樣(yàng)題如表3所示。

未标題-7.jpg

圖2  數感的認知診斷屬性模型


表3  數感認知診斷測試樣(yàng)題(部分)

未标題-8.jpg


本研究依據規則空間模型建立的序偶[(θ,ζ)]規則,計算出純規則點(θXi,ζXi);依據被(bèi)試測量的實際數據,計算出實際反應模式對(duì)應的序偶(θXi,ζXi);使用馬氏距離衡量學(xué)生實際反應模式的點與理想反應模式的純規則點之間的距離,其主要的能(néng)力值θ和對(duì)應的掌握模式如表4所示[16]


表4  數感的認知診斷分類結果

未标題-9.jpg


表4顯示,三年級學(xué)生主要掌握了A1、A2、A3、A4和A6屬性,并且這(zhè)些掌握模式對(duì)應的能(néng)力值相對(duì)較低。四年級學(xué)生進(jìn)一步掌握了A5和A9屬性,并且對(duì)應的能(néng)力值也有所增加。五年級學(xué)生幾乎掌握了所有的屬性,并且在θ=5.48、θ=3.62等高能(néng)力的掌握模式上占據較大的比例。針對(duì)不同水平的學(xué)生,可以制定個性化的補救方案,如對(duì)于隻掌握A1和A2的學(xué)生,補救途徑可以是A3→A4→A5→A6→A9→A7→A8或A4→A6→A9→A3→A5→A7→A8。在第一種(zhǒng)補救方法中,學(xué)生首先了解數字的大小,然後(hòu)掌握整數的運算和應用,最後(hòu)掌握分數和小數的運算;而在第二種(zhǒng)補救方法中,學(xué)生首先提高對(duì)整數的數感,然後(hòu)提高對(duì)分數和小數的數感。


啓示與讨論

1 啓示

(1)認知診斷測評使核心素養的測評從理念性的描述轉化爲實踐性的操作

到目前爲止,學(xué)習測評的觀念發(fā)生了兩(liǎng)次重要改變:第一次是由“對(duì)學(xué)習的評價”到“爲了學(xué)習的評價”;第二次是從“爲了學(xué)習的評價”到“評價是學(xué)習的一種(zhǒng)方式”[17]。評價理念的變化,要求核心素養的評價要突出學(xué)生本身在學(xué)習中的主體地位和作用,能(néng)夠制定個性化的評價方案和策略。然而,現有核心素養的評價标準僅停留在對(duì)認知水平的描述階段,是一種(zhǒng)表現性的标準,這(zhè)種(zhǒng)标準是學(xué)生被(bèi)劃入相應類别所需的特定表現(包括知識、技能(néng)和能(néng)力等)的最低水平描述[18],其評價的結果主觀性太強,故難以提出可操作的培養措施和補救措施。核心素養的認知診斷測評將(jiāng)評價的目标整合到測評體系中,依據學(xué)生行爲能(néng)力表現推測學(xué)生素養水平,可實現通過(guò)外在表現推測内隐特征的目的。這(zhè)種(zhǒng)評價將(jiāng)學(xué)生的素養水平按照不同的理想掌握模式進(jìn)行細分,并給每種(zhǒng)掌握模式制定了個性化的補救方案。可見,認知診斷測評技術可將(jiāng)籠統的核心素養評價更加清晰化,爲核心素養評價并通過(guò)評價促進(jìn)核心素養的培育起(qǐ)到了重要作用。


(2)核心素養的認知診斷測評兼具形成(chéng)性評估和終結性評估的特點

核心素養是一個人在某個方面(miàn)的關鍵能(néng)力和重要品質,具有高度的抽象性和綜合性,因此其評價需要關注整合性,不宜碎片化。但是,由于核心素養的内隐性和綜合性特征,在如何評價、培養學(xué)生的核心素養方面(miàn)存在很大困難,因此核心素養的評價還(hái)需要進(jìn)行形成(chéng)性評估。如PIAS中核心素養的評價既能(néng)夠通過(guò)作答反映學(xué)生在思維品質上的差異,也可關注學(xué)生的個性化發(fā)展和創造性表現,有利于對(duì)學(xué)生進(jìn)行個性化診斷[19]。核心素養的認知診斷測評可以得到每一個學(xué)生的診斷報告,發(fā)現學(xué)生在學(xué)習中存在的問題,以及在全體學(xué)生中所處的水平,從而有針對(duì)性地提出補救的方案和路徑。在終結性評估方面(miàn),通過(guò)測評可以得到核心素養的學(xué)習進(jìn)階,進(jìn)一步爲培養核心素養提供合理的路徑和策略。學(xué)習進(jìn)階是修訂課程标準、編寫教材、進(jìn)行教學(xué)與學(xué)習評價的重要基礎,爲整個教育教學(xué)的發(fā)展提供了有效支持。認知診斷精細的過(guò)程性、個性化測評特點,爲核心素養的測評提供了抓手;認知診斷對(duì)整個認知規律和學(xué)習進(jìn)階的把握,則爲核心素養的測評指明了發(fā)展方向(xiàng)。


(3)認知診斷測評爲核心素養的計算機自适應測評奠定了基礎

學(xué)習測評發(fā)展的趨勢是走向(xiàng)計算機自動化。“互聯網+”時代的到來,給信息、通訊和技術(ICT)在學(xué)習測評中的應用提供了巨大的發(fā)展空間。美國(guó)的ICT測評技術已經(jīng)開(kāi)啓了從“明确考試的範式”到“嵌入式評價範式”的轉變。在“明确考試的範式”中,測評強調精準測查學(xué)生的學(xué)業表現;在“嵌入式評價範式”中,測評強調有針對(duì)性的及時反饋[20]。可見,學(xué)習測評技術的自适應性具有傳統測評所缺乏的衆多優點,核心素養測評走向(xiàng)計算機自适應化是測評發(fā)展的必然趨勢。目前,PISA和NAP-SL測試都(dōu)已全部使用計算機自适應測評進(jìn)行學(xué)業測評。而認知診斷理論作爲計算機自适應測評的重要理論,爲計算機自适應測評起(qǐ)到了基礎性的支撐作用。核心素養的認知診斷測評,也爲核心素養的計算機自适應測評提供了前提條件。現有的學(xué)習測評分析工具可通過(guò)學(xué)生的在線學(xué)習和測評,將(jiāng)結果以可視化的形式呈現給學(xué)生,幫助學(xué)生分析學(xué)習過(guò)程中存在的問題,促進(jìn)反思,調整學(xué)習策略[21]。未來核心素養測評可以通過(guò)數字化工具和大數據、雲計算等技術,將(jiāng)心理測量模型和具體的學(xué)科核心素養無縫嵌入到學(xué)生的學(xué)習和測評過(guò)程中,對(duì)學(xué)生的學(xué)習過(guò)程進(jìn)行動态監測,以促進(jìn)學(xué)生更好(hǎo)地學(xué)習[22]


2 讨論

無論是個性化的學(xué)生特征分析、綜合性的學(xué)習進(jìn)階制定,還(hái)是計算機自适應測評的理論準備,核心素養的認知診斷測評都(dōu)具有明顯的優勢。與此同時,核心素養的認知診斷測評也存在有待改進(jìn)的空間:①認知診斷測評理論強調的是對(duì)核心素養的具體化。由于核心素養的抽象性和内隐性,“個體所具備的核心素養及其水平,必須借助于他們在具體任務中的實際表現加以推測”[23]。但核心素養的具體化并不意味著(zhe)測評隻關注局部而不考慮整體,更不可將(jiāng)評價碎片化,應該在具體與抽象之間保持“精妙的平衡”[24]。②認知診斷的測評基本上都(dōu)是以0或1的二元狀态評分,這(zhè)使得測評試題的編制有較大的局限。核心素養的測評關注課程學(xué)習的“真實性學(xué)業成(chéng)就(jiù)”,而真實性學(xué)業成(chéng)就(jiù)不隻是習得事(shì)實性的學(xué)科知識和概念,而是能(néng)夠運用這(zhè)些知識或概念解決複雜的現實性問題[25],因此核心素養需要有一定情境化、整合性和開(kāi)放性的評價任務——當然,随著(zhe)認知診斷測評的多級評分模式的成(chéng)熟,這(zhè)一問題可能(néng)會(huì)得到較好(hǎo)的解決。此外,認知診斷測評對(duì)技術的要求較高,故在測評的廣泛普及方面(miàn)會(huì)受較多的限制,這(zhè)就(jiù)需要專業人員開(kāi)發(fā)具有普适性的核心素養的認知診斷測試平台,爲更多人員參與測評提供技術服務。