"考試"背後的科學:教育測量中的理論與模型(IRT篇) | 程式前沿

文章推薦指數: 80 %
投票人數:10人

由於在CTT中,項目難度參數和考生能力參數定義在不相關的兩個度量系統上,所以兩者之間無法進行比較,也就無法進行預測,對測驗編制活動的指導價值是有限 ... 程式語言前端開發IOS開發Android開發雲端運算人工智慧伺服器搜尋資料庫軟體開發工具“考試”背後的科學:教育測量中的理論與模型(IRT篇)2020.08.18程式語言HOME程式語言"考試"背後的科學:教育測量中的理論與模型(IRT篇)Advertisement目錄1.前言1.1.1.教育測量是什麼?1.2.2.項目反應理論(IRT)概述1.3.3.結論1.4.相關文章前言我們一說到教育,就不可避免地會談到中考、高考,這些高風險考試(high-stakestests)。

雖然大家對“教育測量”這個概念可能不那麼熟悉,但關心教育行業的夥伴對以下問題可能會比較有共鳴。

比如:我們如何決定一張試卷是不是適合當年、當地的考生?我們如何為不同學科的試題賦值,應該使用等級、原始分數還是轉換分數?新高考的計分邏輯和原始分數有什麼不同?選科高考後,大家選擇的科目都不一樣,分數可比性怎麼解決?這些問題背後的邏輯都與教育測量學密不可分。

其實,教育測量的理論和技術,不僅僅會應用在大型高風險考試,還可以應用在老師們日常教學的閉環中。

比如,在面對一個新生的時候,我們如何知道學生初始的知識掌握水平?在教學期間,我們如何知道學生對一個知識點有沒有掌握、掌握到什麼程度?在一段學習之後,我們如何知道學生相比較剛來報班的時候有沒有水平的進步或變化?學科能力水平這樣的抽象概念,我們很難一眼看到,不像我們的身高、體重那麼直觀。

所以我們就要依賴測量工具來對這些抽象、潛在的心理維度進行外化和量化,獲得關鍵的學情信息,讓我們直觀地透過學生的作答信息和作答結果來回答這些問題,牽引著老師們在日常教學過程中的每一步動作。

1.教育測量是什麼?那麼,教育測量(EducationalMeasurement)到底是幹什麼的呢?實際上,教育測量要做的事兒就是對各種與教育相關的事物進行量化,給這些事物指派數字,最終來實現不同的教育決策(例如:選拔、評價、因材施教等)。

以評價為例,我們可以通過各種不同形式的“考試”把學生的學習表現量化,用數字或者等級來代表,進而評價學生的學習效果。

我們也可以通過對老師平時的教學行為進行量化,用數字或者等級來代表,來評價老師的教學效果。

中國著名心理學家張厚粲老師說,“一個人的經驗再豐富,也難免帶有一定的侷限性。

再好的售貨員不用尺或秤,而僅憑經驗賣布賣糖時也會出錯”。

教育測量學就是希望可以用科學方法保證試卷的質量,確保可以精準地測量與教育相關的事務,保證根據分數做出的決策是合理的、公平的。

在教育測量學中,衡量測評工具最重要的兩個指標是信度(reliability)和效度(validity)。

其中,信度是指這個測量工具要可靠、穩定地測查我們關注的維度,比如:學生的學科能力。

效度是指這個測量工具確實是在測試我們所關注的維度,而不是其他不相關的維度。

比如:數學考試就是測試學生的數學能力,而不是學生的英語能力。

這兩個概念,會在我們後續的文章中為大家詳細介紹。

在這篇文章中,我們將具體介紹在教育測量領域中被廣泛使用和研究的一種現代測量理論,名為項目反應理論(ItemResponseTheory,IRT)以及這個理論下的常用技術和模型,讓我們從一個科學、技術的眼光看看考試背後的故事。

2.項目反應理論(IRT)概述在介紹測驗理論之前,我們先從大家的做題和考試經驗來入手體會一下不同理論的差異。

傳統考試裡大家做一份題,做完以後老師反饋試卷總分,如果我們忽略每個題目的分值,其實每個人的考分可以表達為作答正確的百分比。

比如,一份試卷20題,對了15題,那麼最後試卷得分就是75%。

那麼,75%的正確率代表什麼呢?首先,我們日常在出試卷的時候,一定不是隻關心學生在這張試卷上表現怎麼樣,而是我們想通過這張試卷的20題,去推斷他能力到底怎麼樣。

這張試卷的20題是對學生知識掌握情況的抽樣,如果再給這位學員40題,他是否可以做對75%的試題,也就是30題?如果是80題,他是否能夠做對60題(依然是75%正確率)?這裡隱含的假設是,我們老師抽選的20個題是無窮無盡的題海中的一個有代表性的樣本。

但是,當老師們組出的20個題並不是對於一個年級有代表性的樣本時,或者試卷間考察的知識點本身就不同時,則沒有辦法認為一個考生在試卷A的正確率是75%,他在試卷B上的正確率也是75%。

這樣只通過總體試卷正確率去評價學生的方法是有一個測量理論支持的,叫做經典測驗模型(ClassicalTestTheory,CTT)。

要了解項目反應理論(ItemResponseTheory,IRT),我們首先需要認識一下CTT——因為正是CTT的侷限性,才有了IRT產生的契機。

CTT是在隨機抽樣理論基礎上建立的一套心理與教育測量理論體系,其核心假定是:在測驗水平上,觀察得分(observedscore;也就是我們通常的考試得分)等於真分數(truescore;真實能力應該體現的分數)加上隨機誤差分數(errorscore;其他不相干因素導致的誤差)。

由於我們假設誤差是正態分佈上的隨機變量(均值為0的),因此,如果同一個測驗或平行測驗可以反覆測量同一個人足夠多次,觀察分數的均值就會接近考生的真分數,隨機誤差的均值為0。

那這樣的理論主要有以下幾個侷限性:在CTT下,用許多彼此平行的測驗或同一個測驗反覆測量同一個人的同一種心理特質的做法在實際操作中往往是很難實現的,因此對個體真分數的精確估計也就主要停留在理論的層面上。

CTT的信度估計精度並不高。

在CTT中,測驗信度被定義為真分數方差與原始分數方差之比。

雖然我們可以獲取原始分數,但真分數方差在實際中卻無從獲取,哪怕是使用平行測驗估計信度,完美的平行測驗也是不存在的,因此實際估計的信度也不可避免地存在誤差。

CTT各種參數(如:信度、效度、難度、區分度)的估計對樣本的依賴性很大。

例如:對於同一題目,若考生樣本的群體水平較低,我們就會得到較高的難度估計值;反之,則得到較低的難度估計值。

為了避免樣本偏頗造成參數估計誤差過大,CTT特別強調抽樣時要注意保證樣本對總體的代表性。

CTT中,測驗對考生的評價指標主要為測驗總分,而測驗總分是考生在各個項目上的觀察分數的總和。

在用總分評價考生時,不同考生之間水平的比較只能在他們考了同一份測驗的情形下進行,但是如果不同的考生參加的測驗不同,那麼這些總分之間就是不可比的,也就限制了我們對測驗分數的應用。

在CTT下試卷的難度量表和考生的能力量表之間的關係是不一致的。

在CTT中,題目難度的參照系是考生群體。

例如:難度0.8表示該試題有80%的考生得分,但難度會隨著受試群體的變化而變化。

考生能力參數的參照系是試題集合。

例如:百分制試卷中某考生卷面得分是80分,表明該考生在此特定試卷上得分率為80%,但是該考生是否能答對某個難度為0.8的題目呢?一個能力水平參數已知的考生完成一份所有項目參數均已知的測驗,其在各個項目上的反應情況又如何呢?由於在CTT中,項目難度參數和考生能力參數定義在不相關的兩個度量系統上,所以兩者之間無法進行比較,也就無法進行預測,對測驗編制活動的指導價值是有限的。

既然CTT存在那麼多侷限性,是否有更科學、更實用的測量理論來彌補這些不足呢?我們接下來要介紹的項目反應理論(IRT)就是為解決這些侷限應運而生的。

2.1IRT的基本框架IRT全稱為ItemResponseTheory,譯為項目反應理論。

其中所謂“項目”(item)其實就是指的我們試卷中的題目,“項目反應”(itemresponse)就是考生在具體題目上的作答。

簡而言之,IRT就是建立在學生能力和作答正確率的關係上的。

我們知道,影響考生在項目上作答結果的主要因素有兩個方面:第一個方面是考生本身的能力水平;第二個方面是試題項目的測量學屬性,如項目難度、區分度、猜測性。

在日常教學活動中,我們都有這樣的經驗:對於一道編制質量很好的題目,全卷總分較低的考生在該題目上的正確作答概率較小,而全卷總分較高的考生在該題目上的正確作答概率相應較高。

這種伴隨著總分的由低到高,題目正確作答概率由小到大變化的過程基本上是一種連續性變化的曲線。

在經典測量理論中(CTT),卷面總分可以被視作學生能力的代表,但是學生卷面總分是隨測驗的許多特性而變的。

例如,隨著試卷難度的改變,同一考生的卷面總分也會隨之改變。

那麼能否用一種穩定反映考生水平的潛在特質(latenttraits)變量來代替卷面總分呢?假設這種潛在特質(即考生的能力)是存在且可被測量的,我們用θ來表示,那麼隨著考生的能力水平的變化,考生答對某題目的概率P(θ)也相應變化。

這種描述考生能力水平與項目作答結果之間關係的數學模型被稱為項目特徵函數(itemcharacteristicfunction,ICF),以圖像表示則稱為項目特徵曲線(itemcharacteristiccurve,ICC)。

下圖1為一典型的ICC:橫軸表示考生的能力水平,縱軸表示答對某題目的概率。

每一個題目會有自己的ICC。

圖1.項目特徵曲線(ICC)考生潛在特質θ在特徵函數ICF中是一個自變量,從理論上說θ的定義域是無窮的,從負無窮到正無窮都可取。

P(θ)的值隨著θ的增大而增大,但以P(θ)=1為它的上漸近線。

參數θ與卷面總分有一定的聯繫,正常情況下兩者呈正相關。

但是,θ是考生水平更為本質、精確的描寫。

習慣上θ採用標準Z分數的表達形式,其上下限一般設定為[-3,3]。

ICC的走勢除了受到考生潛在特質的影響外,還受到三個反映測驗試題特徵的未知題目參數alphaα、betaβ、c的影響,這三個參數決定了S形曲線的走向(圖2)。

alphaα參數被稱為題目的區分度,它刻畫了測驗題目對考生水平區分能力的高低。

在題目的ICC中,alphaα值是曲線拐點處切線斜率的函數值。

曲線在拐點處越陡峭,值則越大,同時意味著能力θ在拐點處稍有變化,則在該題目上正確作答的概率差別較大,因此也就說明該試題起到了精細區分考生的作用。

圖2.不同參數在項目特徵曲線上的含義參數c被稱為猜測參數,是指實際測驗中考生純憑猜測而作答成功的概率。

直線P(θ)=c是ICC的下漸近線。

若題目的猜測參數為c,則意味著θ為負無窮的考生在該題上正確作答的概率也為c。

betaβ參數被稱為題目難度。

難度為betaβ的題目,若排除c的影響,潛在特質θ恰好等於betaβ的考生,TA在該題目上正確作答的概率為0.5。

隨著題目betaβ值的升高,ICC在橫軸方向上向右平移,這時只有潛在特質更高的考生才可能在新題目上獲得相同的正確作答概率。

因此,betaβ值確定了,ICC在橫軸上的位置也就確定了。

與CTT中的難度參數不同,這裡的位置參數是定義在考生能力量尺下的,而不是單純考慮題目的作答情況。

2.2IRT理論下的不同模型項目反應理論(IRT)中題目參數和潛在特質水平參數共同影響測驗的結果和精度。

題目參數越多,對題目性質刻畫越精細,但相對來說,模型也就越複雜,應用越困難。

那麼什麼樣的函數形式可以整合考生潛在特質和題目特徵呢?研究者根據大量、可觀測到的作答反應曲線,擬合提出了IRT的兩個基礎模型——正態肩型模型(thenormalogivemodel)和邏輯迴歸模型(logisticmodel)。

由於正態概率分佈曲線是一S形曲線,因此研究者(Lord,1952)首先想到了用它來擬合ICC,而正態肩型模型也從理論上奠定了IRT初始模型的基本形式。

但是由於其模型中採用了積分函數的形式,在實際參數估計和使用中不方便,因此在1957年,Birnbaum將其改換成了logistic形式(如下公式)。

其中,θ為考生能力,alphaα為題目區分度參數,betaβ為題目難度參數,c為猜測參數,D為常量。

P為能力為θ的考生正確作答某題目的概率。

當D取值為1.702時,此函數的概率密度與正態肩型曲線的差異小於0.01。

由於計算方便,目前多用此函數形式來描述ICC曲線。

以上方程被稱為三參數模型,當c=0時,該方程簡化為雙參數模型;當c=0且alphaα值一致時,該方程只有項目難度參數betaβ,因此被簡化為單參數模型。

有一種特殊並被廣泛應用的單參數項目特徵曲線被稱為Rasch模型,由丹麥學者Rasch(1960)獨立提出,對於不同的題目,其alphaα值恆定為1。

2.3IRT模型參數估計當我們精心設計了一張試卷,並大費周章地得到學員的作答數據後,應該怎樣利用這些數據估計學員的能力呢?針對具體的模型,IRT參數估計的過程就是要通過實測數據(即考生的作答數據),有時可能還需要藉助一些人們積累的經驗信息,獲取測驗中每個項目參數的估計值,以及參加測驗的考生能力水平參數估計值。

然而,在參數估計中,我們只有考生的得分矩陣和一些先驗信息,考生的能力參數和項目參數均未知,我們要如何估計這些參數呢?一種經典的估計方法需要用到一種名為聯合極大似然估計(JointMaximumLikelihoodEstimation,JMLE)的方法對考生能力水平參數和項目參數進行聯合估計。

所謂聯合估計,具體來說就是首先以考生能力初始估計值作為已知條件,利用極大似然估計的方法估計項目參數;然後以該估計的項目參數為已知條件,重新校正初始考生能力參數;將能力估計值標準化,並且將項目參數做相應變換,即將兩類參數放到同一量尺下;然後又以校正後的能力參數進一步校準項目參數,如此循環遞推新值,直至兩類參數達到某個預先設定的標準為止。

儘管JMLE的方法可以同時估計考生參數和項目參數,但這種方法在實際運用中也存在很大的問題。

例如:為了更精確地估計項目參數,一個常用的方法是增加項目樣本量,但是增加樣本量的同時也會導致考生參數估計量的增加,因此就會有更多沒有額外項目信息的考生參數需要估計。

同時,把考生參數和項目參數綁定在一起也不是一種有效的計算方法,因為只要一個項目的模型擬合沒有做好,就需要重新進行整個項目參數和考生參數的估計。

因此,在實際操作中,研究者普遍採用一種更有效的項目參數估計方法——邊際極大似然估計(MarginalMaximumLikelihoodEstimation,MMLE)。

MMLE的方法是把考生看成是來自於某個已知分佈總體的代表性隨機群體,可以通過基於對該已知分佈進行積分的方式來估計項目參數。

已有考生作答數據信息,且項目參數確定的情形下,一種常用的能力參數估計方法為貝葉斯後驗期望估計的方法(ExpectedaPosteriorEstimation,EAPE)。

EAPE的方法與極大似然估計的過程不一樣,可以通過直接計算就得到期望估計值,因此計算過程更簡單,速度更快,也符合傳統的貝葉斯思想,使它成為能力參數估計的一個上佳選擇。

2.4IRT的優勢在以上內容中,我們介紹了IRT的理論框架、相關模型以及參數估計的內容,可以看出IRT和CTT有很大的不同,那麼IRT是怎麼克服CTT的侷限的呢?它的優勢又體現在哪裡?2.4.1項目參數與考生能力參數具有不變性的特徵我們在本節的開頭提到CTT參數的估計對參測樣本的依賴性很大,但是在IRT中測驗的題目參數具有跨群體不變性,即題目參數估計獨立於參測樣本。

具體來說,只要測試同一特質的測驗項目的參數具有足夠寬的覆蓋,也就是測驗中既有難的題目,又有中等難的題目,也有容易的題目,那麼不管題目分佈形態如何,考生能力參數的估計就不依賴具體的題目。

同時,只要在同一維度上考生的能力水平分佈足夠寬,也就是在考生樣本中,既要有部分能答對該題目的考生,也要有些無法答對的考生。

那麼,不管考生分佈形態如何,項目參數的估計也不會依賴於具體的考生樣本群體及其分佈形態。

2.4.2項目參數與考生能力參數具有統一的量表根據IRT模型估計出來的考生能力參數與項目難度參數具有統一的量表,即考生參數與項目參數可以被標定在同一個參照尺度上。

例如,能力估計值為0.5的考生答對難度值為0.4的題目的概率大於答錯的概率,而答對難度估計值為0.6的題目的概率則小於答錯的概率。

同時,在實際應用中,用於測試能力水平為0.5的考生的最佳題目的難度也應該在0.5左右。

距離0.5太遠的題目,對該考生來說或者太容易或者太難,並不能有效測量出考生的水平。

2.4.3可以針對不同考生精確估計每個項目和測驗的測量誤差IRT相比於CTT引進了題目信息函數的概念,並用信息量來替代信度的概念。

信度與測量標準誤差之間存在反比關係,一個試題提供的信息函數越大,測試的誤差就越小。

信息函數不僅與參測題目性質有關,還與參測群體的水平有關,即對不同能力的考生施測相同試題,其測驗誤差並不相同。

同時,測驗題目信息函數具有可加性,一個測驗包含多個題目,它們的信息函數的累加值可以被稱為測驗信息函數。

有了不同題目對不同考生單獨計算信息量值的方法,我們就可以對每個考生的特質水平估計誤差進行主動控制,從而更加有利於指導測驗的編制。

3.結論綜上,我們為大家簡單介紹了教育測量的含義,並深入描述了教育測量中廣泛應用的現代測驗理論IRT(項目反應理論),包括其背後的邏輯和涵蓋的不同模型。

相較於老師們主觀組合、實施的考試和經典測驗理論,應用IRT理論和技術可以更加精準地測量學生的學科水平。

其實,關於IRT的相關技術還有很多,能幫助我們實現各種不同的測評目的,指引我們的測評設計。

而在應用場景方面,IRT除了應用在大型測評中的具體測驗設計和計分中以外(如:我國大學英語四六級考試),IRT的技術理論還可以用於題庫建設和自適應測評的開發,感興趣的夥伴可以持續關注硅谷研發部發表的文章,我們會在之後的專題文章中和大家分享不同的測驗理論和技術的應用。

歡迎大家持續關注!參考文獻Birnbaum,A.(1957).Efficientdesignanduseoftestsofamentalabilityforvariousdecision-makingproblems.(SeriesReportno.58-16,Projectno.7755-23,USAFSchoolofAviationMedicine,RandolphAirForceBase,Texas.)DeAyala,R.J.(2008).Thetheoryandpracticeofitemresponsetheory.GuilfordPublications.Lord,F.(1952).Atheoryoftestscores.Psychometricmonographs.Rasch,G.(1960).Probabilisticmodelsforsomeintelligenceandattainmenttests.Copenhagen:DanishInstituteforEducationalResearch.戴海崎,張鋒.(2018).心理與教育測量.暨南大學出版社.羅照盛.(2012).項目反應理論基礎.北京師範大學出版社.張厚粲.(2017).教育測量學:高考科學化的技術保障.中國考試,(8),4.招聘信息好未來技術團隊正在熱招測試、後臺、運維、客戶端等各個方向高級開發工程師崗位,大家可掃描下方二維碼或微信搜索“好未來技術”,點擊公眾號“技術招聘”欄目瞭解詳情,歡迎感興趣的夥伴加入我們!也許你還想看WebRTC源碼分析——視頻流水線建立(上)淺析深度知識追蹤如何助力智能教育輕量型TV端遙控器交互類庫最佳實踐“考試”背後的科學:教育測量中的理論與模型(IRT篇)用技術助力教育|一起感受榜樣的力量想了解一個異地多校平臺的架構演進過程嗎?讓我來告訴你!摩比秀換裝遊戲系統設計與實現(基於Egret+DragonBones龍骨動畫)如何實現一個翻頁筆插件產研人的疫情戰事,沒有一點兒的喘息相關文章腦電硬件丨人類如何觀測大腦?腦成像技術概覽(上)揭祕丨大數據時代,數據背後那些事兒你知道多少?140M到67M,學而思網校如何在一週內構建一套可持續的瘦身系統DStack基於flutter的混合開發框架AdvertisementAdvertisement近期文章學習OpenGLES之激光特效2020.08.18學習OpenGLES之透明和混合2020.08.18學習OpenGLES之基本紋理2020.08.18學習OpenGLES之基本光照2020.08.18學習OpenGLES之繪製一個正方體2020.08.18學習OpenGLES之攝像機2020.08.18學習OpenGLES之透視和正交投影2020.08.18學習OpenGLES之變換矩陣2020.08.18學習OpenGLES之繪製更多的圖形2020.08.18學習OpenGLES之什麼是Shader?2020.08.18AdvertisementAdvertisement



請為這篇文章評分?