高考数学中考试评价的研究——基于CTT与IRT的实证比较

文章推薦指數: 80 %
投票人數:10人

摘要:相关研究表明,IRT在教育考试评价中比CTT具有诸多优点。

本文以某地区高考数学考试数据为基础,比较CTT与IRT在项目参数、评价方式、精度估计三个方面之间的差异。

文章快速检索     高级检索   华东师范大学学报(教育科学版)  2014,Vol.32Issue(3):10-18   0 引用本文   闫成海, 杜文久, 宋乃庆, 张健. 高考数学中考试评价的研究——基于CTT与IRT的实证比较.华东师范大学学报(教育科学版),2014,32(3):10-18. YANChenghai, DUWenjiu, SONGNaiqing, ZHANGJian. EvaluationofExaminationinMathinCollegeEntranceExamination:AEmpiricalComparativeStudyonCTTandIRT.JournalofEastChinaNormalUniversity(EducationalSciences),2014,32(3):10-18. 基金项目 教育部哲学社会科学研究后期资助项目"中国基础教育改革与发展研究"(项目批准号:11JHQ001),重庆市教育科学规划项目"项目反应理论在普通高考中的应用"(项目编号:2011KS035) Contents              Abstract              Fulltext              Figures/Tables              PDF 高考数学中考试评价的研究——基于CTT与IRT的实证比较 闫成海1,杜文久2,宋乃庆2,张健3      1西安文理学院数学与计算机工程学院,西安710065; 2西南大学数学与统计学院,重庆400715; 3重庆市教育考试院,重庆401147 基金项目:教育部哲学社会科学研究后期资助项目"中国基础教育改革与发展研究"(项目批准号:11JHQ001),重庆市教育科学规划项目"项目反应理论在普通高考中的应用"(项目编号:2011KS035) 摘要:相关研究表明,IRT在教育考试评价中比CTT具有诸多优点。

本文以某地区高考数学考试数据为基础,比较CTT与IRT在项目参数、评价方式、精度估计三个方面之间的差异。

研究结果证明,在IRT下参数更容易反映观测各个项目的特征属性,IRT参数比CTT参数更具精确性,项目信息函数能更好的反映试题信息;CTT与IRT的评价方式不同,IRT下的能力分数优于CTT下的测验分数,更能反映学生能力水平;CTT与IRT精度估计不同,IRT测验信息函数和能力置信区间比CTT有更好的精度。

实证展示出IRT在高考数学考试评价中的优越性,具有重要的价值和应用前景。

关键词:CTT    IRT    考试评价     EvaluationofExaminationinMathinCollegeEntranceExamination:AEmpiricalComparativeStudyonCTTandIRT YANChenghai1,DUWenjiu2,SONGNaiqing2,ZHANGJian3      1SchoolofMathematicsandComputerengineering,Xi'anUniversity,Xi'an710065,China; 2SchoolofMathematicsandStatistics,SouthwestUniversity,Chongqing400715,China; 3SchoolofChongqingEducationalExamination,401147,China Abstract: ThepreviousresearchshowsthatITRhasmoremeritsthanCTTintheevaluationofexamination.BasedonthedatacollectedinmathsubjectinNationalCollegeEntranceExaminationofonedistrict,thepapercomparesthedifferencesbetweenCTTandIRTonprojectparameters,waysofevaluationandaccuracyassessment.TheresearchshowsthatthecharacteristicsofeachprojectpropertiesaremoreeasilyreflectedundertheIRTparameters,andtheIRTparametersaremoreaccuratethantheCTT.Thefunctionoftheprojectinformationcanreflecttheinformationofthetestsbetter.IRTandCTThavedifferentevaluationwaysandthescoresundertheevaluationofIRT,whichrepresentsstudents'abilities,arehigherthanthoseofCTT.CTTisdifferentfromIRTinprecisionestimation,butthetestinformationfunctionandconfidenceintervalofIRTaremoreaccuratethanthatofCTT.TheEmpiricalstudyshowstheadvantagesofIRTinevaluatingthemathsubjectinCollegeEntranceExamination,whichisvaluableandhaspotentialapplications. Keywords: CTT    IRT    EvaluationofExamination     一、问题的提出 高考对试题命题和质量的评价至关重要。

目前,试卷的制定和评价主要是基于经典测量理论(ClassicalTestTheory,CTT)和项目反应理论(ItemResponseTheory,IRT)。

CTT利用桑代克(E.L.Thorndike)“凡物之存在必有其数量”和麦柯尔(W.A.McCall)“凡有数量的东西都可以被测量”作为理论依据①。

根据学生的考试分数进行直接评价,也称为真分数理论。

CTT理论试卷评价方法简单、运算方便,易于掌握,是我们目前广泛熟悉和应用的测量理论。

它对试卷的评价主要是依靠试题的难度、区分度、效度和信度进行。

除了难度是一个比例之外,其余三个指标都是依靠相关性概念来对试卷进行评价分析。

CTT理论依靠样本,样本不同对同一份试题的评价也就会产生差别。

IRT也称潜在特质理论,起源于20世纪三四十年代的心理测量研究。

基于一定假设,用一个数学函数去刻画被试在项目上可观察的作答表现(得分)与其不可观察的特质水平(能力)之间的关系,利用这个函数关系,可以对被试在项目上的作答反应进行预测,同时也可以利用被试在项目上的作答反应对被试的能力进行估计。

可以说,模型与假设是整个IRT的核心和基础。

目前比较常用的数学模型是二参数逻辑斯蒂模型、三参数逻辑斯蒂模型、Rasch模型和等级评分模型②。

IRT已成为一种新的现代心理与教育测量理论,如SAT、PISA等考试,都是基于IRT的应用。

我国现在大学英语四、六级考试也开始运用IRT进行等值研究③。

王晓华④、沈南山⑤、赵守盈⑥等人分别就IRT在教育考试命题质量、学业测试、标准化考试等方面进行了研究。

但是这些研究都还不涉及实际的普通高考。

为此,本文以某地区高考数学数据为例,从项目参数、评价方式和试卷估计精度对CTT与IRT进行比较分析,以期能为IRT应用于高考数学考试提供一种探索性模式。

二、考试数据的结果 在这次的高考中,数学试卷包含了填空题、选择题、解答题共3个大题,其中填空题包含5个小题,选择题包含10个小题,解答题包含6个小题,共有21个小题。

有十多万被试参加了当年的考试,数据处理采用了IRTP软件和EXCEL进行处理,结果如表1所示。

表1 表1IRT与CTT项目指标分布图 项目abc难度区分度 1(1)0.18-9.900.250.940.42 2(1)1.30-1.220.250.890.52 3(1)1.48-1.380.250.920.52 4(1)1.43-1.110.250.890.54 5(1)1.27-1.260.250.900.52 6(1)1.70-0.820.250.860.58 7(1)0.95-0.050.250.650.44 8(1)1.700.030.250.660.50 9(1)2.660.770.250.380.40 10(1)2.010.970.250.390.24 11(1)1.28-1.640.000.920.52 12(1)1.750.030.000.540.62 13(1)1.290.070.000.510.55 14(1)1.540.720.000.250.46 15(1)1.181.610.000.080.27 16(1)3.51-0.740.000.680.80 16(2)2.37-0.380.000.680.80 16(3)1.88-0.120.000.680.80 16(4)1.520.450.000.680.80 17(1)1.77-0.680.000.740.74 17(2)1.56-0.210.000.740.74 17(3)1.43-0.070.000.740.74 18(1)2.40-0.720.000.630.80 18(2)2.17-0.530.000.630.80 18(3)2.16-0.410.000.630.80 18(4)1.790.580.000.630.80 18(5)1.461.050.000.630.80 19(1)1.56-1.000.000.560.75 19(2)2.050.200.000.560.75 19(3)2.440.520.000.560.75 19(4)2.160.670.000.560.75 20(1)1.92-0.170.000.420.75 20(2)1.82-0.020.000.420.75 20(3)2.710.500.000.420.75 20(4)3.550.950.000.420.75 21(1)1.92-0.070.000.220.68 21(2)1.970.430.000.220.68 21(3)111.30288.830.000.220.68 21(4)111.14318.490.000.220.68 21(5)111.01320.200.000.220.68 说明:平均分:90,标准差:31.69,信度rx:0.84,测验标准误:12.52 表1IRT与CTT项目指标分布图 在用IRT分析测验数据时,首先需针对不同的项目选择不同的模型。

填空题选用二参数逻辑斯蒂模型,选择题选用三参数逻辑斯蒂模型,并且c参数取为0.25,解答题选用等级评分模型。

试题解答是需要设置步骤的,并根据参考答案的给分步骤,也相应设置了节点(得分点),全卷一共有40个节点。

在CTT中,对选择题和填空题的项目难度定义为被试在项目上的正确反应比例,解答题的难度定义为被试在项目上的平均分比项目总分,项目难度的取值范围在0~1之间,难度值越大,项目反而越简单,也就是说项目的难易程度与难度指数的大小是反序的。

项目区分度则定义为被试在测验中获得的总分与项目分数之间的相关系数,由此得到的区分度也叫内部一致性系数。

(一)CTT下的结果分析 在CTT下的难度与区分度参数分布如表2。

从表2可知,在该次考试中,信度系数为0.84。

难度指数小于0.3的试题有3题,位于0.3至0.7之间的试题有10题,大于0.7的试题有8题。

区分度指数除了有两个题小于0.3以外,其余的值均大于0.3。

因此,从CTT的观点来看,该次考试的难度中等偏易,质量较好。

表2 表2难度与区分度参数分布表 难度区、分度分布范围0~0.300.30~0.700.7~1.00 难度题数3108 区分度题数2154 平均分标准差信度测验标准误 9031.690.8412.52 表2难度与区分度参数分布表 (二)IRT下的结果分析 在IRT下的难度与区分度参数的分布如表3。

从表3看到,项目难度或类别难度参数b在-2以下的有1个,位于-2~2内的项目参数或类别参数有36个,大于2的类别难度或项目难度参数有3个。

项目或类别区分度参数a小于0.5的有1个,0.5~2的项目有24个,2以上的项目有15个。

表3 表3项目难度与区分度参数分布 难度b-2以下-2~22以上 题数1363 区分度a0.5以下0.5~22以上 题数12415 表3项目难度与区分度参数分布 在IRT中,难度参数b的取值范围为一切实数,一般要求b参数位于-2~2之间⑦,b参数过大与过小的项目都不利于对被试的能力参数进行有效估计。

在本次考试中,有36个项目或类别b参数位于-2~2之间,因此从IRT角度看,这36个项目(或类别)的b参数是合适的,但是项目21有3个类别b参数都大于200。

从IRT角度看,这样的试题是过难的。

因为无论是高能力的被试或者是低能力的被试都无法对这样的试题做出正确反应,因此这样的试题不能对被试的能力进行有效的鉴别。

另外有一道选择题的难度参数为-9.9,它意味着几乎所有的被试都能对该试题做出正确反应,这样的试题仍然不能对被试的能力进行有效鉴别。

在IRT中,a参数在理论上可以取一切正实数,但是为了对试题(类别)参数及被试的能力参数进行有效估计,一般要求a参数位于0.5~2之间⑧,过大或者过小的a参数都会对参数的估计精度带来不利影响。

然而在表3中看到,有一个试题的a参数小于0.5,有15个试题或者类别a参数大于2,因此从IRT角度看,这些试题的a参数是不理想的。

特别是第21题有3个类别a参数的估计值大于100。

第1题的a参数只有0.18,这样的试题对被试的能力估计几乎没有任何贡献。

当然这样的结果可能与这套试题是基于CTT制定有关。

三、CTT与IRT项目参数的比较 (一)CTT与IRT项目难度参数的比较 从表1中可知,当CTT中项目难度值相同时,它所对应的IRT中的难度参数值有些差别不大,如第2题和第4题,这是两个选择题,在各节点的难度参数都为0.89。

它各节点所对应的IRI难度参数分别为-1.22和-1.11。

有些题目差别就大一些,如20题第2节点和第4个节点,CTT难度参数为0.42,IRT难度参数却分别为-0.02和0.95。

这就是说,对于相同的试卷,CTT项目难度参数相同时它在IRT中的难度参数并非一致。

CTT与IRT难度参数比较如图1所示,横坐标是试题数目,3表示第3题,16.4表示第16题的第4个节点,纵坐标表示取值。

由于IRT里面的21题第3步以后的题目难度区分度值太大,故在对比图里面没有画出。

图1 图1CTT与IRT难度参数对比图 从图1中可以看出,CTT的难度参数和IRT的难度参数大体相似,但在某些项目上存在差异。

可以发现,CTT和IRT的项目难度曲线走势(即高低变化)大致相近,但IRT的变化更加鲜明一些、敏感一些,更容易观测各个项目的特征属性。

⑨ (二)CTT与IRT项目区分度参数的比较 从表1可以看出,当CTT中项目区分度参数值相同时,它所对应的IRT中项目区分度参数值差别不大,如第2题和第3题。

这是两个选择题,在CTT下的区分度参数都为0.52,在IRT下的区分度参数分别为1.30和1.48。

有些题目差别就大一些,如第20题第3、4节点,CTT区分度参数为0.75,IRT却分别为2.71和3.55。

在CTT下区分度参数值为0.75,这是一个尚可的值,在IRT下的值为2.71和3.55,却是一个较差的值。

这就说,对于相同的试卷,CTT项目区分度参数相同时它在IRT中的区分度参数并非一致。

CTT与IRT区分度参数的比较如图2所示。

从图2可以看出,区分度参数具有难度参数同样的特征,IRT区分度参数更容易观测各个项目的特征属性。

图2 图2CTT与IRT区分度参数对比图 (三)CTT与IRT中难度与区分度参数的比较 当CTT中区分度与难度参数一致时,它所对应的IRT中区分度与难度参数值差别不大,如第3题和第11题,在CTT中区分度与难度参数值一致,分别为0.52和0.92,在IRT中所对应的区分度与难度参数却是不同的,第3题区分度和难度参数分别为1.48和-1.38,第11题区分度与难度参数分别为1.28和-1.64。

有些题差别就大一些,如20题第2和第3节点,在CTT中区分度与难度参数为0.75和0.42,在IRT中区分度与难度参数却分别为1.82、-0.02和2.71、0.50。

综上可知,CTT参数在反映试题的难度和区分能力上有些粗糙,IRT参数比CTT参数更精确的反映试题参数问题。

(四)项目信息函数 在CTT中对试题的评价主要是基于难度和区分度。

IRT的试题评价不仅仅是难度和区分度这两个指标,重要的是引入项目信息函数这个概念。

例如第11题的项目信息函数图如图3。

图3 图3第11题项目信息函数 从图3可知,第11题的项目信息函数值在0.5附近,它所提供的信息一般。

在θ=-1.6时,达到峰值,对于能力-1.6的被试提供了最大的信息。

在能力大于和小于的被试提供了较少的信息,这个题目适合低水平能力的被试。

它的IRT难度与区分度参数分别为-1.64和1.28,项目特征曲线如图4,也是被试得0分和1分的概率图。

IRT对题目的评价主要是看该试题与这个能力段的被试是否匹配。

在CTT下第11题的难度是0.92,区分度是0.52。

它的难度不好,但区分度较好。

再比如,第12题的项目信息函数如图5。

图4 图4第11题项目特征曲线 图5 图5第12题项目信息函数 从图5可知,第12题的项目信息函数值远远大于0.5,它提供的项目信息很好。

在(-0.5,0.5)提供了较多的信息,对在这个能力区间的被试提供了较大的信息,尤其对于能力0.2附近的被试提供了最大的信息量,对于能力大于1.5和能力小于-1.5的被试提供的信息较差。

它的IRT区分度与难度参数分别为1.75和0.03,项目特征曲线如图6。

CTT难度与区分度参数分别为0.54和0.62,说明CTT下试题区分度较好。

从上可知,CTT是绝对的,IRT对试题进行评价更精细、更客观,而且是相对的。

图6 图6第12题项目特征曲线 四、CTT与IRT评价方式的比较 在CTT中以学生的测验分数代替学生的能力,所有被试的数学成绩分布如图7所示。

图7 图7测验分数分布 从图7可知,被试的测验分数分布呈现明显偏态分布,其峰值位于90分至105分之间,高分数段的被试所占比例较多,低分数段被试所占比较小。

这说明当年高考数学试题偏易,这与难度指数的分布情况是一致的。

在IRT中主要用能力参数描述被试的学业成就,由于人们对能力参数不习惯,为此可以将能力参数转换为人们熟悉的“分数”。

设 $ X=\left\{{\begin{array}{*{20}{c}} {0,\;\;\theta\le-2.5}\\ {30\left({\theta+2.5}\right),\;-2.5



請為這篇文章評分?