期末考试分数线的决策信度探究_2014年12期

首页

要闻资讯

热点聚焦

滚动新闻

深度报道

政策速递

校园资讯

高等教育

义务教育

高中教育

学前教育

职业教育

特殊教育

视频新闻

微视界

新闻视频

报纸期刊

教师报

自学考试报

陕西教育综合

陕西教育高教

陕西教育教学

关于我们

首页 > 陕西教育高教 > 2014年12期

期末考试分数线的决策信度探究

作者：西安外国语大学国际学院陕西西安吴耀武

发布时间：2015-03-20 11:34:52

【摘要】期末考试的分数线划分对学生的影响甚大。分数线的划分合理、可靠与否取决于可靠性指数和平均分两个因素。本文通过比较Cronbach Alpha系数，ICC系数以及可靠性系数之间的异同，认为要保证分数线划分的公正性，考试结果的可靠性指数必须达到0.8以上，同时分数线必须小于或者高于平均分，分数线与平均分的距离不超过一个标准差。

【关键词】标准参照考试 Cronbach Alpha系数可靠性指数 ICC系数分数线

期末考试是检查每个学生对于所学内容掌握的具体情况，考试的内容可以按照教学大纲或者整个英语学习阶段的学习目标来制订（Hughes，1989；Bachman，1990）。期末考试不是关注每个学生在班上的排名，而是关注每个学生对于所学内容掌握的程度，因此，我们不能用常模参照考试方法来衡量考试结果，而必须使用标准参照考试来制订详细的成绩报表，以诊断考生的问题所在（Brown and Hudson，2002；Brown，2005）。

从考试用途的广义来讲，期末考试在很大程度上决定考生的未来，因此，考试使用的公正性问题就显得相当重要，教师们不得不慎重考虑期末考试的效度问题。考试的效度不仅仅指考试分数的可靠性，还指考试使用所产生的各种影响（Messick，1989）。如果学校的期末考试不算是一种大型的考试，那么就不会有考生期末作弊的现象出现。作为大学英语教师，我们必须高度重视考试设计、施测、评分、分数解释、决策等各个环节，同时考虑考试对考生产生的影响。但是目前我们对于期末考试使用的研究还相当的不重视。

期末考试的效度

期末考试不是常模参照性考试，所以常模参照性考试的信度分析方法（试卷的内部关系）不完全适用于期末考试。我们不可能反复考试，也不可能采用分半计算（如作文考试怎么分半？）。对于作文考试，我们最好的就是采用多重评分（无论是分析法还是综合法）。目前的许多实践都是采用α系数，它是一种折中办法，没有确定系数上下限的大小。如果是三个人对所有考生的作文分别评分，最后的结果就是三位教师评分信度估计的折中系数。其实SPSS信度计算中有组间相关系数（ICC），它可以确定一个评分者的信度大小和三个人平均的信度系数大小。一般线性模型也可以确定每一个评分者的一致性问题，还可以两两比较。但是，如果三个教师评阅所有学生的作文，计算出来的信度还是比较低怎么办？传统的办法没法告诉我们增加多少个教师才可以达到较为理想的信度大小，也不可能告诉我们评分者所产生的误差大小是否可以接受。因此，我们需要借助概化理论来实现（Shavelson and Webb，1991）。概化理论在作文考试的应用在国外已经相当普遍（如Schoonen，2005），而在国内多数都是运用于英语教学以外的学科。

我们除了确保考试设计、开发、施测和试卷评阅等过程的一致性外，期末考试还需考虑分数线的划分，正确地划分“过关”与“不过关”的学生，同时要针对分数线对学生产生的影响进行研究。只有这样我们才可以保证我们的考试使用是公正合理的，也就是说我们需要确定在多大程度上我们的划分是可靠的，多大程度上我们的划分是因为考试本身的因素，而不是偶然因素造成的结果（Brown and Hudson, 2002）。本文试图比较Cronbach Alpha系数、ICC系数以及可靠性系数之间的异同，确定分数线划分的条件。

实例

本文主要谈论期末考试的信度问题，所以主要关注如何通过组内相关计算考试信度，如何通过概化理论来细化误差大小，如何计算分数线所产生的门槛阙失值的大小（Po,threshold-loss agreement）对学生的影响，从而最大限度降低决策错误给考生带来的不利后果。对于概化理论的详细阐述和公式，读者可以参阅Shavelson and Webb（1991），以及杨志明和张雷（2003）的《测评的概化理论及其应用》。本文主要讲解如何通过SPSS来实现概化理论的应用，解决期末考试分数线划分的问题，以便广大教师实践操作。本文采用的作文考试数据来源于Brown（2005：186），55个学生参加了总分为100分的作文考试，然后由3位阅卷教师分别独立对所有学生的作文进行评阅。首先我们需要用SPSS和概化理论来分析本次考试分数的信度、ICC系数和各个因素的方差大小，以确定评分者误差是否可以接受。然后根据Brown和Hudson（2002）提供的公式来计算Po值和Kappa值的大小，从而确定分数线划分可靠性比例，然后在此基础上探讨不同分数线的决策信度。

1.α系数和组间系数ICC

首先打开SPSS，在变量视窗里建立变量，然后切换到数据视窗，分别输入所有的数据，并保存。仔细检查，确保无一遗漏或者输错。找到分析工具（Analyze）栏下拉菜单（scale）中的信度分析（reliability analysis）工具。将评分者变量选入到右边的方框里，点击（Statistics）统计按钮选择要输出的统计结果。点击按钮（Continue），返回信度分析框，按OK键，系统自动生成我们需要的结果。下面分析解释输入结果的含义。

图1 标准化Cronbach Alpha系数

标准Cronbach Alpha系数是信度系数的折中，由图1可以看出三位评分者所得出的信度系数为0.831。

图2 评分者相关系数

图2评分者相关系数实际上并不高，相关系数介于0.571—0.662之间。

图3 评分者独立性检验

图3可以看出，三个评分者是独立评分的，交互效应不明显 (残差值residual不显著)。作文考试的平均分为70分。

图4 组间相关系数（ICC）

组间相关系数（Interclass Correlation Coefficient）表明，如果只有一位教师评阅所有试卷，那么ICC＝0.622，95％的置信区间为0.482—0.736；若是三位教师评分的话，ICC＝0.831，95％的置信区间为0.736—0.896。也就是说ICC可以更加具体地刻画信度系数的波动。

2.方差分量和可靠性系数

我们现在检查评分者误差的大小到底是否可以接受，进行概化理论G研究和D研究。采用同样的数据，选择一般线性模型的重复测量方法（repeated measures）来检查评分者的方差分量。定义重复测量的变量(Within-Subject Factor name) 为rater，重复测量的次数(Number of levels) 为3次，点击添加（Add）按钮。然后点击（Define）按钮，分别定义变量和因素，选择模型按钮（Model）定义自定义模型（Custom）点击（Continue）按钮返回重复测量对话框（Repeated Measures），点击（Options）按钮，将左边的因素移入右边，以呈现所需的平均数。点击（Continue）按钮，返回，再点击Ok按钮，生成数据。从（Tests Within-Subjects Effects）和（Tests Between-Subjects Effects）提取我们所需的数据，如图5所示，平均分为70分，95％置信区间，平均分范围为65—75分之间。

图5 平均分范围

图6 评分者内部一致性和评分者间差异比较

可以看出在95％的置信区间内，第一位评分者的评分在评阅所有考生的作文时，其尺度是相当一致的，标准误差为零。第二位和第三位评分者的内部一致性就差远了，而且95％的置信区间内，所有学生的平均分波动很大。

图7 方差变异来源、类型以及均方差

根据公式，计算各个因素的方差分量大小：

图8 方差分量

评分者方差分量为1.4477，再考察其yardstick值，即方差分量之平方根■，yardstick=1.2032。即是说，大约有95%的概率水平评分波动在±2■，即±2.4064之间。很显然，与作文总分100分相比，此波动较小，是可以接受的。

绝对误差：

评分者误差远远小于绝对误差，只有绝对误差的九分之一。

可靠性指数：

＝63.3066/(63.3066+12.9295) = 0.8304

将可靠性指数开方后的大小为0.9112，这表明由三位教师评阅的学生作文成绩的实得分数与学生的真实表现之间的相关为0.9112，也就是说3个评分者对学生的作文评定较为准确。如果可靠性指数要达到0.9的话，则需要6位教师分别评阅所有的试卷。在实际中，条件所限，不太可能。

但是，如果只有一个教师评阅的话，可靠性指数就只有0.62（表明由三位教师评阅的学生作文成绩的实得分数与学生的真实表现之间的相关为0.7874），这样通过概化理论计算得出的一位评卷教师阅卷，作文的可靠性指数和组间相关（Interclass Correlation）ICC系数是一致的。而三个评卷教师所得出的可靠性指数高于ICC系数，而更加接近95％置信区间ICC系数的上限（0.896）。这说明，概化理论所刻画的信度比ICC系数、Cronbach Alpha系数更加准确。

3.分数线的决策信度

现在我们需要分析分数线所产生的影响，决定分数线的可靠性大小。由SPSS得知平均分为70.1455分，我们就以70.1455的分数线来判断门槛阙值（Threshold-loss agreement）的大小以决定70.1455分是否合适。Brown（2002：173）建议，如果期末考试只考一次，那么可以通过以下公式来计算：

其中Z表示标准分数线的值，C表示分数线的原始分，M为平均分，S为标准差，0.5为调节因子常数。

考生的最后得分为三位评分者分数的平均分，通过SPSS计算得出标准差S＝8.6495，所以：Z ＝ (70.1455-0.5-70.1455)/8.6495=0，查表（Brown和Hudson，2002：174—175），当Z＝0，可靠性指数＝0.8763（或者ICC= Cronbach Alpha＝0.831）时， 0.8 0.86，0.59 0.71。这表示以70.1455分作为过关与不过关的分数线，那么80％－86％的学生准确地被划为过关者和不过关者，而且这当中至少59％－71％的划分不是偶然的，是由作文考试决定的。如果可靠性指数要达到0.9以上，则需要6位评分者（实际操作中很难，6位阅卷者太费时费力）。由表格得知，可靠性指数的增加，可以提高分数线的可靠性。我们进一步推断，要保证59％以上的划分不是随机的 (即Kappa>0.59),可靠性指数必须达到0.8以上（?准≧0.8）。

但是分数线的决策信度到底如何呢？我们需要两个公式来计算，最后根据实际情况决定划分什么线。概化理论提供了两种公式 (Brown and Hudson, 2002； Brown, 2005)，当采用0，1记法，公式如下：

（公式1）

其中，?姿为以百分比计算的分数线，k为考试的题目数，MP为百分比分数的平均分，SP为百分比分数的标准差。其他情况下采用下面的公式（杨志明，张雷，2003）：

（公式2）

其中：?准（?姿）是phi (lambda)估计，?姿为分数线，?滓p2为被试（考生）的方差分量估计值，?滓r2为评分者方差分量估计值，?滓pr2为被试和评分者的交互效应估计值，XPR为全域分平均值，nr为评分者数。现在我们根据第二个公式来计算分数线70.1445的决策信度。

?准（70）的决策信度为0.8304，这表示70分的分数线，其决策的可靠性为83％。当然不同的分数线，决策信度是不一样的。一般来讲，当分数线远离平均分时，决策信度最高（Bachman，1990；Brown，2002）。当分数线与样本平均分相等时（见表1），决策信度最低，即这时最有可能把学生归入到错误的类别中去。本次作文考试的最低决策信度在0.8304以上，所以可以认为这次作文考试的质量较高。

结论

只有可靠性指数达到0.8以上，分数线划分的公正线才得到起码的保证。在此基础上可以看出，本次作文的标准差为8.6495，那么在一个标准差内的分数线的可靠性较高，但是不能接近平均分。也就是说，本次作文课程需要重修的考生分数在M-1S前后，即62分以下的学生至少需要重修。当然，可以根据实际情况制订比如64的分数线，但前提是保证较高的决策信度。

参考文献：

[1]Bachman,Lyle F.Fundamental considerations in language testing[M].Oxford:Oxford University Press,1990.

[2]Brown,James Dean.Testing in language programs:a comprehensive guide to English language assessment[M].McGraw-Hill Companies, Inc.,2005.

[3]Brown,James Dean.& Thom Hudson.Criterion-referenced language testing[M].Cambridge:Cambridge University Press,2002.

[4]Hughes,Arthur.Testing for language teachers[M].Cambridge:Cambridge University Press,1989.

[5]Kunnan, A. J. (ed.). Fairness and Validation in Language Assessment[C].Cambridge: CUP,2000.

[6]Messick,Samuel.Validity[A].In Robert L.Linn(ed.).Educational measurement(3rd ed.).London:Collier Macmillan Publishers,1989.

[7]Shavelson, Richard J.& N.M.Webb.Generalizability theory:a primer[M]. California:Sage Publications, Inc.,1991.

[8]Rob Schoonen.Generalizability of writing scores:an application of structural equation modeling the effect of these facets is estimated in a generalizability study using variance analytic techniques[J].Language Testing, 2005,22(1).

[9]杨志明,张雷.测评的概化理论及其应用[M].北京:教育科学出版社,2003.