本文系陕西师范大学研究生教育综合改革研究与实践项目,项目编号:GERP-21-42。


中共中央、国务院于2020年10月颁发了《深化新时代教育评价改革总体方案》,这是新中国第一个以中央名义下发的关于教育评价的文件,方案中明确要求:扭转不科学的教育评价导向,坚决克服唯分数、唯升学、唯文凭、唯论文、唯帽子的顽瘴痼疾。可见,有关教育评价的改革及探索已成为全国教育界,特别是中小学关注的热点。随着大数据、人工智能技术的发展,教育评价必将转向以服务为导向,智能化为特征的第五代变革,强化传统评价功能,引领学生学习、教师教学、学校管理等向立体化评价过渡,即教师和学生不同学段学习、教学全过程的纵向评价,学生德智体美劳全要素的横向评价,从而使教育评价更全面、更客观、更科学。

方案中强调,坚持把立德树人作为根本标准,突出评价的教育作用,突出评价的推动作用,突出评价的导向作用,突出评价的贯通作用。“改革学生评价”不仅仅是“改革学习评价”的一字之差,内涵、外延和价值取向都相去甚远。

一、教育评价理论与方法概述

教育评价是当今教育科学研究三大领域之一,是教育科学研究的方法论基础,是数量化方法在教育科学研究的直接渗透,是教育工作者,特别是中小学教育教学管理干部、教师必备的一种重要科学工具。

随着中小学教育教学改革及教育科学研究,尤其是教育教学实验及各类考试研究的不断深入,教育评价理论和方法已列为各类中小学教师及教育教学管理干部培训的重要方面。通过全国许多省份中小学教师及教育教学管理干部举办的各类有关教育评价理论与方法的培训,起到了很好的效果。教育评价理论包含三个学科:教育统计学、教育测量学、教育评价学。

“教育统计学”是运用数理统计方法去研究教育对象的一门应用学科,研究如何收集、整理、分析、推断教育现象中的数据。教育学与心理学中许多问题借助于统计学都可以予以量化,从而揭示教育规律和心理规律,这对改进中小学教育教学管理干部的管理水平、培养中小学教师教育的科研能力、正确开展教育与心理实验和提高教学质量和实际工作效率都将是十分必要的。这门学科形成于20世纪初的美国,辛亥革命后传入我国,被列为师范院校必修课程。20世纪20年代以后,这门学科主要处于描述性阶段,即以图表、计算均值、标准差、相关系数等描述收集到的数据;20世纪40年代以后,随着教育科学本身及统计学的进一步发展,用抽样的办法,通过部分数据的研究以最大的把握性来对整体的某些特征进行统计推断。20世纪60年代以后,随着计算机的普及,人们从多方位、多指标、多维度去分析教育现象,从而使教育统计已不限于简单的描述性和推断性统计,而是扩充到与多元分析等许多新兴学科相结合的综合方向上,所涉及的工具更具多样化、系统化。

“教育测量学”是依照某种法则,运用统计的工具,通过测验对教育现象的属性化性质予以量化形成的学科。具体来说,随着中高考及学校各类考试制度的逐步完善,运用教育测量的方法对中高考命题、施测、评卷、分数报告及录取的科学化分析取得了积极的进展。其测评的方法也日趋多样化、系统化,考试作为教育工作的重要环节,中小学教师掌握考试命题技术、考试设计,运用 “四度”(难度、区分度、信度、效度)进行考试质量分析,已成为中小学教育教学改革的重要方面。

“教育评价学”是运用教育统计工具对测量结果的科学评判,如中小学教育工作的检查和评定,教师的教学质量和教材水平的评议,以及学生学业成就、智能水平、品德行为的评定等都要应用教育评价的理论和方法。广义的教育评价包括对教育活动的一切方面的评价,狭义的教育评价主要是对教学方面,特别是对学生学习质量进行评价。

随着2022年4月义务教育新课标的颁布,对当前中小学课堂教学改革提出了更高的要求,“教学评”一体化已成为常规,也是学校落实基于新课标下教学改革的重点。从评价方式来看,在“形成性评价”基础上发展起来的“学习性评价”“增值评价”正在中小学课堂评价中实践,对促进和帮助学生高效学习起到了极大的推动作用。

教育统计、教育测量与教育评价相对独立,但又有一定联系,教育统计是工具,教育测量是手段,教育评价是对教育测量结果的科学评判。20世纪60年代以后,随着现代科学技术向现代教育科学研究领域的辐射、渗透和交叉,人们越来越多地使用了与现代教育研究方法相适应的各种统计测评方法的拓广和延伸。例如,在经典测量理论(CTT)基础上发展起来的题目反应理论(IRT)等。评价方法已从多方位、多指标、多维度的时空动态模式上去探讨、去分析,使教育统计、测量及评价方法由简单的、直观的描述性方法和一元统计推断方法扩充到了与多元统计分析等诸多新兴应用学科相结合的综合方向上。

二、教育评价理论与方法的实践和探索

1.教育统计与测评用于教育教学管理

教育统计与测量是实现教育教学管理科学化、现代化的重要工具。近年来,随着教育教学管理定量化研究的不断深入,人们越来越多地认识到教育教学管理作为一个系统其运动和变化的某种量的规律。如对于学校管理的重要环节教学和学生工作,利用统计模型探索出一套切合实际的工作程序。只有根据统计、测量提供的数据,教育教学管理部门才能心中有数,准确客观地分析出学校教育教学的基本情况,获得指导管理工作的客观依据。同时,结合定性化的分析,提出改进的方法和措施。又如中小学教育评估问题,近年来我们经常使用因素分析、聚类分析等方法建立评估模型;再如学生能力的评估,我们利用近邻判别分析的方法建立学生的能力类别等,为社会输送人才提供可供选择的工作种类。

2.教育统计与测评用于高考命题研究

随着高中新课程标准实施,依据国务院《关于深化考试招生制度改革实施意见》《深化新时代教育评价改革总体方案》以及《中国高考评价体系和说明》的要求,依据教育测量学基本理论,在高考命题中应遵循以下基本原则,总体要求:深化高考内容改革,坚持立德树人,服务选拔,导向教学,加强全面考查和引导,增强基础性、综合性,优化情境设计,增强试题开放性、灵活性,减少死记硬背,机械刷题,落实“重思维、重应用、重创新”,使高考由“解答问题”向“解决问题”转化。(1)考试设计要求:含题型设计、题量设计、考试目标设计、试卷编制、命题细目表要求(两个维度,一个配分),题型主客观题按各科要求确定,题量一般控制在考生思考时间与答卷书写时间为2∶1。(2)命题模式评价:除应符合学生发展(育人方面的反映和表现),还应体现反馈和修正(每套模拟试题考试结束后征集专家研讨,听取实践主体学校教师、学生的意见和反馈信息),从而及时修正。(3)试卷“四度”要求:每套试卷具有较高信度、效度,必要的区分度和适当的难度。首先,命题具有较高信度(可信性、一致性程度,取值0-1之间),效度(有效性、准确性程度,取值0-1之间,也可用定性内容效度予以衡量)。其次,必要的区分度(区分鉴别能力的数量指标),注意是必要的(这是由高考的选拔性、属性来考虑的);适当的难度,注意是适当的(新高考改革强调适当降低难度),从测量学理论,一般整卷平均难度达到0.5即能保持最大的区分度,但从强调必要的区分度考虑,难度控制在0.6-0.65之间,不同的模拟试卷(三套)难度分别控制在0.65、0.62、0.6,以便于及时修正和调控。(4)命题考查目标:强调“必备知识、关键能力、学科素养、核心价值”,这一目标较传统的布鲁姆考查目标(识记、领会、综合、分析、应用、评价)有更深层次的内涵和拓展。(5)体现新课改要求:命题既重视知识与技能,更重视过程与方法、情感与价值观,从而引导教师的教学注重过程。(6)命题内容维度:以“四层考查”(必备知识、关键能力、学科素养、核心价值)为目标,以“四翼考查”(基础性、综合性、应用性、创新性)为基准。(7)命题遵循原则:入门宽,深入难,开口大,出口小,主要是从区分度角度考虑,除了试题易、中、难比例(0.3、0.5、0.2),文理科略有差异,除难度的坡度设计外,每道题难度的起点一般不要太高,这就是入门宽,开口大,但进入试题后不易,这就是深入难,出口小。

3.教育统计与测评用于各级各类学校试题试卷分析

各级各类学校考试的试卷分析也是新时代教育评价的重要内容之一,科学地进行试卷分析能够有效地提高教育教学质量。试卷分析通常有定性分析和定量分析,经典教育测量理论(CTT)和方法通常用于定量分析,以“四度”(信度、效度、难度、区分度)为工具进行考试质量分析,已广泛应用于各类试卷的分析中,陕西师范大学通过对2021级教育硕士、师范类专业本科生有目标地进行培训后,撰写了100多篇有关中小学的试题试卷分析报告,极大地提高了学生学习教育评价相关理论的积极性,西安医学院、陕西师范大学、西安翻译学院等单位应用教育测量方法制定了试题试卷分析模板,通过对全校各学科期末考试的试卷分析,对促进教育教学起到一定的推动作用,陕西省教育考试院利用试题试卷分析模版对每年高考、学业水平考试数据进行统计分析,对考生和学校提供了有价值的参考。

三、当今教育评价领域有待进一步探讨的问题

1.教育统计与测评课程建设

教育统计与测评作为一门教育类学科的重要课程,目前已广泛在高校相关专业“教育学、心理学、小学教育、学前教育以及师范类各专业”的研究生、本科、专科学生中开设,并对各类中小学、幼儿园教育管理干部、教师进行培训。陕西师范大学研究生教改项目《教育统计与测评课程建设及在研究生教育教学实践中的应用》已完成了“教育统计与测评”教学大纲的修订意见,教学大纲、课程目标达成评价分析报告,教学进度及开课计划等,无疑对这门课程的建设起到了积极的推动作用。

根据新时代教育评价理论,重新修订的“教育统计与测评教学大纲,课程目标达成评价分析报告”等较为系统地架构了课程从理论、方法到实践的各个环节,结合新时代教育评价特点,在原有课程的基础上,以刘新平、张运良主编的《教育统计与测评导论》(第三版)为教材版本,增加了多元、多层次教育统计分析,增值评价及各类中小学质量检测分析案例和部分理论与应用研究成果,丰富了课程的资源,为各专业开设这门课程提供了有力支撑。通过对陕西师范大学来自全国各地中小学在职教师(教育硕士)(共11届3000余人)开设“教育测量与评价”课程及实践活动,有力地推动了教育评价理论和方法在中小学的实践和应用。

2.教育评价理论与方法的普及

教育统计与测评作为教育科学研究的方法论基础有较强的实践应用背景,作为数量化方法的渗透,要有一定的数学及统计学基础,特别是教育评价已在大中小学及教科研机构得到的广泛关注,故这一领域的普及工作就显得尤为重要,陕西省教育考试与评价研究会作为陕西省内唯一的专业研究会,自2002年正式成立以来,至目前,研究会在高等教育、基础教育、民办教育、学前教育、职业教育等各个领域,通过各类课题、项目、讲座、培训、研讨等,为全省教育评价的普及工作起到了积极的推动作用,建议有条件的单位,特别是中小学组建相应的教育评价研究中心或教育质量监测中心,集中或分散开展教育评价基础知识的培训,以适应新时代教育评价的要求,这对于落实中央“深化新时代教育评价改革整体方案”具有重要意义。

3.教育评价实践基地建设

按照中央“深化教育评价改革总体方案”以及破“五唯”精神,在普及教育测评的基础上,加强教育测评实践基地建设势在必行,在高校普遍开设教育统计与测评课的同时,根据各中小学实际,组织学生利用寒暑假到实践基地予以锻炼,帮助学校进行教育测评基础知识培训,既能提升学生实施教育评价的能力,又能对学校教育测评工作提供帮助(如高中考命题指导、学生生涯规划、学校教育教学质量监测、试题试卷分析等),帮助学校完成教育评价研究课题,学生教育测评能力有了显著提高,通过对西安市八十三中、陕西白河高级中学、陕西汉中龙岗中学、西安高新第一学校、汉中中学、武功观音堂九年制学校等调查反馈,建议有条件的大学在完成教育统计与测评课程的同时,有针对性地在中小学建立实践基地,这有助于教育评价的各项举措落到实处。

展望未来,自中共中央、国务院2020年颁布《深化新时代教育评价改革总体方案》以来,教育评价已引起教育界的极大关注。教育评价已上升为政府主导下,引领教育教学改革与发展的政策导向,教育评价正呈现立体化(全过程的纵向评价、全要素的横向评价)发展的趋势。近期教育部印发了普通高中办学质量评价指南,进一步明确了评价的主要内容,加快建立以发展素质教育为导向的普通高中学校办学质量评价体系,全面提高普通高中办学质量的格局正在逐步形成,这为新时代教育评价理论及其应用指明了方向。基于教育统计测评模型的教育实证研究、基于大数据的评价模型的逐步建立等,教育评价创新塑造教育未来的局面必将打开。

作者单位 延安大学西安创新学院   陕西师范大学

责任编辑:张言