教科文摘|任春荣：“四个评价”的概念辨析与历史任务

dbyhq6 2022-11-07 发布于广东

展开全文

结果评价、过程评价、增值评价和综合评价在实践中的定位和职能不同，都是实现教育评价体系科学有效的关键评价方式，依据评价目的可以独立使用也可组合使用。面向各自突出问题，结果评价要注重评价设计的能力导向和结果使用的公平导向；过程评价作为发生频率最高的评价，重在提升日常教学评价的质量；增值评价要寻找本土化策略；综合评价的职责是破解片面和同质发展的问题，要加强评价的开放性。“四个评价”在改革过程中都依赖于有关队伍评价素养的提升，需要平衡好教育内部与外部、标准化与个性化、科学与伦理的关系。

“四个评价”的定位与概念

《深化新时代教育评价改革总体方案》提出了“改进结果评价，强化过程评价，探索增值评价，健全综合评价”，“四个评价”在实践中存在不同的问题，改革要求各有不同，但根本任务是保障教育评价的科学有效，提升教育评价的专业性、科学性。

结果评价是一个时间单元结束时开展的评价，提供了学生学业成就或者教育效果达到什么水平的证据，属于正式评价并有较高的利害性，评价设计和实施都相对严谨严格。基础教育阶段的结果评价最具有代表性的是中高考，考试的结果在很大程度上决定了学生的教育机会和人生发展，这种评价结果使用上的高利害性会带来分数倾向性。以学科考试为核心手段的结果评价是一种重要的人才选拔方式，从科举考试开始为我国精英人才选拔和社会阶层流动贡献了力量。

过程评价是在一个时间单元的中间部分发生的，且在这个时间段内可以多次开展。过程评价可以是正式的，也可以是非正式的，例如，课堂小测验、日常作业等。国外一般将过程评价称为形成性评价，有塑造的含义，主要功能是为师生改进教与学提供信息或者证据，多数情况下属于低利害性评价。结果评价和过程评价二者不是互斥的，随着时间段的长度变化、任务和目标的变化可以互相转换。例如，期末考试成绩以评价一学期的学习情况为目的时是结果评价，当升学成绩里面包含平时成绩时，期末考试就变成了过程评价。

增值评价是对学生学习、教师教学、学校办学、政府工作的进步幅度和努力程度的评价。增值评价起源于学校效能的公平评价，按照进步测算的参照对象差异分为两大类：第一类的特点是考查相对进步，评价某一所学校的学生在一段时间内，与同一抽样中其他学校起点相似学生相比，所取得的某方面或各方面的相对进步。国外流行的方法有以英国为代表的背景化多水平增值模型（Value-addedModel），以美国多个州为代表的基于百分位数的成长模型（StudentGrowthPercentiles），[1]增值分或成长分是与同伴的进步进行比较后的结果，并且参照对象是相近起点的同伴而不是全体同伴，被评者处于一种竞争状态。第二类的特点是考查绝对进步，又分为质性评价和量化评价两类。在我国有发展性评价，依据评价指标体系将被评价对象自己的终点与自己的起点进行比较，不与其他学生或者学校进行比较；在美国田纳西州采用的教师绩效档案袋增值法，依据量规对学生样本进行两个时点的打分最终获得教师的增值分。以量化方法为主的有增分模型（Gain-basedModel），基于垂直等值量表计算同一批学生的能力增长或者变化轨迹。

综合评价的基本特征是评价内容、手段和主体的多元，主要类型有学生综合素质评价、学校综合评价、对地方政府的教育履职情况督导。综合素质评价对学生德智体美劳的发展情况进行全面评价，有的学校采取了平时记录学生表现并打分，有的集中在期末给学生打分。中高考改革将综合素质评价作为学生招录参考，学生在规定时间内使用评价系统上传各种资料。学校综合评价一般聚焦于全校学生在品德、学业、身心发展、兴趣特长、学业负担等方面的总体情况。综合评价可以是过程评价也可以是结果评价，也可以将增值评价作为指标内容。综合评价的评价主体多元，学生校外志愿服务、各类艺体活动的评价主体可以是校外有关机构、团体或组织，此外还有自评、同伴互评、师生互评、家长评价、社会满意度等。

“四个评价”在评价实践中承担着不同的职能，但彼此关系不是并列的，依据绩效、诊断和选拔不同的评价目的，可以采取不同的组合。

落实改革职责完成历史任务

结果评价要注重评价设计的能力导向和结果使用的公平导向。

从评价设计的角度看，结果评价存在评价形式单一、内容偏认知、能力评价偏低阶思维等问题。可以考虑以下改进方法：在纸笔测验之外增加表现性评价、开展基于信息技术的生机互动性测试，扭转依靠记忆力和重复训练获取高分的局面，增加高阶思维能力以及跨学科横向能力的评价。结果评价改革需要避免将考试难度、区分度和负担画等号的误区，部分地区片面降低考试难度增加大量考查细心程度和记忆的题目，既不利于创新人才培养也不利于减负。高阶思维能力以及跨学科横向能力的评价是当前国际学生素养测评的热点，我们应加强国际比较研究，着眼于21世纪技能培养的国际趋势，将教学和考试难度控制在适度范围内。

从结果使用角度看，结果评价存在结果使用方式单一的问题，原始分、优秀率等指标导致学校更愿意关注优秀学生。改进结果评价既要引导学校使用综合评价，给予普通学生其他表现渠道，也要保障普通学生的学业发展，文化素养是所有学生生存发展和成为国家建设者的基本需要。基于分数的评价同样可以通过丰富分数信息表达方式促进校内公平，例如，可比较后20%的学生的成绩、随班就读残疾儿童、流动人口子女成绩的校际差异等。

过程评价塑造学生力度最大，重在提升日常评价的质量。

过程评价因在日常教育教学中时时发生，对学生塑造能力最强，在实践中却非常薄弱不受重视，过程评价没有充分发挥诊断、反馈和促进的作用。以往，过程评价改革较多精力放在形式上的探索，包括探索鼓励式评价、低年级游园式期末考试、各类之星评比等，这些评价形式都是必要的，但服务日常教学任务的过程评价，例如，单元测验、课堂测验和作业等，设计质量参差不齐。同时还忽视了学生在过程评价中的作用，例如，学生可依据教师提供的评价标准自评作业或者小测验，而这是作为学习评价的一种重要形式。加强过程评价一方面要加强有关研究，为一线教师提供资源支持；另一方面也需要加强教师的能力建设，提高日常测评工具的质量，发挥学生成长辅助工具的作用。

增值评价是绩效公平评价的要求，要寻找本土化策略。

增值评价在我国推广面临很多困难，统计上缺乏大规模的标准化测验提供数据，义务教育阶段以县为主进行管理和评价，初中学校样本量一般无法满足多水平模型和成长模型的要求，而小学存在学生发展速度快、波动大，无法区分来自个体成熟和外部教育的作用。实践中教师质疑复杂统计结果能否真实反映绩效，传统的好学校担心进步空间小在评价中吃亏。为解决低年级以及艺体学科没有标准化考试分数用于计算增值分的情况，美国采用的档案袋增值法可以学习和借鉴。详细的评分标准对教师教学是非常好的指导，在教师自评的基础上开展教师同行评价，教师参与感强并能够从同伴那里获得改进建议。[2]我国可以先在部分省或者地市范围的高中采用中高考、模拟考试成绩进行试点；义务教育学段可以选择部分学科尝试档案袋增值法，也可以创新中国增值评价模式，用好学校督导或者办学质量评价等活动。

综合评价破解片面发展和同质发展的问题，要加强评价的开放性。

综合评价改革的目标是打破学校、学生发展中片面追求考试分数、千人千校一面的问题，实践中也存在一些问题需要探索。例如，为了公平容易出现新的分数化现象，对所有学生是相同指标要求又导致新的单一量尺问题。不同学生的天赋不同、发展目标不同，对综合素质的要求应该有不同侧重，应区分不同要求、底线要求和专业录取要求。在学校评价方面，家长和社会对学校的评价形成社会舆论进而影响到政府管理行为，但家长能够掌握到的学校办学情况以学生成绩为主，总会以学生成绩评价学校。我们要引导家长、社会树立正确的教育评价观需加强教育信息的公开和宣传，包括公开学校办学水平评估报告、各类督导检查报告、各类学生活动或赛事结果，并加强各类教育活动的社会开放性和参与性。美国密歇根州教育部门为家长提供了有20个指标的公告板，包括本校和其他学校连续3年的数据，信息透明为家校合作提供了有力支持。

讨论与建议

教育内部与外部的协同。

一个好的评价系统包括赋能环境、机构能力和个人能力，核心都离不开人的作用。评价的实施者从专业人员到一线教师都需要提高测评素养，评价的赋权者和使用者从政府到社会也需要学习一些测评常识，为评价的创新和改革提供环境支持。

教师群体是学生最直接接触且接触次数最多的评价者，因此实施教育评价改革的主力不是专业科研人员而是一线教师。这个群体的影响力被低估和忽视了。近年来，考试评价改革提高到前所未有的高度，一般认为升学考试指挥棒改变必然导致教师日常评价行为的改进，与学生日常发展息息相关的作业、课堂测试、单元测验等较多停留在政策文本上，尤其是作业的改革较多表现为作业时间的限制或者作业类型的限制，对教师提高作业设计能力、日常测验能力、资源支持方面还缺乏有效行动。教师还是综合素质评价重要主体，随着综合素质评价在升学评价中的地位不断加强，系统提升教师教育评价能力已经是当务之急。

社会支持也决定了评价改革能否落地，例如，题目开发成本、多次考试之间的等值都期待考试题目保密，原始分数转换成统计分数等，与我国公开考试题目、卷面分等于最终总分等社会文化传统不一致，需要完善社会诚信系统和增强社会对考试系统的信任度。技术创新科学落地也需要决策者和技术人员之间有效合作，协调好行政需要和技术需要。

标准化与个性化的平衡。

2017年，美国的一部分中学联合成立了精熟成绩单联盟（MasteryTranscriptConsortium，MTC)，认为传统的大学申请文书遵守的统一范式是工业化时代的产物，不适应今天的需求。[4]同时越来越多的大学表示不再对本科申请要求SAT、ACT成绩，研究生招生不再要求GRE和GMAT也形成了一种风潮。实施新政的大学认为SAT和ACT的存在只是刺激了培训市场，高中4年的GPA比3小时的测验更能说明学生的能力。MTC联盟虽然也打着促进社会公平的旗号，但指标体系对教育投入的要求更高，各种素养证明需要家长投入资金、时间和人脉，其本质还是推动评价的个性化更好地服务精英阶层。我国社会也出现了结果评价应转向过程评价的声音，过程评价用于选拔对使用者、实施者和被评者来说成本都非常高，标准化考试给普通大众提供了参与评价的机会，从而保障了社会上升通路，我们的评价改革必须小心平衡标准化和个性化之间的关系，评估农村地区综合素质评价、选课走班改革、有特殊需求群体学生存在的困难等。

科学与伦理的融合。

一般来讲，评价次数越多、评价内容越多评价结果越可靠，部分学校和地方因此片面理解加强过程评价、健全综合评价，让学生处于时时处处被评价的紧张状态，或将综合素质评价演变成要求学生各个方面齐头并进，对科学的过分追求反而走向不科学。以往研究证明，过多评价会导致学生疲劳厌倦降低学习质量，过程评价要依据评价目标选择适当节点和代表作；综合素质评价的理论基础是多元智能理论，面对不同特长和个性的学生提供不同的赛道，并允许赛道之间转换。

在关键性考试上应加强伦理审查，例如，考试题目求新的同时，必须检测是否存在项目功能差异问题，避免出现题目本身或者题目情境对某个学生群体不公平的问题。从评价系统的制度建设角度，评价改革还应建立教育评价仲裁、审查、指导各类委员会，对各级评价的开展实施监督和指导。各类委员会的成员应有广泛的代表性，尤其是应有农村教师的参与。

来源|《中国民族教育》2021年第6期

作者|任春荣（中国教科院研究员）