分享

怎样改进学生评价?

 木香草堂 2020-12-02

学生评价是教育者必须面对的问题,也是长时间困扰教育尤其是基础教育的问题。归根到底,如何评价学生体现了人才观和教育的价值观。

学生评价主要需体现两个功能。一是激励和导向功能。教育者以评价作为手段,对评价对象进行有效干预,使其发展更加符合教育培养目标,实现教育的目的。这一点遵循“测不准关系”(参见拙文《数字化学生评价的理论框架与操作方法》《教育研究》2012年05期,下文简称“SXP”)。二是认识和描述功能。学生评价的结果要体现对学生尽可能客观真实的刻画和描述,了解和认识学生当前的发展状况,并尽可能对其未来发展做出推测。对评价对象进行描述,就需要将评价对象个体与群体(或常模)进行对比,通过对比显示出评价对象的个性特征。因此,学生评价的结果不应是一个简单的数字,而应包含丰富的信息,以显示出学生丰富的个性。评价结果的信息(数据)应构成具有一定结构的“数据元素的集合”,这样才能刻画出一个个性丰富的、鲜明的、活生生的人来。

真实客观地评价学生要解决两个基本问题。一是评价数据的数量。要真实反映出学生的状况,就需要有足够多的数据量;二是评价数据的结构。评价数据应有不同的来源,具有不同的属性。评价数据信息的种类不能单一。

评价的信息量或数据量是首要问题。目前人们都已经认识到了过程评价的重要性。过程评价就是要增加评价的信息量或数据量。大数据概念的普及让人们认识到增加数据量的必要性,有足够的数据才能得到真实和准确的评价结果。但需要注意的是,对于教育评价来说,评价对象(或测量对象)是青少年学生,他们是活生生的具有主体性和主动性、对外部环境有敏锐感知和反射能力的人,依照“测不准关系”,评价在客观上会对学生的行为表现产生影响。这就要让我们认识到,不是评价越多越细就一定越好。有些学校把评价运用到每一节课和每一项活动中,甚至几乎体现到了每时每刻。我们可以设想一下,如果学生意识到他们时时事事处处都要被观察和被评价,尤其是当他们知道了评价结果与他们的利害相关,他们的行为表现会出现怎样的变化?尽管我们认识到了增加评价数据量的重要性和必要性,但也要掌握好限度,要给学生留有足够的无拘无束自由放飞的空间,这样才能培养出积极主动、乐观向上、表里如一的真实的人。此外,德育评价更是一个严肃的、敏感的和棘手的问题。如何真实有效的实施德育评价,这其中有许多问题尚待研究。德育评价获得优秀的是不是就是品德优秀的学生?这就如同交规考试获得满分的是不是就是一个自觉遵守交通规则的好司机?德育不是认知的问题,而是养成的问题,教育者对此要有足够清醒的认识。所以,德育评价不同于学科知识和学科能力的评价,在操作过程中要万分谨慎。

目前有些公司研发出一种课堂评价技术。这项技术是根据学生听课的神情来评价学生的听课效果。我目前对这样的技术还不敢认同。全神贯注的神情与思维的活跃程度以及思考的深度到底是一种什么样的关系,目前尚未完全搞清。况且,如果教师课上所讲的是无用的知识、或是学生早已学会的听起来感到厌烦的知识,或是教师讲课枯燥无味、或是学生由于某种原因不喜欢某位教师,你还要求学生全神贯注,这未免有些强人所难,成年人也未必能做到,更何况是活泼好动的孩子。还有一种技术是在上课时采集学生的脑电波,通过分析脑电波图形来评估学生的听课情况。这样的做法作为研究无可厚非,但用于评价学生还需慎重。其实,根据多年的教学经验,我认为全神贯注听课的学生未必就是学习效率最高、学习效果最好的学生。

传统的纸笔形式的考试成绩可以作为一种评价数据,我们暂且称之为“第一类数据”。过去人们常认为“一考定终身”不合理,那么几次考试“定终身”就合理?其实在一个终身学习的时代和学习型社会里,每个人都会面临丰富的发展机会,每个人的发展都有多种可能和多种选择,多少次考试都不可能“定终身”。这个问题不在此文赘述。但客观的讲,适当增加传统纸笔考试的次数,增加第一类数据的数据量,对减少测试的偶然误差还是有一定作用的。但考试次数过多就会产生负面作用。一位同行曾向我介绍他设计的评价方案。这个方案把每个学生的每次考试(学科会考、学年考试、学期考试、期中考试、月考甚至周测,当然更少不了中考和高考)的分数都做严格记录,并按照一定权重进行计算。我听后说,这不一定是个好方案。每一次考试对学生来说都是一道绳索,学生被如此紧密的束缚住,自由的天性怎样释放?这实际上是对考试训练的极致强化。评价需要足够多的数据,但如果数据来源单一或属性单一就会出问题。考试次数再多,数据量再大,也属于是同一类型的数据。同类数据的量超过一定限度,不仅无助于评价,反而会产生教育价值观的失衡和教育行为的扭曲。这其中的道理无需多说。

评价数据的结构决定于评价数据的来源。数据的来源不同,属性就不同,在评价中的作用与价值也就不同。如上述评价方案,如果所有的评价数据完全来自于传统纸笔形式的考试,那么应考训练就会成为学校教育的主要甚至唯一的形式。目前基础教育领域的诸多痼疾以及社会上家长和学生的普遍焦虑,盖因学生评价数据结构不合理、数据来源和数据类型过于单一所致。运用综合评价就是为了解决评价数据结构不合理的问题。

学习经历和学习成果记录是综合评价的一部分,它为学生评价提供了另一类数据,我们称其为“第二类数据”,这其中也包括“个人陈述(PS)”。社会普遍担忧的问题是这类数据的真实性。我认为这个问题完全可解。学校可以组织教师成立评审答辩机构,让学生就学习经历和成果进行答辩。高校招生也可以对考生进行面试答辩。采用答辩的考查方式很容易甄别出真假,或判断出学生的真实水平。简单而直接的甄别方法就是根据被试者陈述时所使用的话语逻辑和表达方式做出辨别——学生表述时使用的是自己的语言还是书本上的语言或是别人教的语言。只会复述书本上的语言,就很像背书,背的再熟练也不是他自己的,不能断定其所讲是真;只会说别人教的话,就像鹦鹉学舌,稍加提问就会乱套。如果学生所用的是自己的话语逻辑体系和表达方式,其中又插入一些对过程细节(这些细节通常是书中没有提到的,只有亲身参与或亲自动手操作才能发现和感知到)的描述,甚至谈出了在情感层面所获得一些个性化的感悟,那我们就基本能断定他或她是亲身经历了这个学习过程,亲手做了这个项目,或是真正搞懂了其中的知识和原理,我们由此可以断定被试者所提供的信息是真实可信的。这样的表达能力和方法是不需要培训也无法培训的(社会上已有这种培训机构),因为任何人都不可能用自己的语言表达方式把不懂的事情表述清楚。如果他或她没有亲身参与或没有真正理解,就只能复述书本里的或别人教给他说的话,是背诵还是自然表达很容易被识别出来。这就如同教师讲课。只有对讲课内容没有真正搞懂的教师才会照本宣科。如果教师对所讲的知识真正理解了,就一定能用自己的语言把知识表述出来。

如果高校采取统一考试和面试答辩相结合的方式录取新生,我认为可以更好地了解学生的情况,同时也对基础教育形成较好的导向。比如设定一定的分数线,再参考答辩考查的情况做出综合评价,决定是否录取。对于跨省考生可以进行匿名网络面试,面试官(也同样匿名)可以集中在一起,也可以不坐在一起(甚至分散在几个省),分别独立评定,互不影响。这种面试答辩方式在今年疫情期间有所尝试,我认为完全可行。高校或社会可以建立面试官人才数据库,根据需要随机抽取。将来社会上也可能会产生专业的面试考查评估机构,学校可以购买社会服务。我认为国家应当建立相应的诚信记录系统,这个社会诚信体系可以结合教育评价和学校招生的需要建立起来并逐步完善。尽管目前这项工作面临困难很多,社会阻力很大,质疑之声不断,但随着社会的发展和进步,我国迟早要建成一个诚信体系健全的国家。

有同行认为这样的评价费时费力,效率太低,其实不然。纸笔统一测试是典型的工业生产流程中的质量检测方法。尽管这种方法具有效率高成本低的优点,但越来越不能适应教育的发展,不能满足人多样化发展的需求。目前由于高校招生机制的制约,一些高校热衷争抢第一类数据的最优者。从统计学角度讲,这样招生形成的学生群体很可能是整体最优的,但极少数最终成为对社会产生重大而深刻影响乃至对世界进步产生巨大推动作用的人未必能从这样的群体中产生。如果我们做一下中外著名大学的对比研究就会发现这个问题。对于这类人来讲,以往的学习经历和生活经历(由第二、三、四类数据所表征,见后)对其学术特质、认知风格乃至人生观、价值观所产生的决定性影响,远比当时所达到的掌握知识的程度重要的多。从世界教育改革发展的趋势看,总体上是从“工具主义”向“人本主义”转变,工业时代教育评价方式——只见分数和书面材料不见真人的评价方式和招生选拔方式一定要有所改变。尽管面试答辩的时间很短,但获取的信息不仅丰富且高度综合和明显个性化,基于这种综合信息所构成的对人的完整认识,是冷冰冰的考试分数和有限的“死材料”远不能相比的。同时,答辩考查方式对学生提出了新的能力要求,会引导学校注重培养学生的语言表达和沟通能力,学生也要注重培养和提升自己在这方面的能力。这对基础教育能起到良好的导向作用,让学生发展的更加全面。至于效率和成本,我认为只要能科学评价和选拔,实现教育评价的目的,就是高效率低成本;不能实现教育评价的目标,花一分钱都多余。况且,如果评价和选拔能给基础教育形成良好的导向,这带来的社会效益是无法用成本投入来估量的。

在日常教育教学活动中,教师对学生行为的观察和记录是评价数据更重要的来源,这类数据更具价值,我们称之为“第三类数据”。SXP主要解决的就是第三类数据的来源和处理的问题,它是基于科学测量理论设计的学生评价操作方案,是对考试评价方式的必要补充。我们过去将这部分数据视为学生综合质量评价的一部分。SXP是一种基于观察法之上的等第评价,教师只需定期做定性观察记录(只用两个等第标记表示),系统将教师的记录结果量化,生成数表和直观图形(我们称之为“数字化评语”)。我认为基于现在的技术将数据转化成文字报告也不难实现。由于这种评价方式是低利害的,因此获得的数据会更加接近学生真实的行为表现,操作过程也更加接近学生的成长过程。SXP要经历较长的评价过程和积累较多的数据(每个学生三年大约积累6000~10000个数据),因而能较好地实现对学生个性的刻画和描述,能较好的体现学生的能力结构、兴趣倾向和人格特征。操作实践证明,SXP的评价结果与学生实际情况有相当好的吻合度。SXP还有一个显著的特点就是操作极为简单,教师丝毫不会感到压力和负担。

关于评价信息(指第三类数据)的真实、可靠和安全问题,SXP早在20年前就有较为完善的解决方案,采取了一系列措施,如分散评价误差、降低单次评价数据对评价结果的影响、不良评价数据的自动预警和识别(如果发现数据异常,需要数据提供者加以特殊说明,否则视为无效信息)、延长评价过程(数据产生的过程)、数据自动封存无法改动等。因此,SXP具有独特的“安全优势”(参见拙文《数字化学生评价的理论框架与操作方法》《教育研究》2012年05期)。现在有了大数据技术、云存储(备份)技术以及区块链技术,数据的安全问题和评价的真实客观问题应能得到更好的解决。

与传统考试产生的评价数据(第一类数据)不同,第三类数据来自于学生的日常生活行为,所记录的是学生的经历和经验。相比于考试成绩,第三类数据对了解学生的知识、能力、情感、态度、人格特征和价值观更为重要,当然对人未来发展的预判也有更加重要的参考价值。人从生活经历中所获得的经验(生成性知识)以数据的形式存储于大脑之中,阅历越复杂,经验就越丰富,存储于大脑的数据量就越大,由此形成了复杂的脑神经网络,获得一个更为聪明的头脑。经验的丰富程度(数据量的大小)决定了一个人判断和理解事物的能力、影响了其对社会和生活所持有的态度(即人生观和价值观),依据丰富的经验所产生的对事物和现象的判断与直觉往往是创造新知的重要基础。

真实可信的推荐信和介绍材料,可以算作是第四类数据。多年前,一些大学曾拿出少量招生名额用于中学校长实名推荐(实际上是以校长的名义代表学校推荐而不是校长个人推荐),获得推荐资格的学校(校长)视诚信和荣誉为生命。据我所知,获得推荐资格的学校都制定了严格的操作程序。被推荐学生要经过严格甄选并公示等一系列操作程序,全部推荐工作在学生、家长和社会众目睽睽严密监控下完成,推荐结果具有很高的公信力。这是诚信招生的有益尝试。国外学校招生要求学生提供的材料中,推荐信是必不可少的一项。推荐信的作用是从一个特殊的角度对被推荐者的以往经历以及发展状况做出描述,并给予真实性的佐证。

单就从遴选的角度讲,全面、真实、有效的评价学生,需要这四类数据合理搭配,发挥出各类数据对总体评价结果的贡献。我国目前高校招生主要依据第一类数据,由此给基础教育乃至社会带来了诸多问题,这些问题全社会有目共睹,每个教育从业者心知肚明。因此,考试、评价、招生的改革已经成为全社会上下的共识。然而,考试、评价和招生的改革还有很长的路要走,这是一项需要全社会给予理解和支持的艰巨工程。这不是教育领域内部的问题,而是复杂的社会问题。

从目前国际上的发展变化来看,教育发达国家的学校在招生选拔方面有较为明显的降低第一类数据权重的趋势,并更加重视依据第二、三、四类数据来了解申请者(考生)以往的生活和学习经历,并以此来评估其先前经验、思维特质、认知风格、领导力表现以及情感、态度、价值观等。我想这是可以理解的。人类社会进入到了终身学习的时代,社会发展的步伐加快,科技进步的速度加快,知识以越来越短的时间周期不断更新,社会生活和工作的方式也越来越快的变化和迭代。对每个人而言,离开学校步入社会以后的学习和发展显得越来越重要,至于在学校里学到了哪些具体的书本知识已显得不那么重要,而能力、经历、经验、情感、态度和价值观等显得更为关键,因为这些构成了人的未来发展能力,决定了一个人的发展潜能和发展方向,进而决定了一个人在社会上所发挥的作用以及可能对社会做出的贡献。正是由于这些原因,降低第一类数据的评价权重已成为必然趋势。

我们的学生评价和招生方式应该怎么变?变到什么程度?我个人的观点是,首先,学生评价和招生方式必须有所改变。我们要充分认识到,随着社会的进步,个人的社会价值比以往任何时代都显得更为重要并受到尊重。知识信息的快速传播,使得一项技术或某个人的思想对社会甚至人类的影响程度比任何一个时代都更加显著。工业时代的教育评价注重的是数据的统计学特征,而未来的教育评价应着眼于人的个性特征描述。这当然需要将个体的评价数据与常模进行对比,以显示人的个性化特征。这些功能在目前的信息技术平台上很容易实现,关键是要制定出科学可行的评价方案。

其次,在学生评价和招生改革方面,尽管我们面临着巨大的困难和社会阻力,但必须迎难而上,奋发有为并顺势而为。学校只依据第一类数据进行评价和招生,表面上看似公平,其实不然,更谈不上科学。不科学的评价和招生选拔,实则为最大的不公平。以往人们以为只有用卷子考试纸笔作答才最客观公正,这是认识上的误区。阅卷产生的误差丝毫不比面试来的小。我们曾提出“最小不确定度”的假设(参见拙文《数字化学生评价的理论框架与操作方法》《教育研究》2012年05期),这是对阅卷误差做出的最保守假设,而实际存在的阅卷误差远比这个限度要大的多。一提到非考试形式(确切地说是纸笔作答形式的考试)的评价,社会上立即会产生关于诚信方面的担忧,这完全可以理解。我个人认为,我们不可能等待社会构建起了完善的诚信体系以后才能改革评价招生办法,而是要在推进招生改革的过程中,促进社会诚信体系的构建与完善。这并非是梦中呓语。我认为,多年前中学校长实名推荐的尝试总体上是成功的(当然还需完善),况且当时还没有建立社会个人诚信“黑名单”的制度。

第三,我们要充分认识到这一改革进程的长期性,不可能毕其功于一役。从理想状况来谈,经过20~30年的持续推进,未来的最终目标可能(我认为应该)是第一类数据的权重控制在50%左右,这样才能为各类学有所长不同特质的青少年提供更多的上升通道,真正实现人才的多样化发展,真正实现马克思所说的“每个人的自由发展”。可行的方案是,我们可以选出几所高校(也可以选一些民办高校)做试点尝试,在取得实际操作经验的基础上,制定一套完善的方案,逐步推行。如果乐观地估计,我认为经过一代人的不懈努力,这项改革是会见到成效的。

日前,中共中央、国务院印发了《深化新时代教育评价改革总体方案》,这表明了国家在推进这方面改革的决心和力度。方案中提出“改进结果评价,强化过程评价,探索增值评价,健全综合评价”,这些既是老课题,也是新课题,面对教育4.0时代和人类社会的进步,这些问题都有了新的内涵,我们对此也要有新的思考。“改进结果评价”,这里所指的结果都包括什么?“强化过程评价”,我们都需要收集什么样的评价信息以反映学生的发展过程?是不是每次考试的卷面分数就是过程评价的信息?“探索增值评价”,“增值”的含义是什么?我们应当用什么指标和数据来表示增值?用什么样的指标来衡量人的发展和进步,以及衡量办学质量的提升?是不是仅用入学分数和毕业考试分数的对比?“健全综合评价”,综合评价都需要综合考虑哪些信息?如何解决综合评价所面临的各种现实问题?

这些都是当前给每个教育从业者提出的新课题。

 

 

 

 


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多