如何设计、实施指向深度学习的表现性评价？

张福涛lu70kpm9 2023-06-04 发布于山东

展开全文

采访丨周文叶华东师范大学课程与教学研究所教授

表现性评价是在尽量合乎真实的情境中，运用评分规则对学生完成复杂任务的过程表现或结果做出判断。美国在21世纪技能“彩虹图”中也特别强调评价在21世纪技能形成与发展中的地位与作用。21世纪技能发布至今的十多年时间里，美国的专业机构、研究人员、学区、学校以及一线教师们对指向21世纪技能的评价做了大量的研究与实践。

美国斯坦福评价、学习与公平中心(Stanford Center for Assessment,Leaning and Equity，简称SCALE)就是其中的典型代表,该中心近十年来通过学生表现性评价专题研究、指向深度学习的表现性评价设计与实施免费慕课的开发与实施、表现性评价资源库(performanee assessment resouree hank)创建等形成了大量的研究成果，并指导美国12个州开展表现性评价合作研究与实践。

笔者曾在该中心访学，有幸参与相关的研究项目，并就指向深度学习的表现性评价对中心主任Rav Pecheone教授(以下简称“Rav')进行访谈，现将访谈内容整理如下。

深度学习与表现性评价的关系

周文叶：近10年来，您带领SCALE 团队聚焦研究指向深度学习的表现性评价,初衷是什么?

Ray：我们之所以关注深度学习，一部分原因是美国现有的问责制度，它主要关注浅层学习、基本技能。它使用多项选择题或简答题来评价学生的知识和对学科的理解。我们一直认为标准化测试在评价中扮演重要的角色，但是它在评价学生的批判性思维、问题解决、协同工作、沟通能力和学科理解方面做得很差。所以我们认为这里存在着巨大的差距，标准化测试并没有支持学生取得大学和职业的成功，也没有激励他们成为有好奇心、有创造力的创新人才。我们关注深度学习,希望深度学习能成为学校或地区课程的关键组成部分。这是我们开始这项工作的主要原因。因为我们认为这非常有必要。

周文叶：中国当前正在进行基于核心素养的课程改革，相当于美国基于21世纪技能的课程改革。在您看来，21世纪技能、共同核心标准和深度学习三者是什么关系?

Ray：它们之间有很多的相同点。它们关注的都不仅仅是浅层学习或基本技能，它们聚焦于评价学生的能力，不仅是学科能力还有跨学科能力。虽然21世纪技能和深度学习使用的是两个不同的词汇，但是它们有一些共同的关注。我们团队的研究工作指向深度学习，对深度学习的关注是为了支持21世纪技能。

具体来讲,深度学习主要包括6个方面:掌握核心的学术内容、用批判性思维解决复杂的问题、协同工作、有效沟通、学会学习和发展学术见解。如果你将21世纪的技能列举出来，你会发现两者有很多相同的技能和能力。共同核心标准是对学科而言的，它强调学科的批判性思维和问题解决。如数学学科的批判性思维和问题解决，英语语言艺术的批判性思维和问题解决。21世纪技能和深度学习更多关注跨学科领域。这就是三者之间的相同点和不同点。

周文叶：谢谢。无论是指向学生的深度学习还是实现共同核心标准、形成21世纪技能，相对于传统的客观纸笔测验，一系列备择评价(altemative assessment),如表现性评价、档案袋评价和真实性评价受到了重视。我的问题是:为什么SCALE使用“表现性评价'而不是其他的评价方式呢?表现性评价和真实性评价、档案袋评价之间有什么共同点和不同点?

Rav：首先,我回答你的第一个问题。美国使用的问责制度并没有表现性评价的成分,而是围绕多项选择测试展开。我们关注深度学习的技能，而不是美国问责制度所关注的浅层知识和浅层理解，所以我们选择聚焦于表现性评价。

如果评价基本技能和浅层知识，使用多项选择题和简答题是非常合理的。这并不代表基本技能和浅层知识不需要评价，也不是这些评价方式不好，而是多项选择题和简答题在评价学生有关深度学习的技能方面有局限性。我们选择表现性评价是因为这种评价方式更好地评价了学生的思维，无论是学科领域和跨学科领域。表现性评价也为教师提供了有用的反馈，帮助教师改善他们的教学实践。这就是我们如此重视表现性评价的原因。

表现性评价和真实性评价的区别在于，真实性评价必须是真实世界的问题，是学生或家长在生活中会碰到的问题，所以称之为“真实”。我们相信，大部分的表现性评价符合真实性评价的定义。也有其他方式来评价学生的深度学习,如模拟、创造游戏来帮助学生解决问题。这种方式并没有真实的情境。学习过龙卷风地震和其他自然灾害的学生会置身于模拟的情境，他们或许并没有关于自然灾害的亲身经历，希望他们没有，但是他们能够通过模拟的情境进行学习,学习代表测量和评价地震的严重性的数学声学。

这都是学生没有亲身经历的真实的情境，我是这么进行区分的，如果评价是基于学生个人经历的真实情境.这样的要求是非常高的。我们并不要求教师在课堂上所用的表现性评价都有真实的情境。正因如此，我认为模拟有很大的潜力.在评价中使用的比例会逐渐增长。所以“真实'或许是必要的，但并不充分。

档案袋评价通常需要一段时间的收集，是学生展示自己在学科领域或跨学科领域能做什么的一种方式。它不是“坐”的考试。组成档案袋的一个部分可以是科学研究项目，其他部分或许是需要很多天完成的数学问题解决活动。所以，档案袋需要一段时间来收集学生的学习数据，往往是跨学科领域或学科领域。在进行档案袋评价时，选择何种表现性评价放入档案袋、培训学校或老师建立评分规则评价档案袋是非常重要的。档案袋有多种入口，也有非常具体的结构。档案袋不是剪贴簿，人们可以随意放入所有东西。设置档案袋的入口需要高度的引导。

周文叶：您能否再深入地讨论下深度学习和表现性评价的关系?

Ray：如果你想要评价，如批判性思维、协同工作、沟通、学会学习等技能，你不得不使用某种形式的表现性评价。无论是真实的还是模拟的，学生必须做一些事情，进行某种动手的学习。我不能想象用多项选择题和简答题来评价深度学习。因为你不仅需要收集学生的学习结果，也需要观察学生创造成果的过程。无论是候选人论文、科学实验还是文件，成果不可能有正确答案。

表现性评价是收集有关学生开发成果所经历的过程和实践的信息。如果是科学实验，你不仅仅要看实验的结果，还要看学生提出的研究问题、实验记录,看学生为了检验科学现象所使用的方法以及结果的局限性。所以，这不是单一的评价，是多方面的评价。这就是表现性评价区别于其他评价的地方。这也解释了为什么表现性评价是评价深度学习的主要成分。

周文叶：那么这是否意味着不能用多项选择题来评价深度学习?

Rav：多项选择题不能很好地评价深度学习，但可以成为评价深度学习的一部分。加利福尼亚在科学领城开展的评价为我们提供了范例，这是基于国家科学标准。有关学生对科学理解的评价。这个评价包括一部分的多项选择题和一部分的表现性评价。所以高利害评价可以有多项选择题的形式，但一定要有部分的表现性评价。所以，并不是不能用多项选择题来评价深度学习，而是如果你真的想要评价深度学习，必须有表现性评价的成分。多项选择题可以构成评价的一小部分，但是要以表现性评价为主。因为深度学习代表着学生要“做”而不是写出一个简单的正确答案。

周文叶：刚才您提到深度学习的几个要素，如批判性思维、协同工作、有效沟通、发表学术见解等。那么，什么类型的表现性评价才能评价不同类型的深度学习呢?

Ray：表现性评价有很多不同的形式，它围绕学生的学习有许多不同的方式。表现性评价可以是论文写作，可以是展开某学科的具体研究，可以是一个艺术表演，或者是其他评价学生能力的方式。如表演艺术，你可以让学生跳舞来展示他们对知识的理解，也可以让学生使用电子媒体来展示他们的所知和所能。如学习美国竞选，学生进行宣传来支持候选人竞选要职要报名，要扩散影响力，要制作提名板，这就产生了另外一种形式的知识。

表现性评价的设计与实施

周文叶：表现性评价能够促进深度学习，关键还是要落实到平常的课程设计与实施上。对设计而言,主要的挑战是什么?

Ray：确实,我们不能将评价和课程分开进行考虑。在开发课程的同时，你应该同时进行评价的设计。所以其中一个很大的改变是，当我们开发课程时，我们要清楚学生应该知道什么和应该能做什么，我们希望学生有何种表现，我们想要评价什么，对学生的课程学习期望是什么。一旦这样设计，我们就实现了在开发课程的同时进行课程效果的评价设计。所以不同之处在于，将课程和评价进行了整合，而不是像很多人那样，先设计课程，然后思考如何进行评价。

周文叶：所以我们应该先设计评价。

Ray：是的。在你设计课程之前.你应该清楚用什么方式来评价学生学了什么,你应该知道如何去设计评价。两者是同时展开进行的，而不是相分离的。

周文叶：这就是所谓的“逆向设计”吗?

Ray：这是有点逆向设计的意味。但是仔细想想，我认为不能仅仅将它视为是逆向设计,应该将其看做是“向前看”的设计。逆向设计拒绝已经存在的评价，它的评价基础是学生能学什么.什么是最好的教学策略来帮助学生达成学习目标。我认为有点不同的是，你需要提前准确地知道学生需要学习什么不仅仅是这节课或这个单元，而是整学年。在确定了对学生而言什么是重要的基础上，进行课程的设计，不是逆向，而是评价对这些内容进行了全面设计。在开发课程的同时进行评价设计,不仅仅包含逆向设计的成分,还包含了“向前看”的意味。这样你才能在开发课程的同时设计表现性评价来支持课程。这是我认为两者的区别。

周文叶：的确,设计能支持课程的表现性评价非常重要。在平时的项目讨论中SCALE团队还特别强调表现性评价系统的设计应该对学生、教师和校长而言，具有“教育性”的意义。你能解释下这里的'教育性”意味着什么?

Ray：表现性评价对学生而言是一次学习的经历，学生进行了一些动手的活动，所以学习的过程就是完成表现性评价的过程。表现性评价产生的信息对教师而言是具有“教育性”的。表现性评价关注的不仅仅是最后的答案，同时更加关注学生为了寻找正确答案的步骤或过程，所以教师得到了关于学生能做什么的更好的反馈,这就是“教育性”。

对学生而言，评分规则能帮助学生反思自己的表现,为学生提供有关如何提高学习的有效反馈，让学生学会为自己的学习负责,这就是“教育性”。所以教育性伴随着评价的过程，如打分、反馈和结果等，同时指向学生和教师。

周文叶：那么,在课堂中实施具有“教育性”的表现性评价,其关键是什么呢?

Ray：我认为,最关键是评价与课程的统整,要将评价镶嵌在课程中。当评价镶嵌在课程中时,它对教师和学生才会更有意义。

周文叶：我知道最近几年SCALE 与美国许多州、学区、学校和老师合作设计和实施基于表现性评价的课程来促进学生的深度学习。能否简单介绍下，尤其是在你们的合作过程中,遇到的最大的挑战是什么?

Ray：在指向深度学习的表现性评价项目上SCALE和12个州开展合作。如今，我们正与加利福尼亚州进行合作.为地区性科学评价提供指导。所以，你可以发现，我们确实做了大量的工作,涉及数学、科学和英语语言艺术学科。

最大的挑战是你需要和老师、领导进行协商。其中一部分的挑战在于提升教师的评价素养,让教师理解高质量的评价是怎么样的、高质量评价的关键要素是什么、如何评价学校的测试。因此,在与老师们合作开发课程的同时，要建立教师的评价知识及其理解。

实施表现性评价的条件与举措

周文叶：您前面提到,实施表现性评价的一部分挑战在于提升教师的评价素养。那么表现性评价对教师评价素养的挑战主要是什么?SCALE 如何帮助教师提高评价素养?谁是表现性任务或课程嵌入式表现性评价的主要设计者，是专业人员还是一线教师?

Ray：我认为主要的设计者是想要理解表现性评价、了解如何设计和开发表现性评价的专家和老师。让教师参与到表现性评价的设计中来是非常重要的，但是为了设计高质量的表现性评价，不仅仅是教师自己设计表现性评价，还要与评价专家进行合作，共同开发这些评价。我在我的演讲报告中常常谈到，我们需要“值得信任”的评价，这意味着评价是要可靠和有效的。

作为教师，你可以基于任何知识来开发课程嵌入式的表现性评价，但这并不意味着你开发的评价、你收集的学生数据是可靠和有效的。如果你要使用表现性评价就涉及有关评价的质量审查系统。这些评价需要被审查保证是“值得信任”的，或可靠和有效的。其中一个最好的办法就是我们所使用的表现性评价资源库。表现性评价资源库里面大量的表现性评价是由教师开发，学科评价专家审查的。评价专家主要审查表现性评价的质量。如果没有达到高质量评价的标准，这些评价将不会放入资源库中。我们有必要对教师开发的表现性评价进行评审工作，以确保他们开发的设计是符合标准的。这就是我们的思考，不仅仅是开发表现性评价，还有一些质量审查的建议。

周文叶：谁来做质量审查的工作?

Ray：一般而言是教师领导者。SCALE团队成员做了大量的审查工作。我们有资深的研究人员,我们了解教学;我们有很多课程开发的专家,有很多教师专业发展的专家。就我本人而言，我已经研究表现性评价超过25年了。我们对表现性评价很有热情。我们并没有局限于一个学科，我们还做跨学科的表现性评价。我们是一个有深度和宽度的群体。我们对老师们提交的评价任务进行审查。还有其他的专业研究机构、大学的审查员也有做这些审查工作，也可以是聘用人员。这些审查可以给教师一些反馈，无论是通过认证的评价还是没有通过认证的评价。

周文叶：刚才我们围绕教师评价素养和如何确保评价任务的质量展开讨论。可能更重要的现实问题是,如果在大规模测试中不使用表现性评价，教师会不会继续使用表现性评价呢?在美国,表现性评价和高利害测试是什么关系?

Ray：美国高利害审查系统中,新的测试包含了表现性评价的成分。这是一个变化,这种变化源于共同核心标准。在引入了共同核心标准以后，评价为了与共同核心相一致,就有了表现性评价的成分。目前的评价由多项选择题、一些建构性回答和至少一或两个表现性评价任务组成。所以两者的关系是，表现性评价是高利害测试的一部分。表现性评价不仅用于数学英语语言艺术，还用于科学学科。如果你在5年前问我这个问题,表现性评价主要是用于非正式的评价中,堂中使用表现评但是并没有包含在高利害评价中。但是最近五年发生了重大的变化。我相信新的测试中将延续这种变化。

周文叶：这是否意味着,美国在过去5年中,越来越多的教师在课堂中使用表现性评价?

Ray：是的，的确如此。美国每个州都有州立测试来评价学生的学习，如果你看五年前的测试题，你会发现主要是多项选择题和少量的建构性回答。但是共同核心标准推出以后，甚至是还没有接受实施共同核心的那些州，他们的测试题型也变得更加丰富，有多项选择题、建构性回答题，还有一此表现性评价的任务。所以州立测试因为包含了更多的表现性评价而发生了变化，而且将来会有更多的变化。像加利福尼亚、科罗拉多、肯塔基州等州将以表现性评价为主。州立测试在往这个方向发展。所以，我认为将来所有的高利害的评价都会有一些表现性评价，作为评价系统的一部分。现在很多州已经这样做了，将来几乎所有的州都会这样做。我已经看到了这个趋势。