HSK的分数解释问题（安哥夫等级划分法）

悟静 2013-12-30

展开全文

摘要：任何一组考试题目或考试任务，都可以得到一个“正确回答数”或“正确回答比例”，都可以得到一个“分数”。但是，并不是任何一个分数都可以根据考试的目的做出解释，都可以被赋予“意义”，都可以成为决策的合理依据。本文探讨了与分数解释有关的一些问题，指出分数解释的依据是工作分析和效度研究，指出分数等值的重要性。

关键词：测验 分数 分数解释

任何一组考试题目或考试任务，都可以得到一个“正确回答数”或“正确回答比例”，都可以得到一个“分数”。但是，并不是任何一个分数都可以根据考试的目的做出解释，都可以被赋予“意义”，都可以成为决策的合理依据。

对于一个高信度的考试来说，80分的意义是“我们有95%的把握说该考生的真分数在75—85分之间”。对于一个信度不高的考试来说，80分的意义则可能是“我们有95%的把握说该考生的真分数在60—100分之间”。

对于一个高效度的考试来说，我们可以很有把握地说“高分者必高能”。对于一个效度不高的考试来说，则可能像今天的许多考试那样遭到“高分低能”的批评。中国历史上的“八股考试”就曾经遭到近代许多进步思想家们“高分低能”的猛烈攻击。

考试的信度和效度是对分数进行解释的基础，是赋予分数以意义的前提。即使是一个高信度、高效度的考试，也不一定具有意义。例如，在一个大学毕业生求职简历中的学习成绩单上写着“现代汉语80分”。即使他所参加的“现代汉语”考试具有很高的信度和效度，根据他的这个成绩，我们也很难判断他的“现代汉语”课程学得究竟如何，更不用说据此去推测他的现代汉语水平的高低。如果任课老师评分政策比较严格，他这门课程可能学得很好；如果任课老师评分政策比较宽松，他这门课程可能学得并不好。或者说，我们从这个分数中的到的有关该求职者的评价信息很有限。分数中包含信息很少的原因是缺乏必要的参照系。

HSK（商务）、HSK（旅游）、HSK（文秘）、HSK（少儿）等HSK专项考试的开发工作已经启动。建立合理的、丰富的分数解释系统是专项考试开发的重要内容之一。为了对考试分数做出合理的解释，提高考试的信度、效度是基础。同时，还需要为分数解释提供一个合理的参照系。本文将讨论几个与分数参照系有关的问题。

一、常模参照与标准参照

根据评价参照系的不同，可以将考试划分为常模参照性（norm referenced）考试和标准参照性（criterion referenced）考试。常模参照性考试的评价参照系是一组人的平均水平。这组人通常是考试的目标团体的一个具有代表性的样本。常模参照性考试关注的问题是“他在哪儿”，关注考生在一组人中的相对位置，通常用于对考生的排队和择优。常模参照性评价通过将某一考生与一组考生相比较而对考生的水平做出评价，是一种相对评价。智力测验、高等学校入学考试等属于典型的常模参照性考试。

1963年R.Glaser首先提出了标准性参照考试的概念。标准参照性考试的评价参照系是一组知识和技能，是一组需要完成的任务，因此，标准参照性考试也可以被视为“基于任务（task based）”的考试。标准参照性考试关注的问题是“他能做什么（can do）”，关注考生所具有的知识和技能，关注考生所能够完成的任务。标准参照性考试通过将考生所具有的知识技能水平与考试目的所要求的知识技能水平相比较，对考生的水平做出评价，是一种绝对评价。毕业考试、任职资格考试、执照考试等属于标准参照性考试。在这些考试中，如果全体考生都达到了标准，则可以全部予以接受，如果全体考生都未达到标准，则可以全部予以拒绝。

一般说来，当考试对象总体的范围比较清楚时，适于采用常模参照性考试，例如，智力测验的对象是某一年龄阶段的儿童，总体比较容易界定；当考试所包含的知识、能力范围比较清楚时，适于采用标准参照性考试，例如，扫盲测验所包含的知识范围是一定数量的汉字，范围比较容易界定。

在由美国教育研究协会（AERA）、美国心理学会（APA）和美国国家教育测量学会（NCME）等三个机构联合颁布的《教育与心理测验标准》1999年最新版中说：“一些量表分数主要用于解释常模参照性测验，另一些量表分数主要用于解释标准参照性测验成绩。在实践中，二者并非总是截然分开的。一个测验分数可以同时产生标准参照性和常模参照性的量表。例如，最初可能通过刻画某人在团体中的位置而建立起一个常模参照性的分数量表，一段时间以后，随着研究的深入和经验的增加，人们对不同的量表分数等级所反映的能力有了进一步的理解。这时，对分数量表也可以做出标准参照的解释。另一方面，一个教育评估的结果可以按顺序排列的熟练程度等级量表进行报告，不同等级可以通过描述不同水平的学生可以完成的任务来定义，这是一个标准参照性量表。一旦以这种标准参照的等级分数报告了一个州中某一年级（如八年级）的全体学生的评估结果后，这一等级分数也传达了有关考生在群体中相对位置的信息。”（第50页）

笔者认为，“常模参照——标准参照”仅仅是刻画考试特征的一个维度（如下图），在实际的考试实践中，几乎不存在纯粹的常模参照性考试或标准参照性考试，每个考试都处在这一维度上的一点，有的靠近“常模参照”一端，有的靠近“标准参照”一端。即使是典型的常模参照性考试如高考，也需要确定考试计划，确定一定的考试内

容，也包含一定的“标准参照”，否则，就不必请专家命题，只要靠统计选题就行了；即使是典型的标准参照性考试如扫盲测验，“脱盲标准”的判定也离不开对人口文化背景这一“常模”的参照。

许多考试的分数都可以从多方面进行解释，都不一定只有一种参照系。笔者认为，HSK主要是一种标准参照考试，原则上讲，它的合格标准应是能够使用汉语完成交际任务，能够适应汉语社会中的工作、学习和生活。在理想状态下，合格标准的确定方式可以是：首先界定语言交际能力所包含的知识、技能范围，界定这一范围所包含的字、词、语法、语言功能、文化等。之后，对总体做代表性抽样，试卷应是总体的一个具有代表性的样本。根据考生在这一试卷上的表现可以推知他的语言交际能力。但是, 由于语言现象的复杂性, 准确界定汉语知识能力范围是一件很困难的事情。因此, 当我们对考生的汉语水平进行评价时，不仅需要以今天尚不够清晰的、尚未能明确界定的“标准”作为参照系，还需要借助常模来建立参照系。不仅需要与“知识技能”比，而且需要与“人”比。

HSK目前采用的常模样组是北京语言大学1988年的1、2年级学年结业时的留学生。在这个常模样组中, 体现了当时北京语言大学的教师们关于“具有初级和中级汉语水平”的看法，体现了教师们认为“具有初级和中级汉语水平”的学生所应该具有的语言知识和技能。

HSK专项考试的分数，也可以考虑从“常模”和“标准”两个方面提供解释信息，建立分数解释的参照系。从标准方面，可以在工作分析的基础之上，界定从事商务、旅游、文秘等工作所需要的汉语方面的知识技能，从“能做什么”的角度对分数进行解释。从常模方面，可以通过收集常模资料，建立从事商务、旅游、文秘工作的人的汉语水平的“常模”，从“处于何处”的角度对分数进行解释。

二、基于工作分析之上的“能做”解释

与HSK普通考试相比，HSK专项考试的分数更需要回答“能做什么”的问题。为了对考试分数做出“能做什么”的解释，就需要进行工作分析。

工作分析是对某一种职业活动进行调查研究的过程。工作分析通常所要回答的主要问题包括：这项工作包含哪些活动（如脑力或体力，执行或决策）？这些活动的复杂程度如何（如事务性或管理性，重复性或创造性）？这项工作的环境条件怎样？工作中使用哪些技术手段（如算盘、计算机或局域网）？这项工作的影响面多大（如影响全乡、全县、全省或全国）？工作活动对人的能力有哪些要求（如言语、数量或逻辑推理）？这项工作对人在教育程度方面有哪些要求（如中学、大专、本科或硕士）？这项工作对人的知识有哪些要求？这项工作对人的个性特征有哪些要求？不称职的工作人员可能造成多大的损害？等等。

在工作分析的基础之上，我们才可以操作化地界定商务、旅游、文秘等职业工作需要哪些汉语方面的知识和技能，才能据此确定HSK专项考试的内容，才能对考试分数做出“能作什么”的解释。这方面，我们可以从美国教育测验服务中心（ETS）编制的“国际交流英语考试（Test of English for International Communication，简称TOEIC或托业）”考试中得到一些借鉴。“托业”是一个面向母语非英语者的英语水平考试，主要用于职业领域。在“托业”的开发和完善过程中，ETS进行了大量的工作分析研究。例如，ETS向8601名在日本参加“托业”考试的人进行了一项包含75个问题的调查问卷。问卷中包含了一系列“你能做什么”的问题，例如：你能听懂售货员对商品的价格介绍吗？你能听懂火车站内关于火车乘坐站台和出发时间的通知吗？你能在餐厅点菜吗？你能向医生解释自己的症状吗？你能读懂流行的小说吗？你能给上司写一份便函解释请假的理由吗？等等。在这份调查中，被调查者可以在每个问题的5种回答中选一种。这5种回答是：1．完全不能；2．能，但有很大困难；3．能，但有一些困难；4．能，但有一点困难；5．能。

经过统计分析，ETS从这项调查中得到关于在“托业”中达到不同分数水平的人“能做什么”的丰富信息，为“托业”增加了更多的分数解释信息。在“托业”的分数解释手册中，详细描述了各个分数段的考生“能做什么”和“不能做什么”。例如，在关于听力考试成绩在355-425之间（满分495分）的考生“能做什么”方面，列出了“理解简单问题”、“理解社会情景”、“理解慢语速指示”等项目，在“能作但有一定困难”方面，列出了“理解同事关于工作的讨论”、“在社交环境中自我介绍”、“谈论自己的职业目标”等项目，在“不能做”方面，列出了“不能对求职者进行面试”等。

“托业”的主要使用者是全球的4000多家跨国企业。由于提供了丰富的分数解释信息，一些企业制定了自己的“托业”成绩应用标准。例如，一家企业自己规定，达到220分者可以担任技术员，档案管理员，送货、收货员，实验室技术员，电工等；达到470分者可以担任接线员，簿记员，电脑操作员，订单处理员，秘书等；达到730分者可以担任工程师，客户服务经理，金融分析师，会计师，部门经理，秘书主管，质量监督部门经理等；达到860分者可以任职人事主管经理，项目主管，研发工程师，经理主管人员，高级会计师，高级投资经理，市场拓展经理等。

在专项HSK考试中，需要在工作分析的基础之上，为测验分数的使用者提供更丰富的关于考生“能做什么”的分数解释信息。

三、分数等值

在任何证书考试中，保持试卷难度的稳定性和保证分数的公平性，都是考试编制者所需要考虑的问题。与普通HSK一样，专项HSK也是水平考试和证书考试，必须保证在不同时间、使用不同试卷的考生可以得到公平的对待，必须保证证书的授予标准不随试卷难度而起伏，必须保证不同试卷得分之间具有可比性。如果今年一个标准，明年又一个标准，如果对使用这一份试卷的人一个标准，对使用另一份试卷的人又一个标准，那么，不仅会大大影响HSK专项考试的信度和效度，而且会对测验分数使用者的决策产生误导，会使考生受到不公平的对待。将测验不同版本的分数统一在一个量表上的过程即等值（equating）。等值是测验公平性的保证。尽管我们在命题过程中总是尽量保持考试难度的稳定性，但不同试卷之间在难度、信度、分数分布方面的差别很难完全避免，这种差别会使考生受到不公平的对待。同时，实现题目等值是题库建设的需要，是实现计算机化适应性测验的前提。

HSK从1990年正式开考以来，一直坚持了统计等值。HSK所有的正式试卷都被等值到1989年曾经在北京语言大学学生中施测过的一份标准试卷。

等值可以“共同组”的方式进行，也可以“共同题”的方式进行。所谓共同组方式，就是在很短时间距离内向同一组考生施测两份不同的试卷。由于考生是同一组人，两份试卷的分数差异就是试卷难度的差异。经过换算，可以实现分数等值。所谓共同题方式，就是在分别施测于两组不同考生的两份试卷中包含一些共同题。两份试卷的成绩之间总会有差距，由于考生不同，我们无法判断造成成绩差异的原因是考生水平的差异还是试卷难度的差异。由于有共同题，我们可以借助共同题来估计出两组考生水平之间的差距，并进而估计出两份试卷难度之间的差距。

HSK所采用的是共同题设计，新试卷中都会包含约占试卷总题量六分之一的共同题。在1998年以前，我们采用Tucker观察分数线性等值模型对等值数据进行处理。由于基于经典测验理论的线性等值只能实现试卷之间的等值，不能实现不同题目之间的难度等值，不能满足题库建设的需要，从1998年开始，我们开始同时采用线性等值和基于项目反应理论（IRT）的单参数Logictic模型进行等值。

当两份不同试卷的实际难度差别较大时，好的等值方法一般都可以改进分数的可比性，可以减少测量误差，可以保证考试的公平性。但是，由于等值中包含一系列很强的假设，由于存在等值误差，在两份试卷的实际难度差异很小的时候，有可能统计等值处理不仅不能改进分数的可比性，而且会引入更大的测量误差。在考试实践中，我们并不知道不同试卷之间真实的难度差距，我们必须进行等值处理，我们别无选择。等值的意义类似于为测验“买保险”。在不发生交通事故的情况下，每年不菲的车辆保险就似乎得不偿失。但一旦发生交通事故，车辆保险可以帮助我们避免大的损失。我们购买保险是为了预防发生交通事故，同样，我们进行统计等值处理是为了避免由于试卷难度相差过大而导致严重的不公平现象。（谢小庆，2000）

实现计算机化适应性考试是大势所趋。这一过程中，主要的难点就是等值。在计算机化适应性考试中，由于根据考生的回答情况随机向考生提供测试题目，不同考生回答一组相同题目的可能性很小。怎样保证回答不同题目的考生可以得到公平的对待、可以得到具有可比性的分数？这是实现计算机化适应性考试的难点。

为了使HSK专项考试更好地满足社会上不同的需要，将来可以考虑在“正式版”之外开发价格较低的“精简版”。“精简版”在信度方面达不到“正式版”的水准，但简便易行，价格便宜。一些关系到公司利益和人员命运的重要决策，可以采用“正式版”。在一些考试成绩对公司利益和个人命运影响不是很大的时候，可以采用“精简版”。例如，分数仅仅是一个语言培训项目的分班依据时，可以采用“精简版”。在“正式版”和“精简版”之间，也存在一个分数等值的问题。

解决好分数等值问题，是开发HSK专项考试的一个难点，也是对考试开发者的一个挑战。

四、分数及格线的合理设定

及格线（cut-off score或 cut score）设定问题也是标准设定（standard setting）问题。如果划分等级和颁发证书，就需要决定将多少分确定为及格线。在许多职业领域的证书、执照、资格考试中设立了及格分数线，如医生、护士、律师、建筑师、会计、电工等许多职业资格考试和执照考试。设立及格线是为了保护病人、顾客、住户和用户们的利益，不具有相应资格的从业人员可能对服务对象造成损害。及格线常常可以为测验的使用者提供更丰富的分数解释信息，帮助他们做出更明智的人事决策。

在专项HSK开发过程中可能面临的另一个挑战是如何合理地设定及格分数线。在通用HSK中，需要为发放不同等级的证书确立及格线。今天看来，这一及格线的设定不是很合理。根据教育部的有关规定，达到HSK3级才能进入中国大学学习汉语授课的理工科专业课程。许多学校的经验显示，这一及格线设定偏低。

在托福、托业考试中，没有在分数之外设定等级，不颁发证书，也就不存在设定及格线的问题。如果HSK专项考试不准备划分级别，不准备颁发证书，也就不存在这个问题。相反，则需要认真研究及格线的合理设定问题。

关于及格线设定的研究已经长达几十年，提出的设定方法已经多达几十种。这些方法大致可以分为两类，一类是基于实证研究数据的方法，一类是基于专家经验判断的方法。

及格线可以根据收集的实证数据来确定。例如，导游人员汉语水平合格的及格线，可以根据一组具有代表性的在岗导游人员的汉语考试的平均分数来确定，也可以根据一组导游培训课程中在读学生的汉语考试的平均分数来确定。可以看到，在这些以实证数据确定及格线的过程中，也离不开专家的判断，需要专家做出“哪些人可以算具备了导游需要的汉语水平”的判断。

通常，及格线的确定基于专家的经验判断。这种判断不能靠一、两个专家“拍脑袋”产生，不能靠一、两个专家“眉头一皱、计上心来”，而需要通过一定的方式将众多专家的判断最终凝聚为一个及格分数。

在及格线设定的过程中有两个要素。第一是试卷。及格线是针对一份特定的试卷而言。脱离一份特定的试卷，谈不到及格线。第二是专家经验。及格线设定的依据是专家的经验。

今天，在及格线设定中使用最广泛的方法，是长期工作于ETS的心理测量学家安哥夫（W.H. Angoff）于1971年提出的方法及其改进方式。30年来，安哥夫本人和其他研究者对这一方法进行了许多改进。安哥夫方法要求专家们首先在心中形成一个假想的最低能力组，之后对考试的每一道题目进行评估，估计最低能力组可以正确回答这道题的概率。经过统计汇总，这些概率最后的总和就是我们需要的及格线。

安哥夫方法主要依赖专家评判。因此，实施这种方法的一个重要环节是专家的挑选和培训。只有保证参加评判者是真正的专家，保证专家领会了研究者的意图，才能获得预期的结果。

此外，及格线的设定还可以采用埃伯（Ebel）方法、吉杰（Jaeger）方法、莱德尔斯基（Nedelsky）方法等。（武晓宇等）

在及格线的设定中，我们可能犯两种错误。一种是标准过高，导致“错拒”；一种是标准过低，导致“误取”。任何一种错误几率的降低都会增加另一种错误几率的提高。对此，需要有清楚地认识。

及格线的设定是有代价的。对于分数临近及格线的考生，出现错误决策的可能性是较大的。那些刚刚在分数线以上的考生和那些刚刚在分线以下的考生之间可能仅仅有一、二分之差，很难说他们之间存在实质的差别。对于这部分考生，可能造成不公平。对此，也需要有所考虑。