中学校本成绩校验模型及其在考试评价中的应用研究

发布时间：2017-05-04

　　课题批准号： GFA111003

　　选题依据：自选课题

　　学科分类：教育经济与管理

　　课题负责人：姚云教授

　　课题类别：教育考试研究专项

　　负责人所在单位：北京师范大学

　　课题鉴定时间： 2017年

　　主要成员：章建石孙志军景春丽杜瑞军

　　张鞠松黄红波

　　一、内容与方法

　　校本评价可以称之为以学校为中心的评价或以学校为主体的评价。具体来讲校本评价是指在学校进行，由任课教师评分的评价活动，学生的分数计算入学生的公开评价成绩内。当前基础教育领域的各类考试成绩都可以看做是校本评价的结果，为了区别于中考、高考等选拔性的考试，将之称为校本成绩。校本成绩是学生在学校学习阶段中学科能力发展最为直接的表现，它不但即时性的反映了学生各科的学习状况和学习结果，更历时性的反映出学生在不同学习阶段间的成长变化情况。校本成绩是学生在各学习阶段中的详细记录，是学生学科能力发展的写实性档案，显然比单一的外部考试能够彰显出学习的内涵。校本成绩的这个基本属性，又使得其带有以下几个特点。第一，评价结果更加可靠。在教育评价理论论域中，“谁来评”与“评什么”、“怎么评”密切相关。第二，评价结果更加稳定。从教育测量的角度来看，单次考试的结果具有一定的偶然性，而且测量的误差无法避免。校本成绩记录了学生不同学习阶段的长期表现，在评价的内容、时间、方式上都客服了单次考试高度抽样所带来的弊端，显然能够更为稳定、有效的反应学生的能力发展状况。然而，在目前国内各阶段的入学考试中，校本成绩被使用的情形很少。不过在目前国内各阶段的入学考试中，校本成绩被使用的情形很少。究其原因，主要是担心纳入校本成绩会造成不公平的现象。如果能找到一种机制，对学生的校本成绩进行合理的校正，基于学生平时的平时成绩和老师对学生的评价来进行大学选拔和录取，必然会有助于打破“一考定终身”、“应试教育”等违犯教育规律和人才选拔规律的现象。

　　（一）研究内容

　　1．校本评价理论以及在实践层面的应用

　　主要包括校本评价的内涵与意义，在主要国家和地区的大学选拔中使用的的现状、主要的类型与存在的问题，在我国基础教育领域使用的具体情况以及一线教师对校本评价结果的看法和建议等。

　　2．校本成绩校验方法以及有关模型的有效性

　　采用了回归、多层线性、马尔科夫链模型，探讨了利用统一考试成绩来校验校本考试成绩的可行性，比较不同统计分析模型的成效。

　　3.校本成绩校验对成绩以及学科的影响

　　结合我国的实践，在全国高水平大学自主选拔考试中，将不同模型的结果应用到中学校本成绩的校验中，进一步分析经过校验的校本成绩的变化以及有效性，比较不同学科之间、不同试题之间在统计学和测量学等层面的差异。

　　（二）研究方法

　　本研究主要采用定量的研究方法，如结构方程模型、多水平模型以及项目反应理论（IRT）的有关模型，来进行深入的数据挖掘。（1）文献研究。搜集、查阅与校本成绩、综合评价相关的文献资料，进行总结。（2）调查研究。针对中学教师，就我国校本评价结果的实施情况、存在的问题等进行问卷调查。（3）模型建立。针对我国考试的实践，提出校本成绩校验的若干模型。（4）模型的成效分析。使用校本成绩校验模型对学生的校本成绩进行调整，了解校验模型的有效性。（5）校验评估。分析统计调整对调整组别及个别学生的校本成绩的影响。

　　数据处理分析将采用以下软件：AMOS、HLM、PARSCALE、SPSS。

　　本研究的创新点如下有以下几点：

　　（1）研究的问题新颖，与我国考试招生制度的实际联系紧密。

　　（2）在方法上，探索以统计方来来校验校本成绩。以往有关高考综合评价的研究大多局限于理论思辨和模拟研究，尚缺乏针对该问题的量化研究。

　　（3）研究的导向上突出维护高考选拔的公平性。本研究以实际考试数据为基础，通过量化分析来寻找新的方法，为保证校本评价的公平性提供了新思路，同时，该方法使得校本成绩的应用具有很强的操作性。

　　（4）在技术上，建立相应的数学模型来挖掘大规模考试数据，以解决政策、实践中长期以来的难题。

　　二、结论

　　（一）基本结论

　　第一，目前，校本评价正在广泛开展，形式多样，取得了一定成效。作为过程性评价，校本评价的育人功能也得到了广大教师的认可。但是，如何保证评价结果的真实性、科学性，是一个需要解决的难题。从不同的群体来看，教师对校本评价的认识存在一定的差异。具体表现为：非毕业班的教师、年轻教师、初中教师和非升学考试科目的任课老师更加认同校本评价，积极性也更高。校本成绩作为校本评价的重要内容，其在教学改进中的价值得到了教师的高度认可，在保证真实、可信的前提下，应当在考试选拔中发挥更重要的作用。

　　第二，在使用上，我国中学阶段开展的校本评价没有与高校的人才选拔标准紧密结合起来，考试成绩仍旧是高校选拔的主要指标，这在很大程度上限制了综合素质评价的深入开展。与大规模统一考试相比，校本评价在在人才选拔的成效上具有明显的优势，但可能对公平带来严峻的挑战，并且难以被社会广泛的接受。校本评价在评价对象上的“不可比性”与评价结果使用要求的“可比性”，是当前招生考试制度改革面临的一个深层次的矛盾。改革的突破口，需要消解这种“可比性”，一方面要求教育工作者不断提高校本评价的信度和效度，在此前提下，把它逐步纳入到高校人才选拔标准中去，打破长期以来形成的以终结性评价代替过程性评价的局面。另一方面，高校需要从自身的办学地位出发，根据人才培养目标建立多样化，特色化的人才选拔标准，在高校自主办学的空间里逐步建立以高校为评价主体，服务于自身发展的教育评价范式。这样，才能对中学产生积极的反馈作用，推动基础教育领域综合素质评价的深入开展。

　　第三，作为一种过程性评价，校本评价结果在教学过程中发挥着重要的反拨作用。同时，强化校本的、过程性的评价结果在高校录取标准中的作用是国内外高校人才选拔的一个共同趋势。但是，评价主体的差异化使得校本评价结果的可比性打上了折扣并进而影响公平。因而，不同高校在使用校本评价结果的方式上具有了多样化的特点。从国际上来看，校本成绩以及其他校本评价结果的使用主要有以下几种类型：折算录取指数、统计校验、特殊招生等是几种比较普遍的类型。折算录取指数以美国为代表。其中 GPA、高中课程的强度、中学排名等是很重要的校本评价的结果，属于过程性评价范畴的内容。而AP成绩、SAT或ACT成绩则是外部评价的结果，属于终结性评价的范畴。为了操作上的便利，不少高校会将上述若干重要的影响因素进行加总，折算成学业指数（academic index），将其作为录取学生的重要依据。香港和澳大利亚则主要采用对校本成绩进行统计校验的方式，这种用统计方法来调整分数的基本思路是考试的组织机构通过建立相应的模型，用终结性评价结果来校验过程性的评价结果，即参照各学校学生在统考中的成绩来对校内考试成绩进行统计调整，以消弭不同学校之间评分标准上的差异调。在这个过程中，如果某学校的校内成绩低于与其在终结性考试中水平相当学校的校内成绩，该校内成绩就被适当调高。相反，如果分数高于其他学校则会被调低。需要强调的是，尽管经过调整后学生的校本成绩会发生变化，但其在学校中的位次不会发生变化。台湾地区主要采用另设特殊招生类型的方式。台湾的大学在招生上主要有“考试分发入学”、“甄选入学”和“繁星计划”三种方式。其中，校本评价的使用主要体现后两种方式中。在“甄选入学”中，考生由高中推荐或者个人申请，只须参加“学科能力测验”并且达到校系规定的成绩标准，同时要参加由校系单独主办的考核，包括笔试、口试、书面审查资料、小论文、实验等。在这个过程中，学生在中学期间的学习表现，普遍得到高校的关注。校本评价的结果与其他方式的评价结果共同决定是否录取学生。“繁星计划”是为缩减城乡差距而实施的，给予城乡高中平等的大学入学机会，采用各高中单独“推荐保送”的入学方式。学生只要“学科能力考试”成绩符合大学要求，且高一、高二学期总平均成绩排在所在中学前20%者，就可以由所在中学向大学直接推荐录取，同一所大学只能在每所中学录取一人。通过“繁星计划”的实施，增加了偏远地区高中学生进入优质大学的机会，有利于促进教育公平。

　　第四，不同模型对校本成绩的校验有一定的差异。从统计结果来看，回归模型与HLM的成效相差不大，但后者得结果更符合实际情况。回归分析操作和解释更为简单，在实际应用中也体现出一定的优势，这一点在大规模考试中就更为重要。利用马尔科夫模型分别预测校本成绩及高考成绩在各区间的概率，结果表明马尔科夫预测模型能比较准确的预测校本成绩的状态，也能够在一定程度上预测高考成绩的状态，但是预测能力非常有限。

　　第五，对校本成绩的校验成效，在学科之间有一定的差异。语文成绩的多水平效应并不明显（跨级相关<0.08），在数学和英语成绩上，学校差异显得比较突出，特别是数学。数学和英语的校本成绩对统考成绩的预测比语文更强。

　　（二）对策

　　首先，理性认识校本评价的价值，借鉴国际上的先进经验，改进校本评价的做法，确保评价结果的准确性。在教学过程中，校本评价冲破了分数的桎梏，拓展了评价的维度，它在教学改进中的作用是毋庸置疑的。但是，如何发挥其在教育选拔中的功能，却是一个难题，而且会反过来制约学校开展校本评价的积极性和结果的可靠性。校本评价一般由学校或地方教研部门来实施，评价的水平参差不齐。其中，评价工具、评价过程和评价结果的解释都可能存在较大差异。因此，如果对不同学校的校本评价结果直接进行比较，显然不利于那些评价标准严格、学生整体水平较高的学校。针对这个现实难题，国际上一些主要国家探索了一些基本经验，主要可以分为两类。第一类是改革选拔的标准。其中，选拔标准的多元化是不少国家的典型做法。例如美国高校的选拔标准就呈现出了多样化的特点。高中课程的成绩、入学考试成绩、班级排名、课外活动情况、教师推荐信等等构成了复杂而又各具特色的选拔体系。不同类型、层次的高校，其选拔标准有较大的差异，各个因素在选拔中所起的作用也各不相同。标准的多元化有效避免了在其中某一个标准上斤斤计较的做法，消解了单一标准的在选拔中的绝对权威。第二类是采用统计的方法，将不同地区、学校之间的校本评价结果进行一定的调整，使之尽可能具有可比性。澳大利亚、台湾、香港等地在一些大规模的考试中都采用了该类方法。这两类做法各有特色，各有利弊，但一个共同的特点是对校本评价的科学性、准确性都提出了更高的要求。

　　其次，中学、大学和政府机构需要加强合作与交流，共同努力，探索校本评价可信、可用的现实途径。校本评价的结果得不到足够的重视，这与我国中学、大学之间的隔阂不无关系。长期以来，对于校本评价结果，大学常常认为其“不真实，不可靠”，而中学则因为大学不用而逐渐失去开展校本评价的积极性。要打破这种隔阂，中学、大学和政府机构走到一起，共同寻找解决的方法。香港在这方面积累了宝贵的经验。从2007年开始，香港开始探索如何有效使用校本评价的结果，教育行政部门期望将学校任课教师在日常教学过程中对学生的评价，纳入其文凭考试的成绩之中，在几年试验的基础上，2012年共计进行校本评价的科目达到了12科，包括中文、英语和通识教育3门核心科目以及9门选修科目。在推进过程中，为了保证校本评价的公正、公平以及评价主体之间的一致性，政府部门出台了详细的规范与实施细则，采取了一系列措施，包括：广泛开展校本评价的专业培训，在各个学区配置专门人员来提供专业支持，应用统计方法对校本评价的结果进行调整等等，这些工作涉及面广，各方面的投入比较多，主要由政府部门来主导完成。中学在专业机构的引导下，遵循科学的方法，步调统一，按照要求来开展校本评价，有效避免了一些可能影响评价结果准确性的做法。校本评价经过统计调整后得到的结果，高校或其他机构予以认可。经过多年的探索，目前校本评价已经形成了良性循环，社会各界的认可程度也在不断提升。

　　再次，进一步拓展校本评价的领域，创新评价的方法和手段，促进更深层次意义上的教育公平。与大规模统一考试相比，校本评价在“评什么”、“怎么评”等方面具有较大的自主空间，这在很大程度上保证了学校的办学和人才培养的特色。校本评价领域的拓展以及与之相匹配的评价方法、手段的创新，在根本上是由学生在能力、素质、素养等方面的复杂性、多元性和差异性所决定的。这也从一个侧面表明：很多学生层面的评价结果天然就不具备可比性。在教学中，校本评价的实施恰恰彰显了对这种差异、多元和个性化的尊重，也只有这样，才能使评价结果在让学生充分认知自己，明确下一步的努力方向以及进一步改进教学等方面发挥积极的作用。但是，一贯以来，我们对学生的评价过度受制于学科成绩，人才选拔中也过于关注绝对的公平，这使得学校和学生在单一的分数维度上拼命挣扎，从而丧失了太多教育的本真价值。把所有的学生都放置在同一个标准下，让他们进行激烈的竞争，这看上去是公平的做法，实际上是对学生个体差异的漠视，有违学生的天性，有削足适履的倾向。在教育活动中，限制大多数的个性以妥协于现实需要的共性，这对大多数反而是不公平的。在教育的现实情境中，如何为每一个学生提供适合他们教育和评价方式，是每一个教育工作者需要思考的问题。为此，评价之“履”需要根据不同的足“之所需”来进行调整，只有这样，才是真正的尊重学生，才能保证教育之本源意义的公平。

　　最后，对于专业化的考试机构来说，需要探索对校本评价结果进行再评价的方式，以确保校本评价的科学性和可比性。其中，用统计模型来解决这一难题具有一定的可行性，在多个模型的比较中，回归模型的校验成效相对最好，在大规模教育考试中容易操作，有推广价值。

　　三、改进与完善

　　本研究结合我国考试的实际，提出了校本评价结果的校验模型，对于探索校本成绩的使用方式，完善综合评价有一定的借鉴意义。课题研究至今，我国高考在制度层面出现了一些新情况，这对于改进与完善这方面的研究，就显得很有必要。

　　（1）在当前高考改革“两依据、一参考”政策背景下，如何真正参考综合评价的结果，是一个难题。高校、中学都面临如何实质性地推动综合评价在高考中的使用的难题，这一直以来也是考试招生制度改革中的难题。该课题提出的方法在高校自主选拔中进行了实验，具有良好的成效，但是，能否直接在高风险的考试之中应用，以及应用之后可能出现的学生转学等情况，仍旧需要在政策层面出台相应的配套措施。另外，在高考招生分省计划的制度设计下，校本成绩的地区、省际差异也比较大，成绩校验的模型需要进一步探讨。

　　（2）课题的实践和探索，在研究问题上有鲜明的中国特色，在研究方法上有创新，在研究结论上也符合我国招生考试制度的实际。但是，校本成绩校验价值并不仅在追求统计学生上的高解释率，它彰显了把过程性评价结果纳入综合考查的合理诉求，并为相应的权重设置提供了实证依据。校验的方式及其成效完全可以通过具体的干预而更加科学、合理。只是这里的合理性很容易在高考的博弈中被扭曲或打乱，校本成绩校验的成效会随着对这一结果使用的程度而降低，后续的研究需要追踪这种影响以及由此给校验模型带来变异的可能。

　　（3）在不同学科之间，不同的校本成绩校验模型具有一定的差异，这符合高考各学科的实际情况。如语文学科，需要长期的积累过程，所考查的并不仅限于在学校学到的知识内容，而是考查的广泛的，有深度的，和整个学生自身层次有关的内容，语文成绩的学校差异相对于其他学科较小，一定程度上限制了校验模型成效的发挥。建议可以结合具体的学科，进一步提炼学科化的校验模型。

　　四、成果统计一览表

　　课题组成果统计一览表

序号	作者	成果形式	成果名称	出版单位/发表刊物	刊物级别 (CSSCI/核心)	出版时间/刊物期号	转载	获奖情况	决策采纳
1	姚云、章建石	论文	牵好“牛鼻子”　让校本评价结果可信可用—基于2745 名一线教师的问卷调查与分析	中小学管理	中文核心	2016年第12期
2	姚云、章建石、杜瑞军		大规模教育考试中的校本成绩校验及其对中学的影响	教育测量与评价		2016年第10期
3	章建石、景春丽	论文	基于马尔科夫链的校本成绩评价合理性的探索.	首都师范大学学报（自然科学版）	中国科技核心期刊	2016年第2期
4	章建石、景春丽、莫春晖、姚云	论文	如何使校本成绩在高校选拔中发挥作用——来自高考自主选拔考试的探索	考试研究		2016年第2期
5	章建石	论文	高校自主招生选拔中校本成绩校验的模型及成效比较.	清华大学教育研究	CSSCI	2016年第1期	人大复印转载
6	章建石	论文	校本评价在国内外考试招生中的使用	中小学管理	中文核心	2015年第12期
7	章建石	论文	校本评价在高校人才选拔中的困境与出路	当代教育科学	中文核心	2014年第19 期	新华文摘论点摘编；中国社会科学文摘全文转载、人大复印转载。