增值评价改革的现状、问题与未来进路

发布时间:2025-11-01 00:01  浏览量:1

感谢您关注“永大英语”!

辛 涛 周 园

教育评价事关教育发展方向以及教育强国建设成败。传统以分数和升学率为核心的评价模式不仅加剧了教育功利化倾向,而且由于忽视了学生的初始能力水平以及学生、教师和学校之中很难改变的条件性因素,还可能挫伤基础不好的学生、背景条件不够突出的教师、办学条件不够优质的学校的积极性,甚至导致学校抢夺优质生源、将学校资源投向所谓“优等生”和“重点班”等现象的出现,既不利于提升教育质量,又有悖于教育公平。[1]基于上述现实,2020年10月,中共中央、国务院印发《深化新时代教育评价改革总体方案》(以下简称《方案》),明确提出“探索增值评价”,[2]并将其作为破除“五唯”顽瘴痼疾的重要举措。

《方案》印发五年来,我国学者结合本土实际开展了诸多理念和技术上的探索,为新时代教育评价改革提供了多元视角。本文基于对当前增值评价改革实践的系统考察,聚焦其核心矛盾与突破路径,旨在回答三个关键问题:一是增值评价改革的现状如何?二是制约增值评价改革效能发挥的现实问题是什么?三是未来如何系统性构建增值评价改革的优化路径?以期为通过增值评价改革破解教育质量评价公平性难题、促进区域教育优质均衡发展提供参考。

一、增值评价改革的现状

《方案》的出台为增值评价改革提供了顶层设计与政策动能。在政策推动下,我国增值评价改革全面展开,在理论研究、实践探索与技术支持等方面均取得进展,初步构建起政策引领、理论支撑与实践探索协同并进的发展格局。

1. 政策框架系统构建

在国家层面,自《方案》印发后,我国相继出台系列配套文件,构建起教育评价改革的制度框架,如《义务教育质量评价指南》《基础教育课程教学改革深化行动方案》《义务教育课程方案(2022年版)》等重要文件均明确提出开展增值评价。在省级层面,各省注重统筹推进教育评价改革,共有20个省(直辖市)以省(市)委、省(市)政府名义出台了《方案》的落实文件,具体形式主要为实施方案、工作清单,均包含对增值评价的要求,为地方的探索实践提供了政策驱动。部分省份还通过设立改革项目与试点等形式,为增值评价实践提供机制与资金保障。在市、区层面,相关主体多以工作清单、任务清单等形式进一步细化落实举措。由此可见,增值评价改革在政策层面已形成“国家-省-市-区”多级协同推进的格局,为改革实践探索提供了坚实的制度保障。

2. 理论研究持续深入

在政策引领下,国内学者对增值评价的理论研究不断深化,涵盖基本内涵、评价内容、模型方法等多个方面,为改革实践提供了理论支撑。

在概念内涵方面,学界从学校、教师、学生不同角度给出理解,并达成共识,认为增值评价关注学生在一定时期内知识、能力和素养等方面的成长,是对学生“净增值”的测评。[3]区别于传统评价对单次成绩的关注,增值评价聚焦学生起始水平与最终结果的变化幅度,强调“不比基础比进步”,[4]其本质是“实际水平与预期水平的差异”,即“增值量=最终量-预测量”,而非简单差值。[5]

在评价内容方面,增值评价经历了从单一学业成绩向多元素养的扩展。早期研究以学业成绩为核心,如有研究者通过对45项实证研究的分析发现,80%以上模型聚焦学科分数变化。[6]而随着增值评价改革的推进,诸多研究者提出增值评价应该涵盖非学业方面的内容,关注学生全面发展,同时强调科学素养、社会情感能力等“核心素养”应成为重要内容。[7]但五育并举视域下的增值评价也面临内容标准不统一的困境,这是由于当前五育增值指标界定模糊,比如德育仅停留在原则性描述,缺乏可测量维度。[8]

在模型方法方面,增值评价呈现出从传统统计模型向智能技术融合发展的特点。增值评价模型的核心是通过统计方法分离教育主体(学校、教师)对学生成长的“净效应”,其发展呈现出从单一维度到多维度、从忽视数据结构到重视嵌套特征的特点。早期增值评价多依赖简单的统计方法,如标准分法、效应量法等,[9]这类模型原理直观、操作简便,但由于忽视学生个体差异与嵌套数据结构,导致评价精度有限。多元线性回归模型通过控制学生背景变量,将残差均值作为学校增值,但无法处理嵌套数据导致的误差聚集问题。

多水平线性回归模型通过区分学生层与学校层变量分离学校对学生成长的“净效应”,显著提升了嵌套数据的分析精度,[10]但难以解决“天花板效应”。这是由于测量工具上限不足,使得高水平学生的进步空间被压缩,导致其真实成长无法在数据上显现,进而扭曲学校效应的评估。多水平分位数回归模型融合了多水平模型与分位数回归的优势,既考虑嵌套数据结构,又通过分位数计算规避正态分布假设,能更精准地估计不同水平群体的增值。[11][12][13]此外,机器学习模型如分类与回归树通过非线性建模处理复杂数据关系,无须严格统计假设,在变量重要性识别上具有优势。[14]

3. 区域试点协同推进

五年来,围绕政策导向,我国基础教育不仅在区域层面涌现出诸多富有地方特色的实践模式,更在评价内容和技术方法上不断深化革新,逐步形成“点-线-面”协同推进的实践格局,并呈现出以下特点。

一是以构建良好教育生态为目标。五年来,我国基础教育领域的增值评价改革并非采用“一刀切”的统一模式,而是与地方教育生态深度融合,呈现出百花齐放、因地制宜的区域化特征。各地结合自身教育发展的实际情况、数据基础和改革目标,创造性地构建了多元化实施路径,如湖南长沙市“从入口看出口、从起点看变化”的增值评价模式、[15]广东广州市义务教育阶段阳光评价增值模型的构建[16]等均有效地改善了区域教育生态。

二是增值评价内容实现多维拓展。如山东济南市通过“区域学生综合素养增值评价实践”关注学校办学质量和学生五育并举发展情况,[17]浙江温州市借助“初中绿色增值评价”从学业和非学业发展(学生品德发展、身心健康和学习生活幸福)两方面考查学生的学习结果和增值,[18]这些举措旨在破局学业桎梏,探索五育增值。

三是技术赋能持续升级。如江苏苏州市探索教育质量监测智能技术支持的增值评价,实现从模型适配、数据治理到智能赋能的闭环管理。在模型适配层面,通过锚题技术与项目反应理论实现A、B卷等值,将分数标准化为量尺分数,构建百分等级增值模型和四水平模型,兼顾科学性与一线可接受性;在数据治理层面,以“学校全覆盖、学生全参与”方式开展连年追踪监测,建立纵向数据库;在智能赋能层面,运用可视化技术使评价结果直观易懂,助力精准改进。[19][20]

二、增值评价改革面临的挑战

虽然“点-线-面”协同推进的增值评价改革实践格局为构建高质量教育体系奠定了良好基础,但当前的改革仍面临理念认知存在偏差、技术方法存在瓶颈、结果运用存在障碍等几方面挑战。

1. 从“育人”到“应试”的理念认知异化

增值评价的核心理念在于通过关注进步来引导教育回归育人本位,但在实践中却时常被扭曲和误读,存在被异化为另一种“唯分数”的风险。

一是目标窄化,将“增值”简化为“分数增长”。通过对当前改革实践与理论研究中评价内容部分的梳理可以发现,多数模型设计及区域实践仍聚焦于学生学业成绩。增值评价本应是一个全面系统的体系,需考量每个学生作为独特个体的差异,如家庭背景、学习基础、性格特点,还应考量学生在学习过程中的努力程度、方法选择、困难应对以及身处的教育环境等多维因素。若仅将增值等同于分数提升,势必重蹈“唯分数”覆辙,使学生再度陷入应试旋涡。

二是结果的高利害应用导致评价目的从“育人”异化为“应试”。当增值评价结果被直接挂钩于教师绩效、职称评定、学校排名乃至奖金分配等高利害决策时,其固有的诊断与改进功能便被削弱,而考核筛选功能则被过度放大。在此压力下,部分学校和教师的行为逻辑就会聚焦于如何获取更高的增值分数,而非更好地促进学生全面发展。这种功利化导向扭曲了评价初衷,使增值评价沦为又一种竞争与排名的工具。

2. 从数据采集到模型应用的技术实施挑战

增值评价是一种纵向追踪的评价方式,然而目前数据采集平台在纵向学段间、横向学生信息覆盖面等方面难以实现无缝对接,从而形成数据断层。这不仅影响了增值评价数据的连续性,而且降低了增值评价模型的科学性,限制了其在教育质量提升中的作用发挥。

一是数据采集的困难。首先,数据采集渠道不统一,不同学段、不同区域在数据采集标准、方式以及评价指标体系上存在差异,数据类型多样且结构复杂。而增值评价需要收集学生学业成绩、道德表现、审美素养、身心健康等多维度数据,这些数据往往以不同形式存在,缺乏统一的采集和存储标准,导致数据难以整合和比较。其次,数据采集的可信性偏低。以综合素质信息填报为例,有研究表明,综合素质评价数据采集主要依赖于学生的自我报告和教师的主观评价,[21]数据的真实可靠性缺乏必要的信度。最后,数据的管理权限集中与应用分散导致数据资源无法有效利用。在实际操作中,学生数据往往由各个学段或学校独立管理,缺乏跨部门、跨层级的数据共享机制。

二是模型应用的困境。首先,在区域实践中,考查学业成绩的增值往往会面临对多种增值模型的选择,还有部分区域结合自身特点开发增值模型。而以往研究表明,在不同条件下应用不同的增值模型,其评价结果会存在一定差异,[22][23]同时针对非学业数据的增值评价尚缺乏科学的模型及统一标准。其次,教育教学是一项复杂的活动,涉及大量变量(如学生背景、教师能力、学校资源等),但受限于变量测量工具、时间及人力物力等限制,许多重要变量无法纳入模型,导致评价结果出现偏差。最后,研究表明,假设检验缺失、缺失数据处理等均影响增值的估计精度。[24]此外,增值评价模型的操作往往需要较高的统计学专业素养,而一线教育工作者普遍缺乏相关技能,难以准确理解模型原理及适用条件,导致模型误用或结果解读偏差。[25]

3. 从“数据”到“改进”的结果应用障碍

增值评价的价值最终体现在结果应用方面,但当前在这方面主要存在以下障碍。

一是反馈效能不足。一方面,增值评价结果报告的专业性过强。增值评价结果中通常会出现较为复杂、难以理解的内容,这与增值模型的统计方法和最终呈现的数据形式有关。[26]如果教师对结果不能有正确的解读和归因,那么将导致结果反馈难以转化为教学行动的改进。另一方面,教师评价素养不足导致增值评价难以有效发挥改进功能。如部分教师虽已理解增值评价中学业发展影响因素的指标内涵(如批判性思维、学习自控力等),但限于自身学科,往往难以理解复杂的学习机制,无法对学生的学习品质、学习认知结构等形成科学系统的认识,在将增值结果转化为具体干预措施时缺乏有效的切入点和方法论指导。

二是整改机制缺失。以市域增值评价为例,结果运用涉及市、区县、学校多层面,涵盖教育制度、教育管理、教育研究、教学一线等方面。首先,就较为成熟的教育质量监测结果运用而言,当前仅限于针对问题督促区县撰写整改报告,但针对改进工作缺乏过程性追踪、关键节点督导与动态反馈,也未能形成问题改进经验与典型案例推广,加之对整改不力的主体缺乏约束措施,导致其丧失持续改进动力。其次,由于“为排名而评价”的认知偏差普遍存在,因此易忽视增值评价结果对教学改进的诊断价值,加之改进目标模糊空泛,缺乏可量化的阶段指标,最后导致责任落实主体不明、行动方向失焦。最后,在过程支持上,市、区县、学校未建立“评价-教研-培训”的联动机制,学校改进过程缺乏专业指导与资源支撑。

三、增值评价改革的未来进路

面对增值评价改革遇到的重重困境,未来的突破不能寄望于单点修补,而必须采取系统性的优化策略,努力构建回归育人初心、技术科学可行、应用深入有效的增值评价新生态。

1. 回归育人本位的价值引领

一是强化价值引领,倡导改进性应用。一方面,各级教育行政管理部门、研究机构和媒体应共同努力,在加强对增值评价核心理念宣传与培训的同时,适当地向社会公众公布一些非学业的增值结果,引导校长、教师及家长等社会群体既要明晰“增值评价的首要目的在于诊断与改进,而非排名与问责”这一核心理念,又要关注到学生非学业方面的成长,杜绝“唯分数”“唯排名”。另一方面,必须明确界定增值评价结果的使用边界,倡导其在课堂分析、学情诊断、教师专业发展规划、学校特色发展等领域的应用,而对于将其用于学校资源分配、教师评优、职称晋升等高利害的决策时必须极为审慎。如果将增值评价应用于高利害评价,那么应建立严格且多维度的证据支撑体系,绝不能将增值结果作为唯一依据。

二是完善评价机制,构建包容性评价文化。一方面,要综合运用多种评价方式。增值评价能够关注到不同学校的起点,促进学校间的公平发展,[27]但没有任何一种评价方式能解决所有问题。因此,教育行政管理部门应基于不同评价目标,采用结果评价、过程评价、综合评价等与增值评价相结合的多元评价方式,强化评价的公平性与稳定性。另一方面,应致力于构建一种积极健康的评价文化,将评价视为质量提升的关键,而非制造焦虑的源头。这意味着要客观看待增值评价结果的波动性与局限性,理解“负增值”并不等同于“不努力”或“教学失败”,而可能指向需要支持和帮助的领域。这样才能更大限度地激发教师的教学智慧,避免教师为了应对评价走向另一种“应试”。

2. 实施科学有效的技术攻坚

一是搭建国家与区域层面的教育数据基础平台。数据的有效性、连续性是保证增值评价实施的基础。首先,国家层面应统筹规划,推动建立覆盖全国或区域层面基础教育阶段学生的纵向发展数据库,搭建起增值评价的基础数据库。其次,增值评价过程中采集的数据信息不应仅包含学业成绩,还应逐步纳入体质健康、艺术素养、社会实践、心理状况等关键的非学业指标,并覆盖部分跨部门协同数据。最后,由国家或地方教育行政管理部门出台统一的数据标准和采集规范,明确数据类型、结构,并利用教育数字化转型契机,通过智能终端、线上平台等技术手段强化无感采集,降低数据采集成本,提升数据的真实性和时效性。

二是强化五育并举增值评价的指标与方法研究。当前,部分区域对五育并举增值评价内容的指标确定大多源于不同的文件标准,而缺乏对五育并举增值评价内容与标准的专门性研究。对此,一方面,可由国家制定一个框架性指标,并鼓励地方根据自身特色进行细化和创新。另一方面,地方应结合自身教育实际,组织跨学科专家团队系统研究德体美劳的增值如何科学界定与测量,是否可以采取定量与定性相结合的思路。比如:对于体育等相对容易量化的领域,可基于《国家学生体质健康标准》等建立增值模型;对于德育、美育、劳动教育等领域,则可以更多采用表现性评价、档案袋评价、过程性观察等定性方法,或借助智慧穿戴设备进行无感搜集,并探索将其与定量数据结合,形成综合性的增值判断。

三是推动评价模型的科学化与人本化研究。一方面,应在对不同增值评价模型在不同条件下稳定性和公平性的比较研究基础上,对其进行不断优化,提升增值评价模型的稳定性、精准性,为实践者提供清晰的选用指引。另一方面,面对模型的复杂性壁垒,未来方向不是让所有人都成为统计专家,而是让模型更友好、更透明。因此,应利用人工智能和数据可视化技术开发用户友好的评价分析平台,使用户不仅能够自主处理复杂的数据和运算,还能将结果以直观易懂的图表和诊断性语言进行呈现,真正让增值评价为改进教育实践和决策提供有价值的帮助。

3. 打通“数据”到“行动”的转化路径

一是建立各级联动、融合的改进机制。以市域增值评价为例,市级层面应进一步使报告精细化,形成区县、校级层面的增值评价报告;区县层面应结合报告完成自我诊断报告、列出问题清单,全面深入剖析区域教育质量提升的瓶颈与难题,并选择其中之一作为撬动点,与督导部门配合,形成针对性的问题整改方案,明确责任分工、密切协同配合,并强化过程性、动态化督导和激励约束;学校层面应发挥教育改进的主阵地作用,建立结果应用与教育教学相融合的工作思路,切实提高结果应用的针对性和有效性。

二是强化教师在评价中的主体地位。首先,提升教师评价素养,消除教师的畏难情绪。应对教师进行基础的评价能力培训,如数据解读、基础测评工具开发等,以打通教师与数据之间的壁垒。其次,充分尊重和发挥教师的主体性。未来的评价体系设计应更多听取一线教师的意见,并邀请其参与评价过程。当教师从被动的“被评价者”转变为主动运用评价工具来改进自身工作的“研究者”和“反思者”时,增值评价的效能才真正被激发。最后,将评价结果与教师专业发展深度融合。增值评价的结果应用应指向教师“赋能”而非“排名”,如当评价数据显示某位教师在某个点存在短板时,应提供针对性的培训、开展主题式教研等,而非对其进行简单的负面评价。要将增值评价的数据分析融入教师的校本研修和专业发展规划中,引导教师基于证据进行教学反思和自我提升,真正让评价成为促进教师成长的有力杠杆。

4. 强化对增值结果的深度应用

一是构建增值数据驱动的精准教育治理体系。一方面,需要推动资源分配科学化。基于增值评价结果可将学校类型划分为低起点高增值、高起点低增值等类型,[28]因此应结合学校教育发展短板动态调整财政投入与项目资源,实现“按需分配、精准滴灌”。如连续实现正向增值的薄弱学校与连续负向增值的传统强校,其资源需求各不相同,就需要通过配套师资培训、课程开发等专项支持以及调整教学管理机制等方式帮助这两类学校实现正增长,而避免以往将资源向传统强校过度集中的做法。另一方面,要将增值评价结果纳入区域教育生态监测。如可基于学业增值、五育并举发展情况、校际均衡度等数据构建区域教育健康度指数,为教育决策提供可视化依据,更直观地分析“哪类学校更有益于某一类学生实现增长”“增值评价结果较好的学校在学生同伴关系、积极心理、睡眠时间控制、德育活动等方面有何管理经验值得借鉴”等。[29]

二是形成循证导向的教学改进链条。教育是一个各因素间相互影响的复杂场域,为此应系统分析学校、学科的增值归因,要“跳出分数看分数”“跳出学科看学科”,既要关注到学生学科知识掌握、能力发展等维度的增值轨迹,也要关注到其身心健康等发展数据。学校、教师要系统性地分析增值结果背后反映的教育规律,借助多种评价方式对教育发展事实进行综合分析和判断,杜绝数据专制及“只见数不见人”的舍本逐末行为。[30]此外,应采取基于增值结果诊断问题、发现经验、采用质性研究合理归因的方式,构建起“增值结果诊断-质性研究溯源-形成改进策略”的循证导向的教学改进链条,形成可迁移的实践范例,同时促进经验共享。

参考文献

[1][4] 辛涛.“探索增值评价”的几个关键问题[J].中小学管理,2020(10):1.

[2]中共中央国务院印发《深化新时代教育评价改革总体方案》[EB/OL]. (2020-10-13)[2025-07-10]. http://www.gov.cn/zhengce/2020-10/13/content_5551032.htm.

[3]王天平,牌代琼.新时代教育增值评价改革:从数据描绘走向价值呈现[J].中国考试,2022(10):31-38.

[5]杨立军,夏紫微.教育增值评价50年:演进、挑战与进路[J].高教发展与评估,2024(2):1-18+119.

[6][24] 李俊飞,谭顶良.增值评价模型应用的问题探讨与优化策略——以我国45项实证研究数据为佐证[J].中国考试,2024(6):71-78.

[7]安富海.学生发展增值评价:理论阐释与实践进路[J].教育研究,2023(9):64-75.

[8]刘志军,范韵婧.我国增值评价研究:现状、问题与展望[J].中国考试,2023(4):35-41.

[9]陈安琪,关丹丹.几种增值评价方法的对比分析及实证研究[J].中国考试,2022(9):54-62.

[10]范美琴,高柳萍.基于中考和高考成绩数据的高中学校教育教学效能增值性评价[J].中国考试,2019(10):6-13.

[11]周园,刘红云.教育增值评价中嵌套数据增长百分位估计方法探析:多水平线性分位数回归模型的应用[J].中国考试,2020(9):32-39.

[12][15] 章勇,邹良,刘先发.新高考增值评价两种模型估计效果的比较研究[J].中国考试,2023(9):60-69.

[13]袁建林,唐瑞希,罗仲尤.学校增值评价:模型择优与实践进路[J].教育发展研究,2024(2):16-24.

[14]王霞,毛秀珍,张丽.教育增值评价:模型、应用及研究展望[J].教育学报,2023(4):109-122.

[16]胡志桥,钟阳,汪晶.中小学生学业水平增值评价模型的构建与实践——基于广州市义务教育阶段阳光评价的研究[J].教育理论与实践,2022(11):18-22.

[17][28][29] 王家祺,周园,王梦璐.区域教育质量增值评价结果运用探析——以济南市部分区域学生增值评价为例[J].中国考试,2023(3):52-59.

[18]本刊编辑部.新时代教育评价改革向更深远处迈进[J].人民教育,2023(20):14.

[19]刘邦奇,朱广袤,张金霞.智能技术支持的增值评价模式及典型实践[J].中国远程教育,2022(12):49-57.

[20]罗强,冯杰.学业质量监测增值评价模型的探索[J].中小学信息技术教育,2019(10):34-38.

[21]陈丽,林文静,郑勤华.人工智能赋能中小学生综合素质评价的创新探索[J].中国考试,2025(2):41-49.

[22]Guarino C,Reckase M,Stacy B,et al. A Comparison of Student Growth Percentile and Value-Added Models of Teacher Performance[J].Statistics & Public Policy,2015,2(1):1-11.

[23]Ouma C A. Performance of CART-based value-added model against HLM,multiple regression,and student growth percentile value-added models[D].Tallahassee:Florida State University,2014.

[25]吴茵荷.教师增值性评价探索:现实隐忧与可为路径[J].教育理论与实践,2022(28):32-37.

[26]李俊飞,谭顶良.增值评价的基本理念、实践困境与优化策略[J].中国教育学刊,2024(9):37-43.

[27]马晓强.探索增值评价,我们在顾虑什么?[J].中小学管理,2020(10):5-7.

[30]郑智勇,宋乃庆.新时代基础教育增值评价的三重逻辑[J].教育发展研究,2021(10):1-7+17.

(本文首次发表在《中小学管理》2025年第10期)