生成式AI时代下评估效度的自然实验：成绩信号在AI可及性变化中的稳定性考察

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Informatics》：Assessment Validity in the Age of Generative AI: A Natural Experiment H?var Brattli, Alexander Utne and Matthew Lynch

【字体：大中小】 时间：2026年04月06日 来源：Informatics 2.8

编辑推荐：

　　这项研究探讨了生成式人工智能（GenAI）的普及如何挑战高等教育评估的认证功能。研究人员利用一门必修本科课程五年（2021–2025年）的考试数据，通过自然实验方法，分析了从AI允许的家庭考试模式转变为AI限制的线下监考模式后，学生成绩分布的变化。研究发现，在限制AI使用后，挂科率显著上升，中等成绩比例下降，而顶尖成绩保持稳定。结果表明，在GenAI广泛使用的背景下，AI允许与AI限制的评估形式可能不具有测量等效性，这引发了人们对评估结构效度以及成绩作为独立能力信号可信度的担忧。这项研究为理解AI如何重塑评估效度与成绩信号提供了关键实证证据，对高校评估政策制定具有重要启示。

想象一下，你花费数月努力学习一门大学课程，最终在允许你查阅资料、使用任何工具（包括像ChatGPT这样的强大人工智能）的“回家”考试中取得了不错的成绩。这份成绩单将伴随你求职或深造。但问题来了：这份成绩在多大程度上真实反映了你独立掌握知识的能力，又在多大程度上是AI这位“看不见的助手”的功劳？这正是当今高等教育面临的核心困境。大学承担着教学与人才认证的双重使命，而生成式人工智能的迅速普及，正以前所未有的方式冲击着后者。当学生可以借助AI轻松完成构思、起草、编码甚至复杂推理时，传统的评估方式是否还能有效区分学生的真实能力？成绩的信号价值是否会因此“缩水”？这不仅是关于学术诚信的讨论，更触及高等教育评估体系的根本——效度，即评估结果能在多大程度上支持关于学生能力的推断。

为了解答这些紧迫问题，研究人员H?var Brattli, Alexander Utne 和 Matthew Lynch在《Informatics》期刊上发表了一项研究。他们巧妙地利用了一场“自然实验”：观察同一门本科必修课程在五年间，因应AI普及浪潮而改变考核形式所带来的成绩变化。从2021年到2024年，该课程采用允许使用包括AI在内的任何数字资源的家庭考试；而到了2025年，考核方式转变为线下监考、禁止使用任何外部资源的闭卷考试。重要的是，这五年间，课程内容、学习目标、评分标准、核心考官均保持稳定。这为研究者提供了一个难得的窗口，得以在控制其他变量的情况下，探究评估形式（AI允许 vs. AI限制）的变化如何影响可观测的学生表现。

为了开展这项研究，作者主要采用了以下几种关键技术方法：首先，自然实验设计，利用高校因应AI而改变考试形式的政策变化作为“处理”，比较政策变化前后学生群体的成绩数据。其次，回顾性队列数据分析，研究对象为挪威某大学一门名为“BED2302组织理论与领导力”的必修本科课程，覆盖了2021至2025年共1066名学生的匿名化最终成绩数据。最后，推断性统计分析，通过卡方检验比较不同年份（特别是将2021-2024年合并为基线期与2025年进行对比）的成绩分布差异，并计算效应量以量化差异程度。

研究结果

•
4.1. 描述性成绩分布

数据显示，在采用家庭考试的2021至2024年间，课程的成绩分布相对稳定，挂科率在3%到6%之间波动。然而，在2025年转为线下闭卷考试后，成绩分布发生了显著变化：挂科率急剧上升至18.4%，中等成绩（B和C）的比例减少，而顶尖成绩（A）的比例基本保持不变。
•
4.2. 基线期与2025年的对比

统计检验表明，考试时期与成绩分布之间存在显著关联（χ²(5, N = 1066) = 60.62, p < 0.001），效应量为小到中等（Cramér’s V = 0.24）。具体来看，观察到的2025年成绩频率与假设其遵循基线期分布所预期的频率存在明显偏离，其中挂科数远超预期，是导致卡方统计量显著的主要贡献者。
•
4.3. 对卡方统计量的类别特异性贡献

对卡方值的分解分析进一步确认，总差异的约81%可由挂科类别（F）的异常增加所解释。这表明，评估形式的改变主要影响了处于及格线边缘的学生群体，导致更多人未能达到及格标准，而对成绩分布中上段的影响相对有限。

结论与讨论

本研究的核心结论是，在生成式AI广泛使用的背景下，AI允许的家庭考试与AI限制的线下考试可能不再是测量等效的评估形式。当评估条件从“开放”转向“限制”，成绩分布发生了结构性偏移，特别是挂科率飙升。这强烈暗示，在AI允许的条件下，一部分学生（很可能是处于能力阈值附近的群体）是借助了外部认知支持（即AI工具）才得以通过考核。而当这种支持被移除时，他们未受辅助的真实能力便显现出来。

这引发了对大学认证功能可信度的深刻担忧。大学颁发的成绩是其对学生能力进行认证的核心信号。如果成绩所反映的是“人机协作”的混合能力，而非学生独立的、可迁移的掌握程度，那么学位的信号价值就会被削弱。本研究中，2024年（AI高使用率时期）较低的挂科率与2025年（AI限制时期）的高挂科率之间的鲜明对比，意味着在两种不同评估条件下获得的“通过”可能代表着不同的能力水平。这构成了一个认证可信度问题。

更深层次地，研究结果指向了AI依赖的可能性。部分学生可能已习惯于在AI辅助下完成评估任务，这种认知卸载虽然提升了短期任务完成的效率，却可能损害了深层知识编码和独立解决问题能力的巩固。当外部支持被突然撤走，其能力的脆弱性便暴露无遗。这不仅是个人学习策略问题，更是评估体系结构性问题：当评估奖励最终产出却难以核实产出的生成过程时，学生有强烈的动机采用工具最大化成功率。

然而，简单地将AI“拒之考场之外”并非一劳永逸的解决方案。这引发了评估在可信度与真实性之间的张力。在许多专业领域，毕业生未来工作需要熟练、负责任地使用AI。如果评估系统地禁止这些工具，就可能是在非真实的环境下评价学生，削弱评估对未来职业表现的预测效度。因此，根本问题不在于是否允许AI，而在于评估体系需要明确界定并宣称其意图测量和认证的能力构念是什么。如果是独立 mastery，限制AI是合理的；如果包含有效使用AI的能力，则需将其明确纳入学习目标和评分标准。

总之，这项研究通过严谨的自然实验设计，为“AI如何重塑高等教育评估”这一全球性议题提供了关键的实证证据。它表明，GenAI的普及不仅是一个教学挑战，更是一个深刻的测量学与认证制度挑战。未来的评估设计必须在确保成绩信号可信度的同时，积极探索如何将AI的合理使用整合到真实、有效的学习与评价过程中，从而维护高等教育的公信力与 relevance。

联系信箱：

粤ICP备09063491号

热点排行