SAS-Bench:一种用于评估大型语言模型短答案评分的精细粒度基准测试工具

《Neural Networks》:SAS-Bench: A Fine-Grained Benchmark for Evaluating Short Answer Scoring with Large Language Models

【字体: 时间:2026年06月02日 来源:Neural Networks 6.3

编辑推荐:

  裴超来|张克轩|尹毅|张琳怡|叶飞阳|严金浩|徐彦伟|何 Conghui|张文涛|王一磊|崔斌摘要简答题评分(SAS)是自动化主观答案评分中的关键任务,在教育、标准化测试和大规模评估系统中发挥着重要作用。然而,现有的方法通常生成的分数较为粗略,缺乏详细的评分理由。尽管大型语言模型

  
裴超来|张克轩|尹毅|张琳怡|叶飞阳|严金浩|徐彦伟|何 Conghui|张文涛|王一磊|崔斌

摘要

简答题评分(SAS)是自动化主观答案评分中的关键任务,在教育、标准化测试和大规模评估系统中发挥着重要作用。然而,现有的方法通常生成的分数较为粗略,缺乏详细的评分理由。尽管大型语言模型(LLMs)在零样本评估方面展现出了潜力,但它们仍然容易受到偏见的影响,与人类判断存在不一致之处,并且评分决策的透明度有限。为了克服这些局限性,我们推出了SAS-Bench,这是一个专门为基于LLM的SAS任务设计的基准测试平台。SAS-Bench提供了细粒度的、分步骤的评分方式、由专家标注的错误类别,以及来自真实世界学科考试的多样化问题类型。该基准测试平台有助于详细评估模型的推理过程和可解释性。我们还发布了一个开源数据集,其中包含1,030道题目和4,109份学生答案,每份答案都由领域专家进行了标注。此外,我们对多种LLMs进行了全面实验,发现了在评分科学相关问题时存在的主要挑战,并强调了少量样本提示在提高评分准确性方面的有效性。我们的工作为开发更加稳健、公平且具有教育意义的基于LLM的评估系统提供了宝贵的见解。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号