SAS-Bench：一种用于评估大型语言模型短答案评分的精细粒度基准测试工具

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neural Networks》：SAS-Bench: A Fine-Grained Benchmark for Evaluating Short Answer Scoring with Large Language Models

【字体：大中小】 时间：2026年06月02日 来源：Neural Networks 6.3

编辑推荐：

　　裴超来|张克轩|尹毅|张琳怡|叶飞阳|严金浩|徐彦伟|何 Conghui|张文涛|王一磊|崔斌摘要简答题评分（SAS）是自动化主观答案评分中的关键任务，在教育、标准化测试和大规模评估系统中发挥着重要作用。然而，现有的方法通常生成的分数较为粗略，缺乏详细的评分理由。尽管大型语言模型

裴超来|张克轩|尹毅|张琳怡|叶飞阳|严金浩|徐彦伟|何 Conghui|张文涛|王一磊|崔斌

摘要

简答题评分（SAS）是自动化主观答案评分中的关键任务，在教育、标准化测试和大规模评估系统中发挥着重要作用。然而，现有的方法通常生成的分数较为粗略，缺乏详细的评分理由。尽管大型语言模型（LLMs）在零样本评估方面展现出了潜力，但它们仍然容易受到偏见的影响，与人类判断存在不一致之处，并且评分决策的透明度有限。为了克服这些局限性，我们推出了SAS-Bench，这是一个专门为基于LLM的SAS任务设计的基准测试平台。SAS-Bench提供了细粒度的、分步骤的评分方式、由专家标注的错误类别，以及来自真实世界学科考试的多样化问题类型。该基准测试平台有助于详细评估模型的推理过程和可解释性。我们还发布了一个开源数据集，其中包含1,030道题目和4,109份学生答案，每份答案都由领域专家进行了标注。此外，我们对多种LLMs进行了全面实验，发现了在评分科学相关问题时存在的主要挑战，并强调了少量样本提示在提高评分准确性方面的有效性。我们的工作为开发更加稳健、公平且具有教育意义的基于LLM的评估系统提供了宝贵的见解。

相关新闻

生物通微信公众号

微信

新浪微博

我要投稿

搜索
国际
国内
人物
产业
热点
科普

联系信箱：

粤ICP备09063491号

摘要

热点排行