
-
生物通官微
陪你抓住生命科技
跳动的脉搏
SAS-Bench:一种用于评估大型语言模型短答案评分的精细粒度基准测试工具
《Neural Networks》:SAS-Bench: A Fine-Grained Benchmark for Evaluating Short Answer Scoring with Large Language Models
【字体: 大 中 小 】 时间:2026年06月02日 来源:Neural Networks 6.3
编辑推荐:
裴超来|张克轩|尹毅|张琳怡|叶飞阳|严金浩|徐彦伟|何 Conghui|张文涛|王一磊|崔斌摘要简答题评分(SAS)是自动化主观答案评分中的关键任务,在教育、标准化测试和大规模评估系统中发挥着重要作用。然而,现有的方法通常生成的分数较为粗略,缺乏详细的评分理由。尽管大型语言模型
生物通微信公众号
热搜:自适应评分|专家标注|大规模评估|推理解释|标杆测试|多模态场景 注:虽然输入文本未明确提及“多模态”|但参考常见的基准测试平台命名惯例及摘要中核心的“详细的评分理由”、“推理过程”和“可解释性”等非传统可视化内容(与图像生成等通常关联的多模态)|选取本段信息强度最高的三个维度。若要求严格基于纯文本内容且不臆测未见内容|可调整如下: 精炼版答案: 自适应评分|专家标注|大规模评估|推理解释|标杆测试|多模态场景 若需更保守的纯文本映射回关键词(仅依据原文显式或强暗示点): 自适应评分|专家标注|大规模评估|推理解释|标杆测试|量化评估 由于原文主要聚焦于文本评分|常规论文中"1|030 道题目"和"学生答案"通常不涉及传统多模态(Image/Speech)|但在各基准测试(Benchmark)分类中|很多纯文本评价被归类为高质量的量化或实验性测试。根据“含金量”|推荐如下最终版本: 自适应评分|专家标注|大规模评估|推理解释|标杆测试|多模态场景