证据支撑的大型语言模型总结在可操作性学生反馈分析中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Information》：Evidence-Grounded LLM Summarization for Actionable Student Feedback Analysis Zhanerke Baimukanova, Yerassyl Saparbekov, Hyesong Ha and Minho Lee

【字体：大中小】 时间：2026年04月09日 来源：Information 2.9

编辑推荐：

　　为应对高等教育大规模学生反馈分析的低效性和主观性，研究团队提出了一种融合监督分类、无监督聚类和检索增强生成（RAG）的集成框架。该框架通过集成监督模型实现主题分类，利用多编码器嵌入融合实现无监督聚类，并通过多阶段RAG模块生成具有引用可追溯性的透明总结。在多个数据集上的评估显示，该方法在监督分类上达到了83.0%的准确率和0.829的宏F1分数，在无监督聚类中取得了0.271的轮廓系数，同时在外部基准测试中展现了良好的泛化能力。该研究为教育质量评估提供了证据支撑、类别感知的自动分析方案，支持了基于数据的教育决策。

在高等教育领域，学生课程评价是监测教学质量和指导课程发展的重要手段。尽管定量评分提供了粗略概览，但开放式学生评论能更深入地反映教学实践、学习资源和学生体验。然而，对这些反馈的人工分析既耗时、不一致，又容易受到主观偏见影响。随着教育数据规模的不断增长，自然语言处理（NLP）和机器学习技术被越来越多地用于自动化学生反馈分析，但现有方法通常将监督与无监督方法孤立研究，且缺乏跨数据集的泛化能力评估，难以提供透明、可追溯的总结来支持实际的决策制定。

为解决这些局限，研究人员开展了一项旨在统一监督分类、无监督聚类和检索增强生成（RAG）的学生反馈分析研究。他们收集了来自中亚某大学计算机科学编程课程一年级学生的匿名问卷反馈作为主要数据集，并利用EduRABSA和Coursera课程评论两个公开基准进行外部验证。研究涵盖七个主题类别，包括教学质量、改进建议等。

为开展研究，研究人员主要应用了以下关键技术方法：1) 构建了集成监督分类、无监督聚类和RAG的框架（EduFeedback-RAG）；2) 采用加权晚期融合的集成策略，结合TF–IDF+SVM、SetFit和DeBERTa-LoRA模型进行主题分类；3) 利用多种预训练句子编码器（如GTE-large、BGE-large等）生成嵌入，并通过PCA降维和HDBSCAN进行无监督聚类；4) 设计多阶段RAG模块，整合分类和聚类结果，检索代表性证据并生成带引用的透明总结。

研究结果如下：

数据集收集与标注：从114名学生中收集了1087条文本反馈，经清理后保留959条，并手动标注到七个预定义类别。通过数据增强（如同义词替换、回译、LLM释义）将训练集扩展到约10万样本。

监督分类模块：在主要数据集上，集成模型达到了83.0%的准确率和0.829的Macro-F1分数。在外部基准EduRABSA和Coursera上，集成准确率分别为81.1%和49.8%，证实了框架的跨数据集适应性。

无监督聚类模块：在最佳融合策略下，无监督聚类获得了0.271的轮廓系数，表明发现了语义上连贯的反馈簇。

检索增强生成（RAG）模块：该模块成功整合了分类预测和聚类结构，检索代表性证据并生成了具有引用可追溯性的透明总结，增强了分析结果的可解释性和可信度。

研究结论与意义：本研究提出的EduFeedback-RAG框架成功地将监督分类、无监督聚类和检索增强生成统一到一个分析流程中。它不仅能以高准确率对学生反馈进行主题分类，还能通过无监督方法发现数据中潜在的主题结构，并通过RAG生成证据支撑、易于追溯的总结。该框架在多个数据集上展现了良好的性能与泛化能力，解决了现有方法在集成性、透明度和跨环境适用性方面的不足。这项工作为高等教育机构提供了一种自动化、可解释且可操作的学生反馈分析工具，有助于支持基于证据的教学改进和课程开发决策，推动了教育分析向更透明、更以数据为驱动的方向发展。

联系信箱：

粤ICP备09063491号

热点排行