《Sustainability》:Toward Sustainable Education: Generative AI-Powered Argument Mining in Student Writing
Yupei Ren,
Ning Zhang,
Xiaoyu Li,
Yadong Zhang,
Yuqing Chen and
Man Lan
编辑推荐:
作为论证性写作中的关键元素,论证成分和策略显著影响论证质量。然而,现有研究缺乏对学生如何在论证性写作中构建和利用这些元素的深入探索。本研究首先采用三种方法(单任务学习(STL)、思维链(CoT)和多任务学习(MTL))评估领先大语言模型(LLMs)在识别论证成
作为论证性写作中的关键元素,论证成分和策略显著影响论证质量。然而,现有研究缺乏对学生如何在论证性写作中构建和利用这些元素的深入探索。本研究首先采用三种方法(单任务学习(STL)、思维链(CoT)和多任务学习(MTL))评估领先大语言模型(LLMs)在识别论证成分和策略方面的性能。借助学习分析方法(认知网络分析(ENA)和双模网络),该研究进一步揭示了论证成分、策略与写作质量之间的内在机制。具体而言,研究人员对226篇议论文(包含4726个论证成分和4837个论证策略)进行训练和评估。与基础STL相比,CoT和MTL方法显著提升了LLMs在两项任务上的表现。此外,学习分析表明,高质量论文拥有丰富且复杂的逻辑关系,呈现多维度和多层次的推理结构,而低质量论文主要依赖简单重复的连接,缺乏深层逻辑支撑。这些发现对论证性写作的自动化分析和教育的可持续发展具有重要意义,不仅为教育者的论证教学提供了宝贵见解,也有助于系统性地提升学生的论证能力和批判性思维。
研究背景:论证性写作是培养学生逻辑推理、批判性思维和创造性认知的核心技能,也是教育的重要目标。然而,学生普遍面临论证写作困难,主要原因是缺乏准确评估和针对性指导。现有方法(如问卷、访谈、人工编码)耗时耗力且易受主观偏差影响,限制了可靠性和可扩展性。生成式人工智能(GAI)特别是大语言模型(LLMs)的兴起为自动化分析论证写作提供了新可能,但其在教育中的应用仍处于初级阶段。此外,现有研究多关注词汇、句法等表面特征,忽视了句子间交互对论证质量的影响,且未系统探索论证成分、策略与写作质量之间的复杂关系。本研究旨在填补这些空白,通过评估LLMs在论证成分和策略识别中的表现,并利用学习分析方法揭示它们与写作质量的关联,从而为可持续教育提供技术支持。
研究人员开展的研究:本研究收集了中国东部三所高中228名高一学生的226篇议论文(含评分),在人工标注4726个论证成分和4837个论证策略的基础上,采用单任务学习(STL)、思维链(CoT)和多任务学习(MTL)三种方法,系统评估多个开源中文LLMs(DeepSeek-R1-Distill-Qwen-7B、Qwen3-8B-Base、ChatGLM-4-9B-Base)在论证成分和策略预测任务中的性能。进一步,利用认知网络分析(ENA)和双模网络分析(two-mode network),揭示不同质量论文在论证成分、策略以及两者连接方面的结构差异。研究结论:CoT方法通过模拟人类两阶段论证推理过程,显著提升LLMs在策略预测中的表现;MTL方法通过任务间知识共享,在成分预测中取得最优结果。学习分析表明,高质量论文在成分和策略上呈现更丰富、多维且层次化的结构,而低质量论文依赖简单重复的连接。这些发现为自动化论证分析提供了理论见解,并支持论证教学的实践,为教育的可持续发展提供创新路径。论文发表在《Sustainability》上。
主要关键技术方法:研究采用以下关键技术:(1) 大语言模型(LLMs)微调:基于LoRA技术对DeepSeek-R1-Distill-Qwen-7B、Qwen3-8B-Base、ChatGLM-4-9B-Base等模型进行监督微调,比较零样本(zero-shot)、单任务学习(STL)、思维链(CoT)和多任务学习(MTL)四种范式的性能;(2) 学习分析方法:利用认知网络分析(Epistemic Network Analysis, ENA)和双模网络分析,对高质量与低质量论文的论证成分和策略进行结构化比较。数据来源:中国东部三所高中,228名高一学生,最终纳入226篇议论文(含教师按高考标准评分的原始成绩)。
研究结果:
4.1 领先LLMs在识别论证成分和策略中的实证比较
通过零样本、STL、CoT和MTL四种方法对比实验发现:MTL方法在论证成分预测任务中显著优于STL和CoT,在精确率、召回率和Micro-F
1上表现最佳,这得益于MTL通过共享底层特征表示增强语义理解。在模型层面,ChatGLM-4-9B-Base取得最优结果,其次为Qwen3-8B-Base,DeepSeek-R1-Distill-Qwen-7B相对较差。在论证策略预测任务中,CoT方法在所有评估指标上显著优于STL和MTL,其两阶段推理机制模拟人类认知过程,先识别成分再分析策略关系。所有模型在CoT方法下表现一致提升,验证了其普适性。进一步在Qwen3系列(0.6B至8B)上的比较实验显示,CoT和MTL在小规模模型上提升更显著,且模型性能随参数增大呈稳定增长(符合缩放定律)。
4.2 论证成分、策略与写作质量之间的关系
认知网络分析(ENA)结果显示:高质量论文以Claim和Quotation为中心,频繁与Major Claim、Fact、Elaboration等成分共现,形成多样化的结构(如Claim-Quotation、Claim-Fact等),显示出从多角度构建论点的能力;低质量论文则以Others为中心,连接Major Claim、Fact等,但包含更多无关内容,论证结构简单且不充分。在论证策略方面,高质量论文呈现更多样且相互关联的策略网络,中心策略包括Concession、Progression和Background,常与Positive、Example、Detail等结合,反映逻辑递进的论证特征;低质量论文倾向依赖Coherence和Negative策略,与Positive、Example、Detail等形成直线平行结构,缺乏深度。双模网络分析进一步揭示:高质量论文中Claim、Elaboration和Quotation作为核心成分,与Positive、Concession、Progression、Background等多种策略紧密连接;低质量论文中Claim、Major Claim和Restated Claim为核心,主要与Example、Negative、Contrast连接,呈现重复、单一的论证方式。
4.3 LLM预测结果的案例研究
以一篇标注示例为基线,比较Qwen3-4B模型在不同方法下的表现,结果显示引入CoT和MTL后,模型识别成分和预测策略的能力显著提高,与前序实验结果一致,验证了两种方法的有效性。
讨论部分总结:本研究系统评估了LLMs在自动识别论证成分和策略中的表现,并揭示了不同质量论文在论证结构上的差异。CoT通过模拟人类推理过程显著提升策略预测,MTL通过联合学习在成分预测中取得最佳结果。这些发现为论证教学提供了实用指导:教师应关注复杂的成分整合(如引证、阐述)和高级策略(如让步、递进),而非表面特征;LLMs与网络分析结合可生成针对性反馈,优化学生论证结构;传统评分需引入结构分析以实现更公平、形成性评估。研究局限性包括数据集规模有限且分布不平衡、仅分析最终产品而忽视构建过程、以及缺乏真实教学场景中的实证验证。未来应扩展数据集、纳入过程追踪数据(如键盘记录、出声思维),并设计受控干预研究将结果转化为教学策略。
研究结论翻译:鉴于论证写作在教育中的重要性,本文通过单任务学习(STL)、思维链(CoT)和多任务学习(MTL)三种方法系统研究了先进LLMs的论证分析能力,旨在自动识别学生论文中的论证成分和策略,并探讨它们与写作质量的关系。研究数据集源于高中考试场景,包含226篇议论文,共4726个论证成分和4837个论证策略。结果表明,CoT通过模拟人类论证的两阶段认知过程增强了LLMs的论证推理能力,而MTL通过成分和策略预测的联合学习促进了有效知识迁移。此外,学习分析揭示了不同水平论文之间的显著差异:高质量论文展现出更强的成分整合、更丰富多样的策略运用以及更深的逻辑结构。这些发现为自动化论证分析提供了理论见解,并为支持写作教学提供了实践启示,为推进教育的可持续发展提供了技术支持和创新路径。