学习者评估数据驱动学习工具的优先标准：一项基于层次分析法的传统与生成式人工智能（GenAI）索引工具研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ReCALL》：Learners’ priority criteria for evaluating data-driven learning tools: An analytic hierarchy process study with traditional and GenAI-based concordancers

【字体：大中小】 时间：2026年06月19日 来源：ReCALL 5.7

编辑推荐：

　　本研究调查了语言学习者如何优先考虑评估数据驱动学习（DDL）工具的标准，以及这些优先顺序与工具偏好之间的关系。虽然先前研究提出了多个标准来评估DDL工具在捕捉学习者体验的位素维度（emic dimension）方面的感知有效性，但实证研究很少考察学习者如何差异

本研究调查了语言学习者如何优先考虑评估数据驱动学习（DDL）工具的标准，以及这些优先顺序与工具偏好之间的关系。虽然先前研究提出了多个标准来评估DDL工具在捕捉学习者体验的位素维度（emic dimension）方面的感知有效性，但实证研究很少考察学习者如何差异性地优先考虑这些标准，或者如何将这种优先结构实证地纳入工具的系统比较。鉴于生成式人工智能（GenAI）在语言学习中的最新出现，本研究考察了基于GenAI的工具在根据学习者重视的有效性标准进行评判时如何有助于DDL。通过文献综述，确定了六个标准：句子可理解性、与语义学习的相关性、与句法学习的相关性、感知教学价值、独立使用的可及性以及自主学习支持。35名韩国英语作为外语（EFL）大学生完成了一项层次分析法（AHP）任务。首先，研究者对六个标准进行两两比较，得出优先权重，表明学习者对DDL有效性的每个方面赋予的相对重要性。其次，研究比较了访问英国国家语料库（British National Corpus）的传统在线索引工具和定制开发的基于GenAI的索引工具的感知有效性，优先考虑了这些加权标准。结果表明，学习者对这六个标准赋予了差异化的重要性，并且这些优先模式与他们认为更有效的索引工具相关。本研究证明了AHP在建模DDL工具的多标准、基于感知的评估以及将学习者的优先判断纳入替代工具设计比较中的有用性。

本研究基于数据驱动学习（DDL）领域的发展背景展开。DDL是一种让学习者直接接触真实语言数据（通常来自语料库的索引行），以发现模式、检验假设的教学方法。随着生成式人工智能（GenAI）的兴起，学界开始探索其与DDL的整合，但存在争议：一方面，GenAI可提升索引工具的可及性；另一方面，生成语句的真实性和幻觉风险构成潜在威胁。尽管此前研究提出了多个评估DDL工具有效性的标准（如句子可理解性、语义学习相关性、句法学习相关性、感知教学价值、独立使用可及性、自主学习支持），但鲜有实证研究从学习者视角考察他们如何差异性地优先考虑这些标准，也不清楚这种优先结构如何系统性地用于比较不同工具。基于此，研究者开展了本研究。研究者采用层次分析法（AHP），让35名韩国EFL大学生对六个标准进行两两比较，得出优先权重；随后将学习者权重应用于比较传统基于英国国家语料库（BNC）的索引工具与定制开发的基于GPT-4o的索引工具。结果显示，学习者赋予语义学习相关性最高权重（0.230），其次是自主学习支持（0.186），可及性最低（0.137）；GPT工具在所有标准上均优于BNC工具，全局得分为0.726 vs. 0.274，尤其在可及性方面优势显著（3.76倍）。本研究证明了AHP在建模多标准感知评估中的价值，为GenAI在DDL中的应用提供了学习者视角的实证支持。论文发表在《ReCALL》。

研究者为开展研究主要运用了层次分析法（AHP）这一关键技术方法。首先，通过文献综述确定了六个评估标准；其次，设计基于9级偏好量表的成对比较问卷，由35名韩国首尔某私立大学英语教育专业本科生完成；再次，对群体判断矩阵采用几何平均聚合，并通过一致性比率（CR≤0.10）验证逻辑可靠性；最后，计算各标准的优先权重及两种工具（传统BNC索引工具与定制GPT-4o索引工具）的全局偏好得分。工具方面，传统索引工具使用Tom Cobb网站访问BNC，GenAI索引工具基于GPT-4o的“My GPTs”功能开发，采用Lin的提示框架生成20条关键词上下文（KWIC）格式的索引行。样本来源明确：首尔某私立大学英语教育专业，参与者英语水平为CEFR B2或C1。

**4.1 RQ1**：通过AHP成对比较得出优先权重，显示学习者对六个标准赋予差异化重要性。语义学习相关性（Criterion 2）权重最高（0.230），其次是自主学习支持（Criterion 6，0.186）、感知教学价值（Criterion 4，0.156）、句法学习相关性（Criterion 3，0.149）、句子可理解性（Criterion 1，0.141），独立使用可及性（Criterion 5，0.137）最低。权重比表明，语义学习相关性比句法学习相关性重要约1.544倍，比可及性重要1.679倍。一致性比率（CR）为0.009，低于0.10阈值，说明群体判断逻辑一致。

**4.2 RQ2**：将学习者权重应用于两种工具的比较，GPT全局得分0.726，BNC全局得分0.274，GPT在所有六个标准上均优于BNC。相对差异从2.17倍到3.76倍不等，其中可及性差距最大（GPT 0.109 vs. BNC 0.029，相差3.76倍），语义学习相关性（0.162 vs. 0.068）和自主学习支持（0.146 vs. 0.041）差距也显著。

**4.3 RQ3**：比较两种工具在各标准上的内部差异。对于BNC，语义学习相关性得分最高（0.068），可及性得分最低（0.029）；对于GPT，语义学习相关性得分最高（0.162），句子可理解性得分最低（0.101）。这表明两个工具各有相对优势和劣势：BNC在语义学习相关性和可及性上表现两极，GPT则在语义学习相关性上最佳，在句子可理解性上相对较弱，但即使其最低分也超过BNC的最高分。

讨论部分围绕三个主要含义展开。第一，通过学习者优先结构重新概念化DDL工具有效性：语义学习相关性被学习者视为最重要标准，与DDL支持意义聚焦词汇探索的已有观点一致；自主学习支持位列第二，体现了学习者对自主性的重视。GPT工具在所有标准上优于BNC，尤其在可及性方面，这有助于缓解传统索引工具使用不便的障碍。第二，AHP的方法论贡献：它通过成对比较捕捉学习者优先权，可补充技术接受模型（TAM）等现有评估框架，为多标准感知评估提供结构化手段，尤其适用于主观评价起核心作用的领域。第三，教学启示：教师可利用AHP收集学习者对工具标准的偏好，指导课堂决策，例如在GenAI与传统方法之间作出选择，或针对不同学生需求实施差异化教学。此外，研究局限性包括样本量小（N=35）、未进行敏感性分析、几何平均掩盖个体差异、BNC界面可能影响可及性感知等。

研究结论翻译如下：本研究使用层次分析法（AHP）框架调查了英语作为外语（EFL）学习者如何优先考虑评估数据驱动学习（DDL）工具的标准，以及这些优先结构与工具偏好之间的关系。研究结果强调，学习者对DDL有效性的不同方面赋予了差异化重要性，并且这些优先模式与其对工具有效性的判断密切相关。本研究作为首批使用文献基础标准考察EFL学习者评估的研究之一，展示了这些标准如何影响学习者关于DDL工具有效性的决策。基于这些发现，研究者建议开发者和教育者在选择或设计DDL工具时考虑DDL文献中的理论依据和学习者重视的标准。本研究进一步促进了对生成式人工智能（GenAI）介导DDL的日益增长的研究，从学习者视角凸显了其潜力，并强调了将其整合到该领域的必要性。

联系信箱：

粤ICP备09063491号

热点排行