情绪并非随机发生:机器学习揭示了21天内第二语言学习过程中的可预测模式
《EDUCATIONAL PSYCHOLOGY REVIEW》:Emotions Are Not Random: Machine Learning Reveals Predictable Patterns in a 21-Day Second Language Learning Trajectory
【字体:
大
中
小
】
时间:2026年04月17日
来源:EDUCATIONAL PSYCHOLOGY REVIEW 8.8
编辑推荐:
摘要
第二语言学习中的情感研究主要集中在静态的、基于特征的措施上,尤其是焦虑,而忽视了情境和时间动态。本研究将情感重新概念化为一种由实时学习活动互动和自我认知塑造的、具有情境依赖性的现象。通过使用生态瞬间评估(Ecological Momentary Assessment,
摘要
第二语言学习中的情感研究主要集中在静态的、基于特征的措施上,尤其是焦虑,而忽视了情境和时间动态。本研究将情感重新概念化为一种由实时学习活动互动和自我认知塑造的、具有情境依赖性的现象。通过使用生态瞬间评估(Ecological Momentary Assessment, EMA),92名成人学习者在21天的时间里,报告了他们在6,918次学习中的情感状态(焦虑、愉悦、无聊)、感知到的熟练程度以及情境特征(如任务类型、持续时间)。我们识别出五种情感模式,包括一种主导的“常规但愉悦”状态,以及具有挑战性的以焦虑为中心的模式。情感的可变性主要存在于个体内部(62–68%),时间趋势不明显,并存在独特的周期。时间序列机器学习(TabPFN-TS)在预测情感状态(如焦虑 R2 = 0.87;无聊 R2 = 0.95)和感知到的熟练程度(R2 = 0.83)方面表现出高准确性。这些发现强调了在情境中建模情感动态的价值,并表明短期预测可能有助于确定未来工作中需要及时提供学习支持的时机。
引言
情感作为第二语言学习的动态组成部分
历史上,第二语言情感研究者将诸如外语课堂焦虑等概念视为稳定的、类似性格的属性(Horwitz等人,1986年)。这些通常通过全局调查进行横断面测量,并假设这种一次性评估足以解释学习中的变化。如今,这种观点正在被动态方法所取代,该方法认为情感会随时间波动,且这些波动受到语言学习情境的影响(MacIntyre和Gregersen,2022年;Wang等人,2024年)。这种观点与复杂的动态系统理论一致,即语言发展被视为一个非线性的、适应性的过程,受到许多相互作用因素的影响(如学习者的历史、任务、同伴、反馈)的影响,这些因素会随时间变化(Larsen-Freeman,2019年;Mercer,2016年;Wang等人,2024年;Yu和Lowie,2020年)。情感也是这一系统的一部分:它们帮助组织学习者对语言学习经验的反应、他们的关注点,以及接下来哪些行动更可能发生或不太可能发生(Grossberg,2009年;Lee等人,2024年;Tyng等人,2017年)。因此,关键问题不仅在于学习者经历了哪些情感,还在于情感事件是如何在情境中产生的,以及它们如何塑造学习者的行为(Xie等人,2019年)。
解释这些时刻间变化的一个有用方法是通过成就情感的评估(Pekrun,2006年)。在学习任务时,学习者不断评估自己的控制感(“我能处理这个吗?”)和价值感(“这值得吗?”)。这些评估受到学习环境变化特征的影响,例如任务难度、反馈、感知到的进展、同伴/教师的反应、互动中的挫折以及身份担忧(Ayoun,2001年;Botes等人,2020年;Glory和Subekti,2021年;Graesser和D’Mello,2012年;Mercer,2016年;Shangguan等人,2025年)。随之而来的情感会影响学习的可能性:它们会影响注意力,影响沟通的意愿,并在沟通变得费力或具有社交风险时影响学习者是否继续参与或退出(MacIntyre和Vincze,2017年;Ross和Rivers,2018年)。
当前研究的一个核心假设是,这些过程以事件的形式展开,而不是作为稳定的倾向:随着理解、反馈和互动要求的变化,同一个学习者可能会从兴趣转变为挫败感,再到解脱(Lowie和Verspoor,2019年;Wang等人,2024年,2025a,b,c)。这些事件还会产生持续影响:最近的成功可以提高对后续任务的感知控制感,而一次困难的交流可能会对学习者面对下一个挑战的反应产生负面影响(Ren,2022年)。学习者在这个过程中并不是被动的:他们利用策略选择(Rose等人,2018年)、注意力转移(Amir等人,2008年)和重新评估(Strain和D’Mello,2015年)来减少焦虑、维持或恢复愉悦感,并防止无聊感加剧。测试这些假设需要适当的方法论:我们需要技术来仔细监控学习者在语言学习过程中的情感及其发生的情境(Jebb等人,2015年;Wang等人,2025a,b,c;Wichers等人,2015年)。
现有方法的局限性
目前关于(第二)语言学习中情感的大部分研究遵循两种方法之一。一种方法将情感视为独立的构造,并研究它们与其他学习者属性的关联。例如,研究将焦虑或愉悦与学习者的相对持久特征联系起来,如感知到的能力(Tsang,2025年)、动机(Bárkányi,2021年;Luo等人,2020年)或自我信念(Kutuk等人,2022年)。它们还将情感与广泛的环境特征联系起来,如学习是在课堂内还是课堂外进行(Ross和Rivers,2018年;Shao等人,2019年),主要需求是口语还是阅读(Sparks等人,2018年;Wang等人,2025a),以及情境是否感觉有评价性或低风险(Rohr和Wentura,2022年)。这种传统对于映射关键情感的相关性以及展示情感对参与度和表现的重要性非常重要(例如,Botes等人,2024年;Dewaele和Meftah,2024年;Hu等人,2021年;Zhu等人,2024年)。然而,从方法论的角度来看,逐一处理情感可能会掩盖情感之间的相互关系以及它们如何在真实情境中共同影响学习(Dewaele等人,2023年;Freeborn等人,2023年),同时还会导致统计上的复杂性(例如,抑制效应和多重共线性)(Bringmann等人,2018年;Epskamp,2020年;Fernando等人,2018年;Jeronimus,2019年)。
另一种方法认为学习者很少一次只体验一种情感(Dewaele等人,2023年;Dewaele和MacIntyre,2014年;Freeborn等人,2023年)。相反,情感通常以可识别的组合出现,即使它们被归类为相同的“主要情感”(Wang和Cheng,2024年)。在这种方法中,研究人员识别出情感特征(Wang和Xu,2024年;Zhu等人,2024年),例如高愉悦感与低焦虑感,或同时存在积极和消极情感的混合状态。然后他们探讨这些模式可能反映学习者如何体验学习情境,以及不同特征如何与参与度、持久性或感知到的进展相关(Montenegro等人,2023年;Tsang和Yeung,2024年)。研究人员通常将这些特征解释为对学习情境的不同评估和不同的参与形式。这种视角比单一变量描述更能捕捉到情感体验的完整性(Gregersen和MacIntyre,2017年;Lowie和Verspoor,2022年)。
两种传统中现有工作的一个局限性是对情境的描述不够详细:例如,“中等焦虑、高愉悦感、低无聊感”这样的特征可能出现在一个生动、互动强的听力加口语练习中,但同一个学习者在长时间的教师主导的词汇练习中可能会表现出较低的愉悦感和更高的无聊感(Bl?te等人,2009年;Jankowiak和Korpal,2018年;Wang等人,2025a,b,c)。很多时候,情境被简化为二元对立(如“口语”与“阅读”),而不是被视为学习特征的配置。语言学习情境在活动类型(自主与教师主导)、模式组合(如听力加口语)、节奏和时间间隔等方面存在差异。忽略这些特征之间的相互作用使得很难完全解释情境对语言学习的影响。
这种情境的简化也与两种传统共有的第二个局限性相呼应:对时间邻近性的关注不足。在实际的学习序列中,情感和情境特征可以从一个事件到另一个事件发生变化,这些变化可以相互作用(Healey等人,2018年;Pishghadam等人,2016年),形成如前所述的复杂动态系统(Wang等人,2024年)。例如,一个学习者可能开始一个简短的、自主的词汇练习时感到稍微投入,但反复的错误或缓慢的进展可能会降低感知到的控制感,使该事件转向焦虑。作为回应,学习者可能会转向他们认为更容易的模式(如阅读),或者缩短下一个学习事件。这种转变可能会影响情感,例如减少焦虑但增加无聊感。
我们对不同情感如何根据情境特征波动和互动影响(第二)语言学习的理解可以从情感科学中获得启示,在那里对这些关键时间过程有更清晰的实证基础。例如,情感动态系统的一个公认组成部分是情感惯性:情感状态(和疲劳)倾向于在相邻事件中持续(Kuppens等人,2010年)。但这种持续性往往受情境条件的影响。将其应用于语言学习:在了一个事件之后,学习者进入下一个事件时可能会带着残留的紧张、信心或疲劳。这种持续性是否持续或改变取决于新事件的特征,因此同一个口语任务在一个序列中可能令人感到振奋,在另一个序列中可能具有威胁性。
然而,在当代的语言学习文献中,即使是在多个时间点进行的研究也常常将时间视为一系列稀疏的“快照”(De Bot,2015年;Lowie和Verspoor,2019年,2022年;Wang等人,2024年,Wang等人,2025a,b,c),这使得很难区分即时影响(刚刚发生的事情)和缓慢的变化或周期(逐渐累积的情况)。这种快照方法使得研究上述情感-学习动态的其他时间属性更加困难:相邻事件之间的影响、情境条件下的影响,以及长期的变化或循环(例如,Veenman等人,2024年)。
朝向一个预测性、情境敏感的框架
为了克服这些局限性,需要一个新的研究框架来同时考虑情感的共现、情境影响及其时间轨迹。扩展这一逻辑,需要结合瞬间情感和情境特征的多变量时间序列数据。然而,分析这类数据非常困难:它们是高维的、非线性的,并且在时间上具有层次性,因此对传统模型和人类模式识别来说具有挑战性(Davis和Marcus,2020年;Hammond和Summers,1965年)。人类擅长识别简单的线性关系,但在处理涉及许多变量随时间相互作用的复杂、演变模式时遇到困难(Griffiths,2020年)。这促使我们提出一个流程:无监督的轮廓发现(用于捕捉配置上的共现)与有监督的预测(利用这些共现模式以及历史数据进行短期预测)。我们采用轮廓发现主要是由于其工具价值:轮廓作为紧凑的、抗噪声的特征,总结了情感、时间和情境之间的高阶互动;我们提供的任何心理标签都是描述性的和暂定的,其次用于预测。
现代人工智能(AI)/机器学习(ML)方法为此任务提供了有用的工具(Bury等人,2021年;Chen等人,2023年;Cong等人,2024年;Wang等人,2026a,b;Wang和Cheng,2024年)。我们的目标是应用AI/ML来生成对未来焦虑、愉悦感、无聊感和感知熟练程度的准确预测——这四个变量被广泛认为是成人第二语言学习者的关键心理决定因素。具体来说,我们将使用样本效率高的表格序列模型(如Tabular Prior-data Fitted Network,TabPFN及其时间序列扩展TabPFN-TS)来处理具有异质预测因子的小到中等规模的时间序列数据集(Hollmann等人,2025年;Wang等人,2025a,b,c)。实际上,这意味着我们使用情感轮廓以及情境特征和最近的历史作为输入,输入到具有时间感知能力的模型中,以预测学习者的下一个状态。这样的预测可以为未来干预措施的设计提供信息,提供及时的、定制化的支持(例如,预防容易感到无聊的自主学习;在容易产生焦虑的口语任务前提供支持)。
实现这一流程需要详细、纵向跟踪学习者的情感、他们对熟练程度的感知以及相邻事件中的学习情境特征。为了能够进行这项研究,我们采用了生态瞬时评估(Ecological Momentary Assessment, EMA)方法(Li, 2023)。与依赖人类记忆可能出错的回顾性调查不同,EMA是一种重复测量的方法,它要求参与者在日常生活中实时报告他们的当前情绪、想法和情境,通常每天多次进行。在我们的研究中,EMA能够捕捉到即时的情感状态(如焦虑、愉悦、无聊)、感知的熟练程度以及具体的情境特征(例如活动类型、模式、事件持续时间)(Ebner-Priemer & Trull, 2009; Shiffman et al., 2008)。这种重复采样可以生成保留时间顺序的多变量时间序列:例如,早晨使用词汇学习应用程序的学习活动(自我导向,15分钟)引发了短暂的愉悦感,这种愉悦感在下午的课堂辩论(由教师引导,45分钟)之前就消失了,而辩论则引发了焦虑感。这种高分辨率的观察方法最大限度地减少了回忆偏差,并提供了统计分析所需的信息:(i)丰富的共现结构,用于构建特征描述;(ii)相邻的观察结果,用于测试行为的惯性及情境的溢出效应;(iii)进行准确个体级预测所需的特征和连续的历史数据(Bolger & Laurenceau, 2013)。总之,EMA为将情绪视为动态的、受情境影响的 process 而不是静态特征提供了必要的基础。
**本研究及其分析路线图**
综合前述的文献回顾,我们发现三个相互关联的研究空白。首先是配置上的共现空白:专注于孤立情绪的研究忽略了焦虑、愉悦和无聊在学习事件中是如何共同出现的。其次是时间-情境依赖性的空白:传统的纵向研究很少探讨情绪如何跨越连续的事件,或者情境因素和情绪如何随时间共同演变。第三是可操作的预测空白:很少有研究尝试将这些动态模式转化为短期预测,以支持学习中的及时干预。本研究采用了一种综合分析方法来填补这些空白,该方法结合了情绪特征分析、时间动态分析和时间序列预测。
在接下来的章节中,我们将探讨三个研究问题(Research Questions, RQ),这些问题对应于上述的空白,并形成一个从描述到动态再到预测的完整分析流程。
- **RQ1(配置共现)**:探讨学习者的情绪是否以及如何在不同的学习事件中聚集。为了回答这个问题,我们使用聚类方法来识别反复出现的情绪模式(即焦虑、愉悦和无聊的不同组合),同时描述这些情绪模式如何与感知的熟练程度和情境特征(如学习类型、模式组合、事件持续时间)在事件之间共现。这一步为多情绪体验提供了一个紧凑的表示,并产生了可以进一步用于后续分析的特征描述。
- **RQ2(时间-情境依赖性)**:探讨情绪和情绪模式如何在连续的事件中演变。我们量化了变异性的主要来源是在个体内部还是个体之间,并估计了情绪从一个事件到下一个事件的短期惯性(滞后1)。我们还测试了情境特征的变化是否能够预测情绪和情绪模式在事件间的变化(情境溢出效应)。此外,我们还探究了21天的数据轨迹是否表现出更长期的结构,如逐渐的变化或周期性。
- **RQ3(可操作预测)**:探讨是否可以从情境和近期历史中预测(接近)未来的情绪状态和感知的熟练程度,以及使用收集到的数据通过机器学习来改进预测的效果。为此,我们构建了监督学习模型,利用情境特征、近期的滞后信息和在RQ1中得出的情绪特征来预测下一个事件中的焦虑、愉悦、无聊和感知的熟练程度。然后,我们将一个强大的静态基线模型(TabPFN)与时间序列扩展模型(TabPFN-TS)进行比较,以量化结合时间情境和近期历史对预测准确性的提升作用。
**参与者**
共有92名成年外语学习者(83.3%为女性,均为中国人)参与了这项研究。平均年龄为20.1岁(标准差=1.8岁)。参与者来自不同的学术背景,包括42.9%的英语专业学生、45.2%的非语言专业学生和11.9%的其他语言专业学生。所有人当时都在学习一门外语(其中大部分学习英语,占83.3%;其他语言包括法语、日语、德语、意大利语、俄语和西班牙语,每种语言的比例为2.4%至4.8%)。平均而言,参与者有8.7年的外语学习经验(标准差=5.2年),并在最近的大学语言考试中获得了78.4分(满分100分,标准差=12.1分)。根据自我评估,他们在阅读方面的熟练程度最高(平均分=75.1,标准差=10.4),而在口语方面的熟练程度最低(平均分=65.3,标准差=14.2)。与语言学习相关的情绪倾向处于中等至较高水平:焦虑的平均值为21.4分(满分30分,标准差=3.8),愉悦为18.9分(满分25分,标准差=2.6),无聊为14.2分(满分30分,标准差=4.1)。关于语言学习习惯,参与者报告每周大约有11.4小时(标准差=7.8小时)用于自我导向的学习或课外练习,以及4.2小时(标准差=1.6小时)用于正式课堂学习,这些活动通常分布在每周的三次课程中。
**研究程序**
总体程序和分析策略在图1和路线图部分有详细说明。研究分为两个部分:初始的基线调查和随后的21天密集体验采样期。基线和EMA调查均通过Avicenna应用程序在线进行(Avicenna Research, 2025)。在基线调查中收集了人口统计信息以及语言熟练程度和情绪特征的数据。基线调查结束后,参与者携带智能手机进行了三周的实时数据收集。每天,参与者在清醒时间内每隔2小时接受一次瞬时调查,并在每晚8点接受一次日终调查。为了鼓励及时响应并减少回忆偏差,瞬时调查在提示后一小时内有效。在21天的时间里,每位参与者共接受了多达105次调查。
**方法**
**参与者**
为了鼓励参与者配合,我们提供了相应的补偿。他们完成了基线问卷后可以获得20元人民币的奖励。在EMA期间,每当完成一次瞬时调查,他们可以获得0.5元人民币的报酬;如果一天内完成了至少三次瞬时调查,还能获得额外的1元人民币奖金。完全遵守研究要求的最高总报酬为83元人民币(包括所有基线和EMA调查及每日奖金)。所有报酬在研究结束后经过验证合规性后才发放。参与者事先被告知了奖励机制,并签署了书面知情同意书。该研究协议得到了机构伦理委员会的批准。合规率从1.9%到100%不等(中位数约为71%,详见结果部分)。
**测量方法**
**基线调查**
基线问卷收集了每位参与者的年龄、性别、学术专业和语言学习年限等信息。为了评估客观的语言成绩,我们收集了参与者最近的外语标准化测试分数或课程成绩(满分100分)。参与者还对自己的五项关键技能领域(听力、口语、阅读、写作和词汇)进行了自我评估,每个领域的分值为1到10分。换句话说,这些评分反映了与情绪体验相关的主观能力信念,而不是对表现的评估。此外,还测量了与语言学习相关的情绪倾向:外语课堂焦虑(改编自Foreign Language Classroom Anxiety Scale;Horwitz, 1983)、外语学习愉悦感(来自Foreign Language Learning Enjoyment Scale;Ayd?n et al., 2024)以及外语学习无聊感(来自Foreign Language Learning Boredom Scale;Li et al., 2023),所有评估的可靠性都很高(Cronbach’s alpha 值均大于0.85)。每种情绪倾向都是通过一套简短的陈述来评估的。最后,参与者报告了他们的典型学习习惯,包括每周用于课外语言练习的时间和正式语言教学的时间(以及这些学习活动所包含的课程次数)。
**体验采样措施(EMA调查)**
在21天的监测期间,每次调查都收集了参与者最近的语言学习体验和当前状态的信息。每次瞬时调查的核心测量指标是三种目标情绪——焦虑、愉悦和无聊——以及参与者对该时刻的自我感知熟练程度。每种情绪都通过一个单项指标来评估,该指标改编自基线调查中使用的相同量表,问题为“在最近的语言学习活动中,我感到[紧张/愉悦/无聊]的程度”,评分范围从0(“完全不”)到10(“非常强烈”)。同样,感知的熟练程度也通过“我会将我在上次学习活动中的语言表现评为……”这个指标来评估,评分范围也是0到10分。除了这些自我评估外,每次调查还收集了关于最近学习活动的情境细节,以便更好地理解情境因素的影响。参与者报告了活动的主要模式或焦点(从阅读、听力、口语、写作中选择)、活动类型(自我导向或课堂-based)、活动持续时间(Duration)、完成该活动后经过的时间(TimeToLast)以及下一次计划的语言活动前的时间(TimeToNext)。
**单项EMA指标的有效性依据**
我们的EMA使用了关于焦虑、愉悦、无聊和感知熟练程度的单项指标(0到10分的量表)。我们从理论和之前的EMA验证以及本研究中的证据出发,为这种设计提供了合理依据。
- **为什么使用单项指标**:在EMA/ESM中,指标针对的是具体且变化迅速的状态,这些状态会被多次采样。对于这类状态,(i)单次测量的可靠性可能较低,但由于密集采样(Spearman–Brown增益,Ellis, 2023),个体平均值和个体内部的偏差却很高。先前的EMA研究表明,单项指标的心境报告与多項指标的心境量表高度一致,汇总后能够提供准确的估计;参见关于日记/EMA可靠性和有效性的综述和方法学文献(例如,Bolger & Laurenceau, 2013; Myin-Germeys & Kuppens, 2022; Scollon et al., 2003)。同样重要的是,简短的提示是EMA的最佳实践:它们减少了干扰成本,降低了缺失率,并遏制了随着调查长度增加而出现的草率回答或迎合倾向(Galesic & Bosnjak, 2009)。较低的负担还限制了测量反应性(参与者为了避免或适应长篇提示而改变行为),有助于保持随机sampling而不是选择性完成(Eisele et al., 2023)。由于参与者负担随着项目数量的增加而增加,单项指标使我们能够更频繁地在更广泛的情境中进行采样,而不会造成难以忍受的负担。通过这种方式,提高了时间覆盖率和个体内模型的统计功效。
**来自本研究的证据**
我们使用数据进行了四项验证:
1. **多层次可靠性**:单向随机效应方差分析显示,单项指标的每次测量可靠性R1F约为0.40–0.47,个体平均值的可靠性非常高(中位数RKF约为0.98)。因此,单项指标能够反映状态特征(虽然有适当的噪声),但个体平均值和个体内部的偏差可以通过我们的采样密度得到精确估计(表1)。
2. **收敛有效性**:EMA的个体平均值与基线特征在预期方向上相关(焦虑与特质焦虑约为0.4,愉悦与特质愉悦约为0.4,无聊与特质无聊约为-0.36),对于感知的熟练程度而言,与客观考试成绩/成绩的相关性较弱,但与基线自我评估的熟练程度相关性较强。对EMA RKF(和特质α)的消弱处理得出了类似的结论(表S1)。
3. **个体内部理论检验**:当学生感觉到的愉悦感高于平时时,他们对熟练程度的评分更高;当他们感到更多的焦虑时,他们对熟练程度的评分更低;愉悦感与焦虑呈负相关,与无聊感呈负相关——这些典型模式在聚类统计量中得到了再现(表S3;个体元分析确认了愉悦感与熟练程度之间的联系)。
4. **敏感性分析**:当我们(a)对个体内的结果进行z分数转换,(b)进行 winsorization 处理,(c)仅限于高合规性的参与者,或(d)将高焦虑视为二元结果时,结果和推断没有变化(表S2;表S4)。
**对解释的意义**
这些验证表明,我们的单项EMA指标能够有效反映这一背景下的瞬时情绪和自我评估,支持了个体间(通过个体平均值)和个体内的推断。为了完成这项工作,我们汇总了所有瞬间的情绪观察(每次调查的焦虑、愉悦和无聊程度评分),并进行了聚类分析,以将每个学习片段分类为一种情绪特征。我们采用了高斯混合模型方法,根据三种情绪强度水平确定最佳的聚类数量。最终选择了五个聚类的解决方案,这是基于最低的BIC(贝叶斯信息准则)值,平衡了模型拟合度和简洁性。每个调查观察结果都被分配到其中一个出现的情绪特征中,然后我们根据其特征情绪水平对其进行解释和标记。这些特征提供了情绪配置的静态描述,为后续的动态分析奠定了基础。为了研究任务模式和活动类型与学习者情绪反应之间的关系,我们使用基于群体平均值的逻辑回归和广义估计方程(GEE)在片段层面对特征成员身份进行了建模。对于每个情绪特征\(k \in\){压力大且乏味、愉悦且放松、强烈但吸引人、常规但愉快、被动且不吸引人},我们创建了一个二进制结果\(Y_{{ikt}}^{{(k)}}\),表示给定参与者的某个片段\(t\)是否被分配到特征\(k\)(1)或(0)。预测因子是五种模式(阅读、听力、写作、口语、词汇)的二进制指示器,以及学习类型的二进制指示器(课堂=1 vs. 自主=0)。GEE的指定公式为:$$\text{logit } Pr(Y_{ikt}^{(k)} = \beta_0^{(k)} + \beta_1^{(k)} \text{Reading}_{it} + \beta_2^{(k)} \text{Listening}_{it} + \beta_3^{(k)} \text{Writing}_{it} + \beta_4^{(k)} \text{Speaking}_{it} + \beta_5^{(k)} \text{Vocabulary}_{it} + \beta_6^{(k)} \text{Classroom}_{it}$$我们使用了可交换的工作相关性和按参与者分组的标准误差,以考虑重复测量的结构(92名学习者;每人最多105个时间点)。对于推断,我们报告了带有95%置信区间(CIs)的比值比(ORs);当95% CI排除了1时,表示统计可靠性。为了帮助在片段层面进行解释,我们还报告了平均边际效应(AMEs),即当一个预测因子从0变为1时预测概率的百分点变化。为了评估个体间混淆的鲁棒性,我们使用了个体内(参与者固定效应)逻辑模型,添加了\(C({\text{participan}}{{\text{t}}_i})\)来吸收所有时间不变的个体差异,并计算了聚类鲁棒的标准误差。为了描述异质性,我们总结了在某种模式存在与不存在时个体内情绪特征概率的变化(中位数变化和显示增加与减少的参与者比例)。作为描述性交叉检查,我们还比较了在某种模式存在与总体情况下的情绪特征份额的简单分布。
为了研究任务模式和学习类型与学习者情绪反应之间的关系,我们在片段层面使用群体平均值的逻辑回归和广义估计方程(GEE)对特征成员身份进行了建模。对于每个情绪特征\(k \in\){压力大且乏味、愉悦且放松、强烈但吸引人、常规但愉快、被动且不吸引人},我们创建了一个二进制结果\(Y_{{ikt}}^{{(k)}}\),表示给定参与者的某个片段\(t\)是否被分配到特征\(k\)(1)或(0)。预测因子是五种模式(阅读、听力、写作、口语、词汇)的二进制指示器,以及学习类型的二进制指示器(课堂=1 vs. 自主=0)。GEE的指定公式为:$$\text{logit } Pr(Y_{ikt}^{(k)} = \beta_0^{(k)} + \beta_1^{(k)} \text{Reading}_{it} + \beta_2^{(k)} \text{Listening}_{it} + \beta_3^{(k)} \text{Writing}_{it} + \beta_4^{(k)} \text{Speaking}_{it} + \beta_5^{(k)} \text{Vocabulary}_{it} + \beta_6^{(k)} \text{Classroom}_{it}$$我们使用了可交换的工作相关性和按参与者分组的标准误差,以考虑重复测量的结构(92名学习者;每人最多105个时间点)。对于推断,我们报告了带有95%置信区间(CIs)的比值比(ORs);当95% CI排除了1时,表示统计可靠性。为了帮助在片段层面进行解释,我们还报告了平均边际效应(AMEs),即当一个预测因子从0变为1时预测概率的百分点变化。
为了评估参与者间混淆的鲁棒性,我们使用了个体内(参与者固定效应)逻辑模型,添加了\(C({\text{participan}}{{\text{t}}_i})\)来吸收所有时间不变的个体差异,并计算了聚类鲁棒的标准误差。为了描述异质性,我们总结了在某种模式存在与不存在时个体内情绪特征概率的变化(中位数变化和显示增加与减少的参与者比例)。作为描述性交叉检查,我们还比较了在某种模式存在与总体情况下的情绪特征份额的简单分布。
模式和学习类型被编码为0/1的指示器,来自经验采样记录;缺失的模式标志被视为0。所有模型都是在Python中拟合的(使用statsmodels GEE进行群体平均值估计;使用广义线性模型(GLM)和聚类鲁棒误差进行固定效应估计)。结果在Panel 3e中以带有95%置信区间的GEE比值比森林图的形式可视化,AMEs在文本中报告;固定效应和异质性总结在附录中提供。
为了描述学习者情绪状态和自我感知熟练度的时间特性,我们采取了多步骤分析方法:
1. 描述性变异性和情感惯性
我们首先计算了每个关键变量的描述性统计量——瞬间的焦虑、愉悦、无聊、自我感知的熟练度以及情绪特征成员身份——在个体间和个体内两个层面上。计算了类内相关系数(ICCs),以将方差分为稳定的、类似特质的差异和动态的、情境性的波动。此外,我们通过计算个体内的滞后1自相关系数(Pearson’s r)来评估情感惯性,表明情绪和认知状态从一个学习片段延续到下一个片段的程度。
2. 趋势和周期性模式分析
为了探索系统的时间结构,我们应用了广义加性模型(GAMs)来检测每个变量在21天周期内的潜在非线性趋势。作为补充,我们使用Loess(STL)进行了季节-趋势分解,将每个参与者的时间序列分为三个组成部分:长期趋势、季节性(每周)周期和残余不规则性。方差分解使我们能够量化每个组成部分对总体变异性的相对贡献。
3. 情绪特征普遍性的时间变化
最后,为了研究体验特定情绪特征的可能性是否随时间变化,我们使用了广义线性混合效应模型(GLMMs)。对于每个情绪特征,发生概率被建模为时间的函数(在日内、日和周尺度上),并加入了参与者级别的随机截距以考虑重复测量。
为了捕捉情绪状态、自我感知熟练度以及情境因素之间的动态相互作用,我们实施了一个两阶段机器学习框架。主要目标是使用同时信息和时间依赖性来预测学习者的瞬间情绪状态(焦虑、愉悦、无聊)和自我感知的熟练度。
在最终确定建模方法之前,我们对比评估了几种机器学习算法,以识别最适合该数据集的最有效方法。具体来说,我们比较了四种模型的性能:Tabular Prior-data Fitted Network(TabPFN,Hollmann等人,2025年)、随机森林(Breiman,2001年)、极端梯度提升(XGBoost,Chen和Guestrin,2016年)和线性回归。每种模型都在静态同时框架下使用相同的特征集来预测四个目标变量。模型性能使用交叉验证性能分数(解释的方差比例,R2)进行评估,结果总结在图2中。在所有目标中,TabPFN始终优于其他模型,尤其是在更复杂的情绪状态(如焦虑和无聊)方面。虽然随机森林和XGBoost在愉悦和自我感知熟练度方面表现竞争力较强,但TabPFN在整体上提供了更好的预测准确性。线性回归明显落后,强调了数据中关系的非线性。
基于这些结果,TabPFN被选为静态同时预测的最佳模型。对于时间预测,我们采用了其顺序扩展版TabPFN-TS,旨在有效处理时间序列数据。TabPFN-TS在完整轨迹预测中也优于最后观测值延续和个体平均值基线(见补充材料中的图S1)。
建模方法:
1. 静态同时模型
静态模型使用TabPFN仅使用同时特征来预测给定时刻的每个目标变量。这些特征包括其他三个自我报告的变量(两种情绪和自我感知的熟练度)以及情境因素(例如,学习模式、片段持续时间、上次活动后的时间、下一次活动前的时间)。这种方法捕捉了即时关联,但没有考虑时间模式。
2. 时间序列模型
为了纳入时间依赖性,我们使用了TabPFN-TS(Hoo等人,2024年)。该模型利用了同时特征和历史数据,能够学习情绪惯性、延迟效应和顺序动态等模式。每个个体的先前情绪状态、自我感知的熟练度和情境变量被用作预测未来状态的输入。
两种模型都使用了针对重复测量数据定制的交叉验证进行评估,确保在时间序列设置中避免了时间泄漏。性能指标包括R2和均方根误差(RMSE)。
为了可解释性,我们对静态TabPFN模型应用了Shapley加性解释(SHAP,Lundberg和Lee,2017年)分析,以识别同时时刻驱动预测的关键特征。这提供了关于情绪、自我感知熟练度和情境因素之间同时关系的洞察。由于SHAP分析不直接适用于基于变换器的时间序列模型(Chefer等人,2021年),我们进行了系统的消融研究,以评估TabPFN-TS框架内的特征重要性。这涉及迭代移除单个特征或相关特征组(例如,情境变量、情绪特征),并评估其对预测性能的影响(R2、RMSE、MAE)。移除一个特征后性能显著下降,证明了其预测相关性。这种方法使我们能够量化时间、情感、认知和情境因素对预测准确性的贡献。
结合静态和动态建模,我们能够评估整合时间背景的预测优势,全面理解语言学习中即时和演变中的情绪轨迹。
所有分析都是使用Python(v3.10)和R(v4.2.2)进行的。机器学习模型使用tabpfn包实现TabPFN和TabPFN-TS,scikit-learn实现随机森林和线性回归,xgboost实现梯度提升模型。数据预处理和特征工程使用pandas和numpy完成。交叉验证程序使用了scikit-learn中的StratifiedKFold(Pedregosa等人,2011年),以考虑参与者级别的数据结构。SHAP分析使用shap Python库在静态模型中进行,以评估特征重要性。统计摘要和可视化使用R中的ggplot2和dplyr以及Python中的matplotlib和seaborn生成。所有计算都在运行Ubuntu 22.04的工作站上进行,配备了64GB RAM和NVIDIA RTX 3080 GPU,以加速基于变换器的模型的处理。
为了设置RQ1–RQ3,我们首先建立了EMA数据集的范围和纹理,以及后续分析所依赖的学习背景(RQ1中的特征、RQ2中的时间动态和RQ3中的预测)。在21天的协议期间,92名参与者共完成了6,918次瞬间调查(EMA提示)。每人观察到的片段数量从2到105不等(中位数=87.5,IQR=65.75–98.0)。这对应于1.9%到100%的遵守率,每人中位数的遵守率为83.3%,总体响应率为71.4%(观察到的/计划中的所有人物片段)。每次调查都捕捉了报告之前的学习背景。关于模式,词汇、阅读和听力是最常报告的活动,并且经常同时发生;41.5%的片段混合了≥2种模式。口语和写作较少见。大多数学习发生在自主设置中(85.0%),课堂-based片段占15.0%。报告的学习活动时长各不相同(平均40.9分钟;IQR 10–60分钟)。自我报告的上次学习活动后的时间(“TimeToLast”)平均为125.2分钟(IQR 2–120分钟),下一次计划活动前的时间(“TimeToNext”)平均为143.4分钟(IQR 20–150分钟)。将这些结合起来得出一个时间间隔代理(“TimeToLast”+“TimeToNext”,上限为2,000分钟):平均267.5分钟,中位数120分钟,IQR 50–324分钟,范围为0–2,000分钟。
这些采样模式为个体内分析提供了坚实的基础:尽管少数参与者响应较少,但大多数参与者提供了密集的瞬间数据流。以自主学习为主,经常是多模式学习,表明日常学习通常结合了词汇、阅读和听力,而不是孤立技能,而口语和写作的相对罕见性表明了较少但可能具有独特性的产出型片段。时间安排不均匀:许多时间间隔紧密的片段与长时间间隔的片段并存,创造了自然的变化,非常适合研究学习节奏和模式混合与随后分析中的即时体验之间的关系,而不预设具体结果。
为了识别情绪特征和情境影响,我们首先识别了重复出现的情绪特征,然后研究了模式和活动类型与它们的普遍性之间的关联。通过对瞬间情绪报告进行聚类,我们得出了五个不同的情绪特征,总结了学习片段中同时出现的焦虑–愉悦–无聊(图3b–c):压力大且乏味(6.3%)、愉悦且放松(10.2%)、强烈但吸引人(18.7%)、常规但愉快(57.8%)和被动且不吸引人(7.0%)。根据Pekrun关于学术情绪和学生参与度的控制-价值理论(Pekrun,2024年;Pekrun和Linnenbrink-Garcia,2012年),我们根据焦虑、愉悦和无聊的同时出现来解释每个特征的情绪价值和激活情况。我们随后分配了简洁的、面向行为的标签,将这些情感特征与通过生态瞬时评估捕捉到的学习和研究情境结合起来,从而使这些情感特征能够映射到可识别的学习情境中。图3:该图像的替代文本可能是使用AI生成的。全尺寸图像显示了21天期间的情绪特征模式。(a) 每个情绪特征在105个可能的调查场合中的每日累积比例,展示了群体情绪状态随时间的变化。(b) 五种被识别的情绪特征(焦虑-愉悦-无聊的组合群),以甜甜圈图的形式展示,每个扇区代表该特征中焦虑(红色)、愉悦(蓝色)和无聊(黄色)的平均百分比。(c) 每个特征中每种情绪的平均绝对强度(焦虑=红色,愉悦=蓝色,无聊=黄色),突出了五种特征之间的强度差异。(d) 学习方式的学习模式排名分布以及每种情绪特征的累积比例。(e) 根据学习方式和情绪特征类型的GEE模型结果。
对于主导情绪特征“常规但愉悦”(57.8%),我们提供了简洁的理论和实践性说明,以说明如何利用这些特征进行领域相关的推断。从理论上讲,“常规但愉悦”这种情绪特征反映了低唤醒水平、高控制感和足够价值的状态,这与评估理论和心流理论(Pekrun, 2006; Pekrun et al., 2007; Beard, 2015)是一致的,从而确立了学习的情绪基础。它的普遍性重新诠释了以焦虑为中心的叙述(Horwitz et al., 1986; Horwitz, 2010; Krashen, 1982),表明在这个样本中,日常语言学习并不主要由焦虑主导;相反,它通常是能够增强能力的并且是稳定的。在实际应用中,这种状态可以作为教学和学习的监控基准:如果持续趋向于被动或无趣的状态,则表明价值的丧失;而如果趋向于压力或乏味的状态,则表明失去控制。通过调整微观挑战和增强价值的线索,可以引导某些学习环节走向“强烈但引人入胜”的状态,而不会导致沮丧(Balban et al., 2023; Yau & Joy, 2007)。
在确定了“常规但愉悦”作为主要情绪特征之后,我们接下来探讨了哪些因素会促使学习环节偏离或进一步趋向于这一基线状态。换句话说,在这种主导的、低激活水平的平衡状态下,特定的学习方式(例如写作、口语)或学习类型(课堂学习与自主学习)是否会系统地将概率重新分配到其他情绪基础(情绪特征)上?为了在尊重重复测量的同时测试这些情境因素,我们使用了具有参与者聚类的群体平均(GEE)逻辑模型。需要注意的是,只有这些GEE结果在正文中被重点介绍,而支持性的个体内和描述性检查则在补充材料中报告。
GEE结果表明,写作能够可靠地将学习环节推向“强烈但引人入胜”的状态,这与规划/表达过程需要吸引控制力和激活力的观点一致(小但显著的效应:OR = 1.24,95% CI [1.01, 1.53],与Kellogg, 2013的研究结果一致)。相比之下,写作并未显示出向“常规但愉悦”状态的显著转变(OR = 0.99,95% CI [0.87, 1.13]),这意味着低激活水平的愉悦感是常见的,但并不特别被写作任务所促进,这与之前的研究结果一致(Zenasni & Lubart, 2011)。口语在学习环节中显示出轻微且不显著的减压效果(OR = 0.92,95% CI [0.70, 1.21],这与交互式生产和即时反馈能够适度缓解许多学习者的压力感相符(Bruns, 2010)。课堂学习与自主学习环境相比,与压力和乏味感的相关性更高(OR = 1.48,95% CI [1.11, 1.98]),但课堂学习环节也包含更多的口语(+20.7个百分点)和写作(+15.1个百分点),课堂与学习方式之间的相关性高达φ ≈ 0.18——因此这种环境效应可能更多地反映了学习方式的混合和任务设计,而不是环境本身。详细的平均边际效应、个体内对比以及异质性总结在补充材料中报告(表S5–S8)。在这些检验中,结果的方向和幅度与GEE结果一致:写作使概率趋向于“强烈但引人入胜”的状态(而对“常规但愉悦”状态则几乎没有影响),口语在学习环节中倾向于降低压力和乏味感,而课堂学习类型则提高了压力和乏味感的概率。
关于情绪和自我感知能力的时间动态及其与路线图的联系,我们转向了RQ2(时间结构)问题,探讨学习者的情绪和自我感知能力是否表现出(a)个体内的显著变异性,(b)相邻学习环节之间的短期惯性,以及/或(c)需要时间意识预测的长期结构(趋势和周期性变化)。描述性变异性和情感惯性表明,个体内的变异占据了主导地位,占各种结果的62–68%。同时,平均滞后1期的自相关系数(r ≈ 0.17–0.19)显示出适度但可靠的惯性。这表明虽然情绪状态往往会延续到下一个学习环节,但它们并不会压倒情境的变化。这种模式正符合动态系统和微观层面情感研究的描述:情绪是依赖于情境的和非遍历的(个体间结构不能推广到个体内过程),但仍表现出短期依赖性(Kuppens et al., 2010; Kuppens & Verduyn, 2017; Lowie & Verspoor, 2019; Wichers et al., 2015)。在实际应用中,系统处于“中等惯性”状态:最近的历史很重要,但特定学习环节的情境仍然具有重要影响——这一点是我们在进行时间意识预测时的假设基础(表1)。
总结来看,这些结果表明,虽然随着时间的推移,情感参与度和自信心有一些轻微的提升,但学习者的体验主要由短期的、情境性的动态变化所塑造,而不是由传统的统计方法可以检测到的可预测的长期趋势或周期所决定(Koval et al., 2016)。这种复杂的背景情况支持在RQ3中使用具有时间意识且对情境敏感的机器学习进行预测。关于情绪特征普遍性的时间变化,GLMM模型测试了每周水平上的变化,发现两个情绪特征出现了小但显著的转变:“常规但愉悦”状态下降(β = ?0.0037/周,p =.027),而“被动且无趣”状态上升(β = +0.0067/周,p =.008)。其他情绪特征没有显示出可靠的时间变化。这些微妙的趋势表明,随着学习的进展,中等程度的参与度逐渐下降,而脱离状态的倾向略有上升,这可能反映了新颖性的减少或疲劳感的出现(图3a)。这两种模式在短期教育干预和日常行为研究中都很常见(Lee et al., 2025; MacMahon et al., 2014)。
总的来说,这些结果表明,这种过程在很大程度上是个体内异的,自相关性较弱,并且只受到全局趋势或周期性变化的轻微影响。换句话说,该系统是特定于个体的、非平稳的,并且主要表现出短期依赖性。这样的动态超出了简单线性模型或群体平均模型的假设,因此需要序列模型来学习个体化的、随时间变化的模式,并适应不规则的情境效应(例如学习方式、学习环境)。这激发了我们在引言中提到的使用高级机器学习进行预测的动机:这些模型能够捕捉到异质性的短期依赖性、弱长期的结构性变化以及受情境条件影响的转变,同时提供学习环节级别的不确定性估计。
在讨论RQ3(对未来情绪和自我感知能力的时间意识预测)时,我们比较了一个静态的同步预测器(TabPFN)和一个序列预测器(TabPFN-TS),以测试近期历史和动态情绪特征是否能够提高预测的准确性,并通过SHAP和系统特征消融来确定性能的驱动因素。静态同步模型仅使用同步特征来预测焦虑、愉悦、无聊和自我感知能力。这些预测器包括情境因素(例如,学习环节的持续时间、学习方式和距上次学习环节的时间)以及其他三个目标变量。TabPFN模型表现出中等到强的预测性能,分别解释了愉悦感的65.1%的方差、无聊感的59.6%的方差、自我感知能力的51.5%的方差以及焦虑感的45.8%的方差。如图4所示,SHAP分析揭示了一个紧密相互关联的情绪系统:愉悦感是最重要的焦虑负预测因素(平均|SHAP| ≈ 0.68),而无聊感对愉悦感有最强的负面影响(|SHAP| ≈ 0.90)。相反,愉悦感是无聊感的主要负预测因素(|SHAP| ≈ 1.05),表明这两种状态之间存在强烈的相互抑制作用。自我感知能力受到愉悦感和焦虑感的双重影响,较高的愉悦感预示着更高的自我感知能力,而较高的焦虑感则与较低的自我感知能力相关。虽然情境因素的贡献通常较弱(平均|SHAP| ≈ 0.05–0.23),但学习方式和学习环节的持续时间有适度且多变的影响——尤其是对焦虑感和无聊感。值得注意的是,与时间相关的变量(例如,距学习环节的时间)的预测价值可以忽略不计。这些发现肯定了情绪在瞬间层面的相互依赖性,同时也表明单独的情境缺乏强大的预测能力。
然而,这种静态方法有两个关键局限性:首先,情绪和自我感知能力具有高度的时间变化性;其次,同步模型无法包含情绪特征——这些特征是从纵向数据中得出的焦虑、愉悦和无聊的组合,因为这些模式本质上需要随时间进行聚合。为了解决这个问题,我们转向了一个序列建模框架。图4显示了静态TabPFN模型对每个目标变量(焦虑、愉悦、无聊和自我感知能力)的结果。顶部:SHAP摘要图显示了每个特征对该模型输出的影响(x轴上的SHAP值;点根据特征值着色,红色=高,蓝色=低)。较高的SHAP值表示对预测更高结果值的积极贡献。每个模型的R2和MSE值分别标注在图的上方。底部:每个目标的特征重要性条形图(平均|SHAP|值),显示了情绪特征与情境特征之间的相对预测强度。例如,在焦虑模型中(最左边),愉悦感的重要性最高(约0.68),表明了解学习者的愉悦水平对于预测他们的焦虑感最为有用。
我们训练了一个具有时间意识的TabPFN-TS模型,该模型基于每个学习者前85个学习环节的数据,并结合近期历史和动态情绪特征来预测最后20个环节(图5)。与静态模型相比,样本外的拟合效果显著提高,R2值从0.458增加到0.866(焦虑)、0.596增加到0.953(无聊)、0.515增加到0.832(自我感知能力)、0.651增加到0.934。焦虑和无聊感的最大提升与这些状态高度依赖情境并且随着短期经验而演变的理论相符。需要注意的是,R2并不是评估时间序列预测的主要指标,因此在这里以及后续使用R2只是为了在数据集内部进行比较。图5显示了使用前85个时间点训练的TabPFN-TS模型对最后20个EMA观测值的序列预测。在每个面板中,彩色的实线表示参与者的平均实际值,虚线垂直线表示第85个时间点的训练/预测边界,粉色的虚线表示模型的中位数预测,蓝色的阴影区域代表20%、40%、60%和80%的预测区间(从深到浅)。模型性能指标显示在每个面板的右侧。(b) 按情绪目标划分的对称预测区间的校准图。线条显示了观察到的经验覆盖率与名义覆盖率的函数关系,证实了模型的区间校准得当且略显保守(过度覆盖了目标比例),支持在实际应用中实现稳健且可靠的不确定性量化。(c) 焦虑、愉悦、无聊和自我感知熟练度的平均80%预测区间宽度。条形代表每个目标的平均区间宽度(以刻度点计量),表明每个预测的实际不确定性范围相当狭窄,并且在不同情绪维度上具有可比性。
为了严格评估我们预测的准确性和实际效用,我们将时间感知序列模型与一个单独的平均模型进行了基准测试作为对比。该模型在所有测量状态上都 consistently 取得了较高的相对技能分数和较低的错误率——焦虑(0.771/0.319/0.765)、无聊(0.782/0.283/0.689)、愉悦(0.772/0.277/0.674)和自我感知熟练度(0.740/0.263/0.635),这些指标分别表示为技能分数/MAE/RMSE。MAE 在0.26到0.32之间,反映了每个点预测值与其真实观测值之间的平均差异,这意味着大多数预测的偏差仅在0-10量表上的三分之一左右——相对于0-10量表来说,这是一个小误差,表明在该数据集中预测的短期准确性较高。这一指标提供了总体准确性的总结,显示了整个数据集中单值预测误差的平均幅度。如图6所示,每人错误的分布进一步体现了这种一致性。此外,相对技能分数在0.74-0.78范围内,意味着与基准相比,预测误差减少了74-78%,表明该模型能够捕捉到学生情绪状态中的有意义的时间动态。
然而,虽然MAE对于基准测试至关重要,但它并不能完全传达与任何特定预测相关的不确定性。
图6
此图像的辅助文本可能是使用AI生成的。
全尺寸图像
预测焦虑、愉悦、无聊和自我感知熟练度的平均绝对误差(MAE)的每人分布。每个小提琴图表示参与者预测误差的分布和密度。
在实际预测和现实世界决策中,考虑不确定性同样重要,即真实值可能在任何单个预测周围变化的范围。为此,预测区间提供了关键的补充信息。模型的80%区间在图5a中以蓝色阴影表示,概括了在给定特定预测和相关不确定性的情况下真实值可能落在的范围。校准分析(图5b)进一步证实了模型的区间表现良好:在所有情绪状态下,观察到的覆盖率紧密跟踪或略高于名义覆盖率目标(例如,为80%覆盖率设计的区间实际上捕获了大约94-95%的真实值)。然而,这些区间仍然相当狭窄,仅覆盖了整个0-10量表的1.1-1.4部分(图5c)。例如,如果一个学生的焦虑被预测为6.9,且经验覆盖率为95%,我们可以高度确信他们的真实状态将落在一个狭窄的范围内,比如6.3到7.5之间。校准图(图5b)展示了焦虑、无聊、愉悦和自我感知熟练度方面的稳健可靠性,支持了对该数据集中预测不确定性的解释。
综上所述,这些结果回答了研究问题3,表明结合最近的情绪轨迹和动态轮廓可以在此数据集中改善短期预测。高预测技能分数和狭窄、校准良好的不确定性区间表明,这样的预测最终可能支持及时、低风险的协助,尽管这里没有测试这种应用。
特征消融和预测贡献
为了量化各个特征的贡献,我们检查了时间序列模型的SHAP值(图7b)。与静态模型(图4)相比,主要预测因子的排名大致相似,尽管绝对SHAP值较小。主要的额外贡献来自时间特征,该特征旨在捕捉模型对最近情绪轨迹的依赖性。其重要性对于焦虑(0.361)最高,其次是自我感知熟练度(0.109)、无聊(0.096)和愉悦(0.032),这一模式反映了从静态模型到时间序列模型的R2增益顺序。总体而言,结果表明时间信息增加了预测价值,而不会显著改变静态模型中观察到的主要特征重要性模式。由于时间序列模型的SHAP方法在该领域相对不成熟,这些值应谨慎解释,主要作为相对特征影响的描述性指示。
因此,我们通过一次移除一个特征或特征组来对完整模型进行消融分析,以评估其对预测性能的贡献(图7a)。虽然大多数特征在被排除时的影响较小(ΔR2 ≈ 0.01–0.03),但情绪特征对于预测无聊和愉悦至关重要。排除情绪特征会导致R2急剧下降(无聊从0.953降至0.861,Δ = ?0.092;愉悦从0.934降至0.843,Δ = ?0.091),证实了这些特征能够捕捉到超出单个情绪分数的整体情感状态。
图7
此图像的辅助文本可能是使用AI生成的。
全尺寸图像
(a) 全面消融研究结果,显示了逐个排除特征对模型性能的影响,涵盖了多个预测目标。该图显示了在系统地从时间序列预测模型中移除每个特征时的三个关键性能指标(MAE、RMSE和R2)。每个面板代表一个不同的预测目标(行),并针对不同的评估指标(列)进行测量。水平条表示排除特定特征时的性能幅度。基线模型标记为“Full Model”。
(b) 时间序列预测的SHAP分析。每个特征的SHAP值是跨参与者和时间平均得出的值。由于情绪特征在创建时涉及时间信息(个体内部),因此在这里被排除。
在跨情绪依赖性方面,移除愉悦会损害无聊的预测(ΔR2 = ?0.077),移除无聊也会类似地影响愉悦的预测(ΔR2 = ?0.079),这与静态建模中观察到的它们之间的反向关系相符。
尽管单独来看影响较弱,但情境特征在与情绪和自我感知输入结合时提供了协同效益。这种模式在所有模型中都很明显,这里使用焦虑预测模型进行了示例。当移除情绪和自我感知熟练度时,焦虑预测的R2降至0.720(Δ = ?0.146)。进一步移除这些以及情境特征后,性能进一步降至R2 = 0.328(Δ = ?0.538),基本上使模型准确性崩溃。相比之下,仅移除情境特征的影响相对较小(ΔR2 ≈ ?0.03–0.04),这证实了它们作为调节因素而非主要驱动因素的角色。此外,添加情境特征显著缩小了预测区间。例如,焦虑的80%区间从大约±1.2缩小到±0.9,表明即使是微弱的情境线索也能提高情绪变动情况下的预测精度。
自动链接和时间基线
当所有预测因子都被移除,仅让模型依赖于目标变量自身的过去值时,性能有所下降,但并未崩溃:焦虑(R2 = 0.328)、无聊(0.374)、愉悦(0.329)和自我感知熟练度(0.381)。这些结果支持情绪状态中存在惯性或动量的存在,这与之前的滞后1自相关(r ≈.17–0.19)一致。即使在没有所有输入的情况下,仅时间连续性也提供了非微不足道的预测能力,验证了时间序列结构的必要性。
个性化预测
为了展示该数据集中参与者级别的预测性能,我们对两名随机个体进行了建模,并可视化了时间序列预测,如图8所示。对于一名学习者,模型准确预测了未来的焦虑波动(R2 = 0.915,MAE = 0.141),而对于另一名学习者,则以极高的精度捕捉到了微妙的无聊动态(R2 = 0.979,MAE = 0.033)。这些案例研究表明,对于某些参与者来说,情绪的个性化预测是可能的。
图8
此图像的辅助文本可能是使用AI生成的。
全尺寸图像
讨论
研究发现总结
在第二语言学习中,随着学习者参与不同的任务、情境以及对能力的即时评估,情绪在各个场景中有所不同(Heng 2008;Wang等人2024,Wang等人2025a,b,c;Wichers等人2015)。通过21天内的频繁现场调查,我们研究了自然学习生活中的这些动态(Dewaele 2008;Wang等人2024),揭示了三个一致的模式。针对研究问题1,我们发现焦虑、愉悦和无聊在重复的场景中共同出现,而不是作为独立的变量运作。针对研究问题2,我们观察到情绪动态主要是短期的,并且会适度延续到后续场景。我们几乎没有发现缓慢 drift 或强烈周期性模式的证据。针对研究问题3,我们发现将情感历史与情境特征结合起来可以准确预测下一个场景的情绪和感知熟练度。接下来,我们将详细阐述这些结果对理论化第二语言情绪、设计密集型纵向研究以及确定何时短期可预测性在教育上具有意义的意义。
理论贡献:情绪作为共激活系统
基于复杂的动态系统理论,我们将第二语言情绪概念化为随着时间交互的组件而产生的涌现模式(Thelen & Smith, 2007)。在这个框架中,一个有用的区分是关系组织,它捕捉了组件在特定时刻如何相互影响,以及时间组织,它捕捉了这些瞬时配置如何在场景中展开(Borsboom等人2021)。这种双轴视角在临床和情感科学中被广泛使用(Scheffer等人2024)。然而,在第二语言情绪研究中,关系模式和时间变化通常分别被研究,要么通过静态情感剖面,要么通过个体内的波动模型(Freeborn等人2023;Wang等人2024)。我们将这些维度结合起来进行建模,将情绪的共现和短期时间依赖性视为单一集成系统的特征。
在关系轴(RQ1)上,我们的结果表明,学习者的情绪更好地表现为联合的场景级配置,而不是独立的变量。在21天的时间窗口内,焦虑、愉悦和无聊反复组织成一组重复的轮廓(常规但愉快、强烈但引人入胜、愉快且放松、被动且不吸引人、紧张且乏味)。这些轮廓与之前的研究结果一致,表明愉悦和无聊很少同时发生,而焦虑可以在令人疲惫的场景中伴随愉悦出现,或者在具有挑战性的场景中伴随愉悦出现(例如,Dewaele等人2023)。通过控制-价值理论解释,这种混合状态是控制和价值同时评估的合理结果(Pekrun, 2006;Pekrun等人2007)。例如,高感知价值与不确定或波动的控制相结合可能导致焦虑和愉悦的共激活,而低价值与低控制相结合则倾向于产生无聊和脱节。重要的是,情境不仅影响单个情绪,还影响它们的共现,从而导致情绪轮廓的变化(Borsboom等人2021;Wang & Cheng, 2024)。
这些配置还阐明了自然学习生活中日常情绪“基线”是什么样的,以及偏离该基线为何可能反映不同的问题。在第二语言情绪的许多理论和测量中,通常以焦虑为中心,往往将焦虑视为普遍且主要有害的(Horwitz, 2001, 2010;Teimouri等人2019)。然而,在我们的数据中,主要状态是常规但愉快的,这反映了低焦虑和低唤醒水平以及轻微的积极参与。可以将这种基线理解为“不是‘巅峰愉悦’,而是功能上的稳定:学习者感到大体上有能力处理任务,并认为有足够的价值保持参与,即使活动并不特别令人兴奋。从控制-价值的角度来看,这与具有足够感知控制和至少适度价值的场景一致(Jang等人2010)。这种基线很重要,因为它为其他情绪轮廓的转变提供了更清晰的解释。向被动和不吸引人的转变通常与价值评估的减弱有关(J?rvinen等人2025),而向紧张和乏味的转变则通常与控制评估的减弱有关(Decker & Borgen, 1993)。相比之下,强烈但引人入胜的状态表明,增加的挑战可以与高价值共存,允许适度的焦虑伴随愉悦。从控制-价值的角度来看,这些轮廓有助于区分中断主要是由于价值丧失还是控制丧失。
在时间轴(RQ2)上,我们的发现通过展示最明显的时间结构在于相邻场景之间的短期依赖性,而不是情绪的缓慢累积变化(Wang等人2024),进一步完善了“动态”在第二语言学习生活中的含义。用日常的语言来说,学习者在某一环节中的感受可能会“延续”到下一环节,但这种延续通常较为轻微,并且很快就会受到后续事件的影响而发生变化(Macintyre & Legatto, 2011)。例如,一个在学习任务中因被突然叫到而感到紧张的学习者,在开始下一个环节时可能会带着更高的焦虑,即使下一个任务有所不同。同时,环境或任务的改变也可以迅速改变这种情绪状态。例如,从即兴演讲转变为有明确提示和节奏控制的写作任务,可以恢复学习者的控制感,使他们进入更加投入的状态(Mercer, 2014)。一个关键的结论是,情绪可以从一个学习环节延续到下一个环节,但这种延续是否持续取决于下一个环节的具体情况。理论上,这与控制-价值理论是一致的,即情绪评价可以在不同环节中持续存在,但会不断受到新任务要求、反馈和策略选择的影响,从而在发生的事情和接下来的事情之间建立联系(Pekrun & Stephens, 2010)。在实际应用中,同一种“后效应”可能会根据下一个环节的特点而加强或减弱(Wubbels et al., 2022)。例如,一个小小的成功,比如终于理解了一个语法点或得到了鼓励性的反馈,可能会带来更大的控制感和价值感,使下一个挑战看起来更加激励人心而不是威胁。相反,一次令人沮丧的失败,比如在定时听力测试中反复犯错,可能会转化为回避行为或易怒情绪,除非学习者改变策略、放慢进度或接触到提供更清晰反馈的任务。这一结论的方法学意义在于,对情绪的测量不应该被视为孤立的事件,而应该将其与前后环节的情绪以及情境特征结合起来进行分析(Epskamp 2020; Wang et al., 2025a, b, c)。此外,这也表明学习环节的边界是一个可行的教育干预窗口:在环节之间提供短暂的支持,如重新评估的提示、难度调整或及时反馈,可以中断不有益的行为模式或稳定学习者的适应势头,而不必假设他们已经被长期的情绪趋势所锁定(Gross, 2013)。
方法论创新:结合生态学有效性和预测严谨性
为了实现研究问题3(RQ3),本研究引入了一种以预测为导向的第二语言情绪研究方法。我们使用经验矩分析法(EMA)作为核心测量策略,以保留日常学习中的生态学背景和时间连续性(Li, 2023; Wang et al., 2024)。然后,我们将同时出现的情绪转化为紧凑的概况特征,用于预测,而不是提出新的潜在情绪类型(Zheng & Casari, 2018)。最后,我们验证了短期时间依赖性和情境条件下的情绪变化,这些变化足以支持序列建模,并通过样本外的预测性能来评估模型,生成带有不确定性的环节级预测,为未来的教学支持提供参考(Jebb et al., 2015; Yarkoni & Westfall, 2017)。
因此,我们的贡献不只是一个单一模型,而是一种适用于生态学有效环境中的可重复使用设计模式(Wang et al., 2025a, b, c),包括四个步骤:(1)围绕EMA规划时间序列数据收集;(2)将情绪表示为同时出现的概况特征;(3)确认短期结构的存在;(4)拟合和测试能够生成带有不确定性的短期预测的序列模型。这种模式允许对随时间嵌入在任务和情境中的情绪进行统计建模(Chaku et al., 2021; Lowie & Verspoor, 2019),从而可用于近期预测。同样的方法也可以应用于与学习和教学相关的其他方面,如学习努力、注意力分散或感知进步等。当模型预测到变化时,还可以通过简短的访谈或开放式问题来深入了解其原因(Rudin, 2019)。
教育意义
我们的发现对教师、学习者和教育技术开发者具有几项实际意义。最重要的是,能够以合理的信心预测情绪状态表明,短期预测最终可能有助于及时、低风险的回应学习者的情绪体验(Abreu & Knouse, 2014)。在数字学习环境中,一个嵌入了我们模型的系统可以根据对学习者未来情绪状态的预测,生成少量有针对性的提示,例如简短的检查、替代活动或自我调节建议,特别是在预测到学习者在下一个学习阶段会保持或转变为更被动、不投入或紧张的情绪状态时(Caballé et al., 2011; Hartwig et al., 2019)。在课堂教学环境中,同样的逻辑可以帮助教师预判何时提供额外的支持,而无需持续观察学生的情绪状态。如果需要向教师展示任何信息,可以仅限于简单的信号,比如提醒教师有几名学生可能需要额外支持,或者某个学生多次进入了高压力状态,而不必实时显示每个学生的情绪。这样可以在不让学生过度解读自己情绪状态的同时,让预测结果突出显示何时需要支持。在具有适当平台支持、明确同意和保障措施的数字环境中,这种应用尤其可行(Wang et al., 2026a, b; Zhang et al. 2022)。然而,目前这些结论还只是假设性的:本研究仅证明了在这个数据集内的预测可行性,并未验证预测触发干预的有效性。另一个意义是,这里识别出的情绪概况可能为支持学习者提供实用的解释框架。特别是,“常规但愉悦”的情绪概况可以作为基准,用来理解情绪的偏差。如果学习者频繁偏离这个基准,进入不投入或高度焦虑的状态,这可能需要更密切的关注;如果学习者经常转变为“强烈但投入”的状态,这可能表明学习效果特别好。因此,教师不仅可以缓解负面情绪,还可以培养积极的高投入状态(Dewaele et al., 2019)。从学习者的角度来看,预测性洞察可以融入自我调节的学习策略中(Di Mitri et al., 2017)。许多学习者并不完全了解自己的情绪模式及其对学习的影响(Bailen et al., 2019)。例如,如果学习者通过嵌入了我们模型的学习应用程序收到个性化反馈,提示他们深夜学习时间超过40分钟后常常会感到疲惫和沮丧,他们可能会相应地调整自己的习惯(Vilanova & Ponsa, 2011)。通过这种方式,模型可以作为一个反思性反馈工具(Attaran & Celik, 2023),帮助学习者发现学习习惯中的情绪模式。此外,了解情绪的波动性和低谷可能是暂时的,这可能会增强他们的韧性(Padesky & Mooney, 2012)。在我们的数据中没有发现灾难性的情绪恶性循环或长期负面情绪积累的迹象(Southwick et al., 2005),这可能会让那些担心一次糟糕的学习经历会影响到后续学习的学生感到安心。
局限性与未来方向
尽管本研究提供了关于情绪动态的新见解,但一些局限性制约了结果的普遍性和解释。首先,样本相对同质,主要由来自同一国家的年轻本科生组成,且以女性为主,这限制了结果的普遍性。文化背景、年龄和语言水平可能会影响情绪概况的普遍性和含义。其次,依赖自我报告的即时情绪和感知语言水平引入了主观性和潜在的量表解释差异(Fuller et al., 2018)。未来的工作应该将EMA与多模态的行为和生理信号(如按键动态、互动痕迹、可穿戴设备数据)结合起来,以增强构念的有效性和减少方法间的差异(Wang et al., 2025a, b, c)。第三,虽然EMA减少了回忆偏差,但它无法捕捉到可能影响情绪调节和投入的无意识或被压抑的情绪(Dornyei & Ryan, 2015)。另一个限制是,参与者获得了每次提示后的补偿和少量的每日奖金,且提示按照固定时间表进行(每约2小时进行一次即时调查,再加上一次晚间调查)。这些设计选择可能会导致测量反应性,例如学习疲劳、因可预测的提示而产生的单调性(Head & Helton, 2014),或为了获得奖金而采取的策略性响应(Pandya & Desai, 2013)。这种效应可能导致我们观察到的从“常规但愉悦”到“被动不投入”的短期趋势。由于本研究并未旨在隔离这种反应性,我们无法确定这种趋势在多大程度上反映了调查负担或激励结构,或是学习情境或动机的真实变化。未来的工作可以通过在参与者特定的时间窗口内随机化提示时间、重新设计激励措施(例如将补偿与遵守规则挂钩,而不是每个提示都给予奖励),以及事先考虑学习时间、提示顺序和一周中的日期等协变量来减轻和诊断这种风险。
方法论上,我们使用小样本机器学习和序列模型的预测结果(Wang et al., 2025a, b, c)应在更大和更多样化的群体中得到验证,以检验其稳健性和可转移性。尽管TabPFN旨在减少过拟合(Hollmann et al., 2025),但在低配合度的参与者中,模型表现可能会下降,这可能会导致对更勤奋的参与者产生偏向性;通过离群预测(Roy, 2003)和缺失数据模式建模可以帮助评估这一点(Blozis, 2024)。最后,我们的情境测量(类型、持续时间、间隔)未能捕捉到宏观层面的因素(如教学政策、评估制度、社会语言意识形态),这些因素可能会影响学习者的情绪生态。将EMA嵌入到民族志或政策意识的设计中,或与机构数据流联系起来,可以揭示这些更高层次的约束和支持因素。
结论
本研究表明,在这个21天的EMA数据集中,第二语言学习者的情绪作为环节级、同时出现的动态状态进行分析更为有效,而不是作为静态的独立变量。我们识别出反复出现的情绪概况,发现了轻微的环节间延续性,并证明最近的情绪历史和情境信息可以提高预测的准确性。这些发现支持了一种更关注时间因素的第二语言情绪研究方法,尽管基于预测的干预措施的实际应用仍有待未来的研究探索。