自然主义文学任务中理解阶段的声学相关性

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

自然主义文学任务中理解阶段的声学相关性

《Electronics》：Acoustic Correlates of Phases of Understanding in a Naturalistic Literary Task

【字体：大中小】 时间：2026年06月19日 来源：Electronics 2.6

编辑推荐：

　　由于大语言模型（Large Language Models, LLMs）通过语言进行运作，其访问理解感（feeling of understanding）的能力依赖于自我报告，这限制了其支持学生学习的潜力。先前研究探索了面部表情是否能够在学术情境中测量不同理解

由于大语言模型（Large Language Models, LLMs）通过语言进行运作，其访问理解感（feeling of understanding）的能力依赖于自我报告，这限制了其支持学生学习的潜力。先前研究探索了面部表情是否能够在学术情境中测量不同理解阶段的这一主观体验，但收效有限。为考察其他生理通道在测量理解感方面的有效性，研究人员以198名参与者在完成文学分析任务时的Zoom录音为研究对象，考察了声学特征模式与初始理解（nascent understanding）、误解（misunderstanding）、困惑（confusion）、渐生理解（emergent understanding）、深度理解（deep understanding）及欠自信（underconfidence）六个理解阶段之间的关联。CatBoost算法与逻辑回归模型均表现出中等水平的分类性能，表明在群体层面理解阶段无法被可靠区分。与此相对，个体内部分析揭示出初始理解与渐生理解在多个声学特征上存在一致性差异，包括基频（pitch）、抖动（jitter）、微扰（shimmer）及谱通量（spectral flux）。研究结果表明，在自然主义学术情境中，言语的声学特征无法在群体层面可靠区分理解阶段，但能够反映个体内部初始理解与渐生理解之间的一致性差异，这既凸显了利用言语作为理解感生理测量手段的潜力与局限，也指出了需要采用替代性操作化方法来刻画理解感在不同阶段展开过程的必要性。

研究背景与问题缘起

理解（understanding）在学术研究与教育实践中具有双重意涵。一方面，理解被视为满足公共可评估的真理性、连贯性与相关性标准的语言表达；另一方面，理解亦是一种"某事具有意义"的主观体验，这种体验影响着个体对自身理解的判断、思维方式及行动取向。理解感（feeling of understanding）作为主观现象，伴随认知加工全过程，并因理解的发展而呈现阶段性特征。具体而言，当个体遭遇新概念时，可能首先经历缺乏连贯框架的初始理解（nascent understanding）；随着持续投入，可能形成表面合理但概念不完整的误解（misunderstanding）；当新信息挑战既有解释时，困惑（confusion）随之产生；若坚持探索，则可能出现关系整合后的渐生理解（emergent understanding）；最终可发展为能够跨情境迁移应用的深度理解（deep understanding）；即便达成正确理解，个体仍可能体验到欠自信（underconfidence）。每一阶段在认知上具有独特性，并可能伴随特征性的主观体验。

随着大语言模型日益嵌入学生日常学习过程，理解的语言维度与体验维度之间的分野获得新的理论紧迫性。当前基于检索增强生成（Retrieval-Augmented Generation, RAG）的技术进展虽提升了事实准确性与领域推理能力，但此类系统仍主要通过语言输入输出与学习者交互，故仅能在理解感被转化为语言时加以捕捉。这一依赖自我报告的路径存在三重局限：要求学生具备表达意愿与表达能力；打断被测量的认知过程；将直接体验转化为被描述与评估的对象，从而丧失其即时性与丰富性。因此，若要使基于大语言模型的人工智能系统真正支持完整意义上的理解，亟需替代性的理解感测量方案。

躯体标记假说（somatic marker hypothesis）为这一需求提供了理论基础，该假说认为情感体验源于 bodily 变化在神经系统中的表征。据此，理解感植根于生理活动，生理信号的变化可提供一种连续且非侵入性的追踪方式。已有研究以面部表情为生理指标探索理解阶段，发现任务结构性显著影响识别效果：在界定良好的谜题任务中分类器表现优异，而在自然主义的文学分析任务中则表现平平。鉴于声学特征（如基频、响度、抖动等）反映呼吸控制、声带张力及发音活动的变化，且与认知负荷、唤醒水平及情感状态密切相关，本研究旨在考察言语声学特征是否能在自然主义、界定模糊的学术情境中有效区分理解阶段，从而评估言语作为理解感生理测量手段的潜力与局限。

关键技术与方法

研究采用198名以多伦多大学本科生为主的便利样本，通过Zoom远程采集参与者完成海明威短篇小说《一个干净明亮的地方》（A Clean, Well-Lighted Place）文学分析任务时的言语数据。理解阶段的判定综合了三个维度：口头回答与确定感评定（3点量表）、基于文本证据与文学共识的正确性编码，以及针对困惑阶段的自动化声学特征标记结合情境验证。声学特征通过openSMILE工具包提取扩展日内瓦简约声学参数集（extended Geneva Minimalistic Acoustic Parameter Set, eGeMAPS），包括25项低级声学特征，经10毫秒帧级提取后聚合为非重叠的2秒窗口，计算各特征的均值与标准差。

分析方法包含两个层面：群体层面采用CatBoost梯度提升树模型与L2正则化逻辑回归模型进行五折分组交叉验证，以宏平均F1分数为主要评价指标；个体内部层面则选取基频半音（F0 semitone）、响度变异度、局部抖动、局部微扰及谱通量五项关键特征，计算参与者在初始理解与渐生理解阶段的个体内部z分数偏差，通过配对样本t检验及Wilcoxon符号秩检验比较阶段差异，并采用Benjamini–Hochberg错误发现率程序校正多重比较。

研究结果

**人口统计学特征**。最终纳入193名参与者（平均年龄23.2岁，标准差7.3），女性占比67.2%，学科背景多元。

**描述性统计**。共识别1549个观察值，分布于34432个2秒窗口中。初始理解与渐生理解为最常见阶段，误解次之，困惑与欠自信较少，深度理解最为罕见。因样本量不足，后三阶段未纳入机器学习分析。

**机器学习结果**。CatBoost与逻辑回归模型总体表现均仅略高于随机水平（三类问题的平衡准确率超过0.33的机遇水平但幅度有限），宏平均F1分数偏低且阶段识别不均衡。逻辑回归整体表现略优于CatBoost，其中渐生理解的召回率最高（0.67），但精确率较低，存在过度预测倾向；误解在两模型中识别效果均差，逻辑回归甚至未能正确识别任何误解实例。SHAP（SHapley Additive exPlanations）值分析显示，无单一特征主导预测，frameTime_mean（平均帧时长）与time_s_mean（经过时间）两项时间描述符的重要性反而高于纯声学特征，且特征贡献方向因观察而异，表明模型未识别出稳定的区分性声学标记。

**个体内部分析结果**。在167名同时经历初始理解与渐生理解的参与者中，配对比较显示基频半音、抖动、微扰及谱通量在两个阶段间存在统计学显著差异，效应量为小到中等（Cohen's d_z = 0.310–0.450），Wilcoxon检验验证了结果的稳健性；响度变异度未达显著（p = 0.054）。分布分析表明，多数个体在渐生理解阶段表现出更高的声学特征活动水平，方向性一致但幅度存在个体差异。

讨论与结论

研究结果呈现出群体层面与个体内部层面的鲜明张力：机器学习模型无法可靠区分不同理解阶段，表明在自然主义学术情境中，理解阶段的声学模式不具有跨个体的普适性；然而个体内部分析揭示了初始理解与渐生理解之间稳定且一致的声学差异，暗示言语特征可能反映个体理解感体验的系统性变化。

这一格局与前人研究发现相呼应，可从任务结构性、心理状态混杂及操作化方法三方面加以解释。文学分析任务缺乏唯一正确答案与固定解决路径，导致阶段边界模糊、重叠且受个体解释动态影响；开放式任务中参与者可能同时经历投入度变化、挫折感等非阶段性心理状态，混淆了声学信号；基于正确性与确定感的阶段赋值在"既非确定也非不确定"的模糊情况下引入了额外噪声。值得注意的是，本研究中渐生理解的识别率显著高于前人面部表情研究，提示不同生理通道对特定阶段的敏感性可能因任务表达方式而异——当参与者口头阐述答案时，思维形成与修正的过程直接体现于言语，而言语韵律对确定感与认知负荷的敏感性使其成为渐生理解的更有效指标。

研究发现对人工智能教育应用具有实践启示。首先，系统应依据任务特征选择最相关的生理通道，不可假定同一通道在不同情境中等效。其次，鉴于个体内部模式稳定但群体差异显著，系统需建立学生特异性基线，以个体历史模式替代群体规范进行动态解读，类似于个性化推荐系统的适应逻辑。第三，伦理层面须确保知情同意、最小必要数据采集，并将生理信号作为辅助性"软指标"而非决定性依据，避免过度解释导致反馈失当或强化偏见。

研究局限性包括：部分阶段样本量不足限制六阶段完整框架的检验；阶段标签的理论编码涉及主观判断；困惑阶段的识别依赖与分析部分重叠的声学特征；样本以同校女性本科生为主，缺乏人口代表性；Zoom内置音频处理可能引入额外变异。未来研究应探索多通道融合（如言语与面部表情）、额外生理信号（如心率变异性、皮肤电导）、概率性或分布性阶段操作化方法，以及基于语音基础模型（如wav2vec 2.0、WavLM）的端到端深度学习架构。

结论部分指出，本研究为言语声学特征随理解阶段变化提供了有限证据。群体层面模型表现平庸，依赖微弱且分散的特征组合；个体内部分析则揭示出初始理解与渐生理解之间更为一致的差异，表明言语变化可能反映个体内部理解感的转移。所观察到的中等分类性能既反映了声学特征跨个体区分阶段的固有限度，也源于此类任务中阶段本身非清晰界定、呈重叠且情境依赖的本质。因此，核心挑战在于更精确地操作化理解感在其阶段展开过程中的动态变化，这将是开发能够直接追踪学术情境中理解感、从而更有效支持学习的大语言模型人工智能系统的重要步骤。

联系信箱：

粤ICP备09063491号

热点排行