基于眼动行为特征的动力学意图状态识别
詹正勇(Zhengyong Zhan)
李一轩(Yixuan Li)
刘洪明(Hongming Liu)
王海波(Haibo Wang)
李莉(Li Li)
司海青(Haiqing Si)
李根(Gen Li)
赵燕(Yan Zhao)
《Aerospace》:Pilot Intent State Recognition Based on Eye-Movement Behavior Characteristics
Zhengyong Zhan,
Yixuan Li,
Hongming Liu,
Haibo Wang,
Li Li,
Haiqing Si,
Gen Li and
Yan Zhao
【字体:
大
中
小
】
时间:2026年04月08日
来源:Aerospace 2.2
编辑推荐:
摘要
本文旨在揭示复杂飞行任务中飞行员意图的生成模式,并识别飞行员意图状态,从而使空中预警系统能够理解和预测飞行员的意图,以制定早期预警策略。为此,我们设计了一个模拟飞行实验,包含了多种风险场景以诱发飞行员的意图,收集了反映飞行员意图状态的眼动追踪数据,并提出了一种基于眼动追踪数
摘要
本文旨在揭示复杂飞行任务中飞行员意图的生成模式,并识别飞行员意图状态,从而使空中预警系统能够理解和预测飞行员的意图,以制定早期预警策略。为此,我们设计了一个模拟飞行实验,包含了多种风险场景以诱发飞行员的意图,收集了反映飞行员意图状态的眼动追踪数据,并提出了一种基于眼动追踪数据识别飞行员意图持续性的方法。随后,我们构建了一个飞行员意图数据集,并分析了意图持续状态下的眼动追踪数据的时间-频率特征,揭示了飞行员意图生成后的关键行为特征。此外,我们还研究了能够提升飞行员意图识别模型性能的眼动追踪特征。最后,我们开发了一个结合循环神经网络(RNN)和双向长短期记忆网络(BiLSTM)的深度学习模型来识别飞行员意图。结果表明,该模型在测试集上的识别准确率为97.8%,并且通过与基线模型的比较验证了其在识别飞行员意图状态方面的性能。本研究证实,眼动追踪数据可以有效识别飞行员意图状态,并为飞机安全早期预警和智能控制系统提供了新的见解。
1. 引言
随着航空运输业的快速发展,航空事故持续减少。然而,民用航空安全仍然是一个首要任务。根据国际航空运输协会(IATA)2017年至2022年的航空事故统计数据,超过50%的飞行事故归因于飞行员控制错误,其中飞行员决策问题占这些事故的11%[1]。为了提高飞行安全,自动飞行控制系统(AFCS)现已广泛集成到民用飞机中。尽管如此,当前的自动驾驶系统主要通过飞行管理计算机(FMC)调整控制面来控制飞机的运动,确保飞机遵循飞行员的航线输入。虽然这些系统维持了稳定的飞行操作,但它们没有考虑飞行员的认知过程,如决策[2,3,4,5]。意图在决策之前起着关键作用[6,7]。在波音737 MAX 8事故中,MCAS自动防失速系统覆盖了飞行员的操纵意图,导致了坠机事故,这引发了人们对识别飞行员操纵意图的关注[8,9,10,11]。
1.1. 文献综述
飞行员意图是指飞行员对未来一系列飞机控制动作的预期认知活动。它源于感知、记忆和决策等认知过程的复杂交互。关于飞行员意图的研究仍处于早期阶段。然而,尽管飞机在三维空间中运行,因此比地面车辆多一个维度,但对驾驶员意图的分类仍然可以作为有用的参考。因此,飞行员意图可以分为战略层面、战术层面和操作层面(控制层面)[12,13,14]。战略操纵意图是指飞行员在执行任务时的总体目标[15],例如起飞前的准备工作或在进入特定飞行阶段前的简报。战术操纵意图是指为实现短期目标而进行的一系列协调动作[16],例如通过操纵控制杆、方向舵、高度旋钮和航向旋钮进行爬升、下降或转弯操作。控制层面的操纵意图是指为实现战略操纵意图而执行的具体控制动作[17,18]。此外,当飞行员遇到不安全情况时,可能会出现一种特殊的控制层面操纵意图。这种意图可能涉及突然的爬升、下降或转弯动作,以避免危险情况[19,20,21],例如应对跑道入侵的紧急避让动作或风切变恢复动作。
关于飞行员意图的研究主要集中在战术操纵意图上,通常使用外部环境信息[16]、飞行数据[22]、生理数据[23]和眼动追踪数据[24]来进行识别。在飞行过程中,飞机与外部环境的互动非常复杂,要求飞行员能够快速准确地感知危险飞行情况。因此,一些学者认为情境意识是研究飞行员意图演变的重要方法[25]。在航空人为因素领域,Endsley提出的情境意识(SA)理论被广泛用于解释飞行员在动态环境中的认知过程。根据这一理论,飞行员的情境意识包括三个层次:环境元素的感知、对其意义的理解以及对未来状态的预测。在飞行任务中,飞行员不断获取环境信息并形成情境意识,为后续的决策和控制行为提供认知基础。在这个框架下,飞行员意图可以被视为连接情境评估和具体控制动作的重要过渡认知状态。因此,研究飞行员在信息获取过程中的行为特征可以为理解意图形成过程提供重要线索。由于眼动行为可以反映飞行员在执行任务过程中的视觉注意力分配和信息获取模式,眼动追踪数据为探索飞行员意图形成背后的认知机制提供了重要的客观手段[26]。Utku Kale等人强调了情境分析在飞行员主观决策中的重要作用,并认为它是飞行员决策过程的第一阶段,随后是决策形成和行动执行[27]。Katie J. Parnell等人使用三种不同的决策模型研究了飞行员在双引擎故障情况下的决策过程[28]。
飞行数据最直接地反映了飞机与外部环境之间的互动以及飞行员的控制行为。Zhili Tang等人结合飞行数据和专家系统数据库来推断飞行员最可能的操纵意图和行为[29]。Stefan Suck等人使用隐马尔可夫模型(HMM)训练和评估飞行员与模拟驾驶舱系统之间的交互数据,以识别飞行员的操纵意图[30]。Lei Dong等人使用数字实验驾驶舱(DECO)的数据来建模和分析单飞行员机组的行为意图,并进一步探讨了飞行员的行为倾向[31]。Akio Kato等人将模拟飞行数据输入输出误差模型,以研究飞行员动态与飞机动态稳定性特征之间的关系[32]。Jayaprakash等人根据不同飞行阶段飞行数据的连续变化,将飞行员意图建模为有限状态机[33],并进一步开发了一个概率验证框架来定量描述飞行员模式混淆的程度[34]。
生理数据可以直接反映飞行员在不同认知过程中的心理生理状态变化。Yining Zeng等人提出了一种基于空间注意力网络(SA-Net)的方法,从脑电图(EEG)信号中识别飞行员的控制意图,并引入了感受野注意力(RFA)和挤压-兴奋(SE)模块来提高特征提取和分类性能[35]。Qiyou Wu等人改进了传统的运动想象范式,使用图片和视频两种视觉引导模式来识别飞行员的操作意图。他们比较了不同范式下的识别性能,并进一步使用多种机器学习算法进行了分类研究[36]。Chenyang Zhang等人结合飞行模拟实验和功能性近红外光谱(fNIRS)测量了25名学生在不同转弯行为中的氧合血红蛋白浓度变化,发现转弯行为的差异与前额极皮层(BA10)有关[37]。Yuhan Li等人选择了19个与飞行员行为相关的特征,包括心电图、皮肤电活动、肌电图和皮肤温度,并通过比较多种机器学习模型的性能,建立了一个集成学习分类器,实现了高达98.15%的飞行员行为预测准确率[38]。
眼动追踪数据可以揭示飞行员在不同意图模式下的视觉注意力分布和信息搜索策略。Jiaao Cheng等人通过显著性测试确定了平均注视持续时间、瞳孔大小和眨眼持续时间作为与意图强相关的眼动参数,并使用支持向量机进行意图分类,实现了超过89%的最大准确率[39]。Hongyan Wang等人提出了一种结合Transformer模型和双向长短期记忆网络(Bi-LSTM)的意图分类方法。通过将长期多特征眼动追踪时间序列数据输入模型,他们实现了高达94.84%的飞行员意图识别准确率[40]。在这项研究中,飞行员意图被建模为一个二进制状态,表示飞行员是否准备执行控制动作,而不是对特定类型的操纵进行分类。
1.2. 贡献
总之,学者们已经开始使用不同类型的数据来建模飞行员意图、决策及相关过程,以提高意图识别的准确性。然而,从数据来源的角度来看,飞行数据在意图研究中存在固有的延迟。与飞行员控制行为相对应的数据只能在飞行员与控制设备交互后记录在QAR中,这显然晚于行为意图产生的时刻。生理数据可以反映飞行员的实时心理生理状态,但复杂的驾驶舱环境在数据采集过程中常常引入大量噪声,导致对数据完整性、清洗和过滤有很高的要求。相比之下,眼动追踪数据可以揭示意图形成过程中的早期信息搜索模式和注意力分配策略,使它们对意图出现的早期认知状态特别敏感。然而,关于眼动追踪数据与飞行员意图状态之间关系的研究仍然有限。因此,本研究首先提出了一种基于实验收集的眼动追踪数据识别飞行员意图持续性的方法。其次,通过分析意图存在状态下的眼动追踪数据的时间-频率特征,研究确定了有效提升飞行员意图识别模型性能的眼动追踪特征。最后,建立了一种结合循环神经网络(RNN)和双向长短期记忆网络(Bi-LSTM)的深度学习方法来识别飞行员意图的持续性。本研究仅关注飞行员为实现特定飞行目标而采取行动的意图状态,而没有考虑意图的具体类型。
2. 方法
本节介绍了用于飞行员意图识别的方法。2.1节描述了诱发飞行员意图的实验设计。2.2节介绍了实验中收集的数据。2.3节介绍了数据处理程序和数据集构建过程。2.4节从时域和频域的角度描述了眼动追踪特征提取方法。2.5节和2.6节介绍了本研究中开发的飞行员意图识别模型。
2.1. 实验
2.1.1. 实验设备
为了模拟真实飞行中飞行员意图的演变,本研究基于飞行员在D级波音B787全飞行模拟器中执行任务时收集的眼动追踪数据来识别飞行员意图,如图1所示。在正式实验之前,实验者进行了简要介绍,并要求参与者签署知情同意书。随后,参与者佩戴了Tobii Pro Glasses 3(Tobii AB,瑞典Danderyd)可穿戴眼动追踪器并完成了校准程序。眼动追踪器的采样频率设置为50 Hz。一旦参与者准备好,就通过Tobii眼镜开始眼动追踪记录,并在整个实验过程中持续记录他们的目光移动轨迹。图1. B787全动D级飞行模拟器(CAE Inc.,加拿大魁北克省蒙特利尔)。
2.1.2. 参与者
共有11个飞行机组参与了本研究的模拟飞行实验,包括22名飞行员。每个机组由一名机长和一名副驾驶组成。所有飞行员的年龄在28至45岁之间,并持有B787飞机的航线操作资格。
2.1.3. 实验场景
实验路线设定为福州长乐国际机场(ZSFZ)至东京成田国际机场(RJAA)。飞机计划从福州长乐国际机场的21号跑道起飞,并降落在东京成田国际机场的16L跑道。起飞前,飞行机组已完成所有起飞前、发动机启动、滑行和起飞前的程序,以及滑行和起飞简报。飞机已经与塔台建立了通信,正在等待起飞许可。为了诱发飞行员意图,在执行飞行任务时引入了三种风险场景,即风切变、雷暴和单引擎故障。这些风险场景对应的飞行任务如表1所示。此外,每位高级飞行教练都参与了每次模拟飞行实验,他们担任空中交通管制员的角色,并负责触发风险场景以诱导飞行员的意图。表1显示了用于诱导飞行员操纵意图的实验飞行任务设置。在实验过程中,飞行员的意图是通过实验条件和空中交通管制员的指令来诱导的,而飞行员则独立做出决策并处理飞行任务。因此,没有指定固定的实验持续时间。实验在飞行员完成整个航线飞行任务并安全着陆后结束。在本研究中,意图被定义为飞行员执行明确控制动作之前的准备状态。具体来说,在执行飞行任务时,飞行员需要评估风险、选择响应策略并准备执行控制动作。这一阶段的认知活动被视为意图存在状态。相比之下,在没有新的控制动作且主要由自动驾驶仪维持的稳定飞行阶段,相应的样本被标记为意图不存在状态。
2.2. 数据采集
实验收集了七个眼动追踪参数,这些参数反映了飞行员的注视位置、眼状态和瞳孔直径,如表2所示。这些参数作为识别飞行员操纵意图的参考数据。由于本研究的目的是识别飞行员在操纵动作之前的意图状态,因此只从驾驶座(左侧座位)的飞行员那里收集眼动追踪数据。副驾驶主要协助驾驶座飞行员完成飞行任务,不参与关键的飞行决策过程。
2.3. 数据处理
2.3.1. 数据预处理
眼动追踪数据处理主要包括注视数据处理、注视分类以及瞳孔直径和眨眼行为的识别与清洗。注视数据使用滑动中值滤波器进行去噪,插值的最大间隔长度设置为75毫秒。注视分类采用I-VT(通过速度阈值识别)算法,该算法通过应用30°/s的角度速度阈值将眼动行为分为注视、扫视(眼跳)和无效点。瞳孔数据也使用滑动中值滤波器进行平滑处理,并利用线性插值处理小于2毫米的瞳孔直径。眨眼识别基于眼睛闭合的持续时间,时间域阈值分别为350毫秒和75毫秒。如图2所示,通过这种眼动追踪数据预处理获得了眨眼持续时间、注视持续时间和扫视持续时间的数据。
2.3.2. 飞行员意图数据集构建
基于飞行员的眼动追踪视频数据,本研究提出了一种利用眼动追踪信息确定飞行员意图样本的方法。在飞行员表现出特定控制行为之前,注视点首次进入导航显示器(ND)、主飞行显示器(PFD)或控制显示单元(CDU)区域的时刻被定义为意图的开始时间,而飞行员开始执行相应控制动作的时刻被定义为意图的结束时间。具体来说,ND主要显示轨迹、导航和天气信息;PFD整合了姿态、高度、速度、航向和飞行引导信息;CDU作为飞行管理系统的主人机界面,用于输入和修改航线、高度/速度限制以及进近程序。根据B787驾驶舱设计和标准操作程序(SOP),这三个面板构成了飞行员在轨迹规划和修改过程中的核心信息渠道。当飞行员执行改变飞机运动状态的操纵动作(如爬升、下降、左转和右转)时,他们通常从ND/PFD获取情境信息,并通过CDU或模式控制面板完成命令输入。对于意图的结束时间,控制轮和控制柱的偏转信号被用作主要标准。在爬升、下降、左转和右转等操纵动作发生前的2秒时间窗口内,计算相应控制通道的基线平均值和波动水平。然后,从基线期结束处向前扫描,如果该通道的偏转幅度超过预设阈值并且保持同一方向至少0.5秒,则相应的采样点被定义为操纵意图的结束时间。使用眼动追踪数据的时间戳作为主要时间线,意图存在样本被标记为“Intention = 1”,意图不存在样本被标记为“Non-Intention = 0”。最终构建了一个意图数据集,其中包含注视点位置、眼动角速度、瞳孔直径和飞行员意图标签。
2.4. 特征提取
2.4.1. 时间域特征提取
眼动追踪数据的时间域特征指的是沿时间轴的眼动追踪信号的瞬时特性,通过分析这些信号的时间序列获得。时间域特征可以直观地反映眼动追踪信号中固有的行为模式,常用于表征其时间域属性和稳定性。时间域中的平均值、标准差和均方根被用作特征指标。
2.4.2. 频域特征提取
为了捕捉飞行员意图状态下每个频带内眼动的能量分布和动态传递特性,本研究进一步使用功率谱密度(PSD)在频域中对预处理后的眼动信号进行表征,如方程(1)所示。
\[ \mathcal{P}(f) = \lim_{T \to \infty} \frac{1}{T} \int_{T_0}^{T} |x(t)|^2 dt \]
(1)
本研究将功率谱分为四个带宽:非常低频(ULF,0.05–0.20 Hz)、低频(LF,0.20–0.60 Hz)、中频(MF,0.60–1.60 Hz)和高频(HF,1.60–6.00 Hz)。在50 Hz的采样频率下,使用z分数标准化对每个参与者的注视点位置、眼动角速度和平均瞳孔直径进行了归一化。对于意图存在或不存在状态下的每个连续序列,使用Welch方法估计单边功率谱密度。具体来说,对于给定的归一化序列,在序列的两端首先应用10%的余弦窗口进行端点平滑。然后使用离散傅里叶变换在采样频率下对序列进行变换,并在0到fs/2(0–25 Hz)的范围内获得一系列离散频率点的单边功率谱密度估计。考虑到眼动和瞳孔信号的主要能量和行为相关成分集中在0.05–6.00 Hz范围内,而0.05 Hz以下的非常缓慢的变化主要反映基线漂移,6.00 Hz以上的成分主要是高频噪声或与本研究考虑的意图过程无关,因此仅在0.05–6.00 Hz范围内提取频域特征。然后累积每个频带内的功率,并相对于0.05–6.00 Hz范围内的总功率进行归一化,以获得特定频带的指数,如方程(2)所示。
\[ \mathcal{P}_ULF = \int_{0.05}^{0.20} |x(f)|^2 df, \quad \mathcal{P}_LF = \int_{0.20}^{0.60} |x(f)|^2 df, \quad \mathcal{P}_MF = \int_{0.60}^{1.60} |x(f)|^2 df, \quad \mathcal{P}_HF = \int_{1.60}^{6.00} |x(f)|^2 df \]
(2)
其中 \(f = \omega\) 表示频率变量,\(\hat{\mathcal{P}_x(f)\) 表示飞行参数的单边PSD估计,\(\mathcal{P}_x^i = \sum_{j} p_x^i\) 表示离散PSD的归一化概率分布,\(N\) 表示频率点的数量。
2.5. 问题构建
飞行员意图识别可以构建为一个监督分类任务,其中意图状态被标记为有意或无意。输入的时间域眼动追踪数据表示为方程(3)。
\[ \mathcal{E}_{ij, N} = 1 \]
(3)
其中 \(\mathcal{E}_{ij}\) 表示长度为 \(k\) 的眼动追踪时间序列数据,\(I_j\) 表示相应的意图状态,\(N\) 是样本数量。每个眼动追踪数据序列包含六个通道,每个通道的长度为 \(k\),如方程(4)所示。
\[ \mathcal{E}_{ij} = [x_{XY}, x_{YZ}, x_{AZ}, x_{BL}, x_{BR}, x_{RL}, x_{RM}] \in \mathbb{R}^k \times 6 \]
(4)
其中 \(x_{XY}\) 和 \(x_{YZ}\) 分别表示场景相机标准化视频平面上注视点的水平和垂直坐标。它们的值范围从0到1,原点位于标准化视频帧的左上角,是无量纲比例。\(x_{AZ}\) 表示每单位时间的注视方向角位移速度,单位为度/秒。\(x_{BL}\) 和 \(x_{BR}\) 分别表示左右瞳孔直径,单位为毫米。\(x_{RM}\) 表示平均瞳孔直径。当两只眼睛的数据都有效时,\(x_{RM}\) 通过 \(x_{RM}(t) = \sqrt{x_{BL}(t)^2 + x_{BR}(t)^2\) 计算得出;当某一时刻只有一只眼睛的测量数据有效时,\(x_{RM}(t)\) 被设置为有效眼睛的瞳孔直径。为了表征整体唤醒水平和两只眼睛之间的潜在不对称性,并在一只眼睛出现短暂信号丢失时提高鲁棒性,模型输入中保留了三个与瞳孔相关的通道 \(x_{BL}\)、\(x_{RM}\) 和 \(x_{RL}\)。模型使用上述六个眼动追踪通道的时间序列信息来识别飞行员的意图状态,如方程(5)所示。
\[ \hat{I}_{ij} = \arg_{\max}\{p_{ij} | \mathcal{E}_{ij} \}
(5)
其中 \(\omega = \{0,1\}\) 表示飞行员的意图状态。\(I_{ij} = 0\) 表示意图不存在状态,而 \(I_{ij} = 1\) 表示意图存在状态。在本研究中,飞行员执行特定控制动作(如改变航向、高度或推力)的时刻被作为参考点。从该时刻回溯,相应操纵意图的开始被定义为注视点首次进入任务关键仪表区域(如ND、PFD或CDU)的时刻。从该时刻到相应控制动作实际开始的眼动追踪间隔被标记为意图存在状态,而在此间隔之外且没有明显控制行为的其他眼动追踪段被标记为意图不存在状态。
2.6. 模型构建
本研究提出了一种基于RNN-BiLSTM架构的混合神经网络用于飞行员意图识别,如图3所示。首先,使用RNN层动态编码输入的多变量眼动追踪时间序列,捕捉短期依赖性和局部平滑模式。接下来,两个堆叠的双向LSTM层共同建模更长期的注视-扫视转换和瞳孔动态特征,无论是在前向还是后向时间背景下,从而增强网络表示战略性持续注视和快速注视转移的能力。在循环层之间应用Dropout和循环Dropout以减轻过拟合,并在网络末端添加两个全连接层进行非线性特征映射。最后,Softmax层输出每个意图类别的后验概率。总体而言,该模型有效地捕获了时间序列中的历史信息,并从眼动追踪数据中提取了非线性和动态特征。
2.6.1. 模型训练策略
数据集被随机分为训练集和测试集,用于模型训练和评估。这种随机划分确保了训练集和测试集中四种操纵类型的意图数据分布均衡,从而使每种操纵类型的比例在两个数据集中保持一致。在训练过程中,计算了意图和非意图样本的类别权重,以解决数据集中的类别不平衡问题。为了减轻受试者之间的分布偏差,使用中值居中和MAD(中位数绝对偏差)缩放对输入特征进行了稳健标准化。训练过程采用交叉熵损失和Adam优化器,同时实现了提前停止和自适应学习率衰减,以确保收敛稳定性。此外,学习率和梯度裁剪值分别设置为0.001和1.0。模型经历了80个训练周期,训练和优化设置总结在表3中。
2.6.2.评估指标
为了评估模型性能,采用了四种常用的分类指标,即准确率(accuracy)、精确度(precision)、召回率(recall)和F1分数(F1-score),如公式(6)所定义:
$$
\begin{align*}
Acc &= \frac{TP + TN}{TP + TN + FP + FN}, \\
Pr &= \frac{TP}{TP + FP}, \\
Re &= \frac{FN}{FN + FP}, \\
F1 &= \frac{2 \cdot Pr \cdot Re}{TP + FN},
\end{align*}
$$
其中,Acc代表准确率,Pr代表精确度,Re代表召回率,F1代表F1分数,TP、TN、FP和FN分别代表真正例、假负例、假正例和假负例。由于本研究中非意图样本的数量多于意图样本的数量,因此仅在训练集内的非意图样本上进行了下采样,以提高模型的分类能力。
2.6.3 基线模型和参数设置
为了评估所提出的RNN-BiLSTM模型的有效性,引入了几种基线模型进行比较,包括逻辑回归(Logistic Regression)、支持向量机(SVM)、XGBoost和随机森林(Random Forest)以及LSTM。LSTM模型采用了与所提出的RNN-BiLSTM模型相似的训练策略,包括相同的优化器和学习率调度。相比之下,传统的机器学习模型(如线性回归、SVM、随机森林和XGBoost)使用网格搜索来确定最优参数。所有基线模型的详细参数设置列在表4中。此外,为了避免不同模型之间输入格式的混淆,本研究始终使用由六个通道组成的原始眼动时间序列作为输入。对于传统的机器学习模型,每个固定长度的多变量时间序列样本在输入模型之前会沿着时间维度被展平为一个一维的固定长度向量。对于深度学习模型,时间序列的原始时间结构被保留,数据以多变量序列的形式直接输入模型。
3. 结果
本节分析了主要负责控制飞机的飞行员的眼动特征以及相应的意图识别结果。第3.1节和第3.2节分别分析了两种意图状态在时域和频域的眼动特征差异。第3.3节和第3.4节描述了意图识别的模型参数和训练过程。第3.5节通过多个模型之间的性能比较展示了意图识别模型的结果。
3.1 意图样本获取
从实验视频中检测到总共650个意图事件,包括114次爬升操作、362次下降操作、108次左转操作和66次右转操作。统计分析显示,大多数意图事件段的持续时间在4秒以内,如图4所示。因此,所有意图事件样本都被均匀重采样为操作开始前的4秒时间段。此外,从一个操作完成到下一个操作开始之间的间隔中提取了600个持续时间为4秒的非意图事件。然后根据视频序列中的最终操作动作对序列数据进行标记。对于每个操作类别的飞行员意图,80%的数据被随机选用于模型训练,剩余的20%用于模型测试。这种随机划分确保了四种操作类型在训练集和测试集中的意图数据分布平衡,从而保持了每个操作类型在两个数据集中的比例一致。
3.2 时域特征分析结果
为了验证有意状态和无意状态下飞行员眼动时域特征的分布差异,本研究对注视点位置、眼动角速度和瞳孔直径的时域特征分布进行了统计分析,如图5所示。根据图5,综合考虑三个时域指标,注视点位置X的平均值、方差和RMS在两种样本之间没有显著差异(p > 0.05),而注视点位置Y的方差在两组之间达到了显著水平(p < 0.05)。从图中可以看出,意图样本表现出更集中和稳定的分布模式,而非意图样本在空间上相对更分散,波动更大。这表明,在进入操作执行阶段之前,飞行员在意图形成阶段已经逐渐将视线集中在任务关键区域。相比之下,在非意图监控阶段,视线在垂直方向上更加分散。在水平方向(X)上,意图组的平均值和中位数通常略低,分布更集中,四分位数范围明显更窄。同时,方差和RMS通常小于非意图组,长尾被压缩。这表明,在意图驱动状态下,水平视线位置更稳定,波动更小,反映了更强的目标定向和视线控制能力。在垂直方向(Y)上,意图组的平均值和中位数也略有下降,方差和RMS通常更小。然而,Y方向的分布宽度相对较大,表明这个方向更容易受到任务情境和个体差异的影响。
根据分布统计,两种状态下的注视点位置X的平均值、方差或RMS没有显著差异(p > 0.05)。这表明,在当前的实验设置下,整体水平视线中心和水平覆盖范围在意图形成前后基本保持一致。在垂直方向上,注视点位置Y的平均值或RMS没有显著差异(p > 0.05);然而,其方差在非意图状态下的显著高于意图状态(p < 0.05)。这一结果表明,在非意图监控阶段,视线在垂直方向上更加分散,而在特定操作之前的意图阶段,视线在仪表板的某个垂直带内更加集中,垂直扫描范围明显减小。这与飞行员专注于ND/PFD区域的关键信息以支持决策的机制一致。
根据图6,意图和非意图类别的平均值和中位数分布有很高的重叠度,只有轻微的偏移。这表明平均运动速度在区分意图状态方面的能力有限。相比之下,方差和RMS显示出两个类别之间的显著差异。意图类别的分布显示出上尾的明显增厚和多模态结构,表明虽然整体中心位置相似,但高波动、高能量的片段出现得更频繁。非意图类别的分布更集中,特征是较轻的重尾和更稳定的整体分布。这表明意图驱动的注视和扫视行为更容易出现阶段性“爆发”,表现出快速的变化和短期加速,从而增加了方差和RMS的上尾。在非意图状态下,眼动更接近于缓慢、均匀的跟随模式。
3.3 频域特征分析结果
为了进行统计分析,比较了意图样本和非意图样本在每个变量和每个频率带的平均功率谱密度(PSD)。直方图检查显示,没有特征遵循正态分布;然而,在当前的样本量下,所有特征通常表现出单峰分布,偏度有限,如图8所示。因此,本研究采用了零假设,即两种意图状态下的眼动指标的总体平均值相等,并使用了对不等方差具有鲁棒性的Welch’s t检验来分析意图状态(意图/非意图)作为自变量的组间差异。对于偏度较大的指标,进一步使用了Mann–Whitney U检验进行验证,两种方法得出了一致的显著性结论。为了控制多重比较引起的假发现率,使用Benjamini–Hochberg方法对p值进行了校正。结果列在表3中。根据表5,在所有四个频率带中,意图状态下的瞳孔直径功率谱密度显著高于非意图状态,特别是在低频(LF,0.20–0.60 Hz)和中频(MF,0.60–1.60 Hz)带中。这表明当飞行员形成明确意图时,自主和认知负荷相关的瞳孔振荡表现出宽频增强,特别是在低至中频范围内,反映了更高的唤醒水平和持续的注意力。
关于注视位置,意图注视期间的中频(MF)带的功率显著增加,而Y方向的低频(LF)带显示出与边缘相关的显著波动。这表明飞行员在意图注视期间的中频节奏(0.6–1.6 Hz)中表现出更强的注视位置波动,表明更频繁的目标搜索和仪表监控行为。相比之下,角速度的功率在任何频率带上都不显著,表明与速度相关的功率更容易受到微妙扫视和个体策略的影响。
总体而言,基于频域特征的分析结果,瞳孔直径和注视点位置代表了区分有意和无意注视的最具区分性的变量组合。在模型识别过程中,应优先考虑瞳孔的低至中频功率和注视点的中频功率,同时在模型层面应结合事件级别的速度特征提取以进一步提高识别性能。
3.4 模型训练
模型使用第2.6节中描述的策略进行训练和评估。图9展示了RNN-BiLSTM模型的准确率和损失。其训练集和测试集的准确率分别为98.0%和97.8%。经过仅仅少量的迭代后,训练集和测试集的准确率都超过了95%,显示出强大的短期学习能力。此外,随着迭代次数的增加,测试集的准确率逐渐稳定,波动控制在3%以内,损失值也没有呈现上升趋势。这表明模型能够在长期学习过程中有效识别飞行员的意图。图9显示了模型在训练集和测试集上的准确率训练结果。3.5 模型性能使用第2.6节描述的实验设置,对提出的RNN-BiLSTM模型与基线模型进行了性能比较。表6展示了六个模型的性能。显然,LSTM模型相比其他模型具有显著更高的识别准确率。通过使用RNN层动态编码眼动时间序列,并随后堆叠两个双向LSTM层,模型性能得到了显著提升。这表明深度学习模型的神经网络架构在处理大规模数据和识别特征模式方面具有显著优势。RNN和LSTM模型的结合在捕捉有效特征和处理时间序列数据方面表现出更强的性能。表6展示了飞行员意图识别模型的评估指标比较。为了更直观地比较各模型识别意图样本的能力,表6中列出的每个模型的F1分数和召回率被绘制在条形图中,如图10所示。可以看出,在飞行员意图状态识别方面,RNN-BiLSTM模型在F1分数和召回率方面都取得了最佳性能。图10显示了“意图”类别的F1分数与召回率的条形图。4. 讨论本节讨论了使用眼动数据来识别主要负责控制飞机的飞行员的意图的结果。4.1 讨论了基于不同意图样本下的眼动数据特征分析结果,飞行员在形成意图过程中的眼动模式变化。4.2 讨论了眼动数据在飞行员意图识别任务中的适用建模范式。4.3 从飞行安全的角度讨论了飞行员意图识别对机载预警系统的影响。4.4 讨论了本研究的局限性及相应的未来计划。4.1 飞行员在形成意图过程中的眼动模式本研究的主要目标是调查飞行员的眼动模式与其意图状态之间的关系。这些眼动模式体现在注视位置、眼动角速度和瞳孔变化上。结果显示,尽管不同指标的显著性水平并不完全一致,但总体趋势是明确的。进入意图状态后,飞行员的注视分布更加集中在任务关键区域,某些指标的垂直方向上的注视位置波动显著减少,多个频率带内的平均瞳孔直径的相对功率显著增加。这些发现表明,在执行机动动作之前,主要负责飞机控制的飞行员会重新分配视觉资源到与当前任务高度相关的区域,同时伴随着一定的唤醒水平和认知工作负荷的增加。为了研究飞行员在进入意图状态后主要注视的关键区域,我们计算了意图样本和非意图样本中飞行员主要关注区域的比例,如图11所示。可以看出,飞行员进入意图状态后,对PFD、ND和CDU仪器的注视比例显著增加,而对其他区域的注视显著减少。值得注意的是,在意图状态下,对ND仪器的注视比例显著增加,这可能表明飞行员在形成意图的过程中更加关注导航和周围环境信息。从眼动数据的频域指标来看,意图状态下平均瞳孔直径的能量比例在低频和中频成分中增加,而高频噪声成分没有显著增加。这表明,在机动意图形成过程中,飞行员没有表现出无序的快速波动,而是显示出相对稳定的瞳孔调节,且幅度较大。这种眼动模式与“感知-判断-执行”的多阶段决策过程一致:信息首先通过相对缓慢的眼动扫描被感知和整合,随后在短时间内进行机动决策和执行准备。4.2 基于眼动数据的飞行员意图识别适用建模范式本研究中讨论的所有模型都是基于相同的六通道原始眼动数据开发的意图识别模型。模型之间的差异在于如何表示和建模相同的原始序列。传统的机器学习模型通过将时间序列展平为固定长度的向量来进行静态模式学习,而深度学习模型保留了眼动数据的时间信息。根据表6中的模型性能比较,所有模型都能够识别飞行员的意图状态,但它们的性能水平存在显著差异。这表明眼动序列包含了与飞行员意图相关的可利用的预测信息,但通过时间建模可以更充分地利用这些信息。模型之间的性能差异反映了眼动数据在不同建模范式下支持意图识别的能力。逻辑回归模型的准确率为0.497,F1分数为0.493;SVM模型的准确率为0.672,F1分数为0.511。这些结果表明,当每个时间窗口被压缩成静态特征向量并且假设样本是独立同分布的时,模型只能捕捉到有限的线性或核空间可分性,这不足以描述意图形成中涉及的更复杂的非线性和时间依赖性。基于树的集成模型在一定程度上缓解了这一限制。随机森林模型的准确率为0.712,F1分数为0.686;XGBoost的准确率和F1分数分别进一步提高到0.839和0.832。这表明集成学习可以更有效地利用眼动统计特征之间的非线性交互。然而,这些模型仍然主要在“无序特征”空间中操作,无法明确表示注视序列和节奏等时间结构。序列模型的结果显示,当模型能够明确编码时间依赖性时,眼动数据的预测能力显著增强。单向LSTM的准确率为0.913,F1分数为0.862,比表现最好的基于树的模型提高了约0.03的F1分数,召回率从0.850增加到0.905。这表明,与仅基于静态特征的模型相比,能够编码眼动数据时间依赖性的序列模型在意图识别任务中具有明显优势。此外,RNN-BiLSTM在此基础上引入了双向结构,使模型能够在局部时间窗口内同时利用短期“过去”和“未来”的上下文。其准确率和F1分数分别达到0.978和0.948,召回率进一步增加到0.965,同时保持了与单向LSTM相比的高精度。这些结果表明,眼动序列的预测优势不仅来源于空间分布的差异,还来源于任务关键区域之间注视转换的序列及其时间演变模式。只有具有记忆机制的时间模型才能充分利用这些信息。总之,对于飞行员意图识别,眼动数据更适合在时间建模框架内使用。在未来的工作中,当引入飞行参数、控制输入和生理信号等多模态信息时,也应优先考虑将它们整合到统一的序列建模范式中,以保留并进一步增强时间特征带来的预测优势。4.3 飞行员意图识别对机载预警系统的影响从飞行安全的角度来看,通过眼动数据识别飞行员的意图可以提供关于即将发生的机动动作的提前信息,从而为各种场景下的机载预警系统提供额外的维度。大多数现有的机载预警,如地形接近预警、失速预警和空速/高度偏差预警,主要基于飞机状态和环境测量,而没有考虑飞行员的控制意图。在这种框架下,预警系统只能在偏差已经明显发生后才被触发。这不仅可能导致预警延迟,还可能在预期的机动动作期间频繁发出预警,从而降低机组对系统的信任。例如,当飞机已经处于着陆配置并与跑道对齐,但高度仍然过高,飞行员启动复飞时,按下改变高度(LVL CHG)开关命令爬升可能会导致自动驾驶系统迅速建立爬升,从而导致空速突然下降,这可能与飞行员的意图不符。在这种情况下,基于眼动数据的飞行员意图识别可以在控制动作开始之前预测飞行员的意图。一方面,当飞行员有意改变高度或航向时,可以适应性地抑制或延迟某些预警,从而减少预期机动动作期间的频繁警报。另一方面,当系统预测的意图与当前飞行程序、自动驾驶模式或标准操作程序(SOP)明显不一致时,预警系统可以提前发出警报或提示,表明意图与飞行状态不匹配,从而为机组提供额外的时间来评估意图的合理性及潜在的人为因素风险。类似的概念也可以应用于飞行训练和评估系统,通过在模拟器训练中实时监控学员的意图并分析错误意图形成的时间和原因。然而,从实际应用的角度来看,意图识别模型不应作为一个孤立的功能存在。相反,这种方法需要与其他飞行安全预警系统协调工作,以支持综合预测。在未来的研究中,有必要进一步探索风险场景下飞行员意图生成的机制,并以更细致的方式识别飞行员意图类型,以便飞行安全预警系统能够以更可解释的方式考虑飞行员意图。因此,为了实现有效的飞行员辅助,需要一个结合飞行安全预警和飞行员意图识别的综合系统。4.4 局限性和未来展望本研究有几个局限性,应在未来的研究中充分考虑。首先,本研究基于从受控模拟飞行实验中获得的数据,其中飞行场景、风险事件和任务节奏都是由实验设计预先设定的,飞行员参与者和飞机类型也有限。尽管这种设置有助于控制干扰因素并验证所提出方法的可行性,但它仍然不同于实际操作中遇到的更复杂的飞行情况、任务工作负荷和操作习惯。因此,当前结果主要反映了在特定模拟环境和参与者群体下基于眼动数据的飞行员意图的可预测性,尚不足以直接推广到多种飞机类型、多个机组和复杂的操作环境。未来的研究应使用更大规模的模拟飞行数据和来自多种飞机类型的实际飞行操作数据来进一步验证模型的鲁棒性和可转移性,并应检查不同经验水平和任务类型对意图识别性能的影响。其次,为了揭示飞行员在控制执行前的眼动行为与其意图状态之间的关系,本研究有意将输入特征限制在眼动相关变量上。因此,模型没有纳入其他模态信息,如飞行参数、控制输入或生理信号。它也没有对不同的机动类型(如爬升、下降、左转和右转)进行更细粒度的多类预测,而是首先关注意图/非意图的二元分类任务。这种设置有助于突出眼动追踪信号的独立贡献,但同时也意味着当前模型无法直接区分特定意图对应的具体操作类型,也无法表征更复杂的组合操作意图。为了将所提出的方法扩展到对特定类型飞行员操作意图的识别,首先需要在统一的框架内定义不同的意图类型。然后可以采用分层策略,首先使用二元分类器来检测是否存在意图,接着使用第二阶段分类器在被归类为“意图”的时间窗口内进一步识别具体的操作类型。最后,尽管RNN-BiLSTM在本研究中取得了最佳的预测性能,但其内部状态表示和决策过程对飞行员来说仍然是黑箱。当前的分析主要通过整体性能和不同模型之间的比较间接展示了基于眼动追踪数据在飞行员意图识别中的时间依赖性重要性。然而,模型关注的关键时间段和特征维度尚未系统地与飞行员的认知阶段联系起来。在未来的工作中,可以引入注意力机制、时间步长敏感性分析和特征贡献度量等方法来提高模型的可解释性。结合行为和认知理论,这些方法可能有助于建立一个一致的解释框架,将意图形成过程中的眼动模式与模型输出联系起来。
5. 结论
本研究分析了意图状态和非意图状态下眼动追踪数据的时间域和频域特征,并建立了一个深度学习模型来识别飞行员的意图状态。根据本研究的结果,可以得出以下主要结论:
(1) 根据眼动追踪特征的时间域分析结果,在意图形成过程中,飞行员倾向于提前将视觉资源集中在任务关键的仪表区域,并通过更稳定的瞳孔反应来支持信息获取。
(2) 根据眼动追踪特征的频域分析结果,在意图形成过程中更具区分性的指标是低频到中频范围内瞳孔直径的节奏性振荡以及中频带内注视位置的增强波动。这表明,在建模时应优先考虑瞳孔直径的低频和中频功率以及注视位置的中频功率,而与速度相关的特征应转化为更高层次的基于事件的特征。
(3) 基于眼动追踪数据的飞行员意图状态识别结果表明,眼动行为本身包含了关于飞行员意图的可利用的预测信息,而这些信息只有通过具有记忆机制的时间模型才能被充分利用。
(4) 本研究仍受到样本量、使用单一眼动追踪方式以及在事件级交叉验证框架下获得的性能的限制。因此,未来的工作需要基于多模态融合和更大规模的验证来进一步评估该方法在机载预警系统中的工程应用边界。
与现有的飞行员意图识别方法相比,本研究分析了飞行员意图存在时眼动追踪数据的时间-频率特征,揭示了有效提高飞行员意图识别模型性能的眼动追踪特征,并讨论了适用于基于眼动追踪数据的飞行员意图识别的建模范式。本研究的结果为研究人员和政策制定者提供了提高飞行员意图识别准确性的新视角。目前,所提出的方法仅适用于识别飞行员意图是否存在。未来的工作将基于本研究的结论,专注于识别不同类型飞行员意图的分类方法。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号