衡量网络守护者的认知能力:情境感知可预测操作员的绩效
H?vard Jakobsen Ofte 和 Sokratis Katsikas
《Information》:Measuring the Awareness of Cyber Guardians, Situation Awareness Predicts Operator Performance
H?vard Jakobsen Ofte and
Sokratis Katsikas
【字体:
大
中
小
】
时间:2026年04月30日
来源:Information 2.9
编辑推荐:
摘要:在网络安全(CS)领域,操作员的情境意识(SA)对于有效应对关键基础设施中的事件至关重要。许多先前的研究提出了改进SA的工具和方法,但关于SA对性能影响的实证证据普遍不足。在这项研究中,我们提供了来自关键基础设施领域的实证证据。来自电力行业? ?? ?? ?? CS ???
摘要:在网络安全(CS)领域,操作员的情境意识(SA)对于有效应对关键基础设施中的事件至关重要。许多先前的研究提出了改进SA的工具和方法,但关于SA对性能影响的实证证据普遍不足。在这项研究中,我们提供了来自关键基础设施领域的实证证据。来自电力行业? ?? ?? ?? CS ???? ??? ??? ???? ?? ?? ?? ??? ??????. ? ???? SA, ??, ? ??? ???????. SA? ?? ?? ?? ?? ??(SAGAT)? ???? ???????. ????? ???? ??? ? ?? ??? ??????: ? ?? SA? ? ?? ??? ??? ???, ???? ??? ??? ? ?? ??? ??? ????. ??, ? ?? SA? ???? ???? ? ?? ??? ??? ? ????. ???, ??? SA? ??? ????? ???? ??? ??? ????? ??? ??? ??? ?? ?????. ?? ?? CS ???? ?? ??? ??? ??? ??? ? ? ???? ??? SA ?? ??? ???? ?? ?????. ? ??? ??? SA? ?? ??? ?? ??? ???? ? ?????.
1. ??
?? ?? ??? ??? ??(CS)?? ??? ?? ?? ??? link? ?????. ?? ???? ??? ??? ??? ?? ???? ????[1], ??? ????? ?? ??? ?? ??? ?? ???? ?? ???? ?? ???? ???? ?????[2]. ? ??? ??? ?, ??? CS ??? ??? ??? ??? ?? ?????[3]. ??? ??? ?? ???? ? ???? ??? ??? ??? ????: ?? ??? ???? ??? ?????? ???? ??? ?? ???? ?????. ?? ??(IT)? ?? ??(OT)? ???? ??, ?? ??? ???? IT? ???? ???? ??? ??? ?? ??? ???????[4]. Stuxnet[5], Hydro? ?? ??[6], ?????? ?? ???? ?? ?? ??[7] ?? CS? ???? ??? ????? ??? ?? ??? ???? ??? ???? ?????. ??? ???? ???? ????? ??? ??? ??? ?????. ??? ??? ???? ???? ??? ??? ????, ??, ??, ???? ??? ???, ??? ??? ??? ? ??? ??? ?????[9]. ??? ??? ??? ????? ??? ??? ??? ??? ??? ??? ???? ????. ?? ??, ??? ???? ?? ?? ??, ???? ?? ??, ? ???? ?? ?????? ?? ??? ?? ????[10]. ??? ?? ?? ?? ??? ?? ??? ??? ??, ?? ?? ??????, ???? ??? ?? ??? ??? ????[11]. ??? ?? ???? ??? ????? ????? ?? ??? CS ??? ??? ???, ???? ?? ??? ?? ?? ???? ?? ??? ????. ??? ??? ??? ?? ?? ??? ??? ??? ?? ??? ????, ?? CS ??? ??? ? ????. ?? ?? ??? ????? ??????? ???? ????[8]. ??? ??? ???? ???? ? ??? ??? ?? ? ??????, ?? ????? ??? ??? ????, ??? ?????, ??? ??? ???? ? ??? ????? ???. ?? ???? ?? ? ??? ??? ????? ?? ??(SA)???. SA? ???? ???? ?? ??, ?? ??, ? ???, ??? ?? ??? ??? ??? ?? ?? ????? ????????[12]. SA? CS?? ?? ??? ??? ?????[13], ? ???? ???? SA? ???? ????? ??? ??? ??? ??? ??? ??? ?? ????[14,15]. ??? CS ?? ??? ???, SA? ?? ??? ??? ????? ?????[13,16]. ?? ?? ???? CS??? ????? ??? ??? ????? ??? ??? ????? ???? ??? SA? ?? ??? ??? ?????[17]. SA? ???? ?? ??? ???? ?? ??? ????, ???? ??? ?? ????. ???? ?? ?, ? ??? ?? ???? CS?? SA? ?? ?? ??? ???? ??? ??? ?????. ? ??? CS ???? SA? ???? ??? ??? ???? SA? ?? ?? ??? ???????. ??? ?? ? ??? ??? ??? ??? ?? ?? ???? ?????? ????.
?? ?? ??? ?? SA? ??? ???? ???? ? ?? ?? ??? ???? ???. ??, ?? ???? SA? ??? ???? ???? ????? ???. ?? ???? CS ?? ?? ????? SA ??? ??? ? ?? ??? ??? ? ????. ?? ??? ???? CS??? SA? ????? ?? ??? ????, ?? ???? ???? CS ????? SA? ??? ??? ??????. ???? ?? ??? ?? ??(GDTA)? ?? ?? ???? CS ????? ?? ??? ???, ? ???? SA? ????? ??? ? ?? ?????[8]. SOC ????? ?? ?? ?? SA? ???? ???? ?? ??? ??? ???? ???? ???[8]. SA? ???? ???? ??? ????? ???? IT ???? ??????? ????? ?????[8]. SA?? ?? ?? ?? ??? ??? ??? ?? ??? ?? ??? ??? ?????[8]. ??? ???? ??? ??? ?? ??? ???, ?? ??? ?? ?? ??? ??? ?? ????? ???? ??? ?????[8]. ? ????? ???? ?? ??? ?? CS ?? ?? ????? ?? ?? ?? ?????? SA? ??? ????? ??????. ? ????? ??? ?? ??? ???? ???? ???? ?? ??????. ???? ??? ?? ??? ?? ????? ???? ?????. SA? ?? ?? ?? ?? ??(SAGAT)[18]? ???? ??????, ??? ????? ?? ??? ?? ???? ???? ???? ? ??? ??? ?? ???????. ? ???? ??? ?? ??? ????? 3??? ??? ?????. ?? ??? ???? ? ?? ??? ????, ?? ??????:
H1. ? ?? ?? SA? ? ?? ??? ??? ????.
H2. ???? ??? ??? ? ?? ??? ??? ????.
H3. ? ?? SA? ???? ???? ? ?? ??? ??? ? ????.
SA? SAGAT ??? ???? ??????, ??? ??? ???? ???? ???? ? ??? ??? ?? ???????. ??? ????? ?? ?? ?? ????? ???????. ? ? ??? ?? ??? ?? ????? ???????. ??? SA? ??? ?? ??? ??? ??, ?? ?? ?? ??? ??? ???????, ?? ???? CS ????? ??? SA? ??? ??? ?? ??? ?? ??? ???? ? ??????. ??? SA? ??? ???? ??? ???? ??? ????? ??? ??? ??? ??????, ?? SA? ???? ?? ???? CS? ???? ? ?? ??? ?? ?? ??? ?????. ? ??? ?? ???? ???? CS ?? ?? ????? ??? ????? ? ???? ??? ?????.
? ??? ??? ??? ??? ?? ???? ????: 2???? ?? ?? ??? CS ?? ?? ????? SA? ?? ?? ??? ?????. 2???? ? ???? ??? ??? ??? ?????. 3???? ????, ???? ??, ?? ?? ? ??? ?????, ??? ??? ?? ??, ??? ???? ? ??? ??? ??? ?????. 4???? ??? SA, ??, ??? ??? ??? ??? ??? ?????. 5???? ??? ?? ??? ???? ??? ??? ?????. 6???? ??? ?? ??? ???? ?????.在这个领域中,维护计算机安全(CS)的任务必须与维持关键物理系统的操作控制需求进行平衡[17]。一个例子是自动化的CS缓解系统,它通过隔离网络中受影响的单元来响应检测到的入侵。在关键基础设施中,这种类型的缓解措施可能会比让系统保持受损状态造成更大的危害,因为它可能会降低操作控制能力[27]。这样的困境凸显了在关键基础设施的CS中需要人类参与的重要性,并且需要从以人为本的角度来分析感知安全(SA)。在之前的研究中,我们回顾了关于SOC环境中SA的现有研究[14],并对关键基础设施中的一次真实事件响应进行了案例研究[27]。这些研究表明Endsley的SA模型是最被认可的[14],并且能够高度解释该领域中的真实决策过程[27]。因此,本研究采用了Endsley对SA的定义,并结合了为网络SA制定的领域规范[19,23,24]。
2.2. 测量SA对性能的影响
在关键领域测量SA的主要动机之一是评估影响SA的因素。这可以指导工具的开发、组织变革的实施或提供特定培训,以提高操作人员的SA[28]。这些活动的一个基本假设是,改善SA会带来性能的提升。这一假设已在大量人因研究中得到验证,并被广泛接受[29]。然而,当SA研究被引入新领域时,这种联系需要重新审视。其背后的原因与SA的测量方式以及测量技术的验证方法有关。在SA研究中已经开发并应用了一系列测量技术,这些技术可以分为冻结探针、实时探针、自我评估、观察者评估和间接测量[30]。冻结探针涉及在给定时间间隔停止任务,并询问操作人员对当前情况的理解,然后将其评估为SA。探针问题必须基于对特定情境下理想SA的深入理解来设计。实时探针也类似地询问操作人员的SA情况,但不会停止正在进行中的任务。这些探针技术通常被称为SA的客观测量方法。自我评估技术是用于主观测量操作人员感知的SA,通常通过问卷进行。观察者评估则利用主题专家(SMEs)在任务完成过程中对操作人员的SA进行评分。间接测量方法评估与SA相关的行为或生理方面,例如跟踪眼球运动、分析沟通或评分整体表现[30,31]。如果要将这些间接测量结果用于推断操作人员的SA,它们需要经过更直接的SA测量方法的验证。
在所描述的测量技术中,客观SA测量方法在预测性能方面有最有力的证据和支持最高的有效性声明[29]。其中,研究最多的是SAGAT方法的冻结探针[18],这也是本研究采用的SA测量技术。据作者所知,此前没有实证研究使用客观SA测量方法来研究CS领域中SA对性能的预测能力。尽管关于CS中SA的实证研究有限,但回顾其现状仍然很有用。已经进行了大量的研究来开发改进CS领域SA的工具和方法,包括可视化工具、数据分类工具和决策支持系统[14]。在为数不多的实证研究中,很少有研究使用公认的技术来测量SA[32]。值得注意的例外包括一项比较了使用和不使用可视化工具时SA水平与性能的研究[33],以及为日志分析师开发的一种基于SAGAT的测量工具[32]。
CS领域进行实证SA研究的一个障碍是缺乏对操作人员工作环境的访问权限[8]。这种访问权限对于确定任务和SA需求至关重要,以便在CS的背景下适当地实施SA。推荐用于开发特定情境下SAGAT测量的方法是目标导向任务分析(GDTA)[18]。已经有过多次尝试来绘制CS领域中的任务和SA需求图谱,其中一个显著的例子是已完成的一种GDTA[34],部分成果发表在后续的文章中[24]。据作者所知,目前只有一项针对关键基础设施中事件响应操作人员的GDTA映射研究[8],它是本研究SAGAT测量的基础。第3节提供了关于如何测量SA的详细说明。
2.3. 动机和理由
在进行关键基础设施中CS的SA实证研究时,需要解决一些关键假设。如前所述,普遍认为SA在这个领域对操作人员很重要,并且已有大量研究致力于提供改进SA的工具和方法[35]。目前我们还不知道SA如何影响CS领域的性能。因此,旨在改进SA的努力可能会偏离方向,要么集中在不相关的领域,或者在最坏的情况下,如果改进的SA根本不会影响性能,那么这种努力将是徒劳的[13]。因此,在本研究中,我们旨在通过实验直接验证这一假设。我们使用公认的SA方法[18]来实验性地测试SA与性能之间的相关性,从而回答H1问题。
在其他领域的SA研究中,有人对Endsley的SA模型的构念有效性提出了质疑[20]。一些观点集中在不同认知过程之间的相互作用上,认为SA是一个与其他既定概念重叠的宽泛概念[36]。从先前的研究中我们知道,在关键基础设施的CS领域,经验被认为对性能非常重要[8,27]。评估SA是否与其他假设的性能预测因素存在问题性重叠的一种方法是评估经验的影响。因此,我们通过实验性地测试相关经验的程度与性能之间的相关性来回答H2问题。这样我们不仅可以评估经验的效果,还可以初步分析SA预测能力的独立性。
SA研究中的一个问题是,通常提供的方法学描述和数据不够详细,无法充分评估研究结果[37]。通常只报告SA与性能之间的相关性,且统计基础不明确。这对于进行SA的元研究来说是具有挑战性的,因为存在过拟合和发表偏误的问题[37]。为了应对这些批评,我们提供了关于如何测量SA和性能的明确规范,以及实验中它们关系的清晰统计分析。我们通过统计分析来回答H3问题,即SA是否能在独立于经验的情况下对性能具有预测能力。通过对这些关系进行多元线性回归分析,我们提供了统计数据,同时也控制了另一个假设的强性能预测因素。
3. 方法
3.1. 参与者和情境
本研究于2025年第一季度在挪威电力行业的一个专业SOC设施中进行,该机构负责为客户的网络和CS提供支持。该实验是对同一SOC环境中进行的GDTA研究的后续研究[8]。进行实验的研究人员在SOC担任研究职位,获得了基于真实事件进行这项研究的必要安全许可。有关本研究的具体背景(关键基础设施中的CS),请参阅[8]。参与者是从SOC组织内部招募的。所有参与者在实验前都提供了书面知情同意书,并且可以在研究过程中随时因任何原因撤回同意。该研究已获得挪威教育和研究共享服务机构的预批准,以确保符合GDPR规定。这包括一个预先批准的数据收集和存储计划,该计划已提供给参与者。
共招募了12名参与者参与研究。其中一名参与者选择不完成实验,最终实际参与研究的参与者为11人。这个样本量比SAGAT研究中的典型样本量小,但在有专家参与的研究中,参与者数量通常也较少。在最近的一项元研究中,共发现了34项SAGAT性能预测研究,中位数为20名参与者,7项研究报告的参与者数量在9到14人之间[37]。尽管如此,许多研究仍然在这些参与者数量的情况下进行了多次SA与性能之间的相关性分析[37]。尽管本研究的参与者数量处于较低范围,但它仍符合每项SA查询建议的30-60个样本的标准[38,39]。每位参与者在实验中重复相同的SAGAT查询五次,从而得到了55个SAGAT查询样本量(详情见第3.3节)。
所有参与者均为男性,年龄在28至48岁之间。在潜在的SOC操作人员中没有女性参与者。SOC的负责人(女性)确认这种性别平衡代表了挪威电力行业内专业网络事件SOC操作人员的实际情况。所有参与者都是具有关键基础设施CS事件响应经验的专业操作人员。他们的事件响应经验从3年到超过20年不等。他们的角色各不相同,例如安全执行官、安全顾问、网络架构师和网络技术员。他们在具体模拟任务中的经验和当前职责在第3.3节中有详细描述。
3.2. 场景和模拟
在进行具有客观SA测量的实证研究时,通常首选模拟任务。这种方式提供了受控的环境,使参与者能够面对现实的任务,同时也能严格测试他们的意识[40]。模拟的真实性决定了研究结果在现实世界中的适用程度。在少数CS领域的实证SA研究中,使用模拟工具来模拟操作人员的工作过程[41,42]。在第2.2节提到的两个值得注意的研究中,第一个研究开发了一个半真实的模拟工具,并比较了使用和不使用可视化模块的操作人员的SAGAT得分。在第二个研究中,使用了更真实的模拟工作环境来进行GDTA,并为日志分析师开发了SAGAT测量方法,允许参与者在完成任务时使用真实世界的工具[32]。这两项研究的场景都是基于之前进行的安全演练。
本研究中使用的场景和模拟是由一名研究人员(其中一位作者)和两位来自同一SOC的主题专家(SMEs)在2024年第四季度开发的。这样做是为了最大化场景的真实性和相关性,以及事件响应模拟的准确性。该场景基于SMEs在挪威电力行业实际事件中的经验。首先,研究人员向SMEs介绍了研究的目标,并要求他们提出能够挑战参与者SA的场景和模拟。选择的场景是与GDTA中描述的网络事件类型相匹配的,而GDTA在很大程度上基于现场观察[8]。SMEs随后制定了一个场景草案,并与研究人员合作进行了迭代修改。该场景基于SOC环境中已识别的风险,涉及的任务是SOC事件响应中常见的任务。
模拟的事件任务与“确定事件原因”和“缓解事件”的目标相关(详见Ofte [8]中的图3和表5)。实验模拟没有包括GDTA中提到的“监控、检测和升级事件”任务[8],因为这些任务通常由经验较少的SOC操作人员执行。GDTA [8]中的“恢复系统安全运行”任务也被排除在模拟之外,因为这些任务通常发生在事件之后。任务使用Cisco Packet Tracer? v8.2.2.0400进行模拟。该工具用于培训和认证,具有非常高的逼真度,包括不同思科网络设备型号的特定功能和配置。最终的模拟场景涉及一个情况:控制中心(图1中的SITE 1)与远程发电机设施(图1中的SITE 2)失去了连接。该场景包括在故障发生前有未知技术人员对网络进行维护的信息。定义的任务是操作员使用控制中心的PC(图1中的ADMIN PC)来绘制连接的网络图,识别发电机设施中的两个关键节点(图1中的PC1和PC2),找出网络故障的原因并修复它。整个任务的目标是重新建立与这些关键节点的连接,从而重新控制发电机设施的物理过程。参与者被提供了用户名和密码,这些信息适用于网络中的所有设备。没有其他关于网络和拓扑结构的文档可供参与者使用。参与开发该场景的专家在实验前没有向参与者透露任何关于任务或模拟的细节。
图1. 模拟的网络拓扑结构。该网络包含两个目标PC,具有实时响应的网络流量和配置。网络由11个节点组成,包括参与者最初访问的PC以及图1中的两个目标PC。
场景中,两个站点之间的连接被破坏,因为用于连接这两个站点的OSPF配置已被篡改(图1中的SITE1路由器和SITE2路由器配置)。这导致两个目标PC无法通过DHCP从控制中心服务器(图1中的Server0)获取IP地址。由于这种破坏方式没有触发发电机站点的任何警报,因为这两个目标PC从站点路由器那里被分配了本地IP地址(这是这种类型路由器(图1中的SITE2路由器)的默认功能)。因此,这两个目标PC可以相互通信,但由于它们在控制中心网络中没有IP地址而无法被控制中心访问。任务必须在访问的模拟PC(图1中的ADMIN PC)上的一个程序窗口内完成。这个窗口与参与者共享,通过Microsoft Teams?进行控制。所有网络映射都必须使用ADMIN PC上的命令提示符语法完成,并通过可用的安全壳协议(SSH)客户端进行远程网络管理。需要注意的是,图1中显示的拓扑图对参与者是不可用的。参与者必须使用SSH客户端中的命令来绘制网络图并自行了解网络拓扑结构。他们还需要在整个实验过程中保持这种理解。不向参与者提供网络图是为了应对关键基础设施中缺乏网络文档时SOC操作员面临的挑战。在之前的一项研究[8]中,这个问题被确认为一个相对常见的问题,使得操作员在事件响应期间难以获取和维持状况感知(SA)。专家们证实,在这种时间受限的场景中,手动绘制网络图同时寻找网络故障的潜在原因是首选方法。允许参与者在任务窗口之外做笔记和浏览互联网,因为这是他们实际工作流程的一部分。在整个实验过程中,不允许参与者使用AI工具。在挪威,由于法律限制,不允许在真实事件中使用此类工具。
实验开始前,所有参与者都收到了相同的准备信息。信息包括对当前场景的简要描述,以及他们将控制代表图1中Admin PC的程序窗口。他们被告知Admin PC具有可以用来绘制和配置网络的SSH客户端。他们被告知所有网络设备的登录信息是相同的,并提供了用户名和密码。参与者的任务是尽快绘制网络图,找出网络故障的原因并修复它。当参与者能够从Admin PC ping通两个目标PC时,即表示任务完成。他们被告知有一小时的时间来完成任务,在此期间会不定时暂停任务,以询问他们对情况和网络的理解。在实验之前,没有向参与者提供任何引导性问题,也没有告知他们暂停时间。然后他们被告知可以随时要求重复解释信息,但必须在规定的时间内完成。除了这里描述的之外,没有提供任何关于如何完成任务的其他信息。
所有参与者都有最多一小时的时间来完成任务。在每次暂停期间,都会有一名研究人员持续观察和控制整个实验过程中的模拟和参与者的操作。程序窗口中的所有活动都被录像,暂停期间的音频也被记录下来。
图2展示了参与者使用的界面示例。上框显示了SSH客户端登录到参与者在模拟PC(图1中的ADMIN PC)上识别的域网关的过程。下框显示了参与者通过SSH进行基于语法的网络映射和节点跳转的过程。
图2. 模拟任务操作窗口的示例。参与者必须通过命令在两个路由器上识别问题并正确重新配置OSPF设置,以恢复与发电机控制器PC的连接。通过在访问的Admin PC上ping通目标PC来确认任务完成。
3.3. 测量
在实验开始前,要求所有参与者提供以下背景信息:年龄、工作职称、事件响应经验(总年数)、当前是否从事网络事件响应工作(是/否)以及网络事件响应经验(年数)。所有答案都被录音并记录下来。参与者的经验是根据他们在实际网络事件响应中的实践年限来衡量的。这样做是为了控制不同角色参与者在这些事件中的实践程度差异。这种经验测量用于分析假设H2和H3。
状况感知(SA)的测量使用了SAGAT方法,遵循现有的指导方针[18,43]。基于之前进行的GDTA[8]研究,确定了相关的目标、任务和信息需求。GDTA被转化为一系列在每次实验的暂停期间使用的可评分问题。这些问题被分为三个SA级别。在每次实验的有效任务期间,分别在3分钟、8分钟、18分钟、38分钟和60分钟的时候,任务会被暂停,然后参与者回答SAGAT问题。暂停间隔的选择基于现有的方法指南[38],该方法建议随机选择间隔,但至少在3分钟后不能进行第一次暂停,且每次暂停间隔不应少于3分钟。决定进行五次暂停,第一次暂停在3分钟后开始,最后一次在实验结束时进行。暂停间隔是从一组5分钟的基间隔中随机选择的。最后一次暂停在可用任务时间(60分钟)用完或所有任务完成后立即进行,以先发生者为准,从而结束实验。暂停期间所花费的时间从1分钟34秒到9分钟53秒不等,平均持续时间为4分钟41秒。暂停期间的音频记录被用来客观评分每个SA子项。表1展示了所有使用的SAGAT问题及其评分。
表1. SAGAT问题及评分。所有参与者在每次暂停时都被问到所有SAGAT问题。根据需要,还补充了后续问题,以确保每个暂停时都能评分所有SA元素。这些问题仅在参与者表示理解相关内容时提出,以避免透露有关任务的任何提示。例如,当参与者报告某个路由器有问题时,后续问题会询问具体是哪种问题以及是哪个路由器的问题。如果参与者回答说是Router 1的配置错误,后续问题会询问是什么类型的配置错误。知道Router 1有配置错误会得到“配置错误识别”的1分;具体知道配置错误是什么会得到“配置错误验证”的额外1分。每次暂停时,参与者最多可获得76分。三个SA级别的最高分数分别为:感知(级别1)46分,理解(级别2)18分,预测(级别3)12分。在统计分析之前,所有原始SAGAT分数都转换为最高分的比率。SA平均值是基于五次暂停期间获得的原始分数计算得出的。平均值没有对三个SA级别的分数进行加权平衡。在分析假设H1和H3时,使用了五次暂停期间的个别平均SAGAT分数。第4.1节报告了一些额外的分析,这些分析使用了每次暂停的SA分数和三个SA级别的个别平均SAGAT分数。
性能通过记录参与者完成任务所需的所有步骤的数量来衡量。总共需要完成六个步骤,才能从参与者使用的PC恢复到发电机设施中的两个目标PC的连接。这些步骤包括:获取Site1路由器的访问权限;获取Site2路由器的访问权限;正确重新配置Site1路由器的OSPF;正确重新配置Site2路由器的OSPF;从Admin PC ping通PC1;从Admin PC ping通PC2。每次暂停期间完成的步骤数量通过模拟操作窗口的视频记录来评分。每个完成的步骤得1分,每次评分时每位参与者的最高分为6分。因此,如果参与者能够从第一次暂停开始就完成所有任务,则可以获得30分的满分。通过这种方式评分,既奖励了他们快速完成任务的能力,也根据完成任务的总数量进行了评分。
3.4. 统计分析
使用IBM SPSS Statistics? v30.0.0.0对实验结果进行了统计分析。首先,整理并检查了收集的数据中的缺失值,然后按照第4.2节中的描述将其编码为变量。计算了变量的描述性统计,并在第4节中报告。进行了相关性分析,以测试H1假设,以及经验与性能之间的相关性以测试H2假设。相关性分析使用了Pearson相关性[44]方法。选择这种方法是因为它可以与其他关于SA的研究进行比较,因为在这种相关性研究中广泛使用了该方法[37]。在统计分析中,相关性统计显著性是通过单尾检验计算的,因为H1和H2假设之间事先有明确的相关性假设。Pearson相关性具有需要多次检验统计假设的统计特性,而SA研究并不总是恰当地处理这些假设[37]。在这项研究中,我们对相关的统计假设进行了测试并报告了发现结果。通过散点图和Q-Q图对相关变量之间的线性假设进行了可视化评估[44,45]。首先使用变量直方图对正态性假设进行可视化评估,然后使用Shapiro-Wilk检验[45,46]进行数值测试,接受统计显著性的标准为p > 0.05。所有相关性分析的结果,包括假设检验的结果,都在第4.1节和第4.2节中呈现。进行了多元线性回归分析,以评估SA(事态感知)和经验在实验中对性能的相对预测能力。多元线性回归是一种广泛用于分析不同自变量对单一因变量预测能力的方法[44]。包括了变量之间的相关矩阵,以评估自变量之间的可能关系。预测变量被逐步纳入多元线性回归中,不同模型的结果被报告出来以便进行比较。由于样本量N = 11小于进行两个变量多元线性回归的推荐最小样本量[44],因此应对结果进行谨慎解释。SA均值和性能变量在每次实验的5个时间点进行测量。这减少了随机测量误差,从而降低了将统计噪声解读为模式的风险。尽管如此,这并不能解决所有关于样本量小的问题。为了确保分析结果的准确性,测试了一系列与此类型回归相关的统计假设。如上所述,对变量的线性和正态性进行了检验。使用Durbin-Watson检验对残差独立性假设进行了测试,接受的标准为d在1.5到2.5之间[45,47]。通过视觉检查和Breusch-Pagan-Godfrey检验对同方差性假设进行了验证,接受统计显著性的标准为p > 0.05[45,48]。使用Shapiro-Wilk检验对残差的正态性假设进行了视觉检查,接受统计显著性的标准为p > 0.05[45,46]。使用容忍度水平Tolerance大于0.20和方差膨胀因子(VIF)小于5的标准来检验共线性[45,49]。还进行了事后功效分析[50]和自助法分析[44]来评估回归结果。
4. 结果
在参与者(N = 11)完成实验后,对他们的经验、性能和SA进行了评分。参与者在关键基础设施网络事件响应方面的经验从1年到14年不等,平均为5.7年,标准差为4.4年。有4名参与者在1小时的时间内完成了所有步骤,最快完成时间为39分钟5秒。SA和性能测量中没有缺失数据。实验后从相关参与者那里收集到两例经验测量数据缺失的情况。
基于SAGAT测量的个体SA得分被计算为平均SA得分,即每位参与者在所有冻结探测中报告的正确SA元素的比例。每个SA水平的得分也被记录并计算为在所有冻结探测中 ?? SA水平的最大得分的平均比率。表2显示了参与者的相应性能和SA得分。性能以最大可能得分的比率形式呈现。
从表2的结果中,我们计算出以下统计数据:性能的范围是0.07–0.57,平均值为0.28,标准差为0.15;SA均值的范围是0.18–0.63,平均值为0.39,标准差为0.14。
4.1. SA与性能之间的相关性
为了验证H1假设(较高的SA均值与较高的性能相关),我们统计分析了SA均值与性能之间的相关性。首先,通过散点图对SA均值和性能进行了可视化分析,确认了两者之间存在线性关系。视觉分析没有发现明显的异常值。还使用Shapiro-Wilk检验[46]对变量的正态性进行了检验,检验结果没有显示违反正态性假设的情况,即p值低于0.05。Performance W(11) = 0.97,p = 0.911;SA均值 W(11) = 0.98,p = 0.959。
考虑到实验的设计,人们可能会怀疑较高的SA得分是否是完成任务的结果。这将使SA得分与性能直接相关,即较高的性能自动产生较高的SA得分。为了解决这个问题,我们将所有原始性能得分与五个评分时间点的原始SA得分绘制在一起,如图3所示。图中的点代表五个评分时间点上的SA和性能的个体原始得分,相同得分的位置有叠加显示。SA得分是根据表1在每个评分时间点进行的,而性能得分是根据第3.3节中描述的每个评分时间点完成的任务数量来计算的。
从图3中我们可以看到,随着性能得分的增加,SA得分有明显的上升趋势。然而,SA得分的范围很广,尤其是在性能得分的中等范围内。这个问题将在第5节进一步讨论。
使用皮尔逊相关性(Pearson Correlation)计算了SA均值与性能之间的相关性。分析采用了单尾检验,因为在H1假设下,相关性被认为是正向的。结果显示SA均值与性能之间存在正相关,r(9) = 0.88,p < 0.001。当r > 0.50时,相关性被认为是统计上显著的[44]。
还使用单尾皮尔逊相关性计算了各个SA水平与性能之间的相关性,假设相关性为正向。在所有三个SA水平与性能之间都发现了强烈的正相关:SA水平1均值与性能 r(9) = 0.86,p < 0.001;SA水平2均值与性能 r(9) = 0.83,p < 0.001;SA水平3均值与性能 r(9) = 0.88,p < 0.001。需要注意的是,不同SA均值与性能之间的相关性必须分别解释,因为计算出的SA均值彼此之间并不独立。
基于发现的高度统计显著的相关性,我们接受了H1假设。
4.2. 经验与性能之间的相关性
为了验证H2假设(操作员的经验越长,性能越高),我们对网络事件响应经验年限(Experience)与性能之间的相关性进行了统计分析。经验与性能的散点图确认了两者之间存在线性关系,没有明显的异常值。Shapiro-Wilk检验没有显示出经验变量(W(11) = 0.86,p = 0.064)或性能变量中存在正态性假设 violate 的迹象[46]。
使用单尾皮尔逊相关性计算了经验与性能之间的相关性,因为在H2假设下,相关性的方向被认为是正向的。结果显示经验与性能之间存在正相关,r(9) = 0.89,p < 0.001。这种相关性被认为是统计上显著的,因为r > 0.50[44]。
为了证明经验与性能之间的相关性不仅仅与一般经验和成熟度有关,我们还计算了年龄与性能之间的相关性。结果发现年龄与性能之间没有统计上显著的相关性,r(9) = 0.51,p = 0.06。
基于发现的高度统计显著的相关性,我们接受了H2假设。
4.3. 比较SA和经验作为性能的预测因子
在首次考虑独立变量对因变量的相对预测能力时,评估所有变量之间的相关矩阵是有用的。这将提供关于预测因子相对强度和独立变量之间相互关系的指示。在这项研究中,经验和SA之间的强相关性可能表明这些变量不能充分独立地解释性能的方差。表3展示了经验、SA均值和性能的相关矩阵,报告了p < 0.05和p < 0.01的统计显著性水平下的皮尔逊相关性。由于SA与经验之间的相关性没有方向性假设,因此报告了双尾显著性水平。从表3中可以看出,SA均值和经验都与性能有很强的相关性。我们还可以看到,在0.05的显著性水平上,SA均值与经验也存在相关性。这表明SA和经验在结果上有相当程度的重叠,使得它们难以区分。
为了验证H3假设(较高的SA独立于较长的经验也能预测较高的性能),我们进行了多元线性回归分析。进行了逐步多元线性回归,以评估SA和经验对性能的各自预测能力。由于样本量有限(N = 11),因此分析了几个统计假设。如第4.1节和第4.2节所述,线性假设得到了确认,没有发现异常值。使用Durbin-Watson检验[47]检验了残差的独立性,结果表明自相关度d = 1.55是可以接受的。
首先通过标准化残差与标准化预测值的散点图(图4)直观检查了同方差性假设。图4中的残差图显示没有明显的残差异方差性迹象。还使用Breusch-Pagan检验[48]进行了验证,卡方统计量X2(2) = 1.52,p = 0.55,表明残差中没有明显的异方差性证据。
使用正态概率图(图5)对残差的正态性假设进行了视觉检查。P-P图中的线条代表正态分布的残差模式,点代表观察到的残差。图5显示正态P-P图没有违反正态性假设的明显迹象。这也使用了Shapiro-Wilk检验[46]进行了验证,W(11) = 0.965,p = 0.83,表明残差呈正态分布。
为了评估多重共线性,调查了方差膨胀因子(VIF)和容忍度值。对于SA均值和经验,Tolerance = 0.46表明每个预测因子对性能解释的方差足够独立[49]。SA均值和经验之间的VIF = 2.17表明存在可接受的低至中等程度的多重共线性[49]。
逐步多元回归确定经验是性能的最佳预测因子,因此首先将其单独作为模型1进行。在模型2中,SA均值也被添加为预测因子。模型1的结果为R = 0.890,R2 = 0.791,调整后的R2 = 0.768,估计的标准误差为0.072。模型2的结果为R = 0.948,R2 = 0.898,调整后的R2 = 0.873,估计的标准误差为0.053。我们可以看到,两个模型都解释了大量的方差。特别是模型2,其中包括SA均值作为预测因子,估计解释了87%的方差(调整后的R2),并且观察值与回归线之间的差距较小(估计的标准误差)。
表4展示了模型1和模型2的线性回归的方差分析(ANOVA)结果。我们可以看到,两个模型都解释了统计上显著的方差部分。模型2包括SA均值作为性能的预测因子,解释了更大的方差比例。
表5展示了模型1和模型2的系数和置信区间(95%水平)的结果。模型1仅包括经验作为性能的最佳预测因子,而模型2包括经验和SA作为预测因子。表5显示了多元线性回归的系数和置信区间。我们从表5中可以看出,在一个包含经验和SA作为性能预测因子的多元线性回归模型中,两者作为单独的预测因子仍然具有统计学意义,经验的显著性水平为p = .01,SA平均值的显著性水平为p = .02。我们还从标准化系数中了解到,经验增加一个标准差(4.4年)与性能提升约8%相关;而SA平均值增加一个标准差(14%)与性能提升约7%相关。在实验的背景下,这些提升都是实际意义上的显著变化,因为参与者在测试中的表现范围是从7%到57%。
为了直观地判断是否由于异常值导致多元回归中的R2值过高,图6展示了两个模型的回归线图。图6中没有发现明显的异常值证据。我们使用了G*Power 3.1.9.7 [50]进行了事后功效分析,以评估在样本量只有11的情况下检测到显著效应的概率。对于只有一个预测因子的模型1,α错误概率为0.05时,临界F值为5.117;对于有两个预测因子的模型2,α错误概率为0.05时,临界F值为4.459。模型1的Cohen’s f2值为3.785,计算出的功效大于0.999;模型2的Cohen’s f2值为8.804,计算出的功效也大于0.999。这表明在两个回归模型中检测到显著效应的概率都超过99.9%。
为了解决由于样本量小可能导致线性回归不稳定的问题,我们采用了自举法[44]。具体使用了5000次迭代的偏差校正加速自举(BCa)。首先分析了逐步多元回归中确定的模型1和模型2(见表5),然后分析了仅以SA平均值作为预测因子的模型3。表6展示了自举线性回归的结果。从表6中的置信区间来看,在模型1中,经验作为单独的预测因子是稳定的,其置信区间相对较窄;而在模型2中,当经验与SA平均值结合时,经验不再是一个稳定的预测因子,其置信区间穿过了零点。在组合模型中,SA平均值是一个稳定的预测因子,但其效应较大但精度较低,置信区间非常宽(0.096–1.721)。当模型3中仅以SA平均值作为预测因子时,显示出较大的效应,但置信区间仍然较宽(0.456–1.189)。这表明在当前样本量下,无法非常精确地测量该预测因子的效应。
综上所述,我们可以得出结论:经验和SA平均值分别在单独的情况下都是性能的稳定预测因子。同时,在存在共线性的组合模型中,只有SA平均值仍然是一个稳定的预测因子。基于多元线性回归和自举分析,我们接受H3假设。我们还可以得出结论:从实验的角度来看,这两个变量单独对性能的提升在实践中是具有实际意义的。
5. 讨论
根据实验结果,我们接受了提出的三个假设。H1假设得到验证,因为根据SAGAT测量的SA与关键基础设施中CS操作员的模拟网络事件响应任务性能有很强的相关性。这是一个关键发现,因为在这一领域之前几乎没有这样的证据。因此,这项研究虽然有限,但为填补知识空白做出了重要贡献,正如研究需求所表达的那样:“需要从人类操作员的视角理解什么是网络安全(SA),然后对其进行测量,以便了解SA是否对网络安全有实际的影响”[13]。根据我们的发现,我们提供了初步的实证证据,证明关键基础设施中的CS事件响应中的网络安全(SA)可以按照[8]中的描述进行理解,并且可以按照第3.3节中对网络连接响应任务的说明进行测量。SA确实对专业操作员的性能有显著影响,正如第3.2节中描述的现实场景所示。尽管我们不能声称这一发现可以推广到关键基础设施中的所有CS相关任务,但这是基于对该领域SA进行严谨实证调查后的第一个实证证据。这表明进一步研究SA对其他任务的影响具有很大潜力,这些任务在之前的GDTA[8]中已有研究。
结果还验证了H2假设,表明相关事件响应经验的程度可以预测实验中的性能。尽管这一发现并不令人意外,但实验显示经验与性能之间存在明显的统计相关性,这一点仍然值得注意。这证实了先前的研究结果,即经验是处理关键基础设施中实际CS事件最重要的前提条件之一[8,27]。根据经验,我们知道SOC环境通常要求操作员在相关领域有1到2年的实际操作经验 avant de leur confier des responsabilités individuelles。根据本研究的发现,这样的要求似乎是合理且必要的。
确认H3的结果是本研究最重要的发现。基于实验结果,我们发现即使考虑到经验的影响,SA对性能的效应在统计上也是显著的。在多元回归分析中,这两个预测因子各自独立解释了大约相同的方差。这表明,在本实验模拟的情景中,在整个事件响应过程中获取和保持SA的能力是操作员有效响应的关键预测因子。自举分析证实了经验和SA都是性能的稳定预测因子,但在组合自举回归模型中只有SA保持稳定。这进一步强化了SA可能预测性能的迹象。由于性能的测量方式,这一发现对于解决网络连接响应任务以及快速解决问题都具有重要意义,而这在关键基础设施领域通常至关重要[27]。
研究结果表明,通过情境开发的SAGAT测量的SA可能为未来测试可视化工具、决策支持系统和角色组织的效果提供了有希望的方向,这也是CS研究中SA研究的常见目标[14,24,35]。需要更大样本量的进一步实证证据来验证这一点,无论是针对本研究中调查的网络事件响应任务,还是其他事件响应任务。尽管在推广结论时需要谨慎,但我们发现,改进SA的工具或角色组织可能会显著提高操作员重新建立关键基础设施中远程站点连接的质量和速度。在这方面,相关的SA能力包括逻辑上和拓扑上理解网络的能力,以及通过网络规划目标路径和识别网络故障的能力。
本研究中使用的设计和SAGAT测量方法基于Endsley的SA理论。如第2.1节所解释的,还有其他理论试图解释CS领域的SA。系统性DSA理论认为SA存在于人类和技术代理中[26]。在之前的研究中,我们发现DSA理论与开发自主CS工具的目标更为一致[14]。在设计本研究时,我们特别旨在创建一个挑战人类代理SA的情景,如第3.2节所解释的。通过使用Cisco Packet Tracer?进行模拟,参与者几乎无法从系统中获得任何帮助,他们必须使用命令行语法来执行网络映射和重新配置网络节点的操作。因此,本研究中参与者无法利用技术代理的帮助来辅助SA。尽管这种设置可能看似人为设计,但专家确认这种类型的事件响应在关键基础设施中非常常见,因为关键站点内部通常不允许使用更自动化的监控系统。我们之前对SolarWinds(网络管理系统)的攻击案例研究[27]也支持了模拟的真实性。当SolarWinds遭到入侵并被禁用后,操作员面临的任务与本研究中呈现的任务非常相似。因此,研究人类SA有两个重要意义:首先,关键基础设施中的操作员必须能够在没有自动化系统辅助的情况下执行事件响应;其次,所有SA理论都基于一个假设,即改进的SA能够提高性能。本研究是首次尝试实证验证这一假设,针对关键基础设施中的CS事件操作员。基于DSA理论的未来研究可能会证明技术代理的SA也能在系统层面上提高性能。我们认为,目前最紧迫的问题是在此背景下实现SA的运营化、对其进行测量,并实证测试其对性能的实际影响。
尽管本研究的发现值得重视,但我们必须承认几个重要的局限性。首先,参与者的选择在范围和数量上都非常有限。将参与者范围限制在挪威电力行业的专业事件响应人员上,限制了研究结果在更广泛背景下的普遍性。我们不认为这些发现能够代表其他相关群体的操作员。尽管如此,研究结果表明SA对于处理第3.2节中描述的任务的操作员来说是重要的。正如所述,情景的设计注重相关性和真实性,增加了其他CS操作员识别其中挑战的可能性。鉴于参与者数量有限,在解释统计结果时应谨慎。尽管按照第3.4节描述的方法进行了多项统计假设的检验,但这并不排除在多元线性回归中高估经验和SA对性能预测价值的可能性。特别是,对经验与SA组合回归(模型2)的解释应谨慎进行。虽然95%的置信区间都没有包括零值,但两个变量的相对预测能力在统计上是不稳定的。尽管如此,仍有证据表明它们各自都是性能的预测因子。因此,应进行更大样本量的进一步研究,以评估它们在组合回归模型中的相对预测能力。组合模型的R2 = 0.898应极为谨慎地解读。在将其用于SOC人员的选拔或标准培训之前,还需要用更大、更多样化的样本集进行验证。
其次,测量的选择可能存在局限性。为了将SA作为性能的预测因子,这些测量应该是相互独立的。尽管研究中进行了这样的设计,但有人可能会认为,低SA水平下不太可能实现高绩效。理论上,模拟情景中的任务可以在很低的SA得分下完成。实际上,需要更高水平的SA才能完成这些任务。在大多数现有的SA研究中都存在这种需要[12,29]。毕竟,如果良好的SA(体系结构理解)并不是取得良好绩效的必要条件,那么这个概念就不会那么相关了。如果我们观察图3中SA分数与绩效分数的关系,我们可以更仔细地评估在完成给定任务步骤时自动获得高SA分数的潜在问题。图中的某些案例在这方面特别值得关注。有一位参与者在实验结束时获得了76分中的70分,尽管他只完成了任务中的两个步骤。同时,有一位参与者在38分钟后完成了六个步骤中的五个(用时4分钟),但只获得了76分中的62分。如果我们再考虑图3中的整体趋势,可以看到实验过程中SA分数有明显的上升。而绩效的提升并不那么明显。在绩效方面,我们可以发现一个门槛效应:许多参与者能够找到图1中显示的两个路由器,但却未能发现OSPF配置错误。这解释了为什么图3中得分超过2分的案例相对较少。那些得分低于这个阈值的参与者随着时间的推移不断提高了他们的SA分数。而那些突破了这个阈值的参与者虽然也提高了SA分数,但提升幅度并不比另一组明显,因为他们原本的SA分数就已经很高了。基于此,我们得出结论:更高的SA分数是实现高性能的必要条件,而不是相反。换句话说,SAGAT分数代表了一种预测性的认知测量,而不仅仅是反映任务完成情况。
为了进一步探讨这个问题,我们分别分析了绩效与三个级别的SA之间的相关性,如第4.1节所介绍的。可以说,Projection(投影)级别与其他两个SA级别相比,与任务绩效的关联更为直接,如表1所示。所有三个SA级别与绩效之间的相关性都很强,其中最低的是Comprehension(理解)(r(9) = .83, p < .001)。这进一步表明SAGAT测量可能能够预测绩效,而不仅仅是对绩效的间接测量。
关于局限性的最后一点,研究人员指出了SAGAT测量的一个特定特性:SAGAT方法对错误的SA程度的敏感度不高。它只评估你理解的正确程度,对错误的理解给予零分。在审查实验记录时,我们发现有些参与者在任务过程中误解了网络拓扑结构。例如,一些参与者将他们用来访问网络的Admin PC的IP地址误认为是目标PC之一的IP地址(见图1)。这使他们在绘制网络图时遇到了很多困惑。他们通常会在Site1路由器处的IP地址表中错误地标识出Admin PC,然后从那里开始绘制返回Admin PC的网络图。那些意识到这个IP地址指向他们最初接入点的参与者则直接忽略了这个错误,从其他地方重新开始绘制。使用SAGAT进行评分时,这两组参与者在识别目标PC这一项上都会得到零分。实际上,第一组的SA分数会远低于第二组,从而导致时间浪费和绩效下降。基于此,我们建议进一步研究SAGAT对错误SA的负面评分机制,因为这种误解可能比单纯的SA不足对绩效的影响更大。这在团队环境中研究SA时尤为重要[12],因为个体的误解可能会在团队内部的SA链中传播。
尽管存在这些局限性,这项研究的发现仍然具有重要意义。在关键基础设施的计算机安全(CS)领域,使用SAGAT来测量SA是可行且有效的。借鉴之前GDTA[8]的研究成果,我们实现了SAGAT测量,并得到了结果表明SAGAT可以在有限的事件响应任务集合中预测CS事件响应操作员的绩效。这鼓励我们使用相同的方法进行更大样本量的研究,以验证这些发现,并将其应用于其他CS事件响应任务。如果这样的研究能够提供客观SA测量在预测绩效方面的强大证据,未来的研究应该探索间接SA测量的预测能力。在CS领域验证这些测量方法有望为设计和开发基于SA测量的工具和界面开辟新的机会,正如在其他关键领域已经成功实现的那样。
这些发现的实际意义在于:经验对于关键基础设施中的CS事件响应操作员来说是一个重要因素。此外,获得和保持SA的能力也被证明对绩效同样重要,至少对于本研究模拟的任务来说是如此。如果这些结果可以在更大样本量和更广泛的任务集合中得到重复,那么基于文档化的SA要求[8]进行特定培训以提高操作员的SA可能会很有成效。这样的培训效果可以通过基于SAGAT的技术和测量方法来进一步验证。6. 结论
在这项实验研究中,我们调查了SA对关键基础设施网络连接事件响应任务绩效的影响。基于对CS领域中SA的现有研究的回顾,特别是针对关键基础设施的SA研究,我们提出了三个假设:H1——更高的平均SA分数与更高的绩效相关;H2——作为操作员的更长时间经验与更高的绩效相关;H3——更高的SA分数能够独立于更长时间的经验预测更高的绩效。我们设计了一项针对个别CS操作员的模拟事件响应研究,研究对象是挪威电力部门的11名专业CS事件响应人员。研究内容包括绘制一个未知的网络拓扑结构,以识别控制远程发电机设施的两个关键目标PC。此外,参与者还必须找到网络故障的原因并解决它,以恢复与中央控制设施的连接。在每位参与者的一小时任务完成时间内,使用SAGAT测量了五次SA分数。经验是通过参与者在关键基础设施中进行网络相关事件响应的有效年数来衡量的。绩效则通过每次实验中完成的任务步骤数量来评估。
研究结果显示,测量的SA分数与实验中的绩效之间存在强烈的统计学相关性(r(9) = .88, p < .001)。经验也与绩效有很强的统计学相关性(r(9) = .89, p < .001)。基于这些发现,H1和H2得到了支持。我们进行了多元线性回归分析来验证H3。分析表明,在综合回归模型中,经验和SA各自解释了方差的显著部分(经验的标准化系数为beta = .535, p = .01;SA的标准化系数为beta = .482, p = .02)。基于这一发现,H3也被接受。
这项研究的结果对于填补网络安全(Cyber-Security, SA)领域的知识空白具有重要意义。它不仅证实了SA与绩效之间的正相关关系,而且即使在控制了经验影响的情况下,SA仍然是这些任务中绩效的统计上稳健的预测指标。这对Cyber-SA研究来说是一个有希望的发现,它提供了初步的实证证据,表明SA是优化保护我们关键社会功能的网络安全人员绩效的一个可靠途径。