用于民航乘客敏感数据的多维异构层次测量模型
王双,
刘芳政,
李志平,
丁磊,
顾赵军
《Symmetry》:Multidimensional Heterogeneous Hierarchical Measurement Model for Civil Aviation Passengers’ Sensitive Data
Shuang Wang,
Fangzheng Liu,
Zhiping Li,
Lei Ding and
Zhaojun Gu
【字体:
大
中
小
】
时间:2026年04月28日
来源:Symmetry 2.2
编辑推荐:
摘要:为了解决民航乘客敏感数据源中复杂、异构且敏感性边界模糊的挑战,本文提出了一种分层测量方法。该模型结合了信息熵和随机森林算法,实现了可测量的敏感性。首先,建立了数据敏感性级别与业务特征之间的相关性。然后,提出了一种基于随机森林的分层测量方法——敏感性信息内容分析(RF-HM-
摘要:为了解决民航乘客敏感数据源中复杂、异构且敏感性边界模糊的挑战,本文提出了一种分层测量方法。该模型结合了信息熵和随机森林算法,实现了可测量的敏感性。首先,建立了数据敏感性级别与业务特征之间的相关性。然后,提出了一种基于随机森林的分层测量方法——敏感性信息内容分析(RF-HM-SICA),该方法结合了信息熵和随机森林算法,构建了一种可用于乘客敏感数据的可测量敏感性分层测量方法。实验结果表明,RF-HM-SICA模型在不同数据规模和敏感性级别下表现出高稳定性、泛化能力和边界样本保护能力,适用于解决民航乘客敏感数据的多维异构性测量问题,并为数据安全共享保护提供了支持。特别是,对于高敏感性数据,该方法在不同规模的数据集中识别准确率和精确度均接近1.0,而在所有比较模型中,RF-HM-SICA的误分类率最低。
1. 引言
尽管敏感个人数据的定义因地区和司法管辖区而异,但通常认为这些数据如果被滥用或泄露,可能对个人的权利、自由或安全构成高风险。欧盟的《通用数据保护条例》(GDPR)[1] 将敏感数据明确定义为“特殊类别的个人数据”,包括八类数据:种族或民族出身、政治观点、宗教信仰、工会会员资格、生物特征数据、健康数据以及性取向,并对它们的处理提出了严格的条件。2024年,美国发布了《关于防止有关国家获取美国大量敏感个人数据和美国政府相关数据的行政命令》[2],其中列出了六类敏感个人数据;然而,美国仍缺乏对敏感信息的统一和全面定义。中国的《个人信息保护法》(PIPL)[3] 明确了敏感个人信息的范围,包括生物特征数据、健康信息、位置和旅行信息以及与未成年人相关的信息,并强调了与国家安全相关的约束。在中国,敏感信息的定义主要依赖于《信息安全技术—个人信息安全规范》(GB/T 35273)[4],该规范为建立敏感信息泄露的风险量化指标体系提供了基础。该体系以泄露影响、可识别性和传播风险等关键指标为核心。然而,这一指标框架不足以适应复杂和动态的应用场景,相应的定量模型也没有充分考虑到数据敏感性的时间和上下文变化。日本、韩国和中东国家也制定了类似法规,对种族和民族信息、宗教信仰数据、健康数据、犯罪记录和生物特征数据等敏感信息提供特殊保护。国际标准,如经济合作与发展组织(OECD)的隐私指南[5]以及ISO/IEC 27701[6]和ISO/IEC 29100[7],提供了基于原则的指导,强调数据最小化、安全防护和风险管理。
在民航领域,国际组织和行业协会也制定了专门针对乘客敏感信息保护的法规和标准。国际民用航空组织(ICAO)的《乘客姓名记录(PNR)数据指南》(ICAO Doc 9944)[8] 明确规定航空公司和国家当局在收集、传输和处理乘客信息时应遵守合法性、数据最小化、数据去标识化和保留期限等原则。IATA[9]与ICAO和世界海关组织(WCO)合作开发的API-PNR工具包提供了关于预登机信息(API)和乘客姓名记录(PNR)数据交换的全面指导,包括数据元素、传输标准和隐私考虑因素。欧盟(EU)的《乘客姓名记录(PNR)指令》(Directive (EU) 2016/681)为成员国当局处理乘客数据建立了法律框架,禁止处理种族、宗教、健康和性取向等敏感类别数据,并规定了数据主体的权利和数据去标识化的要求。中国民航局发布的民用航空行业标准MH/T 3039-2025[11]进一步明确了乘客信息全生命周期保护的详细要求。总体而言,全球敏感信息分类框架有两个关键特征:首先是核心类别的高度重叠,主要涉及身份信息、健康数据、生物特征数据以及政治和宗教信息等社会属性;其次是强调合法性、数据最小化和安全防护的严格处理要求。这一国际共识不仅为民航乘客数据的分类和安全共享提供了重要参考,还为解决跨境数据流、隐私合规性和航空业风险缓解提供了坚实的理论和实践基础。
在中国,已发布了多项标准,如《智能民航数据治理规范—数据安全》(MH/T 5057-2021)[12],建立了多维度评估框架。通过分析历史数据泄露事件并结合乘客数据保护能力和网络攻击情况等因素,这些标准定义了评估敏感乘客数据泄露概率的定量指标。然而,面对快速变化和实时运营场景,现有的指标框架缺乏足够的动态更新机制,限制了其适应性和响应能力。从基于规则和隐私机制驱动的方法来看,现有研究系统地分析了民航企业存储的乘客信息,并基于标识符和准标识符属性提出了敏感性定义[13,14]。虽然这些方法提供了可解释的分类标准,但它们主要针对结构化数据设计,缺乏对动态和异构数据环境的适应性。此外,最近的研究将差分隐私和数据分区策略纳入敏感数据保护。最近的发展进一步将差分隐私扩展到联邦学习框架中,提出了具有自适应噪声机制的差分隐私方案,以平衡模型准确性和隐私保护,并基于局部和全局历史信息估计敏感性以进行自适应噪声校准[15,16]。然而,这些方法仍然依赖预定义的机制,限制了它们在复杂民航场景中的灵活性。
从机器学习方法的角度来看,研究人员引入了数据驱动的方法来改进复杂环境中的敏感性分类。基于机器学习的分布式分类框架得到了广泛探索[17],并开发了结合特征分布和分类器(如支持向量机(SVM)的混合模型[18]。此外,最近在智能交通和网络化数据环境中的研究探索了保护隐私的分类和异常检测方法。例如,提出了一种基于安全高效的支持向量机分类方案,通过加密机制在计算和传输过程中保护敏感数据[19]。此外,还开发了结合隐私保护机制的基于机器学习的异常检测框架,如同态加密,能够在保护数据机密性的同时实现准确检测[20]。然而,这些方法对数据分布和特征工程有很强的依赖性,限制了它们在异构民航数据环境中的泛化能力。
从深度学习方法的角度来看,最近的研究利用神经网络捕获敏感数据的复杂语义和结构特征。例如,提出了基于隐私保护的深度学习分类方法,通过集成加密机制(如部分同态加密)与神经架构来安全处理敏感数据[21]。其他研究结合了LSTM和CNN等序列模型来增强大规模数据集中的敏感性识别[22]。此外,在交通相关场景中,开发了端到端的深度学习框架进行时间异常检测,提高了准确性和鲁棒性[23]。尽管取得了这些进展,现有研究仍缺乏独立于场景的测量标准,未能设计出适应民航运营特点的自适应敏感性量化框架。这一限制显著限制了它们在涉及大规模、异构乘客数据的跨场景应用中的有效性。
上述研究解决了单一和相对简单数据场景中敏感数据的识别和分类问题,但仍有若干局限性。首先,现有关于敏感信息测量的研究很大程度上依赖于特定场景的定制,导致敏感数据的定义和量化存在显著差异。这种依赖于业务场景的分类和测量方法难以跨领域转移或泛化。其次,当前的测量框架主要是静态的、孤立的和通用的,无法充分适应民航运营的独特特点,阻碍了它们在现实航空场景中的有效应用。
民航中的敏感乘客数据经常在多个业务系统之间流动,其中隐私保护要求和应用环境存在显著差异,导致敏感性评估的结果有很大不同。此外,同一类型数据的敏感性水平在不同的业务节点和运营场景中会动态变化。在系统之间的数据交换和共享过程中,业务消息携带不同类型和数量的敏感信息,进一步加剧了数据异构性。传统的依赖专家知识或固定业务规则的敏感数据评估方法在多系统、多源和异构数据环境中难以保持客观性。
为了解决上述挑战,本研究提出了一种基于随机森林的分层测量方法——敏感性信息内容分析(RF-HM-SICA),用于敏感信息分类和评估。主要创新点包括:
(1) 基于规则的民航乘客敏感数据建模。通过将民航乘客敏感数据与运营业务场景相结合,构建了一个由主要元素和次要元素组成的两级隐私元素框架。次要元素根据属性特征映射到相应的主要元素,从而实现结构统一和降维,并实现标准化的敏感性分类。
(2) 基于信息熵的民航乘客数据敏感性测量。在基于规则的民航乘客敏感数据集的基础上,识别每个数据记录中包含的主要元素类别。首先计算次要元素的信息熵,然后汇总以得出数据集中主要元素的相应测量值。因此,获得了第i个数据记录的测量向量。
(3) 民航乘客敏感数据的敏感级别分类。利用基于规则的表示和衍生的测量向量,采用分类方法为乘客数据分配敏感性级别,从而实现民航乘客敏感信息的层次化隐私保护。
2. RF-HM-SICA模型
本文基于中国国家标准《信息安全技术—数据分类和分级规则》(GB/T 43697-2024[24])和国家网络安全标准化技术委员会指南《网络安全标准实践指南—识别敏感个人信息的指南》(TC260-PG-20244A),结合民航行业标准《民航领域的数据分类和分级要求》(MH/T 3039-2025)以及民航乘客敏感数据的特性,构建了一个结构化的敏感信息框架。该框架包括七个主要元素(例如人口统计信息、财务信息和飞行旅行数据)和多个相应的次要元素。对于每个类别,定义了具体的保护要求、分类原则和敏感性级别(L1–L3)。随后,利用信息熵对数据样本中每个敏感字段的出现概率进行建模,从而量化各个字段的隐私级别。然后将结构化的敏感信息转换为向量化特征表示,用于通过随机森林模型训练和预测敏感性级别,实现敏感性级别(L1, L2, L3)与相应保护要求之间的层次化映射。
提出的RF-HM-SICA包括三个主要模块:敏感数据规则规范、基于信息熵的测量和敏感级别分类,如图1所示。首先,根据表1所示的元素框架,应用信息熵来测量次要元素,然后得出每个主要元素的测量向量。这一过程在高维敏感信息特征中实现了有效的降维,显著降低了计算复杂性,同时保持了表示能力。接下来,使用生成的主要隐私元素测量向量集作为训练数据集,基于随机森林构建敏感数据分类器,实现不同敏感性级别乘客数据的准确分类。在这个框架中,次要元素根据它们的属性特征映射到更高层次的主要元素,从而实现结构统一和降维。然后,根据数据敏感性的不同,主要元素进一步被分为三个敏感度级别,每个级别对应不同的隐私保护策略。(1) 敏感信息识别。在不同场景下,敏感性的判定标准差异很大[25]。根据表1中总结的次要元素,敏感数据包括但不限于识别号码、电话号码、通信账户标识符、电子邮件地址、家庭地址、银行卡号码、中文和英文名称、航班号码、票号、航班时刻表、出发地和目的地位置以及常旅客信息。(2) 敏感信息降维。民航信息系统中的乘客数据非常复杂且维度很高。例如,仅民航乘客预订系统就包含一百多个次要元素。在这样的高维空间中,直接进行敏感性测量不仅计算复杂度高,而且分类效率低。为了解决这个问题,引入了主要元素作为中间抽象层来聚合和分类次要元素,从而在语义和结构层面实现降维,提高模型的可扩展性和计算效率。(3) 敏感级别分类。基于主要元素的聚合,根据数据泄露可能造成的潜在危害来确定敏感级别。敏感数据被分为三个级别,具体如下。高敏感度(L3):直接泄露可能导致身份盗窃或重大安全事件的乘客数据。这类数据需要强制加密和去敏感化存储,并严格控制访问权限。中等敏感度(L2):结合使用时可能导致隐私暴露或影响运营安全的数据。这些数据需要去敏感化存储和加密。低敏感度(L1):相关性低且泄露风险可控的数据。这类数据可以采用非强制性的去敏感化和基本访问控制机制。通过这个过程,隐私元素框架变得可扩展,同时有效解决了由数据类型多样性和高维度带来的计算效率挑战。详细规则在表1中给出。实验是在出发数据上进行的,要测量的数据集表示为D。数据集D包含n条记录,每条记录在提出的隐私元素框架内映射到相应的主要元素和次要元素。经过基于规则的规范化处理后,数据被转换为结构化的输入数据集。例如,在给定的记录中,主要元素“人口统计信息”包含三个次要元素:英文名称、性别和身份证明文件信息。在这种情况下,与记录rri中的人口统计主要元素相关联的次要元素集合可以表示为,其中向量中的每个元素表示相应的主要敏感性存在为1或不存在为0。
2.2 基于信息熵的次要元素测量模块
信息熵最早由Shannon在1948年的信息论框架中提出[26]。受热力学中熵概念的启发,信息熵用于量化信息源的不确定性,从而反映系统中的无序或随机程度。具体来说,假设数据集D有m种可能的状态,表示为,相应的发生概率为。那么数据集D的信息熵定义为(1),其中;当,定义为。信息熵用于描述随机变量的无序和不确定性,较高的熵值表示无序和不确定性程度更高,数据中包含的信息量也更多;较低的熵值表示无序程度较低,信息内容较少。因此,信息熵可以作为一个重要的指标来衡量数据敏感性和分类重要性。次要元素对敏感度级别的影响各不相同。我们应用Shannon熵来加权这些元素,将它们聚合为主元素特征,保留用于分类的关键区分信息。对于n条记录,计算每个次要元素的信息熵以获得其测量值,然后得出相应的主元素测量向量。假设给定的主要元素包含k个次要元素。在对数据集D应用基于规则的规范化处理后,构建了一个二进制特征矩阵(2)。每个次要元素的发生概率定义为(3),然后计算信息熵:(4)。对于每个主要元素,其相应的测量值是通过对其所有关联次要元素的信息熵值求加权平均得到的。次要元素的权重在方程(5)中定义为(5)。因此,记录t在主要元素上的隐私测量可以定义为(6)。通过组合所有主要元素的测量结果,得到记录的隐私测量向量(7)。这个向量被用作后续模型训练和敏感度级别分类的特征输入。在提出的两级隐私元素框架中,主要元素代表乘客信息的聚合和抽象类别,而次要元素对应于每个乘客记录中可观察和量化的属性。然而,不同次要元素对数据敏感性的贡献本质上是不平等的。例如,在主要元素“人口统计信息”中,如护照或识别号码这样的标识符具有高度唯一性和敏感性,而性别或年龄等属性的敏感性则明显较低。在聚合过程中平等对待所有次要元素会掩盖这些内在差异,削弱结果特征表示的区分能力。为了解决这个问题,使用Shannon熵为次要元素分配数据驱动的权重。其背后的直觉是,高敏感度元素(如护照号码、银行卡号码)在记录中出现的频率较低,而低敏感度元素(如座位号码、登机口)分布更为均匀。熵有效地捕捉到了这种变异性:出现概率中等的元素表现出更高的熵,并对区分敏感度级别有更大贡献,而几乎总是存在或不存在的元素提供的区分信息有限。具体来说,首先计算每个次要元素的熵,然后对其进行归一化以得出其相应的权重。随后,在每个主要元素下对所有次要元素进行加权聚合,得到一个标量测量值(如方程(6)所定义)。这个过程将次要元素的多维表示转换为每个主要元素的紧凑的一维敏感度描述符。基于熵的加权机制是无监督和数据驱动的,保留了敏感性的固有结构特征,而不引入额外的偏见。此外,熵的数学性质与敏感度区分的目标非常吻合:较高的熵表示更大的变异性,因此对区分不同敏感度级别有更大的贡献。这为使用随机森林模型进行后续分类提供了一个原则性和有效的低维特征表示。
2.3 基于随机森林的民航乘客信息敏感度分级
随机森林(RF)[27]是一种基于决策树算法构建的监督机器学习模型,可以应用于分类和回归任务。RF采用集成学习策略,通过整合多棵决策树来产生T个分类结果。RF使用Bagging机制来聚合这些结果,并通过多数投票来确定最终输出,即选择出现次数最多的类别。RF在处理异构结构数据方面具有很强的鲁棒性,并且通过集成学习机制能够减轻过拟合问题。在基于信息熵的测量阶段之后,应用随机森林模型将乘客敏感数据分类到不同的敏感度级别。构建了一个数据集D,其中表示乘客记录的主要元素隐私测量向量,表示其相应的敏感度级别,L1、L2和L3分别表示低、中和高敏感度。为了提高模型训练性能,所有特征都进行了归一化处理(8),其中和分别表示第j个特征的最小值和最大值。随机森林模型由T棵决策树组成,每棵树都在不同的数据子集上独立训练。在每个内部节点,从总共d个特征中随机选择候选特征来确定最优分割。树的生长根据预定义的停止标准终止,例如最大树深度或叶节点的最小样本数,每个叶节点估计类别后验概率。最终分类结果是通过聚合所有决策树的输出得到的,可以表示为(9),其中表示第t棵决策树的分类函数,g是一个指示函数,当条件满足时等于1,否则为0。这里,c表示候选类别。
3. 实验结果与分析
实验采用了五种评估指标。对于民航乘客敏感字段的实体识别任务,使用训练时间、精确度、召回率和F1分数来评估性能。对于基于随机森林的民航敏感数据层次敏感度测量模型,使用精确度、召回率和F1分数进行评估[28,29]。
3.1 实验参数设置和数据集准备
(1)实验环境
实验使用PyTorch 2.1.0深度学习框架和CUDA 12.1加速进行。在硬件配置方面,实验平台配备了Intel? Core? i9-14900KF处理器和NVIDIA GeForce RTX 3090图形处理单元。为了确保公平比较,所有模型都在相同的软件和硬件环境中进行训练和评估。
(2)实验超参数
实验使用自构建的敏感信息数据集进行,该数据集来源于实际测试平台的模拟操作环境和专门的数据生成系统。这种方法确保了数据的真实性和完整性,同时也保证了数据使用过程中的合规性和可控性。为了支持全面的模型训练和评估,使用了三个数据集,分别表示为数据集A、数据集B和数据集C,每个数据集具有不同的来源、内容和特征,强调了实验目标的不同方面。用于模型训练的关键超参数设置总结在表2中。所有模型都在相同的实验条件下进行评估以确保公平性。其他模型超参数设置如下:
(1)CNN搜索空间:学习率[0.0001, 0.01],批量大小[8, 32],核尺寸[3, 5],隐藏层维度[16, 64],周期数[10, 30]。
(2)LSTM搜索空间:学习率[0.0001, 0.01],批量大小[8, 32],隐藏层维度[16, 64],层数[1, 2],周期数[10, 30]。
(3)SVM搜索空间:核类型[rbf, poly, linear],C [0.1, 100],gamma [scale, auto, 0.001, 0.1]。
(4)Transformer搜索空间:学习率[0.0001, 0.01],批量大小[8, 32],嵌入维度dmodel [16, 64],注意力头数nhead [2, 8],编码器层数[1, 4],周期数[10, 30]。
(5)梯度提升搜索空间:估计器数量nestimators [50, 200],最大深度[3, 10],学习率[0.05, 0.2],子样本比率[0.6, 1.0]。
(6)MLP搜索空间:学习率[0.0001, 0.01],批量大小[8, 32],隐藏层维度[16, 128],周期数[10, 30]。
(3)实验数据集
数据集A来自实际测试平台,其中的数据格式与生产系统中使用的乘客业务数据消息一致。该数据集涵盖了整个航空旅行生命周期中的敏感字段,包括识别号码、姓名、联系信息、常旅客号码、航班信息、生物特征信息和支付信息。
数据集B由数据生成系统根据预定义的业务规则自动合成。它模拟了实际操作工作流程中遇到的数据结构和字段分布,包括识别号码、姓名、联系信息、常旅客号码、航班信息、生物特征信息和支付信息。
数据集C来自另一个测试平台,包含一定比例的嵌套结构、缺失字段和数据污染。该数据集中的敏感字段包括识别号码、姓名、联系信息、常旅客号码、航班信息和支付信息。这三个数据集在性质上是互补的,分别捕捉了真实世界特征(数据集A)、受控且保护隐私的合成场景(数据集B)以及结构复杂性较高的大规模数据(数据集C),从而便于在多样化的实际设置中对所提方法进行全面评估。数据集A包含3000条记录,数据集B包含15,000条记录,数据集C包含20,000条记录。数据集A、B和C由30个字段组成,这些字段被分为7个主要类别。原始数据中的缺失值用符号“–”表示。为了确保数据安全和模型输入的一致性,所有特征都被转换为二进制(0-1)表示形式,其中特征的存在编码为1,缺失值(包括缺失特征)编码为0。
(4)方法流程
RF-HM-SICA的整个过程包括四个主要步骤:
步骤1:数据加载和分割
首先加载包含31个属性及其相应敏感度标签的民航乘客数据集。然后使用分层抽样策略将该数据集划分为训练集和测试集,比例为70:30%,以确保两个集合中的敏感度级别(低、中、高)分布保持一致。
步骤2:基于熵的特征提取
分别在训练集和测试集上进行特征工程。31个次要元素被分为七个主要元素,包括人口统计信息、财务信息、通信信息、用户偏好信息、静态信息、旅行航班数据和基本航班信息。对于每个类别,计算非缺失属性值的香农熵,得到一个7维特征向量,该向量捕捉了每条记录的信息分布特征。
步骤3:模型训练
使用提取的7维熵特征向量作为输入特征,而敏感度级别作为标签,在训练集上训练随机森林(RF)模型。
步骤4:预测和评估
将训练好的模型应用于测试集进行预测。使用标准指标(包括精确度、召回率、F1分数和准确率)来评估模型性能。
3.2 结果分析
为了分析不同敏感度级别下的模型性能,根据高、中和低敏感度数据的比例,将每个数据集进行统计划分,形成三种类型的数据集:高敏感度主导的数据集、高-中混合数据集和低敏感度主导的数据集。数据集A包含3000条记录,数据集B包含15000条记录,数据集C包含20000条记录。每个数据集进一步按照8:1:1、7:2:1和2:3:5的比例进行划分,分别对应高、中、低敏感度级别。为了验证RF-HM-SICA模型在敏感数据保护方面的有效性,使用三种代表性的敏感度级别比例方案(8:1:1、7:2:1和2:3:5)对数据集A、B和C进行实验。所提出的模型与几种基线方法(包括CNN、LSTM、MLP、SVM、Transformer和梯度提升决策树(GBDT)进行了比较。对于每个子集,保留30%的数据作为测试集,并使用精确度、召回率和F1分数来评估模型性能。结果见表3。
表3. 数据集A在不同划分下的结果。对于数据集A,在三种敏感度级别比例设置(8:1:1、7:2:1和2:3:5)下,对CNN、GBDT、LSTM、MLP、SVM和RF-HM-SICA进行了比较实验。
(1)8:1:1敏感度划分下的结果
如表3和图2所示,RF-HM-SICA模型在整体性能上表现最佳,尤其是在高敏感度级别(L3)任务中,准确率和召回率均达到1.0,F1分数为1.0。总体准确率为0.9793,加权平均F1分数为0.9791,表明RF-HM-SICA在以高敏感度样本为主的训练数据下具有很强的泛化能力。CNN和SVM的性能相当,分别在低敏感度(L1)和中敏感度(L2)级别的F1分数为0.905和0.8848,准确率均为0.979,表明在相对平衡的数据分布下,传统深度学习模型和支持向量机表现出相似的性能。相比之下,LSTM显示出一定的局限性,尽管其在低敏感度级别(L1)的召回率达到1.0,但这反映了其对少数类别的过拟合倾向。
(2)7:2:1敏感度划分下的结果
在7:2:1敏感度级别分布下,MLP在低敏感度级别(L1)获得了最高的F1分数(0.8237),而RF-HM-SICA在中敏感度级别(L2)的表现最佳,F1分数为0.8816。这些结果表明,当训练集中高敏感度样本(L3)的比例略微减少时,全连接神经网络和基于集成学习的模型仍能保持稳定的性能。相比之下,Transformer模型在低敏感度级别(L1)的表现相对较弱,F1分数为0.7731,低于其他模型。这种性能下降可以归因于自注意力机制在中等规模数据集中有效捕捉特征关联的难度。
(3)2:3:5敏感度划分下的结果
在2:3:5敏感度级别分布下,RF-HM-SICA在高敏感度级别(L3)的表现完美,精确率、召回率和F1分数均达到1.0。总体准确率为0.9437,加权平均F1分数为0.9442,显著优于其他模型。这些结果表明,集成学习方法在小样本训练场景中具有更强的抗干扰能力,显示出RF-HM-SICA模型的稳健性。相比之下,LSTM的性能在这种设置下显著下降。低敏感度级别(L1)的召回率下降到0.66,总体准确率下降到0.8983,这可能是由于LSTM的长序列依赖性建模要求与训练数据集的有限大小不匹配,导致过拟合。
总体而言,RF-HM-SICA模型在所有三种敏感度级别分布(8:1:1、7:2:1和2:3:5)中始终表现出优越的性能,突显了基于随机森林的方法的通用性和稳健性。特别是在高敏感度级别(L3)上,该模型实现了完美的分类,使其成为这种数据集场景的首选。当训练数据的比例从80%减少到20%时,LSTM的性能下降最为明显(准确率从0.9723降至0.8983),而RF-HM-SICA的准确率仅下降了0.0356,进一步验证了其对数据量的低敏感性。对于极端敏感度分布(如2:3:5),建议结合RF-HM-SICA和CNN的集成策略以进一步提高泛化性能。如图3所示,与数据集A相比,数据集B的模型在所有敏感度级别上的F1分数和准确率均有整体提升,尤其是在高敏感度级别(L3),说明大规模训练的优势。然而,在8:1:1分布下,低敏感度(L1)和中敏感度(L2)级别的F1分数低于其他模型,这可能是由于Transformer模型的自注意力机制在处理大规模数据集时效率有限,导致适应性不足。
如图3所示,对于数据集B,与数据集A相比,所有模型的F1分数和准确率都有所提高,特别是在高敏感度级别(L3)上,分类性能几乎完美,突显了大样本训练的优势。然而,在8:1:1分布下,低敏感度(L1)和中敏感度(L2)级别的F1分数低于其他模型。这可能是由于Transformer模型的自注意力机制在处理大规模数据集时效率有限。如图3所示,CNN和RF-HM-SICA在高敏感度级别(L3)上的准确率均为0.9605,F1分数为1.0,表明在适度平衡的敏感度分布下对边界样本具有很强的区分能力。与数据集A相比,数据集B使得各模型的误分类率总体上有所降低,表明更大的数据集有助于减少过拟合,而集成学习模型继续显示出明显的性能优势。
如图4所示,对于数据集C,RF-HM-SICA和GBDT在所有敏感度级别上的F1分数均至少达到0.86,进一步验证了它们在大样本条件下的稳健性,并确认了集成学习模型的优越性。此外,CNN、MLP和其他前馈架构在高敏感度级别(L3)上的F1分数超过0.999,表明大规模数据有效缓解了过拟合并增强了深度学习模型的收敛行为。尽管在7:2:1敏感度分布下Transformer模型仍存在某些局限性,但在8:1:1设置下其性能明显改善,低敏感度级别(L1)的F1分数达到0.9077,相比数据集A提高了2.6%。这表明Transformer模型的适应性有所增强。在7:2:1分布下,RF-HM-SICA和GBDT的准确率均为0.9577,高敏感度级别(L3)的F1分数达到0.9999,与数据集B相比误分类率降低了50%。这些结果表明,更大的数据集显著提高了模型对不平衡数据分布的适应能力。从数据集A到数据集C,RF-HM-SICA的平均分类准确率提高了2.3%,证实了大规模数据大幅减少了预测误差。然而,随着数据量的增加,集成学习模型的性能优势的边际回报逐渐减小(例如,RF-HM-SICA在数据集C上的准确率仅提高了0.0005)。图3和图4显示了数据集B和C在类似划分下的结果。虽然模型之间的总体结果相似,但仔细观察会发现,对于敏感度级别1和2,仍存在明显差异。对于敏感度级别3,结果几乎相同。这主要是因为数据集C比数据集A和B更大,且敏感度级别3的样本比例更高,从而导致更稳定的预测和模型之间相对较小的差异。
3.3 使用K折交叉验证的结果分析
在确定RF是所有比较算法中最有效的模型后,采用了分层10折交叉验证策略来进一步评估其统计可靠性和稳定性,从而减轻单一随机数据划分可能引起的偏差。具体来说,使用分层抽样在数据集A上验证了RF模型,确保每折中的三个敏感度级别(L1、L2和L3)的分布与原始数据集保持一致,从而减轻了类别不平衡对性能评估的影响。最终结果报告为10折的平均值,确保了模型在不同数据划分下的稳定和一致性能,并证明了所提出方法的稳健性和统计可靠性。如表4所示,所提出的方法在不同数据划分比例(8:1:1、7:2:1和2:3:5)下始终获得了较高的F1分数,在L3类别上表现几乎完美,表明其对高敏感数据的强烈区分能力。尽管L1类别的精确率有轻微波动(范围从0.7178到0.8396),但在所有设置下的召回率都接近1,表明模型在保持高检测能力的同时保持了整体性能的平衡。
3.4 总结与讨论
(1)不同敏感度级别之间的性能差异:L1、L2和L3之间存在显著差异。特别是L3(高敏感度)样本包含独特的高风险属性(例如,身份信息、生物识别数据和支付账户),这导致其熵特征与L1和L2有显著不同。此外,在数据集A、B和C中,L3通常具有相对较多的样本数量,有利于模型学习。另外,L3由明确的决策边界定义(例如,存在任何高风险属性或多个财务属性),使其更容易与其他类别区分开来。
(2)L3的近乎完美性能:L3样本的特征是至少存在一个高敏感度属性,这在特征空间中形成了高度可区分的模式。身份文件、生物识别数据和支付账户等属性由于其较高的信息熵和与L3标签的强相关性而具有很强的可分性。因此,在所有数据集和划分设置中,大多数模型对L3的准确率、精确率和F1分数均接近完美。
(3)某些类别划分下的性能下降:我们观察到L2(中等敏感度)是最具挑战性的类别。它代表一个狭窄的边界条件(例如,仅存在一个财务属性而没有高风险属性),这导致特征空间与L1有所重叠。此外,深度学习模型(CNN、LSTM、Transformer)的表现略低于基于树的模型。这主要是由于以下原因:特征维度相对较低(只有7个主要类别),限制了深度架构的优势;基于树的模型更适合捕捉离散和基于规则的决策边界;类别不平衡可能导致深度模型过度拟合主导模式(尤其是L3)。由于类别不平衡,模型倾向于偏向多数类别(L3),偶尔将L1/L2样本误分类为L3,这反映在少数类别的召回率较低上。为了进一步支持这些发现,我们在修订后的手稿中加入了混淆矩阵分析和特征重要性分析。总之,RF-HM-SICA模型展现出了很高的稳定性、强大的泛化能力,以及在不同数据集规模和敏感性分布下对边界样本的有效保护,使其特别适用于民用航空乘客敏感信息分类和分级任务中遇到的复杂且不平衡的数据环境。
4. 结论与未来工作
通过将基于信息熵的测量方法与随机森林(RF)分类相结合,本研究构建了一种统一的敏感信息测量和分级方法,称为RF-HM-SICA,以有效应对数据异质性问题。在多个数据集上的实验结果表明,RF-HM-SICA在敏感信息分类任务中的性能优于CNN、LSTM、MLP、SVM、Transformer和GBDT。特别是对于高敏感性数据,其在不同规模的数据集中的识别准确率和精确度都接近1.0,而在所有对比模型中,RF-HM-SICA的误分类率最低。
尽管本研究取得了有希望的性能成果,但在数据集规模、网络结构和应用范围方面仍存在一些限制。目前的模型是在规模有限的数据集上训练的。未来的工作将探讨更深层次的网络架构、改进的注意力机制以及多粒度特征融合策略,以进一步提升分类性能。目前的实验仅限于民用航空乘客数据。虽然所提出的基于熵的特征工程和敏感信息分类框架具有潜在的通用性,但未来的工作将在跨领域数据集上验证该方法,并探索领域适应技术。
此外,RF-HM-SICA在数据量变化和敏感性分布不同的情况下仍表现出高稳定性、强大的泛化能力以及对边界样本的有效保护。这些特性使其特别适合民用航空乘客敏感数据分类和分级中遇到的复杂、不平衡和异构的数据环境。RF-HM-SICA对民用航空乘客敏感数据的准确识别和层次化测量为后续的安全数据共享和隐私保护机制奠定了坚实的基础。