《Expert Systems with Applications》:Unsupervised Hybrid Attribute Selection Based on Variable Precision Neighborhood Rough Sets
无监督属性选择是无监督知识发现过程中的重要数据预处理方法,它通过移除不相关和冗余属性来降低数据维度。其目标是识别一个最优属性子集,以尽可能保持原始数据分布。大多数现有无监督属性选择方法主要集中于处理单一属性类型(名义型或数值型)。它们无法有效处理不确定混合数据。在现实生活中,数据通常以不确定混合形式存在。作为粗糙集(RST)的扩展模型,邻域粗糙集(NRS)能够有效处理不确定混合数据。它已广泛应用于有监督的混合属性选择,而无监督混合属性选择仍有待进一步探索。基于这些观察,本文提出了一种考虑条件属性的无监督混合属性选择策略。首先,为无决策信息系统构建了变精度邻域粗糙集(VPNRS)模型。与邻域粗糙集模型相比,该模型具有更好的抗噪性和容错性。接着,基于所有单条件属性子集,定义了变精度邻域依赖度(VPND)和平均变精度邻域正确分类率(VPNCCR)的增长率,并在此基础上定义了邻域属性质量度,该度量可作为属性评估指标。进一步,基于邻域属性质量度设计了无监督混合属性选择算法。最后,将所提算法与现有的无监督属性选择算法进行了比较。实验结果表明,该算法在处理不确定混合数据方面有效且具有优越性。代码已在 https://github.com/Scmz-YiLi/UAS_NAQD 公开。
随着数据时代的来临,海量高维数据在各行业随处可见。高维数据通常包含大量不相关和冗余属性。如果这些高维数据直接应用于实际应用,不仅计算开销高,算法性能也会下降(Li, Nie, Wu, Hu, & Li, 2021)。降维方法通常用于预处理高维数据(Yin et al., 2024; Yuan et al., 2021a)。目前,常见的降维方法主要分为两类:属性提取(Nie, Wang, Wang, & Li, 2019a; Nie, Wang, Wang, Wang, & Li, 2019b)和属性选择(Chen, Nie, Wang, & Li, 2022a; Liao et al., 2024; Sang et al., 2025b)。属性提取即将原始数据投影到低维空间,以去除数据中的不相关和冗余属性。然而,这使得低维数据不再具有与之前相同的物理意义,可能会影响其在现实生活中的应用。属性选择通过选择一个最优属性子集,从原始数据中移除不相关和冗余属性,而不破坏数据的物理意义。本文重点研究属性选择。根据数据中是否存在标签信息,属性选择方法可大致分为三类(Chen, Nie, Wang, & Li, 2022b; Liao et al., 2024; Sang, Yang, Chen, Li, & Xu, 2025a; Yuan et al., 2021a):无监督、半监督和有监督方法。对于半监督或有监督方法,必须预先知道部分或全部样本的标签信息。在实际环境中,获取样本标签信息的代价非常高昂。无监督属性选择(UAS)可以根据数据的内在结构识别最优属性子集。因此,研究UAS至关重要。大多数现有的UAS方法基于谱分析和流形学习进行属性选择,可以保持数据的内在结构。然而,据研究人员所知,大多数现有方法目前无法反映数据中的粒度知识结构、不确定性、模糊性和不一致性,并且仅适用于单一属性类型(名义型或数值型)(Yuan, Chen, Zhang, Wan, & Li, 2021c)。但在实际应用中,数据通常以不确定、混合(名义型和数值型)且无标签的形式存在。例如,医疗诊断数据通常包含:姓名、性别、种族、体重、身高、血压等。其中体重、身高和血压是数值属性;姓名、性别和种族是名义属性。如今,不确定混合无标签数据的数量巨大。因此,有必要降低数据维度以减少计算开销。UAS是降低数据维度的一种有效方法,在不确定混合数据中值得研究。粗糙集理论(RST)是处理不确定混合数据的数学框架(Pawlak & Skowron, 2007),已成功应用于许多领域,例如属性选择(Sang et al., 2025a; Sang et al., 2025b; Yang, Yuan, Luo, Chen, & Peng, 2024; Zhang et al., 2024)、异常值分析(Chen et al., 2024; Hu, Yuan, Mi, & Zhang, 2025; Su et al., 2024; Zhang et al., 2023a)、分类任务(Li, Wang, Qian, Liu, & Wang, 2023a; Yue, Zhou, Yao, & Miao, 2020)、规则归纳(Zhao et al., 2021)以及其他方面(Wang, Qian, Li, Liang, & Zhang, 2022)。属性选择是RST的主要研究方面之一。其目标是从高维属性空间中识别一个最优属性子集,而不降低数据的分类能力(Zhang et al., 2022b; Zhang, Wang, Gong, & Song, 2019; Zhu, Xu, Hu, & Zhang, 2018; Zhu, Zuo, Zhang, Hu, & Shiu, 2015)。但是,它仅适用于处理基于等价关系的名义属性数据。当处理数值属性数据时,需要进行离散化。然而,离散化过程会导致数据信息丢失(Wang, Chen, Yuan, Wan, & Li, 2023; Zhang et al., 2022a)。为解决上述问题,Hu等人提出了邻域粗糙集(NRS)模型(Hu, Yu, Liu, & Wu, 2008a; Hu, Yu, & Xie, 2008b; Hu, Liu, & Yu, 2008c)。NRS提供了一种有效的工具来克服离散化问题,并且可以直接应用于数值属性数据的属性选择,无需离散化。在NRS中,邻域关系用于衡量数据样本之间的相似性。目前,NRS的研究主要集中在NRS模型的扩展和应用上。一方面,受原始NRS模型的启发,已提出一系列NRS扩展模型(Jiang, Zhang, & Yuan, 2024; Liu, Lin, Lai, & Miao, 2022; Xia et al., 2022; Xie, Hu, & Jiang, 2022);另一方面,NRS已成功应用于属性选择(Liu, Lin, & Miao, 2024; Wang & Zhao, 2024; Wu, Wang, Ge, Xiong, & Liu, 2024; Zhang et al., 2022a)、多标签属性选择(Lin, Hu, Liu, Chen, & Duan, 2016; Liu, Lin, Li, Weng, & Wu, 2018; Sun, Yin, Ding, Qian, & Xu, 2020)、高光谱分析(Liu et al., 2016; Yu, Zhang, & Shen, 2019)、异常检测(Wang & Li, 2021; Yuan, Zhang, & Feng, 2018)等领域。它具有良好的研究价值和应用前景。在粗糙集背景下,属性选择也称为属性约简(Yuan et al., 2021a)。近年来,基于邻域粗糙集(NRS)的属性选择方法受到了广泛关注。通常,基于NRS的属性选择方法可分为三大类:基于邻域依赖度的(Li et al., 2024b)、基于邻域判别矩阵的(Wang, He, Shao, & Hu, 2018)和基于邻域不确定性度量的(Zhang et al., 2022a)方法。Li等人分别提出了基于邻域依赖度(Li et al., 2024b)和变精度加权邻域依赖度(Li et al., 2024a)的UAS方法。然而,这些方法仅适用于数值属性数据。Cheng等人提出了一种基于优势NRS的混合有序数据属性选择方法(Chen & Zhu, 2024),利用了邻域判别矩阵。Zhang等人提出了基于邻域组合熵的属性选择方法(Zhang et al., 2022a)。为了有效处理不确定混合属性数据,Hu等人分别提出了基于邻域依赖度(Hu et al., 2008a)和邻域信息熵(Hu & Yu, 2009)的属性选择方法,并取得了良好效果。据研究人员所知,上述提出的大多数NRS属性选择方法都是有监督的,不能应用于无监督任务。基于此,研究人员提出了一种基于邻域属性质量度的无监督混合属性选择模型。其计算模型如图1所示。首先,研究人员为无决策信息系统构建了变精度邻域粗糙集(VPNRS)模型。然后,基于所有单条件属性子集计算变精度邻域依赖度(VPND)和平均变精度邻域正确分类率(VPNCCR)的增长率,以此定义属性质量度。在此基础上,研究人员定义了邻域属性质量度,可作为评估候选属性的重要度量。接着,设计了基于邻域属性质量度的无监督混合属性选择算法(UAS_NAQD)。最后,使用公共数据集将UAS_NAQD与现有的UAS算法进行了对比分析。实验结果表明,UAS_NAQD可以选择更少的属性来维持或提高聚类算法的性能。此外,统计检验表明,本文提出的UAS_NAQD与大多数现有UAS算法在统计上存在显著差异。总之,本文的主要贡献如下:(1) 基于NRS理论,引入变精度思想,为无决策信息系统构建了VPNRS模型。该模型比NRS模型具有更好的抗噪性和容错性。(2) 为了有效处理不确定混合属性数据,研究人员基于所有单条件属性子集的VPND和平均VPNCCR的增长率,定义了邻域属性质量度。在此基础上,设计了UAS_NAQD。(3) 研究人员在32个不同类型的高维数据集上进行了多项实验。实验结果表明,本文提出的UAS_NAQD能够识别最优属性子集,以维持或提高聚类算法的性能。此外,统计检验表明,UAS_NAQD与9个现有的UAS算法在统计上存在显著差异。本文其余部分的组织结构如下:第2节介绍相关工作。第3节介绍变精度邻域粗糙集(VPNRS)的基本理论。第4节给出基于邻域属性质量度的无监督混合属性选择模型,并具体分析该模型。提出相应的算法UAS_NAQD。第5节介绍实验结果与分析。第6节对论文进行总结。
2. 相关工作
本节将简要介绍一些关于UAS和基于NRS的属性选择方法的最新研究。UAS大致可分为三类(Chen et al., 2022b; Liao et al., 2024):过滤式、包裹式和嵌入式方法。过滤式方法单独评估每个属性的重要性,忽略了属性之间的相关性(Li, Nie, Wu, Wang, & Li, 2023b)。尽管计算效率高,但其性能可能不佳。它包括…(此处省略对过滤式、包裹式、嵌入式方法的详细描述)…
3. 预备知识
本节将介绍关于VPNRS的一些基础知识(Hu et al., 2008a)。
定义1(Hu et al., 2008b, 2008c):一个五元组可用于表示邻域信息系统(NIS),即NIS=(U,A,V,f,δ),其中U={x
1,x
2,?,x
n}是非空样本集;A={a
1,a
2,?,a
m}是非空属性集;V=∪V
a(?a∈A)是U中样本在属性a下值域的并集。V
a是U中样本在属性a下的值域;f:U×A→V是一个信息函数,对于?x∈U和?a∈A,有f(x…(此处省略对定义中f函数的详细说明)…
4. 所提方法
本节首先构建一个考虑条件属性的新型VPNRS。接着,提出一种基于邻域属性度的无监督混合属性选择模型。然后,设计相应的属性选择算法UAS_NAQD。最后,给出一个具体示例进行说明。
5. 实验与分析
本节通过聚类任务评估UAS_NAQD的性能。主要包括实验数据集、实验准备、实验结果、参数敏感性分析和统计检验。
6. 结论
本文提出了一种基于邻域属性质量度的无监督混合属性选择方法。该方法不仅利用了VPND能够有效处理不确定数据的优势,还考虑了基于所有单条件属性子集的平均VPNCCR的增长率。此外,研究人员使用混合邻域相似度来计算邻域关系。这使得所提方法适用于数值、名义和混合…(此处原文不完整,根据上下文补充)属性数据。