基于持久同调的混合拓扑-度量聚类框架:TCSI、HTCI与NHTSI
《Axioms》:A Hybrid Topological–Metric Clustering Framework Based on Persistent Homology: TCSI, HTCI, and NHTSI
【字体:
大
中
小
】
时间:2026年06月19日
来源:Axioms 1.6
摘要
虽然传统的聚类方法,尤其是k均值算法,能够基于数据点间的度量距离给出高效实用的解决方案,但在面对复杂、非线性且结构无序的数据集时却存在局限性。本研究提出了一种混合拓扑-度量聚类框架,即Hybrid-NHTSI,该框架将基于持久同调的结构信息融入到聚类更新过程中。该方法以拓扑簇分离指数(TCSI)为基础,这是一种基于持久同调的用于衡量拓扑分离程度的指标。除了TCSI之外,该框架还运用标准化拓扑簇分离指数(NTCSI)、混合拓扑聚类指数(HTCI)以及标准化混合拓扑分离指数(NHTSI),从几何和拓扑两个角度评估聚类性能。在所提出的方法中,通过正则化项来控制簇内的几何分散,从而提升簇之间的拓扑分离度。这样的设计使得提取出的簇不仅在拓扑层面一致,而且在几何层面也具有一致性。该方法在具有不同噪声水平和重叠程度的合成圆环-月亮型基准数据集,以及UCI人类活动识别真实传感器数据集上进行了性能测试。实验结果表明,在适合密度分析的合成基准数据集上,DBSCAN取得了最佳的总体性能,这与数据本身的非凸性和可密度分离结构相符。然而,Hybrid-NHTSI在NTCSI、HTCI和NHTSI指标上的表现均优于k均值、谱聚类和凝聚聚类等传统度量/几何聚类方法。基于NHTSI的成对统计比较表明,这些改进在与其他多种竞争方法的对比中都具有显著意义。在真实数据实验中,尽管谱聚类获得了最高的ARI值,但Hybrid-NHTSI在NTCSI、HTCI和NHTSI指标上表现最佳,且在NHTSI指标方面的表现远超其他所有竞争方法。研究结果表明,综合考虑度量信息和拓扑信息,而非仅依赖其中一种信息,能为复杂的聚类问题提供更具结构指导意义的评估与优化机制。因此,所提出的方法不应被视为在所有指标上都优于其他聚类算法的通用方案,而应被看作是一种融合了持久同调的、具备拓扑意识的混合优化框架,可用于提升基于度量的聚类性能。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号