多视图数据探索方法

《IEEE Aerospace and Electronic Systems Magazine》:Multi-View Data Exploration Recipes for Making Sense of Multi-Source Industrial Data

【字体: 时间:2026年06月01日 来源:IEEE Aerospace and Electronic Systems Magazine 3.8

编辑推荐:

  工业资产,例如风力涡轮机(wind turbines)、泵或重型车辆,会产生大量数据痕迹,可用于多种目的。然而,理解现实世界的工业数据具有挑战性,因为它通常来自不同且高度异构的来源,例如来自不同组件和资产的传感器测量、配置规格或日志记录。直接应用现成的人工智能

  
工业资产,例如风力涡轮机(wind turbines)、泵或重型车辆,会产生大量数据痕迹,可用于多种目的。然而,理解现实世界的工业数据具有挑战性,因为它通常来自不同且高度异构的来源,例如来自不同组件和资产的传感器测量、配置规格或日志记录。直接应用现成的人工智能(AI)算法不一定能产生相关的洞见,因为这些方法难以处理数据的复杂性、可变性和领域特定约束。在本论文中,研究人员通过将三种数据探索策略形式化为标准化的工作流(方法学),弥合了这一差距,以便有效地分析、集成多源工业数据并从中获得可操作的洞见。使用这些方法学探索工业数据的益处,通过在四种不同类型的工业资产(给水泵(feedwater pumps)、压缩机(compressors)、风力涡轮机(wind turbines)和重型卡车(heavy-duty trucks))现场操作中收集的多源数据集得到了证明。研究结果强调了构思和验证形式化数据分析方法学的重要性,这些方法学能够实现工业数据的最优利用,而无需让每个新的应用背景都经历一个初始的试错数据探索阶段。
本研究背景源于工业资产在运行过程中产生海量、多源且高度异构的数据,包括元数据、配置信息、传感器流和日志记录等。这些数据在类型、性质、质量和粒度上差异显著,例如数值型与符号型、结构化与自由文本、静态与动态、连续传感器流与离散特定测量。理解这些工业数据对于实现有意义且可操作的数据驱动应用(如状态监测、异常检测和故障预测)至关重要。然而,现实世界中固有的挑战使得这一任务并不直接:资产高度异构且常以大型机队或组合形式管理,其技术规格、地理分布和运行条件的差异使得跨资产的数据集成和直接比较往往不可行;同时,由于设备故障、记录错误或通信故障等现实操作问题,收集的数据通常不完美且不完整。当前大多数先进的数据科学和AI方法并非为处理此类非同质、带噪声且不完整(具有大量缺失值)的数据而设计,通用的“一刀切”方法不存在,未经调整的现成解决方案很少能够应对来自多样化工业背景的多源数据集所提出的挑战。例如,简单地汇集不同类型的数据集并不可行,且无法利用不同数据源的丰富性。

为解决上述问题,研究人员开展了一项方法论研究,旨在将以往分散的数据探索策略系统化、形式化并标准化为可重用的框架。具体而言,他们提出了三种基于多视图(Multi-View)视角的数据探索工作流(方法学)。其核心理念是将每个数据源视为所研究现象的一个不同视图,对每个视图单独处理以应用最适合的数据挖掘和建模方法,然后创造性地整合不同视图的结果,形成一个能最优利用所有可用多源数据的探索流程。这三种方法学分别针对不同的工业分析目标:上下文异常检测、跨资产与时间的性能比较、以及未来故障风险估计。为了验证这些方法学的有效性和通用性,研究人员将其应用于四个具有代表性的、性质迥异的真实世界工业数据集:来自燃气电厂的小型给水泵机队数据、来自Scania大型卡车组合的发动机部件数据、覆盖全球的压缩机组合数据,以及苏格兰同一风场内14台风力涡轮机的SCADA数据。这些数据集涵盖了不同的异构性来源(资产类型、运行环境、数据缺失率),为方法学提供了严格的验证环境。研究结果证明了所提出的标准化工作流在应对多源、异质工业数据方面的优势,能够显著缩短每个新数据驱动应用的初始试错探索阶段,支持上下文感知的决策和运营管理。

为了实现上述目标,研究人员综合运用了几个关键技术方法。整个框架建立在“多视图分析”(Multi-View Analysis)的思想之上,即针对不同来源或模态的数据,分别在独立的视图中进行处理,再进行结果融合。具体技术包括:在方法学一中,使用了非负矩阵分解(Non-negative Matrix Factorization, NMF)来从性能数据中提取可解释的潜在组件,并结合无监督聚类(如K-Means)来识别操作上下文;在方法学二中,采用了一种创新的混合聚类方法,结合了超图聚类(Hypergraph Clustering)与共享最近邻相似度(Shared Nearest Neighbor Similarity, SNNS),以处理高维、带缺失值的数据,并利用形式概念分析(Formal Concept Analysis, FCA)揭示复合属性间的层次关系;在方法学三中,采用了经典的生存分析(Survival Analysis)技术,包括Cox比例风险模型(Cox Proportional Hazards Model)和生存树(Survival Trees),以整合静态规格数据与动态运行时间序列数据,实现对故障风险的统计估计。研究所用的样本队列来源包括:由工业合作伙伴提供的给水泵(PUMPS)数据集、Scania公司提供的重型卡车(TRUCKS)匿名数据集、工业合作伙伴提供的压缩机(COMPRESSORS)数据集,以及公开的风力涡轮机(TURBINES)数据集。

研究结果部分具体阐述了三种数据探索方法学的应用与验证:

Recipe 1: Detect Contextual Anomalies(检测上下文异常)。本方法学旨在解决在缺乏真实标签且运行条件高度动态的场景下,监控和解释资产性能的挑战。其核心思路是,运行上下文直接影响性能行为,因此采用多视图分析,将过程参数(如转速、温度、压力)作为“过程视图”,将性能参数(如振动)作为“性能视图”。通过在过程视图中为每台资产独立聚类以识别操作模式,同时在性能视图中使用NMF跨所有资产提取标准化的性能指纹,从而建立每个操作模式与其典型性能指纹之间的明确关联。实时异常检测通过比较当前观测性能指纹与对应操作模式的预期指纹来实现,偏差累积超过阈值则触发警报。该方法在给水泵数据集(PUMPS)上得到验证,成功区分了真正的性能异常(如振动激增)与因出现前所未有的操作工况(概念漂移)而导致的性能变化,后者可通过操作模式识别的确定性得分和未知模式率来鉴别。

Recipe 2: Compare Performance Across Assets and Time(跨资产和时间比较性能)。此方法学针对大型、异构资产组合或机队,旨在揭示其性能特征和演化规律。其核心是一种基于超图聚类的多层分区方法。该方法首先将可用的多源数据(如静态元数据、动态时间序列)根据领域知识划分为多个主题层(views),然后在每个层内对数据实体(资产或资产-时间窗口组合)进行聚类。随后,将各层的聚类结果构建成一个超图,再通过计算超边之间的共享最近邻相似度将其转换为加权图,最后对该图进行聚类,得到重叠的、具有复合属性的分区。该方法能有效处理缺失值(仅在缺失数据的层中移除实体),并将结果用于比较分析。在压缩机数据集(COMPRESSORS)上的“比较使用监控”应用中,该方法基于元数据识别出12个重叠的压缩机配置组,并通过分析各组的关键性能指标(KPIs)在容差范围内的合规率,揭示了不同配置组在操作规范性上的差异。在风力涡轮机数据集(TURBINES)上的“比较性能分析”应用中,该方法基于动态SCADA数据将(涡轮机,周)组合划分为7个重叠的“基本运行模式”,并通过形式概念分析(FCA)发现了17种并发存在的“复合运行模式”,从而以鸟瞰视角清晰展示了整个风电场运行行为随时间(53周)的演化模式,并识别出表现异常的个别涡轮机。

Recipe 3: Estimate Failure Risk in the Future(估计未来故障风险)。本方法学旨在利用多源数据为预测性维护提供统计性的故障风险估计。其创新性在于将资产的静态规格属性与动态运行数据相结合。首先,基于技术规格(静态数据)使用生存分析(如生存树)估计每个资产固有的、不随时间变化的“静态故障易感性风险”。然后,基于全机队的动态运行时间序列数据,使用生存模型(如Cox模型)估计在特定运行上下文下的“动态使用风险”。最后,创造性地将静态风险作为协变量(偏置项)纳入动态风险模型,从而为每个资产在任意未来时刻估算一个综合的“总体故障风险”。该工作流能够跨资产、跨使用上下文利用稀缺的故障标签。在重型卡车数据集(TRUCKS)上的验证表明:基于规格的生存树分析揭示了不同技术规格组合如何导致不同的故障易感性;而结合静态风险偏置的动态Cox分析,为每辆卡车生成了随时间演化的风险曲线,能够提前指示故障倾向,并展示了故障卡车与删失卡车在风险分布上的显著差异。

论文讨论部分总结指出,数据探索是连接原始工业数据与有效数据驱动应用的关键但常被低估的阶段,通常耗时且需从头开始。本工作的核心贡献是将三种创新性的多视图数据探索策略正式化、标准化为可重用的方法学工作流,从而为应对多源异质工业数据提供了系统性的解决方案。尽管这些方法学已经过形式化和验证,但未来仍需进一步努力以促进其在实际工业场景中的广泛部署,例如简化工作流、在更多样化的数据集和工业问题上进行验证、以及扩展方法学库。研究结论强调,应重视方法严谨的数据探索,而非仅仅追求在理解不足的数据上直接应用现成算法所带来的即时满足感。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号