《COMPUTERS IN INDUSTRY》:A spatio-temporal anomaly detection system to support understanding of abnormal phenomena in automated manufacturing lines
自动化制造产线执行重复周期,而连续运行会提高异常行为发生的可能性。然而,对这些异常的理解仍然是一项重大挑战,因为专家工人必须通过人工观察并比较正常与异常周期来识别偏差。针对这一挑战,研究人员提出了一种视频异常检测系统,通过比较自动化制造产线中的正常周期与异常周期,识别异常操作发生的空间位置与时间位置。该方法首先提取时空运动斑块,以捕获单个对象活动。随后,采用一种采样策略,在考虑过程变异性的前提下选择可比较的正常周期。利用动态时间规整(DTW)对时间变化进行对齐,从而构建能够高效表征典型周期模式的代码本(codebook)。这使得该方法即使在数据有限的条件下,也能够高精度定位空间异常与时间异常。研究人员在两个真实案例中评估了所提出系统:(1)夹爪(chuck)与托盘(pallet)之间的干涉;(2)多零件装配中的延迟。在两种情境下,该方法相较于制造领域和计算机科学领域的最新方法,均表现出更精确的时空异常定位能力。具体而言,在时间异常场景中,该方法取得了0.92的AUC,而对比基线分别为0.61和0.69。这些结果表明,该系统对周期层级变异具有鲁棒性,并具有实际应用可行性,可支持复杂工业环境中异常现象的实践性理解与诊断。
该论文发表于《COMPUTERS IN INDUSTRY》,聚焦自动化制造产线中异常现象“可理解检测”的关键问题。研究背景在于,自动化制造系统以周期性、连续性的多步骤流程运行,随机因素与部件退化会提升异常行为发生概率,而此类异常不仅造成产能损失,还可能进一步损伤设备。传统红外、激光等传感器通常只能提供完成/失败等低层级信号,难以揭示异常形成的具体机理;即便现代产线部署了大量传感器,若要实现全面覆盖,也往往伴随高昂成本与繁重维护负担。因此,现场诊断仍高度依赖经验工人反复比对正常与异常周期的视频表现。另一方面,制造现场中的异常往往并非单纯静态缺陷,而是多个运动部件在特定时间和空间上的偏移、干涉或延迟,这使得异常现象的理解远比“是否异常”的判断更为困难。基于这一现实需求,研究人员开展了面向自动化制造产线的视频时空异常检测研究,目标是在有限样本条件下,同时定位异常发生的时间与空间区域,从而辅助工人快速把握故障机理。研究结论表明,所提出系统能够有效建模周期操作中的系统性时空变异,在两类真实制造案例中均获得优于制造领域与计算机视觉领域代表性方法的检测性能,并在异常定位的精确性与可解释性方面表现突出,具有明确的工业应用意义。
研究人员采用的关键技术方法主要包括以下几项。首先,针对真实自动化制造产线固定相机采集的视频数据,使用高斯混合模型(GMM,Gaussian Mixture Model)进行背景减除,并通过三维26-连通性提取时空运动斑块(blob),以表征单个部件或相互作用部件的局部运动单元。其次,利用基于交并比(IoU,Intersection over Union)的正常视频采样策略,从全部正常周期中筛选与异常样本具有相似时空变异模式的参考周期。再次,引入动态时间规整(DTW,Dynamic Time Warping)对不同周期内部时间差异进行对齐,并据此构建代码本(codebook)学习正常运动模式。最后,通过结合空间相似度与时间概率的似然模型计算异常分数,实现逐帧时空异常检测与可视化。样本来源于真实自动化制造线,共包含两个场景:场景1收集128段正常视频和4段异常视频,场景2收集64段正常视频和5段异常视频。
以下结合论文主体对研究结果进行解读。
3. Methodology
论文方法框架由四个核心步骤构成:斑块提取、基于IoU的正常视频采样、基于DTW的代码本学习以及异常检测。该框架的设计逻辑非常明确:先以局部时空运动单元替代全局场景特征,以保留复杂部件运动与交互;再通过相似周期筛选降低正常样本内部无关变异;继而借助DTW对齐周期内部时间波动,学习“正常模式”的分布;最后将异常视频中的运动斑块映射到代码本并计算偏离程度。与仅依赖前景面积或重建误差的方法相比,该方法更强调“对应运动之间的比较”,因此更适合制造产线中周期性、多组件、存在结构化变异的异常识别任务。
3.1. Blob extraction
在斑块提取部分,研究人员将视频表示为V∈R
nx×ny×nt,并利用GMM将其分解为背景G与前景F,满足V=G+F。随后构建二值前景掩膜B∈{0,1}
nx×ny×nt,并通过三维26-连通性提取时空连通区域作为blob。该设计的意义在于,blob并不局限于单一物体,也可以包含共同运动或发生接触、遮挡的多个对象,从而使机械交互本身也能被建模为有意义的运动单元。论文特别指出,在类似梯形逻辑控制的制造系统中,不同语义动作通常不会在同一空间区域同步发生,因此统一的时空blob表示可以较好地覆盖单部件运动与多部件交互,为后续异常定位奠定基础。
3.2. IoU-based sampling of normal videos
在正常样本采样部分,论文针对制造过程中的系统性时空变异提出了解决思路。虽然每个生产周期由控制触发开始,但部件初始位置差异、等待时间差异等因素会导致内部动作轨迹与持续时间不同。为避免将这些“正常变异”误判为异常,研究人员根据前景掩膜之间的软IoU相似度,从全部正常视频中筛选出与异常视频在时空结构上更接近的一小组正常周期。该步骤本质上是在代码本学习之前进行“参考样本配准”,从而减少无关变异对正常模式建模的干扰。后续消融实验也证明,IoU采样对空间变异更为显著的场景尤其关键。
3.3. DTW-based codebook learning
在代码本学习阶段,研究人员提出了结合时间与空间一致性的blob正常性建模。论文定义了blob在时间t的正常似然L(b
t)=P(b
t|t)×S(b
t→0,c
k),其中P(b
t|t)描述某类blob在特定时间出现的概率,S(b
t→0,c
k)则衡量其在平移到规范时间后与代码字(codeword)之间的空间相似性。这一建模强调:一个运动单元若要被视为正常,不仅应在合适时间出现,还应具有符合既有模式的形状与位置结构。
3.3.1. Likelihood model definition
该部分的贡献在于将“何时出现”与“长什么样”统一纳入blob正常性评估。时间概率项对应周期流程中的动作顺序与时间分布,空间相似项对应部件运动轨迹和局部交互模式。二者相乘形成双重约束,有助于识别仅在时间上异常、仅在空间上异常,或两者同时异常的现象。
3.3.2. Codebook construction
代码本构建中,研究人员利用DTW对不同视频中的blob序列进行对齐。对于当前视频中的blob b
i,j与代码字c
k,若时间差|t
i,j?t
k|≤τ,则以IoU作为相似度;若相似度超过阈值?,则采用加权更新公式c
k(new)=(1?λ
k)c
k(old)+λ
kb
i,j;否则创建新代码字。该机制使代码本能够逐步吸收代表性正常运动模式,并通过DTW处理不同周期内部的节拍差异。论文指出,这种时间协调的代码字表示可以在局部时间对应的基础上,隐式覆盖多样的正常变化模式,而无需大规模训练数据。
3.4. Anomaly score calculation
异常评分部分将异常视频也分割为blob集合,并分配到最相近的代码字。空间相似分数S
i,j(b
t→0)通过blob与所有代码字IoU归一化得到,时间相似分数P
i,j(b
t|t)则由时间差上的高斯核估计给出。最终,时间t的异常分数定义为所有blob负对数似然之和:Anomaly score(t)=?∑logL(b
i)。其中参数α平衡空间项与时间项贡献。该设计使低似然blob能够对总分产生放大作用,因此即便只有少量局部异常,也可在总分中被有效显现,从而保持对细微异常的敏感性。
3.5. Visualization module for anomaly interpretation
论文进一步加入可视化模块,以增强检测结果的解释性。具体方式是在原视频帧上叠加红色异常blob区域,同时显示时间序列异常分数曲线,并用垂线标示当前帧。这样,使用者既可通过曲线快速定位“什么时候值得看”,又可通过空间热区判断“哪里出了问题”,与论文支持异常理解与诊断的目标高度一致。
4. Case study
案例研究部分使用真实自动化制造线验证方法有效性。数据采集场景由三套功能单元及皮带输送机构构成,固定相机从数米外拍摄全景视频。研究人员访谈了日本汽车零部件供应商DENSO CORPORATION的两位制造专家,据此确定两类典型异常:其一为空间异常,即设备或产品位置错误;其二为时间异常,即操作执行时序偏离常态。这样的案例选择具有明确工业针对性,也保证了评估场景与实际诊断需求的一致性。
4.1.1. Scenario 1: Interference between chuck and pallet
场景1为Unit 3中的夹爪与托盘干涉。该异常发生于夹取环节:托盘上的工件被抬升到位后,顶部夹爪尝试抓取零件,但因机械干涉导致抓取失败,并使托盘发生轻微抬升。之后系统继续执行输送和装配动作,但实际上运输和装配的是“空位”。论文指出,这种异常不伴随明显停机或跌落,对非熟练工尤其难以察觉。因此,若能将托盘因干涉而出现的异常位移显式标出,就能为故障识别提供关键线索。
4.1.2. Scenario 2: Delay in assembly of multiple parts
场景2为Unit 2中的多零件装配延迟。流程中某个零件卡滞,导致本应执行的装配动作被推迟,并进一步级联影响后续多步装配时序。尽管最终所有装配动作都完成,但相较正常周期,其发生时间整体偏后。该类异常并非空间错位,而是时间结构紊乱,更难凭肉眼从复杂多步操作中直接识别,因此特别适合检验所提方法对时间异常的建模能力。
5. Results and discussion
结果显示,在帧级AUC评估中,场景1下Chauhan and Surgenor方法取得0.98,略高于本文方法的0.97;但在场景2下,本文方法达到0.92,明显优于ASTNet的0.69和Chauhan and Surgenor的0.61,也优于MemAD与DMAD。论文对场景1结果进行了谨慎解释:由于大多数前景运动在时间上恰与异常事件重合,基于前景面积的检测器在该场景中可能获得较高AUC,但这并不意味着其具备更强的语义理解能力。相对地,在更强调时序偏差的场景2中,本文方法优势充分体现,说明其在捕获操作时间结构偏离方面更具能力。
Table 3. Ablation study results
消融实验系统比较了两种采样策略(Random与IoU)和两种学习方式(Greedy与DTW)。场景1中,去除IoU采样后AUC由0.97降至0.62,说明该模块对处理托盘上零件位置差异造成的空间变异非常关键;而去除DTW影响较小,表明场景1中的时间变异有限。场景2中,若保留IoU但取消DTW,AUC由0.92骤降至0.58,显示DTW对捕捉多零件装配中的延迟异常具有决定性作用;若采用随机采样,即便配合DTW,性能也会下降,说明空间匹配良好的正常周期选择同样重要。消融结果整体证实了IoU采样与DTW代码本学习在空间和时间两维上具有互补贡献。
5.1. Scenario 1: Interference between chuck and pallet
在场景1的详细结果中,论文指出本文方法在ROC表现与AUC上优于ASTNet,并且能更准确地局部化夹爪与托盘干涉区域。相较之下,Chauhan and Surgenor方法与ASTNet更倾向于将所有动态区域广泛标为异常,虽然可能具有较高召回,但空间精度与语义区分能力不足。时间序列分析表明,本文方法不仅能捕获干涉事件本身,还能检测抓取失败后“未携带零件转运”的后续异常。但论文也明确报告了由运动模糊引发的误报,这源于模糊改变了运动blob的形状,使其与代码本匹配变差。即便如此,可视化输出仍能在帧内标明异常区域,并通过分数峰值指出对应时刻,从而直接辅助操作人员快速完成故障定位。
5.2. Scenario 2: Delay in assembly of multiple parts
在场景2中,本文方法取得所有方法中的最高AUC,并在时间曲线中清晰标出多零件装配的延迟时段。异常图展示出首次延迟动作发生时的关键空间区域,说明该方法不仅能检测“某时存在延迟”,还能指出与之对应的局部运动位置。论文还注意到,某些未被人工标注为真值异常的后续输送动作同样被检测为异常,但从语义上看,它们与延迟定义一致,反映出该方法具有发现“潜在异常”的能力。与此同时,场景2同样存在由运动模糊带来的误报,表明视觉退化仍是现阶段的主要局限之一。
5.3. Sensitivity analysis
敏感性分析通过对时空权重α与时间带宽h进行网格搜索,显示AUC在较宽参数范围内保持稳定,说明异常评分机制对超参数不敏感,具备较强内在鲁棒性。进一步地,研究人员考察了用于代码本构建的正常训练视频数量,从2到15逐步增加。结果表明,方法在少量训练样本下已能保持较好性能,并在约10个正常视频附近趋于饱和,验证了该框架在小样本工业环境中的实用性。不过在场景1中,当训练视频增至15个时AUC略有下降,论文认为这可能与离群正常模式被纳入代码本、进而引入噪声有关,也再次强调了代表性采样的重要性。
讨论部分总体指出,该研究的核心价值在于将制造产线中的异常检测从“是否异常”的黑箱判断推进到“何时、何地、何种运动偏离”的可解释分析。与依赖大规模数据和高算力的深度生成模型相比,该方法充分利用制造过程固有的周期结构与有限样本,避免了对大规模预训练模型的依赖;与仅看前景面积变化的方法相比,它能够更细粒度地建模单个部件及其交互的时空模式,因此更适合复杂工业现场。研究也诚实指出了当前局限,包括运动模糊导致的误报,以及异常参考采样中可能受离群样本干扰的问题。
研究结论部分可译为:本研究提出了一种新型时空异常检测系统,用于支持自动化制造产线异常现象的理解。该方法整合了运动斑块提取、基于IoU的采样以及基于DTW的代码本学习,以捕获周期操作中的空间与时间变异。研究人员在两个代表真实制造中空间异常与时间异常的场景中验证了该方法,分别为部件间物理干涉以及顺序零件装配延迟。在两类情境下,该方法均优于制造领域与计算机视觉领域的现有基线方法,AUC最高分别达到0.97与0.92,并且比基于背景减除和自编码器(AE,Autoencoder)的方法提供了更精确的异常运动定位。敏感性分析进一步证实,该方法对关键超参数变化具有鲁棒性,并且在训练数据有限时仍能保持良好表现,因此适合部署于真实制造现场,并可推广到多样化运行条件。尚存挑战包括由运动模糊引起的假阳性,以及离群样本带来的潜在噪声。未来工作将探索对模糊更稳健的特征提取方法,并融合可编程逻辑控制器信号(PLC,Programmable Logic Controller)等过程层信息,以提升数据采样效率与代码本泛化能力。