DOEI：用于注意力增强类激活映射的嵌入信息双重优化

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neurocomputing》：DOEI: Dual optimization of embedding information for attention-enhanced class activation maps

【字体：大中小】 时间：2026年05月26日 来源：Neurocomputing 6.5

编辑推荐：

　　弱监督语义分割（Weakly Supervised Semantic Segmentation, WSSS）通常利用有限的语义标注来获取初始类激活映射（Class Activation Maps, CAMs）。然而，由于高维空间中类激活响应与语义信息之间的耦合

弱监督语义分割（Weakly Supervised Semantic Segmentation, WSSS）通常利用有限的语义标注来获取初始类激活映射（Class Activation Maps, CAMs）。然而，由于高维空间中类激活响应与语义信息之间的耦合不足，CAM容易出现目标共现（object co-occurrence）或激活不足（under-activation）现象，导致识别精度下降。为解决该问题，研究人员提出DOEI（Dual Optimization of Embedding Information，嵌入信息双重优化）方法，该方法通过语义感知注意力权重矩阵重构嵌入表示，以优化嵌入信息的表达能力。具体而言，DOEI在类标记与图像块标记的交互过程中，放大高置信度标记并抑制低置信度标记。这种激活响应与语义信息的对齐增强了目标特征的传播与解耦，使生成的嵌入能够更准确地表征高层语义空间中的目标特征。此外，研究人员在DOEI中提出混合特征对齐模块，该模块结合RGB（Red, Green, Blue，红绿蓝）值、嵌入引导特征与自注意力权重，以提高候选标记的可靠性。综合实验表明，DOEI优于现有最先进方法，生成更高质量的CAMs，并显著提升分割性能，包括PASCAL VOC数据集（79.1% mIoU）和MS COCO数据集（51.1% mIoU）。

语义分割旨在为图像中的每个像素分配特定的类别标签。传统方法通常依赖大量精确的像素级标注来提升网络性能，但获取此类标注 notorious 耗时且资源密集。因此，研究人员 increasingly 采用替代形式的弱监督，如涂鸦标注、边界框、点标注和图像级标签，以实现像素级分割。基于图像级标签的技术尤为优势，因其易于从互联网收集且标注成本极低。

当前基于图像级标签的弱监督语义分割技术通常包含以下步骤：首先，利用分类网络生成特定类别的类激活映射，以粗略定位目标；其次，将其精炼为伪掩膜标注；最后，利用这些伪掩膜标注和原始图像训练语义分割网络。获取高质量的类激活映射对于后续过程至关重要。然而，现有方法常因图像级标签的语义深度有限而产生不准确的类激活映射，如错误激活非目标对象（目标共现）和目标对象激活不完整（激活不足）。研究人员将这一现象的根本归因于"耦合不足"，具体指视觉Transformer编码器前向传播过程中，代表语义类别的高层类标记与代表视觉激活的空间图像块标记之间的错位。这一挑战阻碍了精确的定位与分割，尤其在多目标场景中。

具体而言，这种错位体现在两个方面。其一，类标记可能错误地将高注意力权重分配给上下文纠缠的背景对象所属的图像块，导致目标共现。例如，由于语义激活耦合不足，模型可能无法将"摩托车"与骑乘的"人"分离，导致背景中出现严重的假阳性激活。其二，对于大型目标如"公交车"，激活响应可能顽固地收缩至最具辨识性的部分，如"车窗"或"前保险杠"，很大程度上忽略主体。此类类激活映射失败的实际影响极具危害性。由于弱监督语义分割严重依赖多阶段流程，这些错误的初始种子不可逆转地毒害后续的伪掩膜精炼过程，造成错误的级联累积。在自动驾驶或医学图像分析等实际下游应用中，这些退化的分割边界和语义混淆可能导致灾难性误判。该现象主要源于未能充分捕获深层结构与特征之间的复杂交互，同时未能建立激活响应与图像语义之间的强关联。关于对象类别的先验知识可在与原始图像交互时提供对其整体特征的洞察。尽管这些信息在低维空间中可能表现为简单的词语或数字，但在高维空间中可更完整、精细地表达。

现有研究主要强调从输入图像中提取分类特征信息，忽视了高维语义空间在生成准确类激活映射中的关键作用。这一疏忽通常导致类激活映射仅覆盖对象部分特征或错误包含非目标对象。随着弱监督语义分割任务应用场景日益复杂，模型充分识别轮廓和精确目标定位能力的局限性愈发明显。研究人员的观察揭示，在弱监督语义分割任务中，基于视觉Transformer的分类或表示学习模型中的级联编码器有助于特定类别激活的分层和远程信息建模。基于此，研究人员将级联编码器中注意力机制的反馈纳入嵌入过程，以增强具有可靠语义信息的嵌入在信息交互过程中的影响，从而在各层实现特定类别特征学习。此外，通过减少不可靠嵌入的影响以降低假阳性出现，最终嵌入保留了关于目标对象的最大有用信息，从而增强模型生成类激活映射的判别能力。

为进一步提升多维空间优化过程中特征表示的准确性，研究人员提出混合特征对齐模块，该模块整合原始图像的RGB信息与嵌入的余弦相似度特征。该模块旨在解决低维空间中嵌入表示能力的局限性。通过采用此策略，研究人员进一步细化模型对图像语义的理解和表示，从而获得更高质量的目标定位图。

研究人员开展了一系列实验验证所提方法的有效性。在数据集与评估方案方面，研究采用广泛使用的PASCAL VOC 2012和MS COCO 2014数据集进行评估。PASCAL VOC分为训练集、验证集和测试集，分别包含1464、1449和1456张图像，涵盖20个目标类别和1个背景类别。为与先前研究保持一致，研究人员使用包含10582张图像的扩充训练集。

研究人员提出将DOEI应用于视觉Transformer的每一层编码器。DOEI利用自注意力机制中的耦合注意力来放大特定类别的语义信息并抑制前向传播过程中的噪声。在自注意力机制中，研究人员通过语义感知注意力权重矩阵重构嵌入表示，优化嵌入信息的表达能力。具体地，在类标记与图像块标记的交互过程中，DOEI放大高置信度标记并抑制低置信度标记，使激活响应与语义信息对齐，增强目标特征的传播与解耦，使生成的嵌入能更准确表征高层语义空间中的目标特征。

研究人员进一步提出混合特征对齐模块作为DOEI的补充优化。该模块结合原始图像的RGB值、嵌入的空间特征和自注意力得分，使候选标记更具意义，从而促进语义结构的准确表示和嵌入信息的有效传递。

实验结果表明，将所提方法融入基于视觉Transformer的模型后，该机制在不同数据集上提升了基线模型性能，且未添加额外的可学习参数。DOEI有效防止了错误的目标定位并显著提升了目标识别的完整性，在PASCAL VOC数据集上达到79.1% mIoU（mean Intersection over Union，平均交并比），在MS COCO数据集上达到51.1% mIoU。

在结论部分，研究人员指出，该研究通过耦合自注意力多尺度下的类标记和图像块标记来优化输入嵌入，从而丰富锚定类激活特征的多样性。提出的DOEI机制与视觉Transformer无缝集成，利用自注意力机制中的耦合注意力来放大特定类别的语义信息并抑制噪声。

联系信箱：

粤ICP备09063491号

热点排行