多模态感知中的对抗性噪声隔离：受抑制控制启发的计算框架

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Brain Sciences》：Adversarial Noise Isolation in Multimodal Perception: A Computational Framework Inspired by Inhibitory Control

【字体：大中小】 时间：2026年06月10日 来源：Brain Sciences 2.8

编辑推荐：

　　背景：鲁棒感知涉及处理异质性感觉信号，例如面部表情、声音韵律和语言，尤其是在嘈杂环境中。在计算建模中，一个关键挑战是在主动过滤无信息变异的同时整合这些多样化输入。虽然最近的深度学习模型通过复杂的融合架构处理这种整合，但它们通常聚合特征而没有显式的类似于抑制控制

背景：鲁棒感知涉及处理异质性感觉信号，例如面部表情、声音韵律和语言，尤其是在嘈杂环境中。在计算建模中，一个关键挑战是在主动过滤无信息变异的同时整合这些多样化输入。虽然最近的深度学习模型通过复杂的融合架构处理这种整合，但它们通常聚合特征而没有显式的类似于抑制控制（inhibitory control）的过滤模块。在本研究中，研究人员提出了多模态信息解缠（Multi-modal Information Disentanglement, MInD）框架，一个旨在检验算法噪声隔离促进鲁棒多感觉整合这一假设的计算框架。方法：从模块化的认知理论中汲取概念灵感，该模型将感觉输入分解为跨模态（modality-invariant）和模态特定（modal-specific）通路。此外，研究人员引入了一个对抗性噪声隔离机制，作为认知抑制（cognitive inhibition）的算法类比。由于该模型操作于预提取的高层特征，该机制用于隔离潜在分布方差——初始特征提取后持续存在的无信息波动——引导网络将任务相关的情感线索从无关特征方差中分离出来。结果：在标准情感识别基准上的实证评估表明，这种“提纯后再融合”策略与多个指标上的竞争性表现和稳定性相关。值得注意的是，该框架使用简单的线性整合层获得了这些结果，表明在融合前分离表示可能降低后续整合所需的计算复杂度。结论：这些观察强调了算法噪声抑制的计算效用，说明了认知启发如何能够指导高效机器学习架构的设计，而不声称直接的神经生物学验证。

论文解读文章

研究背景：在自然情境下的情感感知中，异质性感觉信号（如面部表情、声音韵律和语言）的整合面临计算挑战。现有深度多模态学习模型多采用复杂融合架构聚合特征，却缺乏显式过滤模块来抑制无信息变异，这在认知上类似于缺乏抑制控制（inhibitory control）机制。受认知理论中模块化和抑制控制概念的启发，研究人员提出多模态信息解缠（Multi-modal Information Disentanglement, MInD）框架，旨在检验算法噪声隔离是否能促进鲁棒的多感官整合。该研究发表在《Brain Sciences》上。

研究人员开展了什么研究：研究人员设计了一个计算框架，通过解缠和对抗性噪声隔离机制，将异构感觉输入分解为跨模态（modality-invariant）和模态特定（modal-specific）表示，并引入算法类比来抑制无信息方差。在多个标准情感识别基准上，MInD使用简单线性整合层取得了竞争性表现，表明“提纯后再融合”策略能降低后续整合的计算复杂度。该工作强调了算法噪声抑制的计算效用，为构建高效多模态系统提供了新思路。

主要关键的技术方法（不超过250字）：研究采用预训练特征提取器（BERT用于文本，Transformers用于视觉和音频）编码原始信号为高层潜在表示。样本队列来自三个标准基准：CMU-MOSI、CMU-MOSEI（情感分析）和UR-FUNNY（幽默检测）。核心方法包括：共享编码器提取跨模态表示、私有编码器提取模态特定表示；对抗性噪声隔离机制引入高斯噪声先验作为无信息方差的启发式代理，通过梯度反转层（Gradient Reversal Layer, GRL）优化；训练目标包含Jensen-Shannon散度互信息最大化、Barlow Twins一致性损失、Hilbert-Schmidt独立性准则（HSIC）约束、重构损失及语义沉默（semantic silence）约束。最终整合采用线性融合层。

研究结果（保留每个小标题）：

4.2 Evaluation
4.2.1 Comparison with Baseline Architectures：通过与三类基线（整体融合模型、模块化解缠模型、注意力与对比学习系统）对比，在保持三模态（文本、音频、视觉）整合且使用轻量特征提取器的条件下，MInD在多个指标上表现出竞争性，表明对抗性噪声隔离机制有助于鲁棒感知。
4.2.2 Main Performance：在CMU-MOSI、CMU-MOSEI和UR-FUNNY上，MInD在Acc-7、Acc-2、F1、MAE和Corr等指标上一致优于以往解缠方法（如MISA、FDMER），尤其是在回归误差（MAE）上显著降低，说明噪声过滤减少了预测偏差。
4.2.3 Statistical Robustness and Variance Analysis：通过5次独立随机初始化，MInD的平均Acc-7（46.00）超出MISA（42.30），且95%置信下限仍高于FDMER，验证了噪声隔离策略的稳定性。
4.3 Empirical Assessment via Structural Ablation：移除跨模态或模态特定通路后性能下降，表明两种通路均不可或缺。
4.4 Evaluating Mechanisms via Progressive Ablation：逐步添加结构解缠、对抗性噪声注入（含结构约束）和语义沉默约束，性能逐步提升，证实噪声隔离模块和语义沉默的正交贡献。
4.5 Empirical Assessment of Structural Design Choices：将高斯噪声先验替换为均匀分布、将GRL替换为静态正交惩罚、或移除共享编码器，均导致性能降低，表明高斯先验、GRL和硬权重共享的功能重要性。
4.6 Computational Complexity Analysis：MInD训练需较大参数量，但推理时仅保留必要网络，推理FLOPs相比MISA仅增加约16%，实现了训练-推理不对称的高效部署。
4.7 Visualizing Representational Geometry：t-SNE可视化显示，对抗训练后无信息表示与任务相关表示形成明显分离簇；定量指标（轮廓分数0.5716，Davies-Bouldin指数1.1473）进一步证实了表示空间的分离。
4.8 Hyperparameter Sensitivity Analysis：联合敏感性分析表明，MInD在超参数（如信息增益权重和一致性权重）附近保持性能稳定，性能优势源于架构设计而非过拟合。
4.9 Cross-Task Generalization to Intent Recognition：在MIntRec数据集上的意图识别任务中，MInD优于基线方法CAGC，表明噪声隔离机制可泛化至情感计算之外的多模态任务。
4.10 Preliminary Extension to Scientific Domains：初步扩展至化学信息学的自回归视觉语言模型（ChemVLM-26B），在ChemOCR任务中，MInD-Projector替换标准投影器后提升了分子结构识别准确率（Tanimoto相似度），展示了跨领域迁移潜力。

讨论与结论：讨论部分指出当前框架的局限性：噪声先验采用高斯分布仅为计算启发式，不反映真实结构噪声；MInD处于Marr算法层面，未模拟神经实现（如抑制性中间神经元）；处理静态序列，缺少时间动态；结构路由（硬权重共享和语义沉默）是关键，而非通用正则化；对抗优化对初始化敏感，且上游特征提取器引入变异。结论部分（翻译原文）：在本研究中，研究人员提出了MInD框架，作为一个受多感官整合概念启发的计算架构。目标不是提供直接的神经科学验证，而是探究受认知抑制控制启发的概念是否能转化为用于鲁棒多模态情感分析的算法框架。研究人员假设，多感官整合可以通过算法过滤启发式而非仅依靠加性融合来促进。为了实证检验这一点，研究人员实现了对抗性噪声隔离机制，通过对抗训练提供任务相关信号与无信息方差分离的算法类比。实证观察表明，该框架与使用简单线性整合层时的竞争性表现相关联。研究结果表明，“提纯后再融合”范式是一种可行的计算策略。虽然该框架作为受自上而下过滤概念启发的功能结果的算法类比，但它仍然是严格的计算抽象，不试图逼近神经生物学实现。总之，本研究提供了支持算法噪声过滤计算效用的实证观察，表明未来计算架构可能受益于探索潜在表示过滤策略。这种方法有助于发展弹性多模态系统，该系统整合了无信息方差的算法抑制，并受到潜在机制概念启发。

联系信箱：

粤ICP备09063491号

热点排行