一种基于文本引导的自适应多模态融合框架，用于机电产品评论的情感分类

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Engineering Applications of Artificial Intelligence》：A text-guided adaptive multimodal fusion framework for sentiment classification of electromechanical product reviews

【字体：大中小】 时间：2026年06月18日 来源：Engineering Applications of Artificial Intelligence 8

编辑推荐：

　　曾旺|杨文奇|牛世凡|田亮|葛乐科|钟星旺中国南昌市南昌大学建筑与设计学院，邮编330031 摘要在电子商务产品开发中，包含文本评论和用户上传图片的多模态评价已成为大规模用户情感识别及产品反馈整理的重要数据来源。对于机电类产品而言，文本评论通常直接传达评价信息，

　　曾旺|杨文奇|牛世凡|田亮|葛乐科|钟星旺
中国南昌市南昌大学建筑与设计学院，邮编330031

摘要
在电子商务产品开发中，包含文本评论和用户上传图片的多模态评价已成为大规模用户情感识别及产品反馈整理的重要数据来源。对于机电类产品而言，文本评论通常直接传达评价信息，而当评论简短、模糊或不完整时，图片则能提供补充的产品相关背景信息。由于不同样本的模态信息量存在差异，仅依赖文本分析或固定权重融合的方式可能会忽略有用的多模态证据。本研究提出了一种基于文本引导的自适应多模态融合框架，用于机电产品评论的二值情感分类。该框架由三个相互协作的组件构成：用于样本级模态分配的 learned文本侧加权机制、基于50层残差网络并借助卷积块注意力机制优化产品-图像特征表达的视觉表示模块，以及用于文本-图像特征交互的双向跨模态注意力模块。在来自真实电子商务平台的14,926条电动钻多模态评论上的实验表明，在所采用的评论级评估方案下，该框架在三种随机种子设置下的平均F1分数为0.9691±0.0012。通过与多种多模态基线方法的对比实验及消融研究可知，自适应加权与跨模态交互组件有助于提升分类性能。进一步的诊断分析显示，许多被分类的样本中包含与设计相关的产品反馈，该框架采用以文本为主但兼顾图像的模态加权方式，并且在多图像场景及受控噪声评论条件下仍能保持相对稳定的性能。总体而言，该框架为机电产品评论的上游多模态情感筛选提供了人工智能解决方案，可帮助筛选出重点评论，为后续的设计导向分析提供依据。

引言
近年来，数据的爆炸式增长使得用户生成内容成为企业和设计师了解用户情感与需求的重要途径（Mamani-Coaquira和Villanueva，2024；Shao等人，2025）。在机电产品市场中，电子商务平台上的用户评论往往同时包含文本评论和产品图片，这些多模态信息能够反映产品的外观、功能使用情况、结构状况以及用户感知的质量等。这类多模态数据不仅体现了用户对产品的直观感受与使用体验，还包含了关于产品设计、功能性和视觉呈现等方面的深入反馈，为优化产品设计提供了丰富的信息来源（Li等人，2025；Yang等人，2023）。作为自然语言处理的重要分支，情感分析近年来已被广泛应用于产品情感分析领域。通过分析用户评论的情感倾向，设计师可以快速掌握用户对产品的满意度，进而找出产品设计中的问题与改进方向（Mehbodniya等人，2022）。在工业设计研究中，此类情感分类可作为上游筛选步骤：它虽不能替代精细的设计需求提取工作，但有助于整理大规模的图文评论数据，识别出整体用户体验为正面或负面的评论，从而为设计师或下游模型提供聚焦的评论集以开展后续的设计导向分析。现有研究已证明了基于文本的评论分析在产品迭代和用户需求挖掘方面的价值。例如，Sun等人（2020）提出了一个动态用户需求挖掘框架，结合自然语言处理和文本挖掘技术，分析产品迭代过程中用户需求的时间演变趋势。Wang等人（2024）提出了GRU-CAP模型，通过捕捉显性及隐性产品特征，提升了中文评论分析的准确性。然而，目前大多数面向设计导向的评论分析研究仍以文本为核心。在机电产品评论中，这一局限性尤为明显——用户常常会提供展示结构缺陷、材料磨损、组装状况或实际使用效果等可见问题的图片，而相应的文本描述可能较为简短、模糊或不完整。因此，仅依赖文本可能无法准确解读这类评论中的情感倾向。

在实际的评论分析中，文本评论与产品图片虽然互补，但信息量并不均衡。文本内容通常直接体现用户的主观体验与评价判断，而图片则能提供与产品外观、包装、配件、使用场景或可见产品状况相关的补充视觉信息（Ghorbanali和Sohrabi，2024；Liu和Yu，2022）。在机电产品评论中，这种模态互补性伴随着显著的样本级差异：有些评论包含明确表达情感倾向的文本，但图片信息量较少；而另一些评论则有产品相关图片，但文本描述却十分简短或含糊不清。因此，仅依赖文本分析、固定权重融合或简单的特征拼接方式，可能无法充分利用现有的多模态信息。产品评论图片在内容和实用性上也存在很大差异，从普通的产品或包装照片到展示配件、使用效果或可见产品状况的图片不等。这些特点要求有一种能够根据不同样本调整各模态贡献度、优化异构产品-图像表示，并支持文本与视觉特征之间交互的融合框架。

为解决上述问题，本研究提出了一种基于文本引导的自适应多模态融合框架，用于机电产品评论的图文情感分类，该框架被称为“面向产品评论的多模态情感分析”（PD-MSA）。该框架采用以文本为主但兼顾图像的设计思路，这一设计理念源于这样的观察：文本评论通常提供主要的情感信号，而在某些样本中，图片则能提供补充的产品相关背景信息。具体而言，首先从文本表示中生成一个learned文本侧标量门，将其作为任务特定的融合信号，用于在样本级别调整文本与视觉特征的相对贡献度。为优化异构产品评论图片的表示能力，在多模态融合之前，先引入基于50层残差网络（ResNet50）并经过卷积块注意力模块（CBAM）优化的视觉分支。为进一步整合不同模态之间的信息，还引入了双向跨模态注意力机制，以支持文本与视觉特征之间的基于注意力的交互。通过这种方式，这三个组件分别对应了机电产品评论的三大特点：样本级别的模态不平衡、产品-图像内容的异构性，以及文本-图像特征交互的需求。

该框架具有明确的应用导向，它将现有的多模态学习组件整合在一起，用于特定的工程任务——即机电产品图文评论的二值情感分类。本研究并未将自适应加权、视觉注意力机制和跨模态注意力机制视为独立的模块，而是将它们整合为一个统一的评论分析流程，用于上游的情感筛选。该框架在来自真实电子商务平台的电动钻多模态评论上进行了测试，旨在为后续的设计导向分析整理大规模的评论样本。除了评估预测性能外，本研究还分析了该框架在实际评论分析场景下的表现。通过诊断性标注，研究了二值情感标签与设计相关产品反馈之间的关系；通过模态加权分析，揭示了该框架以文本为主但兼顾图像的融合模式；通过外部诊断集，考察了模型在扩展采样和多图像评论条件下的表现。此外，还通过鲁棒性测试和故障案例分析，识别出了包括噪声评论、模态不一致、情感倾向模糊以及售后相关不满等难以处理的案例。这些分析不仅展示了该框架的预测性能，还反映了其在实际机电产品评论场景中的表现与局限性。

如图1所示，所提出的框架遵循统一的多模态情感分析流程。该流程首先是从京东电子商务平台收集并预处理电动钻的多模态评论，包括文本评论及其对应的产品图片。在文本处理方面，采用了基于Transformer的双向编码器表示模型（BERT）的掩码替换策略进行训练增强，通过控制替换次数来避免过度的语义偏移（Devlin等人，2019）。图像预处理包括在训练期间对图片进行大小调整、裁剪、归一化处理以及随机水平翻转。在特征提取阶段，文本表示是通过经过全词掩码扩展处理的预训练中文RoBERTa模型（Cui等人，2020、2021）获得的，而learned文本侧门则用于实现自适应的模态加权。视觉特征则是通过基于ResNet50并经过CBAM优化的分支提取的。在多模态融合阶段，基于Transformer架构的双向跨模态注意力机制用于支持文本与图像特征之间的交互（Aich等人，2021；Seo等人，2018；Vaswani等人，2023）。最后，通过共享编码器将经过自适应加权的全局特征与跨模态交互特征整合起来，用于情感分类。

本研究的主要贡献如下：
首先，本研究针对机电产品图文评论开发了一种专门的多模态情感分类框架。该框架通过整合自适应模态加权、视觉表示优化以及跨模态特征交互机制，解决了文本与图像信息量在样本级别存在的差异问题。
其次，本研究提出了一种基于文本学习的样本级图文评论分析自适应模态加权策略。该learned文本侧门得分被用作任务特定的融合信号，用于在多模态融合过程中调整文本与视觉特征的相对贡献度。
第三，本研究整合了基于ResNet50并经过CBAM优化的视觉表示分支以及双向跨模态注意力模块。这种组合有助于优化机电产品评论情感分类中的产品-图像特征表达，并实现基于注意力的文本-图像特征交互。
第四，本研究通过对14,926条真实的电动钻多模态评论进行实证评估，运用对比实验、消融研究、不同的加权策略、宏观平均指标、统计检验以及多种子评估等方法，分析了该框架在评论级分布内评估环境下的性能表现。
第五，本研究还通过诊断性标注、模态加权分析、外部采样条件与多图像评论分析、鲁棒性测试、故障案例分析、跨分区相似性审计以及在相似性控制下的分割评估等方式，进一步研究了所提出框架的实际表现。这些分析不仅说明了样本级情感分类如何支持上游的设计导向评论筛选，还明确了评论级评估方案的适用边界。

后续章节的结构安排如下：第2节回顾了文本、图像及多模态情感分析的相关研究；第3节介绍了所提出的PD-MSA框架的理论基础与结构；第4节阐述了实验设置、对比与消融实验结果以及模型行为的进一步分析；第5节总结了主要研究发现，讨论了研究局限性，并提出了未来的研究方向。钟行旺：数据整理，资源。利益冲突声明作者声明自己没有已知的可能影响本文所述工作的财务利益或个人关系。致谢本研究得到了江西省社会科学“十四五”规划（2024年）基金项目（项目编号24YS05）、南昌大学学位与研究生教育教学改革研究项目（2024年）（项目编号202439）以及江西省研究生创新专项基金（2024年）资助项目（项目编号YC2024-S078）的支持。

联系信箱：

粤ICP备09063491号

热点排行