结合CMAI-T的跨模态注意力机制：利用SentiCap-HIN数据集提升印地语的多模态翻译性能

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《PROCEEDINGS OF THE NATIONAL ACADEMY OF SCIENCES INDIA SECTION A-PHYSICAL SCIENCES》：Cross-Modal Attention with CMAI-T: Improving Multimodal Translation for Hindi Using the SentiCap-HIN Dataset

【字体：大中小】 时间：2026年04月07日 来源：PROCEEDINGS OF THE NATIONAL ACADEMY OF SCIENCES INDIA SECTION A-PHYSICAL SCIENCES 1.2

编辑推荐：

　　针对印地语等低资源语言多模态机器翻译中情感歧义处理不足的问题，研究提出SentiCap-HIN数据集和MMT-CMAI-T框架，通过结构化特征树和注意力熵机制整合视觉信息，提升翻译精度与语境适应能力，实验验证其优于传统基线方法。

　　```

摘要

多模态机器翻译（MMT）旨在通过结合文本输入和其他模态（如视觉上下文）来提高翻译质量。近年来，针对多种语言（包括印度语言）提出了几种有前景的MMT方法。然而，这些方法大多难以准确翻译情感化或含糊的表达，尤其是在资源匮乏的语言（如印地语）中。虽然像Hindi Visual Genome（HVG）这样的数据集支持英印之间的MMT，但它们往往缺乏情感深度，也无法捕捉现实世界中的歧义。为了解决这一问题，本研究引入了基于SentiCap的SentiCap-HIN数据集。该数据集将英文图片标题与印地文进行配对，以更好地处理语言多样性和歧义性。该数据集为开发针对印度语言的、基于视觉信息且具有语义敏感性的翻译模型提供了宝贵的基准。研究还提出了一种名为MMT-CMAI-T（基于结构化特征树的多模态注意力注入）的新型视觉感知MMT框架，该框架利用结构化注意力机制将图像特征与文本相结合。它通过注意力熵来选择性地注入相关视觉信息，从而在翻译过程中整理出被遗漏的语义特征。这使得可以根据解码器的状态变化来有意识地查询视觉记忆。实验结果表明，使用BLEU、chrF和METEOR等评估指标，MMT-CMAI-T在SentiCap-HIN语料库上的表现显著优于现有的MMT和仅基于文本的基线方法。这项研究标志着朝着更加适应性强、可解释性高且具有文化意识的翻译系统迈出了重要一步，这些系统能够在保留语言结构的同时有效利用多模态上下文。意义在于：机器翻译系统常常难以处理含糊的词汇，从而导致不准确的翻译，从而阻碍跨文化交流。本研究提出了一种将视觉上下文与文本结合的新方法，使翻译模型能够以类似于人类自然理解的方式阐明含义。SentiCap-HIN数据集和MMT-CMAI-T框架特别解决了英印翻译中的难题，因为在英印翻译中词汇歧义是一个重大挑战。这种方法带来了显著的优势，包括提高翻译精度、更好地处理依赖上下文的表达，以及提升数百万使用印地语的人士访问全球数字内容的便利性。

联系信箱：

粤ICP备09063491号

摘要

热点排行