DCANet:用于跨域语义噪声缓解和多尺度上下文融合的扩散编码注意力网络
韩晓(Xiao Han),
王春华(Chunhua Wang),
范伟健(Weijian Fan),
牛志硕(Zishuo Niu),
桂静(Jing Gui),
于世佳(Shijia Yu)
《Electronics》:DCANet: Diffusion-Coded Attention Network for Cross-Domain Semantic Noise Mitigation and Multi-Scale Context Fusion
Xiao Han,
Chunhua Wang,
Weijian Fan,
Zishuo Niu,
Jing Gui and
Shijia Yu
【字体:
大
中
小
】
时间:2026年04月17日
来源:Electronics 2.6
编辑推荐:
摘要
神经语言模型在语义表示学习方面取得了显著进展。然而,跨领域表示学习仍然存在明显的语义噪声传播问题。现有方法在跨领域语义建模中仍面临挑战,包括在不同语义粒度上的鲁棒性有限、难以区分可转移的语义和与任务无关的语义干扰,以及对于特定场景的适应性不足。这些问题可能会降低细粒度语义任
摘要
神经语言模型在语义表示学习方面取得了显著进展。然而,跨领域表示学习仍然存在明显的语义噪声传播问题。现有方法在跨领域语义建模中仍面临挑战,包括在不同语义粒度上的鲁棒性有限、难以区分可转移的语义和与任务无关的语义干扰,以及对于特定场景的适应性不足。这些问题可能会降低细粒度语义任务和复杂应用环境中的特征区分能力。为了解决这些问题,我们提出了Diffusion-Coded Attention Network(DCANet),这是一种新型的跨领域表示学习架构,包含三个协同工作的核心模块:一个多粒度并行扩散掩蔽机制,通过随机路径激活实现跨尺度上下文融合;一个隐式语义编码器,通过共享的潜在流形将领域不变的模式提取为自适应的偏置代码;以及一个自我纠正的注意力拓扑结构,通过局部特征与全局偏置状态之间的闭环交互实现动态语义净化。我们在九个公认的基准数据集上进行了广泛评估,以验证DCANet的有效性和可靠性。实验结果表明,DCANet在大多数基准数据集上取得了最先进的结果,在文本分类和情感分析任务中显著提高了准确性。
1. 引言
最近在神经语言模型方面的突破彻底改变了在多种自然语言处理任务中获取语义表示的能力。将开放领域嵌入转移到下游应用的范式取得了显著成功,这主要基于通过低维向量映射提取任务适应性文本表示的能力。尽管传统的Word2Vec和GloVe等方法建立了基础的词级嵌入框架[1,2,3],但随后采用CNN和RNN的架构提升了上下文特征提取——CNN专注于局部模式识别[4,5],而RNN用于建模序列依赖性[6,7,8]。然而,这些方法在解决细粒度语义区分和跨领域噪声传播方面存在固有局限性[9,10,11]。此外,随着新技术的作用不断发展,多尺度上下文融合将成为未来十年语言理解的基石[12]。为了解决细粒度语义建模和跨领域噪声抑制中的这些问题,我们提出的DCANet利用多粒度扩散机制从不同粒度的文本中提取抽象信息。
自我注意力机制从根本上改变了句法和语义关系的动态建模。在此基础上,诸如多级注意力-CNN混合模型[5,7,8,13]、上下文增强LSTM架构[14]以及带有门控机制的标签特定注意力[15]等创新技术提高了对细微语义区分的要求。然而,传统的注意力加权策略受到开放领域嵌入中存在的语义噪声的限制,特别是在处理领域偏移的词汇语义时。其中,领域漂移是一个描述源领域和目标领域之间整体数据分布变化的分布级概念;而语义噪声则关注样本或表示级,指的是即使在输入数据分布保持不变的情况下也存在的内在任务无关的残余干扰。这种噪声的传播降低了特征区分能力,最终影响了模型在细粒度语义任务上的精度。相比之下,DCANet结合了由扩散掩蔽生成的随机扩散图和由潜在机制生成的全局偏置代码,将领域特定噪声与可转移语义分开。
尽管最近的文本表示模型取得了实质性进展,但当将开放领域语义表示转移到具有不同上下文范围和领域特征的下游任务时,其性能仍可能下降。特别是,表示学习可能会受到语义噪声的影响,在本工作中,语义噪声指的是转移的语义嵌入中包含的任务无关或误导性的语义成分。这种干扰可能会削弱特征区分能力,并降低模型在细粒度语义任务中的精度。此外,许多现有架构主要依赖于预定义的局部窗口、固定的层次结构或单范围注意力模式,这可能会限制它们在不同语义粒度和上下文跨度上的鲁棒性。为了解决这些挑战——包括弱细粒度建模、过多的开放领域噪声和不足的语义自我净化——我们提出了Diffusion-Coded Attention Network(DCANet),它将全局语义偏置校正与局部特征学习相结合。
DCANet由以下三个主要模块组成:首先,Multi-granularity Parallel Diffusion Masking(MPDM)模块通过随机路径激活生成语义图,从而实现跨尺度上下文融合,缓解细粒度捕获和全局-局部不平衡的问题。其次,Implicit Semantic Encoder(ISE)模块通过共享的潜在流形提取领域不变的模式作为自适应偏置代码,从而将噪声与有用语义区分开,并减轻开放领域噪声和领域偏置。第三,Self-Correcting Attention Topology(SAT)模块通过将局部特征与全局隐式状态关联起来,实现动态语义净化,从而弥补了语义自我净化的不足。在九个基准数据集上的全面评估表明,DCANet的性能超过了大多数最先进的基线,并在五个主要比较数据集中的三个上取得了最先进的性能。
2. 相关工作
2.1. 自注意力
注意力机制在文本分类和情感分析等NLP任务中取得了显著成果,成为关键的基础组件。最近,研究人员采用了仅使用注意力的框架,而不是传统的CNN/RNN,取得了显著的成功。在跨领域情感分析中,He等人[16]指出模型往往依赖于领域特定的词汇特征,这即使在不同语义保持不变的情况下也可能导致预测结果不一致。同样,Liu等人[17]通过反事实实验表明,改变表面级标记——同时保留核心语义意义——可以显著影响模型输出,表明表示中存在非语义干扰。这些跨领域学习和表示学习中的发现表明,文本表示包含与任务无关或误导性的语义成分,即语义噪声。然而,要解决开放领域数据集中的语义噪声问题,需要更好地整合注意力机制以改进上下文信息计算。
为了高效计算文本上下文语义,对输入序列应用软注意力,通过计算所有隐藏状态的加权和来计算上下文语义向量以提高准确性[18]。Liu[19]提出了一个结合多级注意力与TCN和CNN的混合模型,通过TCN提高并行性,并将注意力整合到CNN层中以强调区分性特征,从而提高准确性。为了处理不完整信息,Chen[20]设计了一个结合语义先验与深度注意力残差组的架构来推断缺失信息。如图1所示,这种通用注意力架构适用于各种模型和应用。图1显示了注意力机制的计算过程,(a)展示了注意力机制的整个计算过程,(b)展示了注意力机制计算的细节。以往的研究主要集中在通过堆叠多个注意力层次和结合多个模型结构来提高语义信息计算的准确性。相比之下,本研究提出了一种新的模型架构,旨在将全局上下文信息整合到文本表示中,从而实现更有效的语义计算。虽然现有研究主要依赖于堆叠不同的注意力机制和整合复杂结构来细化语义计算,但我们的方法利用任务特定的上下文线索来关注相关的文本特征,从而产生更丰富的语义嵌入。这种方法为模型提供了对文本数据的全面和详细的语义理解。
现有的文本表示模型在不同预定义的粒度上编码语义。例如,HAN[21]通过固定的词级和句子级层次结构构建文档表示,而Wang[22]通过测量嵌入词与共享空间中的标签之间的兼容性来建模文本。对于更长的上下文,Longformer[23]引入了一种结合局部窗口注意力和任务驱动的全局注意力的注意力模式。这些代表性研究表明,语义粒度和上下文范围是文本表示学习中的重要建模变量。因此,在本文中,我们避免了一般化以往工作的局限性,而是更谨慎地将挑战描述为在不同语义粒度和上下文跨度上的鲁棒性。
2.2. 潜在代码
潜在代码是深度学习中的基本概念,特别是在生成对抗网络(GANs)[15,24,25]等生成模型中。它表示输入数据的压缩、低维表示,捕获了关键特征和模式,同时丢弃了无关或冗余的信息。这种潜在表示是许多数据生成、处理和理解高级技术的基础[26]。潜在代码是通过编码过程派生的,通常使用神经网络编码器执行。该编码器将高维输入数据映射到低维潜在空间,其中每个点对应一个独特的潜在代码。创建的潜在空间以更紧凑和有意义的形式捕获输入数据中的内在结构和变化[20,27,28]。潜在代码的核心原理是它能够解耦数据中的变异因素[29]。基于潜在表示解耦的经典理论框架,在共享流形上,领域特定和领域不变的潜在组件之间的统计独立性确保了可转移的语义和领域噪声在分布层面上不会重叠,从而形成了语义分离的充分理论条件。同时,线性层的正交初始化有效避免了潜在空间的维度塌陷,并保持了潜在维度与独立语义因素之间的一一对应关系。这两个条件共同作用,使得将噪声与语义表示分开成为可能。潜在代码的目的是以这样的方式表示数据:各个维度或维度组对应不同的、可解释的生成因素。这种分离增强了对生成输出的控制,允许针对特定数据方面进行有针对性的修改。在GAN中,传统上用作输入的随机向量可以被视为潜在代码的一种简单形式[30]。然而,最近的进展侧重于利用更复杂的潜在表示来提高生成图像的一致性、几何结构和多样性。结合潜在向量的模型便于对生成的视觉特征进行细粒度控制,解决了早期方法中观察到的不一致性和几何一致性降低的问题,如图2所示。图2展示了GAN中潜在代码的应用。包含全局信息的潜在数据将通过潜在组件参与每个注意力层的计算。这些模型通常假设生成过程中不同层描述的组件之间存在一定程度的独立性。然而,通过利用潜在变量控制,它们可以调整和统一各个层之间的整体风格和特征,促进全局潜在特征和模型特定特征之间的信息传播。潜在数据富含全局信息,并积极参与每个注意力层的计算,确保整个生成过程的特征一致性和连贯性。
潜在代码在深度学习中得到广泛应用,特别是在生成模型中。它的解耦表示使得可以对属性进行有针对性的操作。例如,SALAD[31]提出了一个考虑骨架的潜在扩散模型,用于文本驱动的动作生成,展示了潜在编码在文本领域中的解耦操作能力。Fu等人[32]利用潜在编码在从噪声中提取关键特征中的作用;通过过滤表面文字来捕捉核心情感意图,该模型生成了高质量的情感支持对话。Ma等人[33]通过将离散文本和语音标记映射到连续潜在空间,展示了连续潜在编码在序列数据处理中的数据增强和风格插值的潜力。总之,潜在编码在深度学习中至关重要:它捕获了核心特征并移除了冗余信息,使其成为数据生成、操作和理解的宝贵工具。
以往关于潜在代码的研究主要集中在图像领域。本文提出了一种用于文本语义计算的潜在代码方法。该方法使用可训练参数来学习全局文本语义信息,并将其整合到文本语义计算过程中。这种方法为文本数据模型提供了更丰富的语义信息。
3. 提出的方法
3.1. DCANet的总体架构
DCANet是一个神经网络,旨在更好地捕捉单词和句子之间的依赖性以及全局语义信息。模型的整体结构如图3所示。在将数据输入模型后,MPDM模块对其进行处理,以捕获不同信息密度下的多级语义信息,最终生成包含丰富语义细节的文本表示。在ISE模块中,利用文本表示来计算当前输入数据在全球语义信息下的补偿信息。随后,SAT模块结合MPDM模块和ISE模块的输出进行融合计算,将潜在编码学习到的全局上下文信息引入注意力计算过程,从而提高模型捕获文本语义信息的准确性。然后,通过输出层计算SAT模块的输出,得到输入数据的预测结果。需要注意的是,ISE模块并不是作为一个独立的预测分支设计的,而是作为一个辅助的潜在编码生成机制,为SAT模块提供全局语义指导和帮助。图3. 扩散编码注意力网络(DCANet)的总体结构。
3.2 多粒度并行扩散遮蔽
为了解决不同场景下上下文信息密度不均匀导致的跨域表示中的噪声问题,我们提出了结合随机图扩散策略的多粒度并行扩散遮蔽(MPDM)机制。对于给定的嵌入维度d和输入数据矩阵X的序列长度l,MPDM利用随机图扩散过程生成一个相同维度的遮蔽矩阵?? =(??1,??2,…,????),对输入矩阵X进行基于扩散的随机遮蔽。具体来说,遮蔽矩阵M的参数遵循伯努利分布???? ~????????????????????????(1???),其中?? =1表示参数只被随机采样一次,p代表从扩散动力学中得出的遮蔽概率,p由扩散前向过程得出,定义为?? =1 ?????,其中????表示随着迭代步骤t增加而增加的扩散噪声计划,这与标准扩散模型的噪声添加规则一致。这使得遮蔽过程成为连续随机扩散过程的离散近似,每个遮蔽步骤对应于扩散模型中的一个噪声注入步骤,如方程(1)所示。????=?????1⊙?? (1)扩散遮蔽的过程如图4所示。通过引入遮蔽矩阵M,可以从不同时间步长的数据矩阵中提取特征。与从原始数据中提取特征相比,从具有不同信息级别的数据矩阵中提取特征使我们能够捕获关于数据的更全面信息,并增强模型的鲁棒性。图4. 扩散遮蔽。(a)是逐步扩散遮蔽,展示了从粗到细的多步骤迭代中恢复上下文语义和融合多尺度信息的动态过程。(b)是并行扩散遮蔽,描述了一种利用密度适应机制同时处理不同信息密度区域的策略,以实现高效的跨域表示对齐。为了在不同时间步长下高效地获得具有不同遮蔽程度的输入数据,本文采用同步处理方法,同时对原始数据应用不同扩散强度的遮蔽,如图4b所示。通过设置遮蔽矩阵???? =(??1,??2,…,????)中的参数????遵循二项分布???? ~???(??,????)来调整遮蔽矩阵,其中参数????的遮蔽概率????随着遮蔽迭代次数的增加而变化,如方程(2)所示。????=???(???????)+?? (2)其中??是表示遮蔽概率阈值的超参数,??是另一个通常设置为小值的超参数,以防止遮蔽概率为0,T表示遮蔽迭代的总次数,t表示当前的遮蔽步骤。此外,方程(2)中使用的线性遮蔽概率动态确保遮蔽强度在迭代步骤中平滑稳定地演变。这保证了多尺度上下文特征的稳定并行提取,并防止了由于概率突变导致的特征学习不稳定性。同时,线性设计在计算上高效且不会引入额外的复杂性,这与平衡跨域语义处理中的性能和效率的目标相符。相比之下,非线性计划往往会导致早期步骤中过度遮蔽或后期步骤中遮蔽不足,从而影响文本上下文融合任务。在此步骤之后,获取第t步数据矩阵????的过程不再依赖于前一步骤,如方程(3)所示。????=?????1⊙?? (3)在此基础上,说明了扩散遮蔽与标准随机扩散过程之间的内在联系。遮蔽概率????由方程(2)定义,它随时间步长t单调递减,与标准扩散过程的噪声调度规则一致。对扩散遮蔽操作的期望值得到???[????] =???????,其变化趋势与标准随机扩散过程相匹配,表明多粒度并行扩散遮蔽是连续扩散过程的离散近似。MPDM与扩散之间的关系不仅仅是一种结构上的类比。具体来说,遮蔽过程定义了对语义表示的扩散启发式随机扰动,由此产生的期望动态???[????] =???????为标准前向扩散过程提供了概率对应关系。
3.3 隐式语义编码器
我们提出了一种隐式语义编码器(ISE)结构,该结构利用潜在编码来指导特征计算,旨在从全局视角实现对对象的自上而下、从整体到部分的理解。这种隐式建模范式与零信任架构中的连续验证原则[34]一致,因为隐式特征管理比显式的、静态的方法更能有效地捕获复杂分布。为了实现这一目标,本文采用了一种层权重共享方法,即模型最终层中用于特征推断的线性层的权重与用于用潜在编码指导模型特征计算的线性层共享权重。与具有类似RNN的可重用网络结构的模型类似,我们的模型使用相同的网络结构在不同的时间步骤积累输入数据,以获得代表所有输入数据的语义信息的输出向量。层权重共享使得能够从模型后部的层引入描述任务全局上下文的信息,并将数据的整体特征分布空间从前部的层传递到线性层,从而在特征提取过程中实现全局视角。需要注意的是,尽管两个线性层的权重相同,但它们的偏置是独立的,因此可以将这两个线性层视为独立的层。
通过权重共享层获取模型潜在编码的过程如下:使用与数据矩阵相同维度的完全填充矩阵?????????????激活由权重共享层表示的全局隐藏上下文信息??′,如方程(4)所示,其中????表示来自权重共享线性层的共享权重,?????????????表示与输入数据X相同大小和形状的完全填充矩阵,b表示偏置项。这里,????????????? ∈???×??是一个预定义的与任务无关的全局特征矩阵,其元素遵循标准正态分布???(0,1)并进行正交归一化,在训练期间保持固定,以捕获数据集的不变语义分布。??′=??????????????????+?? (4)在获得全局隐藏上下文信息??′后,计算??′与数据矩阵X的元素之间的差异。这个差异代表了全局先验与局部样本特征之间的语义差距,从而在全球隐藏上下文中计算输入数据的补偿信息,即潜在编码。计算过程如方程(5)所示。?????????????????????????????=?????????????????????(??′????????????????????????????(??)) (5)需要强调的是,在所提出的框架中,全局隐藏语义参考??′与归一化输入表示之间的差异并不是作为一个独立的全通用语义噪声基准指标引入的。相反,它作为模型内部表示级语义干扰的操作特征。在这种意义上,方程(5)中的潜在编码可以解释为从局部输入语义与全局任务相关语义指导之间的差异中派生的自适应校正信号。这种设计允许模型在下游语义计算过程中补偿残余的语义干扰,而不是将这种干扰视为数据集级别的偏移。
为了将输入数据X的值和全局上下文信息??′对齐到相同的维度,对输入数据X进行归一化以对齐??′。然后计算??′与归一化后的X之间的差异。随后,通过Softmax操作将这种差异转换为概率分布形式的潜在编码,表征每个特征维度所需的补偿校正的概率强度,从而得到用于指导对X的注意力计算的潜在编码。
3.4 自校正注意力拓扑
在之前的讨论中,我们提出了一种通过权重共享结构获取全局隐藏语义信息的方法,以及从全局隐藏语义信息和数据矩阵的组合中派生的相应潜在编码。为了便于使用潜在编码来指导模型对数据矩阵的注意力计算,我们提出了如图5所示的自校正注意力拓扑(SAT)结构。图5. 自校正注意力拓扑模块结构。与自注意力计算方法不同,SAT模块有两个主要输入:原始输入数据X和补偿信息潜在编码。原始输入数据X通过一个可训练的权重矩阵转换得到????,参与注意力计算。同样,潜在编码通过两个可训练的权重矩阵转换得到????和????,这也贡献于注意力计算过程。SAT模块的计算方法由方程(6)和(7)给出。其中????表示注意力分数函数,d表示查询向量????的维度。SAT模块的输出是通过将注意力计算后的信息与原始输入数据X结合并通过线性层得到的。与标准注意力不同,SAT模块的闭环自校正机制基于全局语义先验和局部注意力计算之间的迭代交互正式建立。给定局部特征输入X和由ISE模块生成的初始全局潜在编码??0,该机制以循环方式执行循环更新:注意力输出动态优化全局潜在编码,更新的潜在编码反过来指导后续的注意力权重计算。具体来说,在每个迭代步骤t,潜在编码更新为????+1 =Norm?(????+??·????),其中????表示步骤t的注意力输出,??是一个可学习的反馈系数。然后使用更新后的潜在编码????+1生成下一轮注意力计算的新??(??+1)??和??(??+1)??,这个迭代过程持续进行直到收敛。经过T轮闭环迭代后,输出最终注意力结果????。通过这种多轮闭环迭代,模块实现了全局语义指导和局部特征提取之间的自适应对齐,形成了一个自校正的闭环系统。?????(????,????)=???????????√?? (6) ???(??,??)=?????????????????????(?????(????,????))????? (7)
4. 实验
共有九个数据集进行了实验:五个用于主要比较(表1),四个用于消融研究(表2)。为了评估模型的有效性,本研究在五个公开可用的数据集上进行了实验,分别是AG News、Yelp Full Review(Yelp F.)、Yelp Polarity Review(Yelp P.)、DBPedia(DBP.)和Yahoo! Answers(Yah.A.)。这些数据集的详细描述见表1。表1. 五个公开数据集的介绍。表2. 消融实验数据集的介绍。支持本研究发现的数据在Torchtext库中公开可用。Torchtext是一个用于自然语言处理的Python库,它提供了通过数据集名称加载文本数据和下载相应数据的能力。
4.2 基线模型
我们选择了五个最先进的基线模型与我们的DCANet进行比较。LBCNN [9]:一个基于标签的卷积神经网络,可以根据标签捕获文本序列中单词的重要性。此外,它还识别了词向量中最具影响力的语义特征。CWC [10]:该模型将胶囊网络应用于词嵌入之间的关系建模,并引入了一种基于k-means聚类理论的新路由算法,以充分探索词嵌入之间的关系。SLCNN [13]:SLCNN在网络中将文档表示为三维张量,允许全面利用文本句子中的位置信息。这种设计使模型能够通过分析相邻句子来提取额外特征。LEAM [35]:该模型引入了一个注意力框架来衡量文本序列和标签之间的兼容性,从而便于评估嵌入的兼容性。DeBERTa-v3 [36]:该模型通过ELECTRA风格的替换令牌检测和梯度解耦的嵌入共享提高了预训练效率和下游语言理解性能。
4.3. 参数设置
在实验模型中,学习率设置为0.0001,批量大小设置为128,隐藏层大小设置为300,Dropout设置为0.5,训练周期数设置为30。词嵌入的维度设置为300。所有涉及的CNN的核大小设置为3。词嵌入使用Bert-base-chinese进行初始化,jieba用于所有中文数据集的分词。MPDM中的线性层采用具有ReLU激活函数和层归一化的2层堆栈,隐藏层维度为300;ISE中的权重共享线性层使用GELU激活函数和批量归一化,隐藏层维度也为300,所有这些都与词嵌入维度对齐。Adam方法被用作模型的优化器。此外,大多数实验是在具有8GB内存的NVIDIA GeForce RTX 2080 GPU平台上进行的。
4.4. 实验结果与分析
为了验证所提出的DCANet的有效性,该模型在五个基准数据集上进行了评估,并与五个基线模型进行了比较实验。不同模型在五个数据集上的分类准确率在表3中报告。如表3所示,即使在最近基于Transformer的基线DeBERTa-v3出现之后,DCANet在五个基准数据集上仍然表现出很强的竞争力。特别是,在Yelp Polarity(97.03%)、Yelp Full(67.48%)和DBPedia(99.31%)上,DCANet的准确率分别超过了最强的竞争模型0.02%、0.55%和0.02%。同时,DeBERTa-v3在AG News和Yahoo! Answers上的表现最佳,准确率分别为95.31%和78.00%。这些结果表明,即使与强大的最新预训练基于Transformer的模型相比,DCANet仍然是一个有竞争力的架构,并且在几个基准数据集上继续显示出优势。
4.5. 消融实验
为了进一步验证所提出的DCANet架构的有效性,我们进行了DCANet模型与使用CNN、RNN和注意力架构的模型之间的实验比较。同时,也对DCANet模型进行了消融实验,以验证每种结构的有效性。实验是在四个数据集上进行的,包括英文IMDB电影评论数据集、平衡的中文酒店评论数据集、不平衡的中文酒店评论数据集和中文微博评论数据集。选择这些数据集是因为它们包含了中文和英文文本,既有平衡的数据集也有不平衡的数据集,数据集的大小各不相同,以及平均文本长度较短的数据集(例如酒店评论和微博评论)和平均文本长度较长的数据集(IMDB电影评论的平均长度为294)。有关数据集的更多详细信息,请参阅表2。酒店评论数据集由Ctrip.com的Tan Songbo编制。微博评论数据集来自新浪微博,并在线收集。IMDB电影评论数据集可以从kaggle下载。与keras附带的数据源不同,kaggle的IMDB数据集提供了一个CSV文件,可以更好地划分训练集、测试集和数据预处理。
消融实验中模型在四个数据集上的分类准确率如表4所示。如表所示,所提出的DCANet在这四个数据集上取得了优异的结果。与基线模型(包括TextCNN、LSTM、Bi-LSTM、BiLSTM-attention、RCNN和Transformer)相比,DCAN在不平衡的中文酒店评论数据集上表现更优。此外,它在中文酒店评分、英文IMDB电影评论和中文微博评论中也表现出稳健的性能。DCANet在所有数据集上的准确率分别为85.46%、89.37%、94.61%和98.80%。特别是,在IMDB数据集上,DCANet展现了最显著的改进。如表4所示,仅包含MPDM模块或仅包含SAT模块的消融变体在各种数据集上的表现较差。这表明,与成熟的CNN、RNN和基于注意力的架构相比,简单的模块设计可能不会提高性能。然而,结合MPDM和SAT模块使用的DCANet表现优于这些模型,表明本研究中设计的模型结构在计算文本语义方面具有某些优势。
4.5. 消融实验
为了进一步验证所提出的DCANet架构的有效性,我们对DCANet模型与使用CNN、RNN和注意力架构的模型进行了实验比较。同时,还对DCANet模型进行了消融实验,以验证每种结构的有效性。实验是在四个数据集上进行的,包括英文IMDB电影评论数据集、平衡的中文酒店评论数据集、不平衡的中文酒店评论数据集和中文微博评论数据集。选择这些数据集是因为它们包含了中文和英文文本,既有平衡的数据集也有不平衡的数据集,数据集的大小各不相同,以及平均文本长度较短的数据集(例如酒店评论和微博评论)和平均文本长度较长的数据集(IMDB电影评论的平均长度为294)。有关数据集的更多详细信息,请参阅表2。酒店评论数据集由Ctrip.com的Tan Songbo编制。微博评论数据集来自新浪微博,并在线收集。IMDB电影评论数据集可以从kaggle下载。与keras附带的数据源不同,kaggle的IMDB数据集提供了一个CSV文件,可以更好地划分训练集、测试集和实验中的数据预处理。
消融实验中模型在四个数据集上的分类准确率如表4所示。如表所示,所提出的DCANet在这四个数据集上取得了优异的结果。与基线模型(包括TextCNN、LSTM、Bi-LSTM、BiLSTM-attention、RCNN和Transformer)相比,DCAN在不平衡的中文酒店评论数据集上表现更优。相比之下,它在中文酒店评分、英文IMDB电影评论和中文微博评论中也表现出稳健的性能。DCAN在所有数据集上的准确率分别为85.46%、89.37%、94.61%和98.80%。特别是,在IMDB数据集上,DCAN的表现最为显著。如表4所示,仅包含MPDM模块或仅包含SAT模块的消融变体在各种数据集上的表现较差。这表明,与成熟的CNN、RNN和基于注意力的架构相比,简单的模块设计可能无法提高性能。然而,结合MPDM和SAT模块使用的DCAN表现优于这些模型,表明本研究设计的模型结构在计算文本语义方面具有某些优势。
4.6. 计算成本分析
虽然DCANet取得了强大的预测性能,但其多分支扩散掩码和潜在代码引导的注意力可能会引入比标准Transformer更多的计算开销。为了澄清这一点,我们进一步将DCANet与在两个代表性数据集(分别是IMDB和Weibo)上使用的Transformer基线模型进行了比较,这两个数据集分别对应于相对长文本和短文本的场景。为了公平比较,保留了第4.3节中相同的训练超参数。运行时间和内存统计是在PyTorch 2.3.0、Python 3.12(Ubuntu 22.04)、CUDA 12.1、一个具有12GB内存的RTX 3080 Ti GPU、12个vCPU Intel(R) Xeon(R) Silver 4214R CPU(2.40 GHz)和90GB系统内存的条件下收集的。表5报告了测试准确率以及几个计算成本指标,包括可训练参数的数量、峰值GPU内存、每个周期的训练时间和完整测试推理时间。与Transformer基线模型相比,DCANet在IMDB上的准确率从0.9369提高到了0.9461,在Weibo上的准确率从0.9769提高到了0.9880。作为回报,DCANet在两个数据集上都增加了可训练参数的数量、峰值GPU内存和运行时间。
这些结果表明,所提出的模型虽然带来了适度的但实际可行的计算开销,同时保持了准确的提升。这种权衡是合理的,因为额外的开销主要来自于MPDM模块,该模块在多个信息密度下执行并行扩散掩码,以及SAT模块,后者进一步整合了潜在代码引导的注意力。
5. 结论
我们提出了一种新颖的跨领域表示学习方法,称为DCANet,该方法解决了在开放领域数据集上预训练词向量和语义计算过程中涉及的噪声和挑战。跨领域指的是将开放领域预训练的嵌入转移到具有不同领域特征的下游任务中的场景,模型在这个过程中减轻了语义噪声。未来的工作将探索正式的跨领域转移实验设置。该模型使用了MPDM模块,该模块通过随机路径激活生成具有不同密度的语义图,以捕获文本中潜在的上下文语义信息,从而增强了数据中的细粒度语义信息。通过整合SAT模块和ISE模块,DCANet能够全面建模全球语义信息,并消除在开放领域数据集上进行词向量预训练时由于语义噪声引起的语义偏差。因此,DCANet显著增强了数据的语义丰富度,并提高了语义计算的准确性。在九个公开可用的基准数据集上的严格实验验证了DCANet的优越性和实用性。当前研究存在两个主要局限性:其一,消融分析主要基于准确性;其二,实验设置仍伴随着不可忽视的计算开销。未来的工作将关注两个方面:首先是更系统地研究超参数敏感性,其次是降低实验成本。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号