将无监督学习整合到生成模型的真实性一致性中
Sindhu Nair 和 Y. S. Rao
《Future Internet》:Integrating Unsupervised Learning for the Factual Consistency of Generative Models
Sindhu Nair and
Y. S. Rao
【字体:
大
中
小
】
时间:2026年04月28日
来源:Future Internet 3.6
编辑推荐:
摘要 文本摘要涉及分析大量文本,选择文本的显著特征,并将它们连贯地组织起来。基于图的TextRank和统计主题建模是无监督的方法,用于生成提取性概要。深度学习模型是有监督的、数据驱动的,并在庞大的数据语料库上进行预训练,对自动文本摘要系统做出了重大贡献。尽
摘要 文本摘要涉及分析大量文本,选择文本的显著特征,并将它们连贯地组织起来。基于图的TextRank和统计主题建模是无监督的方法,用于生成提取性概要。深度学习模型是有监督的、数据驱动的,并在庞大的数据语料库上进行预训练,对自动文本摘要系统做出了重大贡献。尽管深度学习摘要系统在语法正确性和连贯性方面表现出色,但它们容易出现事实不一致的问题。这限制了基于Transformer的摘要器的应用,特别是在关键领域,因为误导性的摘要系统可能由于其重大的社会影响而导致严重后果。本文提出了一种巧妙的混合层次化方法,该方法将无监督方法(如TextRank算法和基于Latent Dirichlet Allocation (LDA)的摘要)与现代基于Transformer的语言模型相结合。在三个基准摘要数据集上进行验证后,实证结果表明,我们的混合层次化Transformer方法减轻了抽象摘要中固有的人事实不一致问题。与微调后的基线基于Transformer的语言模型相比,我们的多层次混合方法生成的摘要在一致性得分上有所提高,从而增加了对基于Transformer的摘要器的信任。
1. 引言
从大量文本中提取有价值的信息是文本挖掘的任务。文本和网络搜索、主题和重要话题的挖掘、摘要生成以及文档理解都是文本和网络数据特有的任务。随着网络数据的指数级增长,对文本数据进行分类和摘要的需求也在增加。生成的概要以简洁精炼的形式呈现了整个数据块的关键点,使其易于理解。含糊不清的文本、冗长复杂的文档、多主题文本、创意写作风格以及高度技术性的内容都对摘要任务构成了挑战。文本挖掘[1]涵盖了多个领域,包括信息检索、数据挖掘、机器学习和深度学习。文本挖掘的主要目的是分析非结构化数据并发现隐藏的模式,以促进决策制定。主题建模是一种概率性技术,用于[1]语义分析,它不需要训练数据,并通过无监督的方式提取潜在主题。每份文档被分类为不同的主题或话题。每个主题可以被视为一个词的概率分布。潜在语义分析[1]和潜在狄利克雷分配[1]是文本挖掘范畴下两种流行的主题建模技术。从大量文本中获取的信息有助于做出关键决策,这些决策具有重要的社会影响。使用文本挖掘技术从大量文本中提取的知识可以应用于医疗保健、治理和媒体等关键领域,从而影响我们的日常生活。在线提供的长文本摘要可以为决策提供关键见解,其中任何对事实的误解都可能产生灾难性后果。近年来,基于深度学习的摘要系统的广泛应用受到了其事实不一致性的限制。数字新闻媒体中的任何虚假叙述都可能对我们的日常生活产生令人担忧的影响。因此,必须保护概要的真实性,以避免传播任何误导性信息。尽管之前的工作已经探讨了LDA与BART模型的结合,但它们并没有解决事实一致性问题[2,3,4,5,6]。Cristian等人[7]使用主题标注方法,对于一组文档,利用LDA模型进行主题聚类。然后生成主题标签并输入到BART模型中,从而对BART模型进行主题标注训练。大型预训练的Transformer模型通过使用无监督的LDA模型以弱监督的方式进行微调,以获得有意义的标签。以往的工作侧重于使用LDA模型与BART结合进行主题标注,而我们的工作则提供了解决事实一致性问题的方案。Jijo等人[8]回顾了现有的文本摘要方法,包括Textrank算法、模糊逻辑、潜在语义分析和深度学习技术。然而,该论文没有融合这些方法,也没有解决事实一致性问题。在Chen等人[9]的研究中,将TextRank和BART模型的结果结合起来获得更多主题性关键句子,然后将其反馈到BART模型中以生成最终摘要。我们的方法不同之处在于,提取性的TextRank摘要被直接输入到BART模型中,而不与BART模型的抽象输出进行拼接。此外,以往的工作使用基于令牌重叠的一般摘要质量指标(如ROUGE[10])来评估摘要,因此没有捕捉到事实的正确性[11,12]。本研究为基于Transformer的深度序列到序列模型中的事实不一致性问题提供了可行的解决方案。我们的方法解决了由于错误实体、不准确的事实信息、实体互换和误导性语义导致摘要与源文本不一致的问题。解决基于深度学习的摘要中的事实不一致性是一个及时且关键的研究问题,尤其是在媒体、医疗、法律和治理等高风险领域。当前最先进的大型语言模型能够生成连贯的类人摘要,但事实不一致性或幻觉仍然是一个挑战。在医疗报告摘要等关键应用中,事实一致性或正确性是基本的质量参数。同样,媒体上的虚假新闻也可能产生误导,影响我们的日常生活。本工作做出了以下重要贡献:(1) 提出了一个解决方案,解决了语言模型中的事实不一致性问题,这些问题影响了这些模型在关键和敏感领域的使用,其中事实准确性是评估摘要质量的主要参数。(2) 介绍了一种混合层次化深度学习方法,将文本的无监督学习与基于Transformer的编码器-解码器模型结合,以提高生成摘要的事实一致性。(3) 所提出的混合方法在生成摘要的事实一致性得分上显著优于微调后的基线基于Transformer的语言模型。
2. 相关工作
Cao等人[13]利用流行的OpenIE和依存关系解析工具从源句子中提取三元组,以减少虚假摘要,从而处理事实不一致性问题。然后提出了一个双注意力序列到序列框架,强制在源文本和提取的事实描述条件下生成摘要。Dou等人[14]提出了一个通用框架,将不同类型的输入作为指导信号。实验表明,使用高亮句子作为指导可以获得最佳性能。该框架基于BART的改进版本,包括两个编码器,分别对输入的源文档和指导信号进行编码。解码器同时关注源文档和指导信号。Shin等人[15]引入了一个事实引导模块,并结合了基于扩散的抽象摘要器,以生成多样性和事实一致性都较高的摘要。所提出的方法在每个去噪步骤中持续引导事实性,从而生成的摘要不仅与源文本一致,而且多样性也很高。Li等人[16]提出了一种实体增强方法(EAM),利用交叉注意力在解码过程中关注实体。EAM方法旨在通过明确整合和关注Transformer模型内的实体边界信息来提高生成的摘要的准确性。所提出方法的核心是在Transformer中添加两个关键模块:(1) 稀疏实体矩阵,放置在编码器之后,帮助编码输入文本中存在的实体边界信息;(2) 实体交叉注意力层,添加到解码器中,使模型能够在生成过程中关注实体表示。Shin等人[17]提出了一种基于令牌级别的事实校正模型,用于抽象摘要,采用联合训练进行通用令牌级别的事实校正。该模型包括三个模块:摘要事实检查器、令牌事实检查器和事实修正器。这些模块依次应用于给定的不一致摘要以生成一致的摘要。Zhu等人[18]从文章中提取事实信息,并将其以关系知识图的形式整合到端到端的摘要生成过程中。知识图来自信息提取结果,并参与解码器的注意力处理。Jin等人[19]探讨了将语义依赖图整合到抽象摘要模型中。该模型包括一个句子编码器、一个图编码器和一个摘要解码器。首先,句子编码器读取输入句子并构建其上下文级表示。然后,图编码器根据上下文级表示和语义依赖图捕获语义关系,生成具有语义意识的句子表示。最后,解码器生成注意语义意识的输出摘要。Feng等人[20]过滤训练数据以减少概要中的错误实体,并提出了一种新的实体级事实一致性度量标准。Feng等人[21]提出了一种新的训练算法,在模型训练期间最大化所提出的事实一致性指标。Mao等人[22]使用特定于模型的方法在编码过程中整合多粒度的事实输入。考虑了重要的事实信息,如相关时间、地点、原因、后果、参与者和相关方、事实之间的复杂语义关系以及相应的事实信息。Pernes等人[23]使用QuestEval和FactCC等现代评估指标对摘要进行排名。Wan等人[24]分析了束搜索和核采样对生成摘要的事实一致性的影响。Zhu等人[25]将知识图整合到摘要生成中。Tanay等人[26]分析了对比学习框架在事实一致性和生成摘要的整体质量之间取得的平衡。Meng等人[27]使用事实校正模型来提高事实一致性,而Yue等人[28]在事实校正模型中使用问答模型和多遮蔽策略。
3. 提出的方法论
本文提出的方法论针对抽象摘要中的各种挑战,特别是事实不一致性和摘要的不真实性。当使用深度学习模型从文章中提取信息并生成摘要时,应保持文章的事实准确性。此外,生成的摘要不应与源文本不同,而应与源文本保持一致。虽然基于Transformer的深度学习模型生成的摘要表达流畅,但它们并不缺乏事实不一致性。此外,这些与源文本不符的不真实摘要可能会误导读者。很多时候,摘要被用于做出关键决策。向信息消费者提供错误信息可能会产生严重后果。许多关键应用需要准确且真实的摘要来辅助决策。提取性和抽象性是两种文本摘要方法。表1区分了提取性和抽象性摘要,涵盖了连贯性、成本、速度、复杂性、准确性、上下文、新颖性和局限性等特征。提取性方法涉及文本的无监督学习算法,而抽象性方法涉及现代基于Transformer的语言模型。表1. 摘要方法。这里应用了两种流行的无监督学习方法:基于概率的主题建模方法[29],根据文本中的出现模式进行形式化;以及基于图的TextRank算法[30],根据句子的相似性对其进行排序。所提出的方法论应用了基于TextRank和基于主题建模的摘要等文本的无监督学习,以解决基于Transformer的抽象摘要中固有的人事实不一致性问题。本节进一步讨论了基于LDA的提取性摘要和TextRank提取性方法,然后详细解释了所提出的混合层次化深度学习方法。最后一个小节讨论了作为我们提出方法论宝贵测试平台的数据集。
3.1. 提取性摘要
在基于LDA的提取性摘要中,在构建LDA模型时,主题数量作为超参数给出。在构建LDA模型之前,首先对源文本进行句子分词。然后,每个句子通过分词、停用词删除和词形还原进行预处理。接下来是向量化处理。利用概率模型,输入文本被聚类成具有连贯性得分的主题。在Python 3.12.13版本中,我们使用sklearn库和LDA模型来从LDA模型中提取摘要。如图1所示,一旦输入文本被聚类成主题,就会从每个主题中挑选出最具代表性的句子来形成摘要。从每个主题簇中挑选出的句子数量也是作为输入提供的。图1. LDA摘要生成。TextRank是一种不需要标记数据的PageRank算法变体,用于提取性摘要。TextRank算法通过分析句子与其他句子的相似性来确定其重要性。如果一个句子与许多其他句子相似,那么它就被认为更重要。图2显示了TextRank摘要生成的系统流程。输入预处理包括去除重复项、缺失值、特殊字符和不相关特征。文本清洗之后是对输入进行词干提取、词形还原和分词。TextRank是一种无监督方法,其中文本文档被表示为一个图,节点代表句子。节点之间的边或链接表示句子之间的相似性。摘要中的句子被编号为K,这个值由用户选择。相同的句子往往具有相同的相似性值。余弦相似度(在方程(1)中给出)被广泛用于提取性文本摘要。基于余弦相似度的句子相似性得分范围从0到1。句子的排名是根据这个得分计算得出的。摘要只包含排名最高的句子[30]。图2. TextRank摘要生成。
3.2. 混合层次深度学习方法
深度学习模型在自然语言处理领域带来了革命性的变化。随着基于注意力的指针网络、生成对抗网络和基于Transformer的编码器-解码器模型等深度学习模型的出现,诸如翻译、摘要[31,32,33]和自然语言生成等NLP任务的表现已经达到了类似人类的水平。基于注意力的Transformer模型[34]彻底改变了文本摘要的方法,并可以分为仅编码器模型、仅解码器模型和编码器-解码器模型三类。仅编码器模型,如BERT[35],用于文本分类,而仅解码器模型用于生成文本。像BART[36]、T5[37]和Pegasus[38]这样的编码器-解码器模型,主要在预训练目标上有所不同,适用于输入和输出文本长度不同的文本到文本的转换。这些编码器-解码器模型常用于文本摘要和翻译等NLP任务。基于Transformer的编码器-解码器模型在摘要任务上表现良好,但存在事实不一致性问题。我们设计了混合层次语言模型,该模型结合了深度学习的抽象方法和无监督学习的提取方法。这种混合方法是多层的,首先是提取方法,然后是抽象方法。在第一层提取方法中,我们应用了两种摘要方法:TextRank和主题建模。在第二层,我们应用了三种编码器-解码器模型:BART、T5和Pegasus。图3展示了所提出方法的总体架构,包括预训练模型的微调、混合深度学习方法(包括TextRank-Transformer模型和LDA-Transformer模型)、混合知识增强深度学习方法(涉及LDA-TextRank-Transformer模型)以及用于评估的自然语言推理模型SummaC[39]。对于流程中的每个元素,如LDA-Transformer、TextRank-Transformer和LDA-TextRank-Transformer,我们在三个不同的数据集(BBC、CBC和MeetingBank)上验证了我们的方法,这些数据集涵盖了不同的文本风格和长度。基于Transformer的深度学习模型在适当的新闻数据集或对话数据集上进行微调。微调后的模型可以从hugging face框架中获取。图3. 混合层次深度学习方法的架构。在TextRank-Transformer模型中,基于图的提取性TextRank摘要被输入到微调后的基于Transformer的基线语言模型中。在LDA-Transformer模型中,统计提取性LDA摘要被输入到微调后的基于Transformer的基线语言模型中。因此,混合深度学习方法中的TextRank-Transformer模型和LDA-Transformer模型是混合的且多层次的,首先是提取方法,然后是抽象方法。这样做的理由是,通过在第一层使用提取方法进行摘要处理,可以在后继的抽象方法中减少事实错误。知识增强方法通过向模型提供额外输入来解决语义相关性问题。引导信息的示例包括关键词、长度标记、显著句子、事实以及使用图和关系的语义、基于模板的参考摘要[40]。混合知识增强深度学习方法将同一篇文章的两个不同提取性摘要输入到深度学习Transformer模型中。在这种混合层次架构中,一个提取性摘要由另一个摘要进行知识增强/引导,从而确保源文章的所有关键点都得到覆盖,同时解决事实不一致性问题。因此,LDA摘要与TextRank摘要相结合,并输入到微调后的Transformer模型中。深度学习模型非常依赖于训练数据且计算密集,而我们提出的方法结合了统计LDA方法和基于图的TextRank方法与深度学习方法,减少了对大量训练数据的依赖。在流程的每个元素中,输入文章首先进行预处理和向量化,然后输入到提取模型中。提取模型的输出再输入到基于Transformer的语言模型中。在LDA-TextRank-Transformer流程中,提取模型的输出被合并后输入到基于Transformer的模型中。最后,输出由NLI模型进行评估,该模型给出摘要一致性得分。得分越高,摘要在事实上的连贯性越好。SummaC作为主要的评估指标。实验中应用的另一个评估指标是QAGS得分。QAGS方法包括以下三个步骤:问题生成、用文档和摘要回答问题,以及在文档和摘要中找到共同答案[41]。生成的摘要被输入到预训练的RoBERTa模型中,该模型为其生成问题。从摘要中生成的一组相同问题与源文本一起输入到问题回答模型中,以输出关键词答案。同样,也为生成的摘要生成关键词答案。在两组答案之间进行实体或关键词匹配:一组是为源文本生成的,另一组是为同一组问题生成的摘要生成的。这种评估产生了QAGS得分[41]。Factsumm Python包用于实现QAGS得分[42]。QAGS得分[43]的计算方法如方程(2)所示。SummaC[43]是一种基于自然语言推理的事实不一致性评估指标,有两种变体:(1)零样本(zero-shot)和(2)卷积(Convolution)。从生成的NLI对矩阵出发,两种SummaC变体的最终得分计算方法有所不同。对于零样本(zero-shot),最终得分是通过首先取对矩阵中每一列的最高值,然后计算平均值来得出的。因此,它不需要训练参数,被称为零样本。对于卷积(Convolution)变体,卷积层使其对极端值不敏感,这些极端值可能是噪声或异常值。该方法通过捕捉句子级别的不一致性并忽略噪声来获得良好性能。NLI对矩阵的概率分布以直方图的形式表示,并映射到一个分箱矩阵中,然后通过卷积层计算最终得分。这种方法通过捕捉句子级别的不一致性并忽略噪声来获得良好性能。因此,对于每个概要句子,卷积层将整个分布映射到一个分数上。由于NLI对矩阵经过分箱并用卷积层训练,因此它具有训练参数。两种SummaC变体对NLI对矩阵应用不同的聚合技术以映射到最终得分。
3.3. 数据集
我们提出的方法进一步使用BBC新闻数据集[44]和CBC新闻数据集[45]中的新闻文章进行了测试。Meeting Bank数据集[46]是一个包含文字记录及其概要的基准数据集,为我们的方法提供了宝贵的测试平台。BBC新闻数据集中的新闻文章平均长度小于500个标记。BBC新闻数据集经过精心整理,不需要预处理。CBC新闻数据集包含了2020年从CBC新闻网站抓取的疫情相关新闻文章,用于研究全球公众的情绪和疫情期间的事件叙述。CBC新闻数据集包含6787条独特的记录,反映了新闻文章的数量。CBC新闻数据集中的新闻文章平均长度约为1350个标记,因此包含较长且复杂的新闻文章,需要预处理。非结构化数据通常包含噪声,这些噪声在输入到NLP模型之前通过预处理步骤被过滤掉。CBC新闻数据集的详细信息见表2。表2. CBC新闻数据集中的唯一列值。从表3中删除缺失值后,以及删除重复元组后,数据集现在有5043个元组,如表4所示。数据集使用新闻标题、新闻简短描述和新闻正文来进行进一步分析,以计算它们的标记长度。因此,新闻标题长度、文章长度和新闻描述长度被作为新列添加到CBC新闻数据集中。对CBC新闻数据集进行了文本清洗,包括移除非数字/字母字符、表情符号、大空格、HTTP/URL/HTML标签、特殊字符/噪声,并扩展缩写词。数据集预处理的好处包括缩短训练时间,因为数据集的大小减小了,同时通过减少文本格式变化引起的歧义来提高性能。表3. CBC新闻数据集中的缺失值。表4. CBC新闻数据的结构。
4. 实验设置
我们使用Hugging Face作为深度学习框架进行抽象摘要。在Google Colab环境中使用了Python的Sumy包来实现TextRank算法。Sklearn Python包用于构建和应用LDA模型进行主题建模。经过多次试验后,根据LDA模型的困惑度选择主题数量最小 ??确定主题数量。该方法在BBC和CBC数据集上都进行了验证。用于实现提取方法(LDA和TextRank)的所有参数设置细节见表5。表5. 提取性摘要的参数。根据源文章的长度,将概要中的句子数量作为输入输入到TextRank算法中。对于标记长度小于300的非常短的文章,提取性摘要中的句子数量设置为2。对于标记长度超过2000的非常长的文章,提取性摘要中的句子数量设置为20。在训练‘sshleifer/distilbart-cnn-6-6’预训练模型时,超参数包括最大学习率、训练周期数、每个设备的批量大小和最大长度。对于解码策略,超参数设置包括束宽(beam size)、长度惩罚(length penalty)、最大长度(max-length)和最小长度(min-length)。使用BLURR包为‘sshleifer/distilbart-cnn-6-6’模型设置的超参数详细信息见上表6。Blurr库是OpenAI与Hugging Face的集成,用于微调和训练。对于BART的微调和模型训练,导入的Python库包括transformers、dataset、bert-score、blurr及其依赖项。预训练模型使用BBC新闻数据集进行微调。从BBC新闻数据集中提取来自商业、娱乐、政治、体育和技术等类别的文章元组,然后将它们合并以微调BART模型。超参数被设置并输入到训练算法中。超参数与网络架构和训练算法都有关。超参数包括dropout、激活函数、训练周期数、学习率和批量大小等。在微调过程中,模型会训练10个周期。我们将这种方法应用于其他编码器-解码器模型,如T5和PEGASUS,这些模型在预训练目标上有所不同。所有三种基于Transformer的模型都在Samsum数据集上进行对话微调,并在MeetingBank数据集上进行测试,该数据集包含了对话者之间的会议信息。在新闻文章上测试我们的方法时,我们选择了在CNN新闻文章上微调过的Hugging Face hub中的编码器-解码器模型版本,分别对应T5和PEGASUS。表6显示了训练超参数。
5. 结果与讨论
我们提出的方法生成的摘要进行了详细分析,并与基线微调Transformer模型预测的输出摘要进行了比较。对于CBC News数据集,提取概率LDA和基于图的TextRank生成的概要的平均摘要长度(以令牌计)相同,这比使用去噪自编码目标预训练并用Tesla T4 GPU微调的基线最先进抽象摘要模型BART生成的摘要要长。我们提出的混合方法生成的摘要长度比基线BART模型更短。然而,混合知识增强方法LDA–TextRank–BART生成的摘要比混合模型TextRank–BART和LDA–BART生成的摘要略长。下表7展示了各种模型生成的概要长度,其中疫情新闻文章的长度是BBC新闻文章的三倍。表7显示了BBC News数据集和CBC News数据集的摘要长度比较。表8显示了CBC News数据集和CBC News数据集的提取式摘要的性能指标。对于BBC News数据集,观察到提取式方法LDA和TextRank的信息量和事实准确性(由QAGS得分给出)略高于基线抽象BART模型。在BBC News数据集和CBC News数据集上验证时,这些得分远高于基线微调的BART抽象模型。表8表明,提取式LDA方法的事实一致性高于基于图的TextRank方法。因此,基于概率的LDA摘要模型生成的事实一致的摘要比基于图的TextRank更多,这一点已在两个基准数据集上得到实证验证。因此,提取式摘要方法比微调的BART生成的抽象摘要在事实一致性上更具优势。
表8显示了提取式摘要的性能指标。表9和表10显示了我们提出的系统为CBC News数据集中的文章生成的摘要的SummaC得分,这些文章的长度从298个令牌到2245个令牌不等。我们的混合方法在事实一致性得分上优于基线模型,如表9和表10所示。结果表明,在事实一致性方面,LDA–BART、TextRank–BART和LDA–TextRank–BART的表现优于微调的BART摘要。表9包含了长度小于1000个令牌的文章,我们分析了其中长度小于600个令牌的第一组中的四篇文章和长度在600到1000个令牌之间的五篇文章。观察到我们模型TextRank–BART、LDA–BART和LDA–TextRank–BART生成的概要的事实一致性超过了基线模型。表10包含了长度小于1500个令牌的第一组中的四篇文章和长度超过1500个令牌的五篇文章。在这里,我们的方法再次展示了更高的事实一致性得分,证明了我们在消除事实错误方面的有效性。因此,新颖的混合方法LDA–BART、TextRank–BART和LDA–TextRank–BART生成的事实一致摘要比微调的BART更具事实一致性。我们的方法在事实一致性方面的表现与LDA–BART、TextRank–BART和LDA–TextRank–BART模型相当,优于基线抽象BART模型。
表9和表10显示了我们提出的系统为CBC News数据集中的文章生成的摘要的SummaC得分,这些文章的长度从298个令牌到2245个令牌不等。我们的混合方法在事实一致性得分上优于基线模型。结果表明,在事实一致性方面,LDA–BART、TextRank–BART和LDA–TextRank–BART的表现优于微调的BART摘要。表9包含长度小于1000个令牌的文章,我们分析了长度小于600个令牌的第一组中的四篇文章和长度在600到1000个令牌之间的五篇文章。观察到我们模型生成的概要TextRank–BART、LDA–BART和LDA–TextRank–BART的事实一致性超过了基线模型。表10包含了长度小于1500个令牌的第一组中的四篇文章和长度超过1500个令牌的五篇文章。在这里,我们的方法再次展示了更高的事实一致性得分,证明了我们在消除事实错误方面的有效性。因此,新颖的混合方法LDA–BART、TextRank–BART和LDA–TextRank–BART生成的事实一致摘要比微调的BART更具事实一致性。我们在三个LDA–BART、TextRank–BART和LDA–TextRank–BART模型中的方法在事实一致性方面的表现相当,优于基线抽象BART模型。此外,在将LDA摘要与TextRank摘要结合后再输入BART模型之前,并没有明显的优势。进一步观察到,尽管LDA摘要在事实一致性方面优于TextRank摘要,但在混合模型LDA–BART和TextRank–BART之间并没有这样的结论。
表9显示了我们提出的系统为CBC News数据集中长度小于1000个令牌的文章生成的摘要的事实一致性得分。表10显示了我们提出的系统为CBC News数据集中长度超过1000个令牌的文章生成的摘要的事实一致性得分。表11显示了100篇CBC新闻文章摘要的SummaC得分比较,清楚地显示了我们提出的分层混合方法在事实一致性方面的更高得分。此外,观察到混合模型和混合知识增强方法生成的摘要的事实一致性得分是可比的。表12显示了我们的方法应用于精心整理的BBC News数据集生成的概要的评估结果。SummaC得分显示了事实一致性的提高。基线Transformer模型生成的概要的信息量和语义相似性分别通过RougeL和BERTScoreF1 [47]来展示,这些都在我们的方法中得到了保留。因此,我们的方法在连贯性、信息量、语义相似性和事实一致性方面提供了平衡的摘要。
表11显示了CBC数据集100篇新闻文章的SUMMAC得分。表12显示了BBC数据集100篇新闻文章的评估结果。通过应用基于NLI的SummaC模型来评估概要文本的事实一致性,卷积变体的SummaC得分比其零样本版本更具区分性和鲁棒性。然而,TextRank–BART模型、LDA–BART模型和LDA–TextRank–BART模型的摘要一致性得分增加与文章长度没有相关性。观察到提取式方法体积轻量级,处理时间非常短。这使得提出的混合模型体积轻量级,对训练数据的依赖性降低。因此,当在先前未知的数据上进行测试时,提出的模型将最为有效。这在将这种新颖的创新方法应用于CBC News数据集(该数据集包含来自加拿大新闻网站的网页抓取的疫情新闻文章)时得到了实证验证。我们的方法使用了三种编码器-解码器模型在三个有价值的测试平台上进行了测试,结果如下所示。由于混合知识增强方法LDA–TextRank–Transformer在初步结果中没有优势,因此进一步使用了涉及LDA和TextRank的两种混合方法进行了实验。表13显示了MeetingBank数据集的评估得分。我们将我们的方法应用于三种编码器-解码器模型BART、T5和PEGASUS,这些模型在预训练目标上有所不同。BART的预训练目标是去噪自编码,从损坏的文本中重建原始文本。PEGASUS的预训练目标是生成间隔句子,而T5预测缺失的文本片段。使用包含对话者之间会议信息的MeetingBank数据集进行测试。这三种基于Transformer的模型在Samsum数据集上进行对话微调。我们观察到,混合模型在事实一致性方面优于基线模型。此外,它们的ROUGELScore和BERTScoreF1表明,增强的事实一致性并没有牺牲摘要质量参数,如信息量、连贯性和语义相似性。T5的混合模型LDA–T5在其SummaC得分上取得了最佳性能,比其基线模型提高了25%。
表13显示了MeetingBank数据集的评估得分。与相应的Transformer基线模型相比,LDA–Transformer模型和TextRank–Transformer模型的表现有所提高,如图4所示。概要的事实一致性通过SummaC得分及其两个变体进行了评估。为了说明SummaC得分的有效性,将每个模型的两个SummaC得分堆叠在一起。负的SummaC得分表明事实一致性非常低。在MeetingBank数据集的情况下,观察到在事实一致性方面表现最好的模型是LDA–T5。对于DistilBART、T5和PEGASUS模型,观察到带有LDA的混合模型生成的事实一致摘要比TextRank–Transformer模型版本更一致。在其他两个基准数据集BBC News数据集和CBC News数据集中也观察到了同样的现象,尽管有一些异常情况,例如TextRank-T5在事实一致性得分上高于LDA–T5。同样,TextRank-DistilBART为BBC数据集生成的事实一致摘要也比LDA–DistilBART更一致。图4显示了我们提出的方法与基线模型的SummaC得分比较。图5比较了三种编码器-解码器模型T5、PEGASUS和DistilBART在三个基准数据集上的SummaC得分。基于SummaC得分和TextRankScore,我们提出的方法的混合模型在事实一致性方面优于基线模型LDA–Transformer模型。
图5比较了三个编码器-解码器模型T5、PEGASUS和DistilBART在所有三个基准数据集上的SummaC得分。尽管基于Transformer的摘要器性能很高,但调查显示30%的摘要存在事实不一致。本文介绍的混合方法解决了基于Transformer的抽象摘要中固有的事实不一致问题。这可以积极影响基于Transformer的摘要器的可用性,特别是在医学、媒体和治理等关键领域,其中生成概要的事实一致性至关重要。除了新闻数据集之外,所提出的方法还可以应用于其他实际领域,如生物医学、法律或科学文本。
6. 结论
基于Transformer的模型受到其对静态训练数据依赖的限制。训练数据中的任何偏见都会被基于Transformer的深度学习模型放大。混合方法中引入的文本无监督学习减少了對训练数据的依赖。与基于Transformer的编码器-解码器模型相比,混合模型在生成摘要的事实一致性方面获得了更好的结果。采用混合方法的理由是提取式摘要方法的高度事实性,这一点已经得到了实证验证。我们创新性的轻量级混合方法是一种多层次架构,它利用TextRank和LDA来解决最先进的抽象摘要模型中存在的事实不一致问题。我们的方法能够在事实一致性和其他摘要质量参数(如信息量、语义和连贯性)之间实现合理的平衡。实证结果表明,我们的混合方法减轻了抽象摘要中固有的人为错误。与依赖单一生成模型不同,这种混合方法结合了多种具有不同优势的模型,以创建更准确可靠的最终预测。我们用三个具有不同文本风格和长度的不同数据集(BBC、CBC和MeetingBank)来验证我们的方法。当前的大型语言模型(LLMs),如GPT系列、Llama和其他最近的开源LLMs,在抽象摘要方面取得了强劲的性能,但事实不一致或幻觉问题仍然存在。所提出的混合方法可以应用于提高现代LLMs的事实一致性,并可以推广到其他敏感领域。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号