为了提升自然语言推理能力,从而识别数据到文本生成过程中的错误输出
《Knowledge-Based Systems》:Towards enhancing Natural Language Inference for identifying erroneous outputs in data-to-text generation
【字体:
大
中
小
】
时间:2026年04月08日
来源:Knowledge-Based Systems 7.6
编辑推荐:
数据到文本生成中的错误检测研究提出轻量级NLI模型,通过大语言模型反馈增强语义区分能力,在NLGI和STS任务中优于基线方法。
张元(Changwon Ok)| 李恩京(EunKyeong Lee)| 朱亨珠(Hyeongju Ju)| 李正燮(Jungseob Lee)| 吴东硕(Dongsuk Oh)
韩国KT公司
摘要
大型语言模型(LLMs)在自然语言处理(NLP)任务中表现非常出色。然而,数据到文本(D2T)生成——即将结构化数据转换为自然语言文本——面临重要挑战,包括“遗漏”(缺失重要数据)和“幻觉”(生成原始数据中不存在的信息)。这些问题显著降低了生成文本的可靠性和准确性,因此自然语言推理(NLI)模型对于有效评估生成句子与其原始数据引用之间的关系至关重要。然而,由于LLMs需要大量的计算资源,许多实际应用仍然使用参数较少的预训练语言模型(PTLMs),尽管这些较小模型的性能通常较低。直到最近,基于Transformer编码器架构的PTLMs提出的训练目标在表示能够区分词元或句子层面细微语义差异的各向异性分布方面仍然有限。为了克服这些挑战,本研究引入了一种高效的NLI模型,该模型利用大规模语言模型的反馈来更好地识别语义差异并检测错误。所提出的模型成功解决了之前的局限性,并在D2T数据集上实现了与更大模型相当的性能。
引言
自然语言生成(NLG)是自然语言处理(NLP)中的核心任务之一,要求系统生成连贯且准确的自然语言表达。基于Transformer的大型语言模型(LLMs)的发展在各种生成任务中取得了显著进展,例如摘要总结[1]、对话生成[2],尤其是数据到文本(D2T)生成,后者将结构化数据转换为自然语言[3]。然而,尽管取得了这些进展,LLMs仍然倾向于产生不完全忠实于输入数据的输出。在D2T生成中,这个问题尤为严重,因为模型经常出现遗漏(遗漏关键事实)或幻觉(生成不支持或错误的信息),这损害了生成文本的可信度和准确性。
在D2T任务中,遗漏指的是生成句子中遗漏了必要的输入信息。幻觉则是指生成了原始输入中不存在的内容。这些类型的错误降低了D2T系统的实际可靠性。例如,Du?ek和Kasner[4]提出的评估数据集根据句子的正确性将生成句子分为四类:OK、遗漏、幻觉和幻觉+遗漏。如表1所示,该数据集提供了带有相应标签的生成句子示例,有助于说明D2T生成错误的范围和复杂性。这类资源突显了自然语言推理(NLI)模型在有效识别和分析此类错误方面的重要性。
大型语言模型(LLMs)在广泛的NLP任务中表现非常出色。然而,由于LLMs需要大量的计算资源,许多实际应用仍然使用参数较少的预训练语言模型(PTLMs),即使这些模型的性能通常较低。因此,在现实世界环境中更常用基于PTLM的NLI模型。不幸的是,这些模型往往难以区分句子或词元之间的细微语义差异。基于Transformer编码器架构的PTLMs往往依赖于浅层的表面级启发式方法,并且存在各向异性问题,使得难以表示有意义的区别[5]。
例如,两个句子“Abradab的背景是独唱歌手。”和“Abradab的主席是独唱歌手。”在含义上有明显区别,但像RoBERTa-large和SimCSE(RoBERTa的对比学习扩展)这样的模型却给它们赋予了较高的相似度分数。这表明它们未能捕捉到“背景”和“主席”之间的语义不匹配。相比之下,像ChatGPT这样的LLM能够成功识别这种差异,并将这两个句子评为语义上不同的。这一观察表明,可以利用LLMs强大的语义理解能力为改进基于PTLM的NLI模型提供有价值的反馈(见图1)。
最近的研究表明,LLMs可以通过生成训练数据或通过基于提示的交互提供反馈来帮助提高其他模型的性能[7]、[8]、[9]、[10]。受这些方法的启发,本文提出了一种利用LLM生成的反馈来提高轻量级基于PTLM的NLI模型的语义区分能力的方法。我们的目标是使该模型在检测D2T生成中的错误方面更加有效。
本文的主要贡献包括:
- •
我们发现现有的基于PTLM的NLI模型难以区分词元和句子之间的细微语义差异。
- •
我们提出了一种新的句子嵌入方法,该方法结合了来自LLMs的语义反馈以提高表示质量。
- •
我们证明,使用这种方法训练的NLI模型在检测D2T任务中的错误方面优于现有的基线方法。
章节片段
对比学习。
对比学习旨在通过将语义相似的实例拉近并将不相似的实例推远来学习有效的表示[11]。早期方法使用了带有批量负样本的交叉熵损失[12]、[13]。两个向量和之间的相似度使用余弦相似度来衡量:给定一个句子及其嵌入,其正对表示为。温度参数由Wu等人[14]引入。对比损失
提出的方法
本节介绍了一种新颖的NLI模型,该模型旨在通过大型语言模型的洞察力来辨别单词或句子之间的语义差异。这种方法应用于D2T任务,以检测错误输出。该策略旨在最小化句子嵌入的损失,然后进行NLI的训练目标函数训练。句子嵌入是使用基于ChatGPT的对比学习技术实现的。
实验
在完成上述句子级和词元级的对比学习阶段后,我们在两种不同类型的任务中进行了实验:(1)通过自然语言推理(NLGI)评估数据到文本的生成。(2)使用七个STS数据集评估生成句子嵌入的质量。首先,我们对NLI任务微调我们的模型,并评估模型在检测错误方面的有效性
结论
在这项工作中,我们提出了一种新颖的对比学习方法,该方法在句子和词元级别上均发挥作用,利用大型语言模型的反馈来改进句子嵌入。通过结合ChatGPT提供的语义相似性信号,我们的模型学会了捕捉细微的语义差异,从而在NLGI和STS任务上实现了显著的性能提升。值得注意的是,所提出的方法在检测错误方面取得了最先进的结果
CRediT作者贡献声明
张元(Changwon Ok):撰写——原始草稿、方法论、软件、概念化。李恩京(EunKyeong Lee):软件、调查、撰写——原始草稿、方法论。朱亨珠(Hyeongju Ju):方法论、撰写——原始草稿、概念化。李正燮(Jungseob Lee):概念化、数据整理。吴东硕(Dongsuk Oh):方法论、撰写——原始草稿、项目管理、概念化。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号