基于大语言模型的辅助信息去噪以增强推荐性能

《Neurocomputing》:LLM-based side information denoising for recommendation enhancement

【字体: 时间:2026年06月02日 来源:Neurocomputing 6.5

编辑推荐:

  在基于图的推荐系统中,当前方法主要侧重于学习并捕捉用户与物品之间的深层交互关系。然而,交互数据本身受限于数据质量问题(如稀疏性、流行度偏差和语义鸿沟),这制约了所学物品表示的表达能力。因此,近期研究开始探索引入辅助信息以缓解交互信号的匮乏。尽管如此,现有方法通

  
在基于图的推荐系统中,当前方法主要侧重于学习并捕捉用户与物品之间的深层交互关系。然而,交互数据本身受限于数据质量问题(如稀疏性、流行度偏差和语义鸿沟),这制约了所学物品表示的表达能力。因此,近期研究开始探索引入辅助信息以缓解交互信号的匮乏。尽管如此,现有方法通常将不同类型的辅助信息同质化处理,忽略了其可信度的差异,并采用统一的去噪策略。大语言模型(LLM)的进展为评估可信度开辟了新途径。因此,研究人员提出了一种模型无关的框架,该框架对大语言模型生成的辅助信息执行置信度自适应谱去噪。基于LLM的令牌概率,引入了一种新颖的三层信任机制。利用这一机制,研究人员构建了一个物品-属性图,并应用置信度自适应谱滤波对数据进行去噪,生成高质量的语义嵌入。随后,这些嵌入与协同过滤嵌入融合,以在协同过滤任务中实现联合训练。
## 论文解读:基于大语言模型的辅助信息去噪增强推荐性能

### 研究背景与问题

在基于图的推荐系统中,协同过滤(CF)方法主要依赖用户与物品之间的交互模式来学习表示。然而,交互数据普遍存在稀疏性、流行度偏差和语义鸿沟等问题,导致模型表达能力受限。为缓解这一依赖,研究者尝试引入辅助信息(如物品属性、用户画像、外部知识)来增强模型对交互模式的理解。但现有方法通常将不同类型的辅助信息视为同质化,忽略了其可信度差异,并采用统一的去噪策略,无法有效抑制噪声。大语言模型(LLM)的进步为评估辅助信息可信度提供了新可能。因此,开展本研究旨在解决两个核心挑战:如何量化LLM提取属性的可靠性差异;如何利用可靠性估计对提取的辅助信息进行去噪,并转化为能有效增强协同过滤的表示。

### 研究内容与结论

研究人员提出了一种模型无关的框架,对LLM生成的辅助信息进行置信度自适应谱去噪。该框架包含三个阶段:首先,设计三层置信度机制,从微调后LLM的令牌概率中推导可靠性,并逐步从令牌聚合到属性再到物品,获得多粒度提取质量评估;其次,将物品及其提取的属性组织成图,应用置信度自适应谱滤波器,利用估计的可靠性抑制噪声分量;最后,将去噪后的表示与协同过滤模型的随机初始化嵌入融合,通过标准学习过程联合训练。结论表明,该框架能有效提升推荐性能,且无需修改协同过滤架构,具有通用性。论文发表在《Neurocomputing》。

### 主要关键技术方法

1. **LLM微调与属性提取**:基于Qwen3-30B-Instruct模型,采用低秩适配(LoRA)微调,利用MAVE数据集(Amazon提供的物品属性-值对集合,研究人员从中手动选择高质量对进行微调),将Kuairand、KuaiREC、MIND三个数据集的物品信息转换为结构化属性-值对,同时记录令牌概率以评估置信度。
2. **三层置信度机制**:从令牌概率出发,逐步聚合到属性和物品,得到多粒度可靠性评估。
3. **置信度自适应谱滤波**:构建物品-属性图,利用图拉普拉斯的谱分解,设计基于置信度的自适应滤波器,抑制噪声分量。
4. **嵌入融合与联合训练**:将去噪后的语义嵌入与协同过滤嵌入融合,无需修改模型架构即可联合训练。

### 研究结果

**RQ1: 语义嵌入框架能否生成有意义的表示?**
通过主成分分析(PCA)可视化发现,经去噪后的语义嵌入在物品空间中形成了更清晰的聚类结构,表明框架能捕获有意义的语义模式。

**RQ2: 去噪模块相比直接获取的语义嵌入效果如何?**
在Kuairand、KuaiREC、MIND三个数据集上,与直接使用LLM提取的原始属性嵌入相比,经过置信度自适应谱去噪后的嵌入在推荐准确率(Recall、NDCG等指标)上有显著提升。

**RQ3: 各设计组件对整体性能的贡献如何?**
消融实验表明:移除三层置信度机制(改用均匀权重)导致性能下降;移除谱滤波(直接使用原始嵌入)也有明显退化;而完整框架在所有组件协同下达到最优。

**RQ4: 集成后执行时间有何变化?**
由于额外增加了LLM属性提取和去噪步骤,整体训练时间有所增加,但推理时间几乎不受影响(因为去噪后的嵌入可提前计算并存储)。

### 总结讨论与结论

讨论部分指出,本方法通过显式利用LLM的令牌概率量化辅助信息可靠性,并采用谱图理论进行自适应去噪,有效克服了传统方法中对不同来源辅助信息同质化处理的缺陷。研究结论为:提出一种模型无关的数据增强方法,利用LLM提取辅助信息并量化置信度,通过置信度自适应谱滤波去噪,生成高质量语义嵌入,再与协同过滤嵌入融合,显著提升推荐性能。实验验证了框架的有效性和通用性,未来可探索更复杂的融合策略或扩展到其他推荐场景。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号