基于大语言模型的辅助信息去噪以增强推荐性能

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neurocomputing》：LLM-based side information denoising for recommendation enhancement

【字体：大中小】 时间：2026年06月02日 来源：Neurocomputing 6.5

编辑推荐：

　　在基于图的推荐系统中，当前方法主要侧重于学习并捕捉用户与物品之间的深层交互关系。然而，交互数据本身受限于数据质量问题（如稀疏性、流行度偏差和语义鸿沟），这制约了所学物品表示的表达能力。因此，近期研究开始探索引入辅助信息以缓解交互信号的匮乏。尽管如此，现有方法通

在基于图的推荐系统中，当前方法主要侧重于学习并捕捉用户与物品之间的深层交互关系。然而，交互数据本身受限于数据质量问题（如稀疏性、流行度偏差和语义鸿沟），这制约了所学物品表示的表达能力。因此，近期研究开始探索引入辅助信息以缓解交互信号的匮乏。尽管如此，现有方法通常将不同类型的辅助信息同质化处理，忽略了其可信度的差异，并采用统一的去噪策略。大语言模型（LLM）的进展为评估可信度开辟了新途径。因此，研究人员提出了一种模型无关的框架，该框架对大语言模型生成的辅助信息执行置信度自适应谱去噪。基于LLM的令牌概率，引入了一种新颖的三层信任机制。利用这一机制，研究人员构建了一个物品-属性图，并应用置信度自适应谱滤波对数据进行去噪，生成高质量的语义嵌入。随后，这些嵌入与协同过滤嵌入融合，以在协同过滤任务中实现联合训练。

## 论文解读：基于大语言模型的辅助信息去噪增强推荐性能

### 研究背景与问题

在基于图的推荐系统中，协同过滤（CF）方法主要依赖用户与物品之间的交互模式来学习表示。然而，交互数据普遍存在稀疏性、流行度偏差和语义鸿沟等问题，导致模型表达能力受限。为缓解这一依赖，研究者尝试引入辅助信息（如物品属性、用户画像、外部知识）来增强模型对交互模式的理解。但现有方法通常将不同类型的辅助信息视为同质化，忽略了其可信度差异，并采用统一的去噪策略，无法有效抑制噪声。大语言模型（LLM）的进步为评估辅助信息可信度提供了新可能。因此，开展本研究旨在解决两个核心挑战：如何量化LLM提取属性的可靠性差异；如何利用可靠性估计对提取的辅助信息进行去噪，并转化为能有效增强协同过滤的表示。

### 研究内容与结论

研究人员提出了一种模型无关的框架，对LLM生成的辅助信息进行置信度自适应谱去噪。该框架包含三个阶段：首先，设计三层置信度机制，从微调后LLM的令牌概率中推导可靠性，并逐步从令牌聚合到属性再到物品，获得多粒度提取质量评估；其次，将物品及其提取的属性组织成图，应用置信度自适应谱滤波器，利用估计的可靠性抑制噪声分量；最后，将去噪后的表示与协同过滤模型的随机初始化嵌入融合，通过标准学习过程联合训练。结论表明，该框架能有效提升推荐性能，且无需修改协同过滤架构，具有通用性。论文发表在《Neurocomputing》。

### 主要关键技术方法

1. **LLM微调与属性提取**：基于Qwen3-30B-Instruct模型，采用低秩适配（LoRA）微调，利用MAVE数据集（Amazon提供的物品属性-值对集合，研究人员从中手动选择高质量对进行微调），将Kuairand、KuaiREC、MIND三个数据集的物品信息转换为结构化属性-值对，同时记录令牌概率以评估置信度。
2. **三层置信度机制**：从令牌概率出发，逐步聚合到属性和物品，得到多粒度可靠性评估。
3. **置信度自适应谱滤波**：构建物品-属性图，利用图拉普拉斯的谱分解，设计基于置信度的自适应滤波器，抑制噪声分量。
4. **嵌入融合与联合训练**：将去噪后的语义嵌入与协同过滤嵌入融合，无需修改模型架构即可联合训练。

### 研究结果

**RQ1: 语义嵌入框架能否生成有意义的表示？**
通过主成分分析（PCA）可视化发现，经去噪后的语义嵌入在物品空间中形成了更清晰的聚类结构，表明框架能捕获有意义的语义模式。

**RQ2: 去噪模块相比直接获取的语义嵌入效果如何？**
在Kuairand、KuaiREC、MIND三个数据集上，与直接使用LLM提取的原始属性嵌入相比，经过置信度自适应谱去噪后的嵌入在推荐准确率（Recall、NDCG等指标）上有显著提升。

**RQ3: 各设计组件对整体性能的贡献如何？**
消融实验表明：移除三层置信度机制（改用均匀权重）导致性能下降；移除谱滤波（直接使用原始嵌入）也有明显退化；而完整框架在所有组件协同下达到最优。

**RQ4: 集成后执行时间有何变化？**
由于额外增加了LLM属性提取和去噪步骤，整体训练时间有所增加，但推理时间几乎不受影响（因为去噪后的嵌入可提前计算并存储）。

### 总结讨论与结论

讨论部分指出，本方法通过显式利用LLM的令牌概率量化辅助信息可靠性，并采用谱图理论进行自适应去噪，有效克服了传统方法中对不同来源辅助信息同质化处理的缺陷。研究结论为：提出一种模型无关的数据增强方法，利用LLM提取辅助信息并量化置信度，通过置信度自适应谱滤波去噪，生成高质量语义嵌入，再与协同过滤嵌入融合，显著提升推荐性能。实验验证了框架的有效性和通用性，未来可探索更复杂的融合策略或扩展到其他推荐场景。

联系信箱：

粤ICP备09063491号

热点排行