基于软社区核雷尼谱的大语言模型语义不确定性估计

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Entropy》：Soft-Community Kernel Rényi Spectrum for Semantic Uncertainty Estimation in Large Language Models Zongkai Li and Junliang Du

【字体：大中小】 时间：2026年04月16日 来源：Entropy 2

编辑推荐：

　　不确定性估计对于将大语言模型（LLMs）部署于安全敏感及决策关键型应用中至关重要。近期的研究方法通常通过对多个采样响应进行聚类以形成等价类，并基于熵准则衡量其多样性来估计语义不确定性。然而，现有方法大多依赖于贪婪硬聚类（greedy hard clusteri

不确定性估计对于将大语言模型（LLMs）部署于安全敏感及决策关键型应用中至关重要。近期的研究方法通常通过对多个采样响应进行聚类以形成等价类，并基于熵准则衡量其多样性来估计语义不确定性。然而，现有方法大多依赖于贪婪硬聚类（greedy hard clustering）和冯·诺依曼熵（von Neumann entropy），存在对聚类顺序敏感、语义等价判断中的噪声干扰以及对谱贡献控制有限等缺陷。在此研究中，研究人员提出了一种基于软语义社区和核雷尼熵（kernel Rényi entropy）的大语言模型语义不确定性估计的原则性信息论框架。针对给定查询的多次生成结果，研究人员利用成对语义相似度得分构建加权语义图，并通过加权图社区检测推断软社区分配。这些软分配诱导出了一个正定语义核，该核能够在不强制硬等价关系的情况下捕捉语义模式的分布。随后，通过计算核谱的雷尼熵来量化不确定性，从而得出一种可调节的度量指标，该指标能够在对主导语义模式的敏感性与长尾语义多样性之间进行插值。与先前基于冯·诺依曼熵的估计器相比，所提出的雷尼谱不确定性对语义噪声具有更强的鲁棒性，减少了对聚类启发式方法的依赖，并通过其阶次参数提供了更大的灵活性。在问答任务上的大量实验表明，该方法能够提供更加稳定且具有判别力的不确定性估计，特别是在采样预算有限和语义判断存在噪声的情况下。

大语言模型（LLMs）在问答、推理及代码生成等自然语言生成任务中展现出卓越性能，但在医疗咨询、科学辅助及自动化编程等安全关键应用中，可靠地估计其输出的不确定性仍是一项根本性挑战。现有的语义不确定性估计方法主要依赖于将多次采样的响应聚类为语义等价类并计算其熵值，然而，传统的贪婪硬聚类方法对采样顺序敏感且难以处理语义模糊性，而基于冯·诺依曼熵的度量则缺乏对主导模式与长尾模式贡献度的灵活调控能力。此外，硬聚类假设往往强行划定语义边界，忽略了回答之间可能存在的重叠与渐变关系，导致在采样有限或存在噪声时估计结果不稳定。为了解决上述问题，研究人员提出了一种名为雷尼谱不确定性（Rényi spectral uncertainty, RSU）的创新框架，旨在通过结合软语义社区发现与核雷尼熵，构建一个更为稳健且灵活的信息论估计体系。该研究不仅从理论上解耦了语义结构发现与不确定性量化过程，还在多个问答基准测试中验证了其优越性，相关成果发表于《Entropy》期刊。

为开展此项研究，研究人员采用了一套系统的技术方法。首先，针对每个输入查询，利用预训练指令微调的大语言模型（如 Llama-3.2-1B、Mistral-7B 等）采样生成多个独立响应。接着，构建加权语义图，其中节点代表响应，边权重通过融合基于句子嵌入（sentence embedding）的余弦相似度与自然语言推理（NLI）模型的相互蕴含得分来计算，以此捕捉几何邻近性与逻辑一致性。随后，对语义图进行谱分析，计算归一化拉普拉斯矩阵的特征分解，利用前 K 个非平凡特征向量进行谱嵌入，并通过带温度参数的 Softmax 函数推断软社区成员资格矩阵，从而避免硬聚类的顺序依赖性。基于软社区原型构建正定语义核矩阵，最后计算该核谱的雷尼熵作为不确定性度量。实验数据来源于 CoQA、TriviaQA、BioASQ 及 Natural Questions 等多个公开问答数据集的验证集或开发集。

研究结果主要包含以下几个方面：
**雷尼阶次参数的影响**：研究人员通过消融实验发现，雷尼熵的阶次参数α对不确定性估计性能有显著影响。实验结果显示，当α值过小（如 0.2）时，估计器对反映噪声的微小特征值过于敏感；当α值过大（如 10）时，则过度关注主导模式而忽略有意义的语义分歧。在α=2 附近，模型在各类数据集上均能达到最佳平衡，表现出最优的判别能力，这验证了调节主导模式与长尾模式权重的理论假设。
**相似度融合权重的作用**：在构建语义图时，融合权重η用于平衡嵌入相似度与 NLI 蕴含得分。结果表明，单一依赖嵌入相似度会导致事实不一致但主题相近的回答被错误聚合，而仅依赖 NLI 则因离散噪声导致图结构不稳定。当η=0.5 即两者均衡融合时，AUROC 指标达到最高，证明结合连续几何结构与离散逻辑判断能构建更鲁棒的语义核。
**软社区与硬聚类的对比**：对比实验显示，软社区分配策略在所有数据集上的表现均优于硬聚类变体。硬聚类强制互斥划分，破坏了语义的细微重叠，而软社区允许响应以不同强度属于多个社区，保留了语义的模糊性与细微差别，从而生成了更平滑、更稳定的语义核谱。
**采样数量的敏感性分析**：研究人员测试了不同采样数量 N 对结果的影响。结果显示，当采样数 N=3 时性能显著下降，表明采样不足无法捕捉潜在语义结构；随着 N 增加至 10，性能迅速提升并趋于稳定；继续增加采样数带来的增益边际递减。这证明该方法在有限的采样预算下（如 N=10）即可实现高效且可靠的不确定性估计。

讨论部分总结指出，本研究提出的雷尼谱不确定性框架通过引入可调节的阶次参数，成功实现了对主导语义解释与长尾语义变异之间敏感度的灵活控制，克服了传统香农熵或冯·诺依曼熵固定形式的局限性。软社区建模有效缓解了硬聚类带来的顺序敏感性和噪声放大问题，使得不确定性估计更加符合语义空间的真实分布特性。研究结论表明，该方法在区分正确与错误回答方面显著优于现有的基于熵和基于图的基线方法，特别是在语义歧义高和存在幻觉的场景下表现突出。研究人员认为，这一框架不仅适用于短形式问答，未来还可扩展至摘要生成、对话系统及长文本生成等任务，通过适配特定任务的语义相似度度量，进一步提升大语言模型在高风险应用中的可靠性与安全性。

联系信箱：

粤ICP备09063491号

热点排行