面向社会公益的大语言模型价值驱动框架：嵌入社会公益价值的方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Data & Policy》：LLM for social good: A value-driven LLM framework to embed social good values

【字体：大中小】 时间：2026年05月29日 来源：Data & Policy 2.7

编辑推荐：

　　随着大语言模型（LLMs）日益影响决策制定、公共话语、教育、医疗保健与治理，一个关键问题随之出现：这些系统究竟反映的是谁的价值？尽管当今生成式人工智能（Generative AI, GAI）系统展现出卓越能力，但它们也继承了训练数据中隐含的偏差、伦理盲点以及默

随着大语言模型（LLMs）日益影响决策制定、公共话语、教育、医疗保健与治理，一个关键问题随之出现：这些系统究竟反映的是谁的价值？尽管当今生成式人工智能（Generative AI, GAI）系统展现出卓越能力，但它们也继承了训练数据中隐含的偏差、伦理盲点以及默认假设。现有对齐方法往往缺乏透明性、资源消耗高，或难以充分适应多样化的社会期待。

本文提出一种新颖的价值驱动大语言模型（LLM）框架，旨在系统性揭示、量化并重新对齐嵌入于大语言模型中的隐性价值，使其趋向社会所期望的结果。该方法建立于社会公益人工智能（AI for Social Good, AIfSG）框架之上，将伦理对齐操作化为六个关键领域：推理与可解释性、偏差消除、透明性与问责性、安全与隐私、道德与伦理观察，以及公众理解。借助先进嵌入技术、基于余弦的价值差异度量，以及主题加权的迭代微调，该框架将伦理对齐从抽象愿景转化为可测量、可执行的计算过程。

为展示其在不同道德与监管范式中的适应性，该框架评估了两种不同的参考价值体系：十诫与《通用数据保护条例》（General Data Protection Regulation, GDPR）。采用开源大语言模型（包括 Llama 3.2 与 Gemma 2）的实验结果表明，在保持模型灵活性与可扩展性的同时，该框架可在各伦理领域显著降低价值失配，降幅约为25%至70%。价值嵌入空间中的可视化结果进一步证实，在迭代重对齐后，原始模型输出与社会对齐参考价值之间出现了显著收敛。

除技术创新之外，该研究将价值对齐定位为生成式人工智能未来治理中的基础性挑战。所提出框架既可作为识别伦理缺口的诊断工具，也可作为实现自适应价值重对齐的干预机制，为政策制定者、开发者和机构提供一条通向透明、可问责且对社会负责的人工智能系统的可扩展路径。通过联结计算方法与道德、法律及社会原则，该研究推进了一种将以人为中心的价值直接嵌入下一代智能系统的新范式。

该文发表于《Data》，围绕生成式人工智能中最核心而复杂的议题之一——价值对齐——展开研究。随着大语言模型（LLMs）在治理、教育、医疗、公共传播与决策支持等领域迅速扩张，其输出不再只是技术性文本生成结果，而是逐渐成为塑造社会认知、制度实践与公共利益的重要力量。在这一背景下，研究人员提出一个根本性问题：当前大语言模型究竟在反映何种价值体系。由于模型训练依赖海量语料，这些语料不可避免地携带社会偏见、文化假设、伦理盲区与隐性规范，因此模型输出常常并非“中性”，而是内嵌了特定价值取向。现有对齐方案如基于人类反馈的强化学习（RLHF）虽能改善总体行为，但往往成本高、透明度有限，且难以针对具体伦理主题实施可量化、可追踪、可迭代的精细化纠偏。因此，如何以计算方式识别隐性价值、测量其与明确参考价值之间的偏离，并进一步实施可解释的重对齐，成为开展本研究的直接动因。

研究人员据此构建了一种价值驱动的大语言模型框架，用于将“社会公益价值”系统嵌入模型输出层。该框架以社会公益人工智能（AIfSG，即以促进人类福祉与社会福利为目标的人工智能框架）为理论骨架，将价值对齐划分为六个主题域：Reasoning and Interpretability（推理与可解释性）、Bias Removal（偏差消除）、Transparency and Accountability（透明性与问责性）、Security and Privacy（安全与隐私）、Moral and Ethical Observations（道德与伦理观察）以及 Public Understanding（公众理解）。研究的核心并非笼统讨论“模型是否更伦理”，而是通过明确参考价值集，将模型原始输出中的隐性价值假设揭示出来，并与参考价值进行系统比较，再通过主题加权的迭代微调实现针对性的价值重对齐。为验证框架在不同规范来源下的适应性，研究人员选取十诫作为道德—哲学型参考体系，选取《通用数据保护条例》（GDPR）作为法律—政策型参考体系，从而展示该方法既可服务于道德原则，也可服务于监管基准。

研究所用的主要技术方法可概括为以下几类。首先，采用结构化提示词设计，在六个 AIfSG 主题下分别生成模型原始原则、参考价值对齐原则以及重对齐后原则，以揭示模型隐性价值。其次，使用句向量嵌入模型 all-mpnet-base-v2 将文本映射为高维向量，并以余弦距离计算“价值差异”，实现跨主题的定量比较。再次，利用多维尺度分析（MDS）对均值嵌入进行二维投影，以可视化方式呈现对齐前后的几何收敛关系。最后，基于主题平均价值差异构造损失权重，采用参数高效微调（LoRA）对 Llama 3.2[3B] 与 Gemma 2[2B] 进行迭代监督微调。样本来源为研究人员围绕六个主题、两类参考价值集所生成的原则语料，并按 60%/20%/20% 划分为训练集、验证集和测试集。

在主体结果上，论文首先通过“Uncovering implicit values”表明，大语言模型输出中的价值内涵并非显性可见，而需要借助主题选择、参考价值设定与分阶段提示设计加以揭示。研究特别强调，参考价值集并非由模型自行决定，而是假定由政策制定者、领域专家或受影响群体预先经伦理、法律或政治协商后给定。在此框架下，十诫与 GDPR 只是示范性价值基准，其作用在于说明该方法可以将抽象规范转换为可计算、可比较的输出对齐对象。论文据此将六类 AIfSG 主题与两套参考价值框架建立映射，为后续价值量化奠定基础。

在“Quantifying value difference”部分，研究人员提出以嵌入表示与余弦距离来定义价值差异，即以 1?cosine(u,v) 衡量模型原始输出与参考对齐输出之间的偏离程度。该设计使得“价值对齐”不再停留于定性判断，而成为一个连续的、可度量的数值变量。每一主题下，研究人员对成对文本样本计算平均价值差异，获得主题级失配分数。论文指出，当该数值接近 0 时，意味着模型输出与参考价值高度一致；数值越高，则表明偏离越显著、越需要后续干预。与此同时，研究还通过 MDS 将高维嵌入映射到二维空间，使不同主题下模型输出与参考值之间的距离变化获得直观展示。

在“Analyzing topic-specific value difference”部分，研究进一步证明，不同伦理主题上的失配程度并不均衡。通过对六个主题的平均价值差异进行排序，研究人员识别出模型在哪些主题上与参考价值较为接近，在哪些主题上偏离最为明显，并据此确定微调优先级。该步骤的意义在于把价值治理从“整体纠偏”推进为“主题定向纠偏”，使训练资源能够更集中地作用于失配较大的领域。

在“Topic-based iterative value realignment”部分，论文提出了该研究最关键的干预机制，即主题加权迭代价值重对齐。研究人员首先构建由“通用提示—参考对齐原则”组成的监督数据集，并保留主题标签；随后依据验证阶段各主题平均价值差异，将其归一化为损失权重，使失配更大的主题在训练中贡献更高权重；接着使用 LoRA 执行参数高效微调，并在每轮结束后重新计算价值差异与主题权重，形成自适应反馈闭环；最终在达到迭代次数上限或改进幅度低于阈值时停止训练，并选择验证集上平均价值差异最低的模型作为最佳检查点。该设计显示，研究并未以单次微调解决价值问题，而是将对齐视为可重复校正、持续逼近的动态过程。

结果部分显示，该框架在两种模型与两类参考价值集上均取得一致有效的改进。对齐前，Llama 3.2 与 Gemma 2 在多个主题上存在明显价值失配，其中较大的偏离集中于 Public Understanding、Reasoning and Interpretability、Moral and Ethical Observations 与 Bias Removal 等主题；相对而言，Security and Privacy 以及 Transparency and Accountability 的初始对齐程度更高。这说明模型并非在所有伦理维度上同样失衡，而是对不同价值议题表现出明显的主题敏感性。

以十诫作为参考时，Llama 3.2 在 Security and Privacy 上的价值差异降幅最大，达到?70.5%，其次是 Public Understanding（?61.6%）、Bias Removal（?57.5%）与 Transparency and Accountability（?52.6%）；Reasoning and Interpretability（?38.0%）和 Moral and Ethical Observations（?26.4%）也出现中等幅度改善。Gemma 2 同样表现出广泛下降，各主题降幅约介于?47.0% 至 ?28.3% 之间，其中推理、公平与公众理解相关主题也获得稳定提升。以 GDPR 作为参考时，两种模型同样在所有主题上显著降低价值差异。Llama 3.2 在 Bias Removal（?68.5%）与 Public Understanding（?61.3%）上改善最明显，并在 Security and Privacy、Transparency and Accountability 以及 Reasoning and Interpretability 上获得中等改善；Gemma 2 则在 Transparency and Accountability（?65.3%）和 Public Understanding（?69.3%）等主题上表现突出。总体而言，论文得出明确结论：所提出的主题加权迭代微调能够在不同模型规模、不同架构以及不同规范体系下稳定降低价值失配，整体降幅约为 25% 至 70%。

可视化结果进一步强化了上述结论。在二维价值嵌入空间中，对齐前的模型输出与参考价值点之间存在较大分离，而重对齐后的输出点明显向参考点聚合，显示出主题级几何距离的系统收缩。研究人员认为，这一现象为余弦距离指标提供了几何层面的验证，表明价值重对齐并非局部偶然变化，而是在整个嵌入空间中表现出一致的收敛趋势。补充性的定性分析也显示，价值差异显著下降的样本往往伴随伦理取向上的实质变化。例如，在十诫框架下，一些原本偏程序性、一般性的表述，被重写为更明确强调诚实、真相、责任与禁止操纵的伦理陈述；在 GDPR 框架下，输出则更突出公平、合法、透明与可信赖的数据治理原则。由此可见，定量指标变化通常与规范意义上的表述重塑相互对应。

在讨论部分，论文认为该框架的重要意义不仅在于技术层面的新方法，更在于为生成式人工智能治理提供了一套可计算、可审计、可迭代的价值治理工具。作为诊断工具，它能够用价值差异指标和主题分析结果识别模型输出偏离伦理或法律标准的位置，从而支持 AI 影响评估、模型卡文档编制与合规审计。作为干预工具，它能够通过主题加权的持续微调，对高风险主题实施定向纠偏，并在模型演化过程中提供持续问责机制。这使其对政策制定者、监管机构、开发者与独立审计者都具有直接应用价值。

论文同时审慎指出若干限制。其一，嵌入距离虽能衡量语义接近性，但并不能自动保证输出在人类判断下真正符合参考价值，因此仍需引入 human-in-the-loop（人在回路）评估。其二，人类价值本身具有流动性、冲突性与文化依赖性，将其简化为固定规则可能带来过度简化风险。其三，参考价值集的选择本身也可能受到偏差影响，因此“参考值”未必是绝对中立的伦理标尺。其四，该框架主要作用于模型输出层，不能替代对环境成本、数据来源、知识产权、制度激励与政治经济逻辑等更广泛社会技术问题的分析。研究人员据此强调，该方法应被视为结构性 AI 伦理治理的补充工具，而非独立终局方案。

论文结论部分可译述为：本文提出了一种用于将社会公益价值嵌入大语言模型的全新价值驱动框架。该框架通过系统性揭示、量化与重对齐隐性价值，应对了生成式人工智能开发与部署中的关键伦理挑战。采用开源大语言模型，并以十诫和 GDPR 作为参考价值集的实验表明，该方法能够有效降低多个主题上的价值差异。未来研究将探索引入多利益相关方过程来定义和更新参考价值集，以确保价值对齐反映多元伦理视角；进一步工作还将聚焦于优化微调策略、提升可解释性与稳定性，并构建人在回路评估协议，以评估价值重对齐在现实社会中的影响。通过推进这些方向，该价值驱动框架有望支持构建更透明、更可问责且更具情境敏感性的 LLMs，使其真正服务于公共利益。

联系信箱：

粤ICP备09063491号

热点排行