人工智能与大学生的价值体系:大型语言模型中的理论优势与人类中的宗教信仰优先性

《Frontiers in Psychology》:Value systems of artificial intelligence and university students: theoretical dominance in large language models and religious priority in humans

【字体: 时间:2026年04月21日 来源:Frontiers in Psychology 2.9

编辑推荐:

  摘要 人工智能(AI)的迅速发展,尤其是大型语言模型(LLMs),引发了关于这些系统所反映的价值观体系与人类价值观相比有何不同的重要问题。本研究旨在探讨斯普兰格(Spranger)提出的六种价值类型(宗教、社会、理论、经济、政治和美学)在三个LLMs(OpenAI-o1、Gemi

  摘要
人工智能(AI)的迅速发展,尤其是大型语言模型(LLMs),引发了关于这些系统所反映的价值观体系与人类价值观相比有何不同的重要问题。本研究旨在探讨斯普兰格(Spranger)提出的六种价值类型(宗教、社会、理论、经济、政治和美学)在三个LLMs(OpenAI-o1、Gemini-2.0和DeepSeek-V3)中的表现,并将其与国王哈立德大学(King Khalid University)学生的价值观体系进行比较。研究采用了描述性-比较设计方法,对两组对象进行了价值观调查:214名学生(包括不同学术水平的男性和女性)以及这三个LLMs,并对后者进行了多次调查以确保测试-重测的可靠性。结果表明,各组之间的价值观在重要性及排序上存在统计学上的显著差异。在LLMs中,理论价值观始终占主导地位,其次是社会价值观、美学价值观和政治价值观,而宗教价值观的排名最低。相比之下,学生更重视宗教价值观,其次是理论价值观,美学价值观排在最末位。此外,性别和学术水平对学生价值观也有所影响:女性更倾向于宗教价值观,男性更倾向于理论价值观,而本科生则更关注美学价值观。这些发现表明,LLMs体现的价值观体系是受其训练数据影响的结果,而不是人类文化或道德框架的体现。本研究强调了将多元文化价值观融入AI开发中的重要性,并呼吁提高学生对使用AI工具时需符合人类价值观的认识。效应量估计显示,人类与AI在价值观上存在显著差异,尤其是在宗教(d = 2.21)和理论领域(d = 1.22)。

1 引言
1.1 背景与意义
人工智能(AI)的快速发展,尤其是大型语言模型(LLMs),引发了关于AI生成的输出中隐含的价值取向的基本问题。近年来,AI已从理论概念发展成为一种重塑心理学、教育和行业的变革力量。其中心是大型语言模型(LLMs),它们被设计用来模拟语言和认知过程,以生成文本并进行复杂互动(Haase和Hanel, 2023)。自2022年11月发布以来,OpenAI的ChatGPT展示了类似人类的语言表现,促进了诸如Google的Gemini和中国DeepSeek等竞争系统的快速发展。这种对AI的日益依赖引发了伦理和社会方面的担忧,尤其是其输出中蕴含的价值观问题(Kaya等人, 2024)。在心理学中,价值观被视为指导行为和道德取向的基本动机(Zahran, 1984)。尽管LLMs缺乏自我意识或主观体验,但它们的输出可能反映了来自训练数据和算法的隐含价值模式(Bodro?a等人, 2023; Guo等人, 2023; Ye等人, 2024)。

1.2 研究空白
越来越多的研究开始使用最初用于评估认知、社会和情感功能的工具直接对比LLMs与人类的表现。最新证据表明,像ChatGPT-4这样的模型在社交智力标准化测试中可以超越心理学学生和培训生,并且在基于表现的情商评估中也能达到接近最高分的标准(Sufyan等人, 2024; Elyoseph等人, 2023)。在高风险学术和专业领域(包括医学执照考试、大学数学入学考试和组织学评估)的类似研究中,也表明基于GPT的系统在以题目为单位进行分析时可以与平均学生表现相匹配甚至超越(Meyer等人, 2024; Udias等人, 2024; Mavrych等人, 2025)。尽管取得了这些进展,现有文献主要集中在认知表现、情感识别或特定领域测试的准确性上。很少有研究关注LLMs是否表现出可与人类价值观优先级有意义比较的稳定价值相关输出模式。这一空白非常重要,因为价值观不仅仅是边缘的心理学属性;它们塑造了教育、文化和个人互动背景下的判断、偏好、决策和社会解释。随着AI系统越来越多地应用于指导、评估和意义构建的场景中,理解其输出中反映的价值相关倾向在理论上具有重要意义且实际也很必要。这一空白在涉及人类价值观的经典心理学框架方面尤为明显。虽然价值理论在人格、社会和文化心理学中占据了核心地位,但相对较少的研究将已建立的价值模型应用于当代AI系统,以便与人类受访者进行结构化比较。此外,当尝试进行此类比较时,往往存在将AI系统拟人化的误解,即认为AI系统具有类似人类的内在信念、意图或持久的价值结构。因此,需要一种更加概念化的方法——将AI响应视为在标准化提示条件下生成的模式化输出,同时仍允许与人类价值观进行具有心理学意义的比较。

本研究通过考察三个著名的大型语言模型(OpenAI-o1、Gemini-2.0和DeepSeek-V3)的价值观体系,并将其输出模式与国王哈立德大学学生的价值观优先级进行比较,来填补这一空白。具体而言,该研究借鉴了斯普兰格的六种价值类型(宗教、理论、社会、政治、经济和美学),以探讨AI生成的人类价值观优先级之间的趋同和差异。通过这样做,研究旨在明确AI在多大程度上与人类价值观取向一致或存在分歧,并为关于文化背景下的AI发展、解释性谨慎以及AI在心理学和社会背景下的负责任使用的持续讨论作出贡献。综上所述,前述回顾和确定的研究空白为本研究提供了基础。据此,本研究旨在考察选定大型语言模型中的价值观相关模式,并将其与大学学生的价值观优先级进行比较。

1.3 研究目标
- 比较三个LLMs(ChatGPT-o1、Gemini-2.0和DeepSeek-V3)的价值观体系。
- 比较AI价值观与人类学生的价值观。
- 探究性别和学术水平对人类价值观的影响。
- 分析价值观排序模式的趋同/差异。

1.4 研究假设
- 根据性别和学术水平,大学学生之间的价值观体系存在统计学上的显著差异。
- 不同类型的LLMs(ChatGPT、Gemini和DeepSeek)之间的价值观体系存在统计学上的显著差异。
- 学生与LLMs(ChatGPT、Gemini和DeepSeek)之间的价值观体系存在统计学上的显著差异。
- 在LLMs中,理论价值观和社会价值观预计会排在最高位置,而宗教和美学价值观的排名最低。相比之下,大学学生整体的价值观体系中,宗教价值观和社会价值观预计会排在最高位置,美学价值观排在最末位。经济和政治价值观预计在两组中处于中间位置。理论价值观在学生之间的排序可能会有所不同,本科和研究生之间的排序可能有所不同。

1.5 研究限制
- 本研究仅限于根据斯普兰格(1928)的分类(即兴趣、偏好和判断)来考察价值观,限于六种价值类型:政治、社会、理论、宗教、经济和美学。研究范围进一步限制在2024年12月1日至2025年1月30日期间测试的三个大型语言模型(ChatGPT-O1、Gemini-2.0和DeepSeek-V3)。在人类研究对象方面,研究范围限于国王哈立德大学教育学院的男性和女性学生,涵盖从本科到博士的所有学术水平。
- 由于人类样本来自同一大学环境(教育学院),因此人类价值观的层次结构应被视为特定于该环境的,不能假定代表所有大学学生或文化。用阿拉伯语进行调查可以提高与人类样本的可比性,但可能会对训练数据在不同语言中分布不均的模型引入跨语言效应。此外,虽然参考文献主要来自同行评审的来源,但引用了一些最近的预印本以反映LLM研究的快速进展;这些预印本应在同行评审版本可用时重新评估。另外,由于商业LLM提供商经常更新或淘汰模型版本,因此在数据收集期间使用的具体模型版本可能不再可用,这可能会限制对相同版本的重复测试。

1.6 挑战与应对策略
- 本研究的主要挑战之一是AI响应的稳定性,这引发了关于不一致性或过度一致性的担忧。为了解决这个问题,我们使用相同的标准化程序在不同时间和不同会话中反复向模型发起测试,以提高测试-重测的可靠性。
- 另一个挑战是人类参与者的样本量相对较小。虽然这一限制可能会降低研究结果的普遍性,但似乎不会影响结果的准确性或有效性。我们还意识到提示敏感性(即由于提示文字的微小变化导致的模型输出变化)是一个方法论威胁;通过使用固定的提示模板、强制A/B格式以及在不同会话中重复进行测试来缓解这一问题。

2 方法
2.1 研究设计
本研究采用了描述性-比较设计方法,以考察参与者之间的价值观水平和排序,并将这些差异在人类和AI群体之间进行比较。这种设计适用于需要描述数据、群体比较以及分析异质群体之间潜在差异的研究。

2.2 人群与参与者
2.2.1 “人类”参与者
- 人类参与者包括国王哈立德大学教育学院的学生,涵盖心理学、课程与教学和教育管理等密切相关学科的男性和女性学生。所有学术水平(本科、硕士和博士)都有代表。采用了分层随机抽样方法,共有214名参与者(134名男性,80名女性)。鉴于他们在教育背景上的共性,这些参与者被认为在学科背景上是可比的。表1展示了人类样本按性别和学术水平的分布情况。

2.2.2 人工“参与者”(LLMs)
- 本研究中的人工“参与者”是三个大型语言模型(ChatGPT-o1、Gemini-2.0和DeepSeek-V3)。所有模型都是通过其官方网页界面在数据收集期间(2024年12月1日至2025年1月30日)访问的最新公开版本进行接触的。
- 为了最大化人类和AI数据之间的可比性,对每个LLM进行了价值观调查(SOV)。SOV的阿拉伯语版本(与学生使用的相同版本)被逐项呈现给模型,进行了最小限度的调整以适应纯文本互动并强制选择响应格式。
- 每次测试时都会与模型启动新的对话,以避免先前上下文的影响。在每次测试开始时,模型会收到简短的任务说明,明确指出它必须为每个问题选择一个回答选项(具体提示文本见附录1)。每个SOV问题都会呈现两个选项(A和B),并明确要求模型使用一个字母(A或B)进行回答,不得解释。如果模型产生的输出不符合这一格式(例如,完整的句子或多个选项),则会重新呈现问题并提醒响应规则;如果仍然不符合,则该问题的回答将被编码为缺失并从评分中排除。
- 为了估计模型输出的稳定性并获得更可靠的模型级别估计,对每个模型进行了多次SOV测试。具体来说,ChatGPT-o1测试了七次,Gemini-2.0测试了五次,DeepSeek-V3测试了五次。每次测试都在不同的时间进行,以减少系统级别波动的影响,并近似于对单一系统的重复测量。
- 所有提示和SOV问题都用阿拉伯语呈现,以保持与人类样本的语言一致性,并尽量保持相同的语义内容。除了强制使用A/B格式外,未对模型输出进行任何手动编辑。然后使用相同的评分关键和程序对A/B响应进行评分,为每个模型的每次测试生成六个领域的得分(理论、宗教、社会、政治、经济、美学)。

2.3 提示敏感性和稳健性
- 由于LLM的输出可能会因提示框架的轻微变化而变化,我们在多次测试和会话中保持提示模板和问题文本的严格一致性。上述报告的运行间相关性(补充表S1)提供了在此标准化协议下的初步稳定性检验。尽管如此,未来的重复实验应包括使用最小变化指令模板的快速干扰分析,并应报告等级顺序稳定性(例如,值排名的斯皮尔曼相关性),以明确量化敏感性。2.3 工具 2.3.1 价值研究(SOV) 本研究使用的主要工具是由Allport和Vernon(1931年)开发的价值研究。该测量工具由Hanaa(1959年)翻译成阿拉伯语,并随后由Sufyan(1995年)适应到当地文化背景中。SOV已被广泛用于评估价值系统及其层次排名,其构建有效性和可靠性已在多项先前的研究中得到证实。内容。该测试包括45个强制选择题,要求受访者(人类或AI)同时优先考虑一个价值并拒绝另一个价值,从而提高价值区分的准确性(Hanaa,1959年)。SOV基于Spranger的分类,将价值分为六个领域:社会价值:关心他人,将人视为目的本身,其特征是同情心和怜悯(Hanaa,1959年);理论价值:对知识和真理发现的兴趣,独立于实际或美学考虑(Hanaa,1959年);经济价值:关注效用、实用性,并根据对象和个体的功能效益进行评估(Hanaa,1959年);美学价值:欣赏美、和谐和形式,根据其结构组成对世界进行评估(Hanaa,1959年);政治价值:对权力、领导力、控制、影响力和参与公共事务的兴趣;宗教价值:对绝对精神或形而上学标准的承诺,以及关注超越性的或神圣的事物。2.3.1.1 有效性和可靠性 多种证据支持SOV的有效性。在早期的本地应用中,已在大学生中检验了阿拉伯语版本的表面有效性。对于当前的研究,使用60名学生的试点样本重新评估了有效性(按性别和学术水平平衡)。计算了项目-总分相关性(皮尔逊相关系数),范围从0.69到0.88(附录2),确认了所有六个价值维度之间项目的一致性。为了确保全面覆盖价值构念,保留了所有项目。通过相同的子样本在两个月间隔内检查了重测信度。各领域的系数都很高:理论(0.962)、宗教(0.945)、政治(0.903)、经济(0.883)、社会(0.892)和美学(0.860),表明人类参与者之间的稳定性很强。2.3.2 SOV的AI特定适应 为了对LLMs进行管理,将阿拉伯语SOV转换为与对话界面兼容的结构化基于文本的格式。每个强制选择题被重新格式化为一个直接问题,后面跟着两个清晰分隔的选项(A和B)。项目的实质性措辞和选项保持不变,内容和极性或评分键也没有更改。唯一的调整是添加了明确的标签(例如,“选项A”,“选项B”)以及一条指令,要求模型选择与任务指令下生成的响应模式最一致的那个选项。这种最小程度的调整旨在保留SOV的心理测量属性,同时使其能够在人机交互环境中执行。为了验证AI响应的稳定性,该工具被反复提供给每个LLM。在六个价值领域内,ChatGPT-o1的模型内等级顺序稳定性很强(肯德尔的W = 0.802,p < 0.001),DeepSeek-V3也是如此(W = 0.840,p < 0.001),而Gemini-2.0的稳定性则为中等(W = 0.448,p = 0.048)。每个价值领域的离散度指数(均值、标准差、CV和95%置信区间)在补充表S1和S2中提供。2.4 数据分析 数据使用IBM SPSS Statistics版本28进行分析。所有测试都是双尾的,名义显著性水平为α = 0.05。根据心理学研究的当代建议,重点是效应大小和置信区间,p值被用作补充指标,而不是解释的唯一基础。针对人类样本、LLM输出和人机比较采用了不同的分析策略,以反映这些数据源的独特性质。2.4.1 人类样本 对于人类参与者,计算了六个价值领域的描述性统计量(均值、标准差、最小值和最大值、偏度和峰度)。使用Shapiro-Wilk测试来评估学生样本中价值分布的正态性,并通过检查偏度、峰度和直方图进行补充。鉴于样本量相对较大,轻微的正态性偏差被视为可接受的,并在解释中谨慎地保留了参数方法。为了检验假设1(性别和学术水平对价值取向的影响),对每个价值领域进行了单独的双因素方差分析(ANOVA),将性别(男性、女性)和学术水平(本科、硕士、博士)作为组间因素。对于每个ANOVA,我们检查了性别和学术水平的主效应以及它们的交互作用。当总体测试具有统计显著性时,进行了事后Tukey测试以确定学术水平之间的成对差异。对于所有ANOVA结果,我们报告了F统计量、自由度、p值和部分eta平方(η2?)作为效应大小的指标。对于仅涉及两组的成对比较(例如,在适当的情况下进行特定的后续对比),使用了独立样本t检验。在这种情况下,计算了Cohen’s d作为组间差异幅度的标准化度量,并在相关时将其作为效应大小的指标,而不仅仅是依赖统计显著性。2.4.2 LLM输出 由于对同一LLM的重复管理(例如,ChatGPT进行了七次运行,Gemini进行了五次,DeepSeek进行了五次)代表对单个系统的重复测量,而不是来自独立个体的观察,因此主要在描述性和可靠性框架内处理LLM数据。对于每个模型和每个价值领域,我们计算了:(a) 运行间的平均值,(b) 标准差和范围(最小值-最大值),(c) 作为相对分散指标的变化系数,以及(d) 使用适合每次运行次数的t分布计算的围绕平均值的95%置信区间。为了评估每个模型输出在重复管理中的稳定性,我们使用肯德尔的协合系数(W)量化了六个价值领域内的等级顺序一致性,并另外报告了运行间的平均Spearman等级相关性(ρ)作为补充稳定性指标。运行级分数的离散度使用均值、标准差、变化系数(CV)和95%置信区间(基于t分布)进行了总结。在补充表S1和S2中报告了完整的稳定性和离散度结果。为了检验假设2(AI模型之间的差异),我们使用Kruskal-Wallis检验对每个价值领域的运行级分数进行了探索性非参数比较,将运行视为每个模型内的分析单位。鉴于同一模型的运行不是完全独立的观察,并且每个模型的运行次数较少,Kruskal-Wallis结果被视为探索性、敏感性类型的分析。对这些差异的实质性解释主要依赖于描述性模式和稳定性指标(均值、置信区间和可靠性估计),而不仅仅是正式的假设检验。2.4.3 人机比较 对于假设3,即人类和AI价值概况之间的差异,学生样本被作为参考分布,与LLMs的分数进行了比较。对于每个价值领域和每个LLM(以及在适当的情况下,对于合并的AI分数),我们通过将AI均值表示为学生均值和标准差来计算标准化平均差异。具体来说,使用学生标准差作为分母计算了Cohen’s d,从而量化了AI模型的均值相对于人类均值高出或低出的标准差数量。这些效应大小被解释为人类与AI差异的主要指标。此外,还进行了独立样本t检验,比较了人类参与者(N = 214)与一组AI运行(例如,组合的17次LLM管理)在每个价值领域的情况。在这些测试中,组变量对比了人类与AI的响应,并在价值领域级别进行了单独的t检验。然而,由于AI“案例”是来自少数模型的重复输出,而不是独立个体,这些推断性测试被视为次要的、探索性的分析,旨在评估观察到的差异的稳健性。因此,人机对比的解释主要关注Cohen’s d的方向和幅度以及相关的置信区间,t检验的p值仅作为补充证据。最后,为了检验假设4关于价值排名,我们根据平均值检验了学生和每个AI模型的六个价值领域的层次排序。排名在表格中进行了总结,并在图中进行了可视化。我们还计算了人类和AI模型在等级顺序上的收敛和分歧的描述性指标(例如,顶级和底部排名值的重叠)。这些分析是有意非参数和描述性的,反映了等级数据的有序性质以及我们对全局模式相似性的兴趣,而不是对等级差异的精细统计测试。3 结果 3.1 正态性检验 使用Shapiro-Wilk检验来检查学生参与者中六个价值领域的分布。描述性统计量和正态性结果见表2。大多数价值符合正态性假设(p > 0.05),美学术值除外(p = 0.004)。鉴于样本量足够大,保留了参数测试,在解释美学术值结果时采取了谨慎的态度。表2 价值 均值 标准差 偏度 峰度 Shapiro-Wilk p值 理论 42.90 7.45 ?0.10 1 ?0.001 0.987 0.06 宗教 43.60 78.85 9 ?0.289 ?0.342 0.987 0.06 社会 37.74 86.184 0.055 ?0.398 0.989 0.10 美学 33.39 37.88 10.455 ?0.037 0.980 0.004 政治 41.48 66.599 ?0.147 ?0.415 0.991 0.20 经济 40.86 07.125 ?0.081 ?0.075 0.992 0.31 描述性统计量和Shapiro-Wilk检验用于检查价值分布的正态性假设。3.2 在标准化协议下的模型内稳定性 在标准化协议下的多次运行中,ChatGPT-o1在六个价值领域的等级排序上表现出很强的一致性(肯德尔的W = 0.802,χ2(5) = 28.083,p < 0.001),平均成对Spearman ρ为0.769(最坏情况ρ = 0.462)。DeepSeek-V3也表现出很强的等级顺序稳定性(W = 0.840,χ2(5) = 21.012,p < 0.001;平均ρ = 0.800;最坏情况ρ = 0.585)。Gemini-2.0表现出中等稳定性(W = 0.448,χ2(5) = 11.192,p = 0.048),运行间的成对一致性较低(平均ρ = 0.311;最坏情况ρ = ?0.058),表明即使在固定指令下也更容易受到瞬态波动的影响。补充表S2总结了每个模型内每个价值领域的离散度(均值、标准差、CV和95%置信区间)。3.3 假设1:性别和学术水平的影响 根据性别和学术水平,学生之间的价值系统存在统计学上的显著差异。对每个价值领域进行了双因素ANOVA。在适当的情况下进行了事后Tukey比较。关键结果如下:理论价值:学术水平有显著差异(F = 7.067,p = 0.001),博士生得分高于本科生(均值差异 = 4.33,p = 0.001)。也出现了显著的性别差异(F = 11.534,p = 0.001),男生占优势(附录3)。宗教价值:性别也有显著差异(F = 4.721,p = 0.031),女性得分更高。社会、政治和经济价值:性别或学术水平均无显著差异(p > 0.05)。美学价值:学术水平有显著差异(F = 4.723,p = 0.010),本科生得分高于博士生(均值差异 = 4.24,p = 0.003)。3.3.1 效应大小 对所有具有统计显著性的测试计算了效应大小。学术水平对理论价值的影响中等程度(η2? = 0.063),性别对理论价值的影响也中等(η2? = 0.052)。对于宗教价值,性别的影响较小到中等(η2? = 0.022)。学术水平对美学价值的影响较小到中等程度(η2? = 0.043)。根据Tukey HSD事后检验,仅在学士和博士生之间发现了显著差异,有利于博士生。附录3展示了详细结果。3.4 假设2:AI模型之间的差异 AI模型(ChatGPT、Gemini、DeepSeek)之间的价值系统存在统计学上的显著差异。Kruskal-Wallis检验显示理论(H = 10.145,p = 0.006)、社会(H = 10.053,p = 0.007)和美学价值(H = 5.990,p = 0.050)领域模型之间存在显著差异,ChatGPT优于其他模型。在经济(H = 2.006,p = 0.367)、政治(H = 5.089,p = 0.079)或宗教价值(H = 1.416,p = 0.493)领域没有观察到显著差异(附录4)。然而,这些仅用作探索性诊断,因为它们没有直接解决LLMs本身之间的差异。然而,由于每个模型内的重复运行次数有限且运行级观察并非完全独立,这些分析被视为探索性的,而不是评估假设2的主要依据。相反,我们比较三个AI模型的主要推断重点是基于人类参考的效应大小,即GPT、Gemini和DeepSeek之间的标准化平均差异,以学生标准差的单位表示(见表3)。这些效应大小提供了一个更易于解释且在心理测量学上一致的指标,用于衡量模型之间的差异:GPT在理论和社会领域明显优于Gemini和DeepSeek(超过了2-3个人类标准差单位),在经济、政治和美学领域具有中等到较大的优势,在宗教领域明显优于DeepSeek——但在与Gemini的比较中仅略微占优。由于这些以人类为参考的效应直接量化了模型之间差异的幅度和实际意义,我们关于大型语言模型(LLMs)之间差异的实质性结论主要基于这些标准化效应的模式和大小,而Kruskal-Wallis检验仅作为支持性的探索性证据。

表3 价值领域 GPT平均值 Gemini平均值 DeepSeek平均值 (GPT–Gemini) 差异 (GPT–DeepSeek) 差异 (Gemini–DeepSeek)
理论 57.00 40.20 37.00 2.26 2.68 0.43
社会 47.00 29.00 26.00 2.91 3.40 0.49
经济 29.57 25.20 20.80 0.61 1.23 0.62
政治 35.14 28.80 27.40 0.96 1.17 0.21
美学 33.86 27.20 27.80 0.84 0.77 ?0.08
宗教 26.00 23.40 11.80 0.29 1.60 1.31

人工智能模型在不同价值领域之间的标准化差异。标准化差异(d)以每个价值领域学生样本的标准差为单位表示。

3.5 假设3:人类与AI模型之间的差异
在价值观体系上,人类和AI模型(ChatGPT、Gemini、DeepSeek)之间存在统计学上的显著差异。独立样本(t)检验表明,在大多数价值领域中,人类和AI的平均分数之间存在显著差异(附录5)。最显著的结果是:
宗教价值观:人类的得分显著高于所有三种AI模型。
理论价值观:AI模型的得分相对高于人类,差异因模型而异。
社会价值观:人类在某些AI模型上的得分更高,具体差异取决于具体的比较。

3.5.1 效应大小
对于人类与AI的比较,标准化平均差异显示在宗教领域有非常大的效应(d = 2.21),在理论领域有较大的效应(d = 1.22),在社会价值观领域有中等效应(d ≈ 0.55)。经济和政治领域的效应大小介于小到中等之间(d = 0.25–0.35),而美学领域则显示出较大的效应(d ≈ 0.85)。这些效应大小的估计比仅依赖p值提供了更具有信息量的群体差异解释。

3.6 假设4:排序模式
预计理论和社会价值观在AI模型中排名最高,而宗教和美学价值观排名最低。相比之下,宗教和社会价值观在大学生中排名最高,美学价值观排名最低。经济和政治价值观在两组中都处于中等位置,而理论价值观在学生中的排名则根据学术水平而有所不同。排序分析基于每个价值领域的平均分数进行(附录6;图1-4)。
图1 大学生整体上六个价值领域的排名。
图2 按性别和学术水平划分的大学生六个价值领域的排名。
图3 大型语言模型(LLMs)整体上六个价值领域的排名。
图4 各个大型语言模型(LLM)单独的六个价值领域的排名。
AI模型:在所有三个LLM中,理论价值观始终排名最高,其次是社会、美学和政治价值观(模型之间的差异较小)。宗教价值观始终排名最低。
大学生:对于大多数学生来说,宗教价值观排名最高,但一些博士生更重视理论价值观。美学价值观 overall 上排名最低,而政治和经济价值观排名居中。
排名总结(附录6):
AI模型(例如ChatGPT):1. 理论,2. 社会,3. 美学,4. 政治,5. 经济,6. 宗教。
学生:1. 宗教,2. 理论,3. 政治,4. 经济,5. 社会,6. 美学。
图1-4展示了学生和AI模型整体的这些排名模式,以及按性别、学术水平和模型类型细分的情况。
总体而言,价值观的分布如下:宗教价值观占据最高位置,其次是理论、政治、经济、社会,最后是美学价值观,后者的排名最低。
在不同群体中,女性学生倾向于更重视宗教价值观,而男性学生在理论价值观上的得分更高。不同学术水平之间也存在差异,博士生更强调理论价值观,而本科生则更关注宗教和美学价值观。
图3显示了价值观的分布情况。理论价值观始终排名最高,其次是社会、美学和政治价值观,模型之间的差异较小。经济价值观处于中等位置,而宗教价值观始终排名最低。
图4清楚地表明ChatGPT将理论和社会价值观排在最前面,宗教价值观排在最后。Gemini的表现类似,但对政治价值观的重视略高。DeepSeek最重视理论价值观,其次是美学和社会价值观,宗教价值观再次排在最后。这些差异突显了某些模式的稳定性(例如,理论价值观的主导地位)以及模型在次要价值观偏好上的具体差异。
综上所述,这些发现为人类参与者和大型语言模型之间价值观相关模式的差异提供了实证基础。接下来的讨论将这些结果置于关于文化价值观、AI一致性以及情境敏感心理解释的文献背景中。

4 讨论
研究结果揭示了大型语言模型(LLMs)与大学生之间的明显价值观差距,鉴于AI的快速发展及其在生活多个领域的日益增长的影响,这一差距值得密切关注。通过系统分析领先LLMs(ChatGPT、Gemini、DeepSeek)的输出,并将其与不同学术水平的学生价值观体系进行比较,本研究提供了关于“价值观”在AI系统中如何体现的新见解,并提出了关于它们与人类价值观一致性的关键问题。结果还强调了人口统计、文化和社会因素在塑造个人价值观体系中的重要性,并指出了在AI系统中嵌入文化过滤器以提高其与主流社会价值观兼容性的必要性。

4.1 人类价值观差异
结果显示,在不同学术水平上,理论价值观和美学价值观存在显著差异:博士生在理论价值观上的得分更高,而本科生在美学价值观上的得分更高。这一发现表明,随着学生接受高等教育的深入,他们的价值观体系发生了发展性变化,特别是在高级阶段更加强调科学研究和批判性思维。这些结果与先前的研究一致,这些研究表明价值观排名可能会在大学期间发生变化(Bakr, 1975; Cox, 1989; Dobashi, 1976)。
性别差异也出现了,男性在理论价值观上的得分更高,而女性在宗教价值观上的得分更高。这些发现与早期研究一致,这些研究强调了人口统计和社会文化因素(如性别和教育水平)在塑造价值观中的作用(Al-Batsh和Abd al-Rahman, 1990; Allen, 1981; Abu al-Nil, 1985; Zahran和Serry, 1985; Abd al-Fattah, 1992; McGuinness-Biewitt, 1985)。具体来说,先前的研究(Sufyan, 2002; Al-Suwwad和Al-Azirjawi, 1987; Hanaa, 1959)一致报告男性在理论价值观上的得分较高,而政治价值观通常没有显示出显著的性别差异(Al-Batsh和Abd al-Rahman, 1990; Allen, 1981)。同样,先前的研究发现经济价值观更倾向于男性(Al-Suwwad和Al-Azirjawi, 1987)。
相比之下,本研究未发现社会价值观在性别上存在显著差异,男性和女性的得分相似。这一结果与许多早期文献相反,后者通常发现女性的社会价值观更高(Zahran和Serry, 1985)。然而,Abu Al-Nil(1985)的报告表明,当地文化因素可能影响了性别在社交价值观上的模式。在沙特阿拉伯的背景下,最近的社会变革可能促进了男性和女性在这一维度的得分趋同。
至于美学价值观,当前研究发现大学生的得分高于博士生。这可能反映了与年龄相关的兴趣,因为年轻学生往往更关心美感和艺术鉴赏,而博士生则更多地投入到研究和职业追求中。先前的研究经常报告女性在美学价值观上的得分更高(Sufyan, 2002; Al-Suwwad和Al-Azirjawi, 1987; Hanaa, 1959; McGuinness-Biewitt, 1985),尽管有些研究(Allen, 1981)未检测到性别效应。
最后,当前研究显示宗教价值观在性别上存在差异,女性得分高于男性。这一结果与一些先前的研究一致(Hunt, 1980; Dobashi, 1976),尽管也有其他研究报告相反的模式,即男性在宗教价值观上得分更高(Abd al-Fattah, 1992; Al-Suwwad和Al-Azirjawi, 1987; Sab?ān, 1975)。这些研究之间的不一致性可能反映了宗教传统、社会背景和历史时期的差异。

4.2 在LLMs之间的差异
结果显示,在理论、社会和美学价值观上,LLMs之间存在统计学上的显著差异,ChatGPT优于Gemini和DeepSeek。这一发现表明,AI的“价值观”本质上是训练数据和所用算法的反映,数据和模型架构的差异导致了输出之间的可观察差异。正如Bender等人(2021)所强调的,LLMs使用机器学习算法处理庞大的文本语料库,但没有自我意识或生活经验。尽管一些模型是在西方背景下开发的(例如ChatGPT、Gemini),而其他模型是在东方背景下开发的(例如DeepSeek),但这些结果并不一定反映训练数据的文化差异,而是可能反映了设计、优化和过滤过程的差异。ChatGPT与人类相似的价值观结构的相对较强一致性可能表明其在“价值观平衡”方面具有比较优势,尽管这仍然是训练的产物,而不是真诚价值认可的证据。

4.3 人类与AI的差异
人类和AI群体之间的比较显示,在大多数价值领域存在实质性差异。最显著的是宗教价值观,它在学生中的得分始终高于所有三种LLMs。相比之下,AI输出中的理论价值观似乎比学生的平均得分更高,尽管模型之间存在一些差异。社会价值观也显示出差异,学生在某些子群体中的得分高于某些AI模型。这些发现突显了人类和AI价值观体系之间的根本差异,反映了形成来源的差异——人类的文化社会化和生活经验与AI从大规模文本语料库中的统计学习。这种差异强调了仔细检查LLM输出中隐含的优先级的必要性,特别是在这些系统用于敏感的心理、教育或社会背景时(Haase和Hanel, 2023; Flint等人, 2022; Bodro?a等人, 2023)。
最近的文献进一步支持通过能动性、评估和情境响应性来解释人类与AI之间的差异,而不仅仅是任务准确性。生成式AI可以扩展探索性思维和认知多样性,但其输出仍然受人类设计选择、治理结构和部署环境的条件限制(Krakowski, 2025)。在高等教育中,AI可能模仿人类的评估判断,但它常常会调节极端分数,并且对任务框架和响应结构敏感(Flodén, 2025)。在用户层面,除非提供解释性机制,否则AI决策通常被认为不如人类决策公平和易于理解(Shulner-Tal等人, 2025)。在教育和科学领域,这些模式突显了文化响应性、伦理引导和情境感知的AI实现的重要性(Dzogovic等人, 2024)。

4.4 价值观排名分析
结果显示,AI模型一致地将理论价值观置于首位,其次是社会、美学或政治价值观,而宗教价值观排名最低。相比之下,大多数学生的宗教价值观排名最高,美学价值观始终排在最后,政治和经济价值观位于中间。这种差异强化了价值观不仅仅是抽象信念的观点,而是个人身份和文化不可或缺的一部分(Zahran和Serry, 1985)。相比之下,AI模型似乎反映了科学和技术领域中占主导地位的价值观取向,尤其是在西方背景下。

4.5 AI中的“价值观”问题
本研究提出的一个核心问题是,“价值观”一词是否可以合法地应用于AI输出。LLMs缺乏自我意识和生活经验,但它们的文本输出揭示了它们如何对概念进行排序和优先级的结构化模式,这与Spranger(1928)的六个价值领域一致。根据Floridi和Chiriatti(2020)的观点,AI系统的行为输出为价值观分析提供了有意义的基础,即使这种排序不是有意识持有的。关于AI是否应该体现人类价值观或保持中立仍存在持续争论,这引发了关于AI伦理和开发者责任的深刻问题(Taddeo和Floridi, 2018)。
与将LLMs描述为“随机鹦鹉”的批评一致,这些观察到的价值观排名是由预训练语料库和训练后的对齐塑造的,而不是内在持有的信念。因此,我们的主张仅限于模型在受控心理测量提示下表达的内容,并避免将这些系统归因于意图性、生活经验或道德能动性。

4.6 文化变量
研究结果还强调了人口统计、文化和社会变量在塑造人类价值观层次结构中的重要性。研究结果与先前的研究一致,这些研究记录了性别和教育水平对价值体系的影响(Hanaa, 1959; Al-‘Umari and Nashwan, 1985; Bakr, 1975; Cox, 1989; Dobashi, 1976; Sufyan, 2002)。学术环境本身似乎会强化某些价值领域,这之前的研究也有所表明(Al-‘Umari and Nashwan, 1985; Cantrell, 1976; McGuinness-Biewitt, 1985; Malkosh, 1996)。

4.7 需要文化过滤器
本研究呼吁在人工智能系统中嵌入“文化过滤器”,以确保与不同用户群体的价值观更加契合,尤其是在具有强烈宗教和文化身份的社会中(Li et al., 2022)。这种方法反映了人们对人工智能伦理中文化多元性的日益认可,以及避免强加同质化“普遍”价值观的必要性。相反,伦理人工智能的发展应该考虑文化多样性和地方优先事项,以增强接受度和公平性。

在心理咨询、教育和法律指导等应用场景中,价值观的不对齐可能导致提供的建议无意中与用户的宗教或文化优先事项产生冲突(例如,以不符合文化背景的方式构建应对策略、家庭义务或道德规范)。这突显了需要制定基于文化的保护机制、透明披露模型局限性的重要性,并对用户进行教育,以防止他们在涉及价值观的决策中过度依赖人工智能输出。

4.8 与假设的一致性
研究结果总体上支持了提出的假设,显示了根据性别、教育水平和人工智能模型类型,价值观存在显著差异。人类与人工智能模型之间存在明显的分歧,其中学生的宗教价值观更为突出,而理论价值观在人工智能模型中的排名中占主导地位。这些发现增强了Spranger分类的理论框架,并为其在人类和人工智能背景下的适用性提供了实证证据。

5. 结论
本研究通过考察大型语言模型中的价值相关输出模式以及大学生的价值观优先事项,为关于人工智能、人类价值观和文化背景下的意义这一日益增长的跨学科对话做出了贡献。研究结果指出了人工智能生成响应中的主导理论取向与人类样本所表达的更强烈的宗教优先事项之间的显著差异。这种对比不仅仅是描述性的,而是强调了文化、语言和教育背景在解释当代人工智能系统生成的价值相关输出时的重要性。

从概念层面来看,该研究支持在分析人工智能生成的内容时谨慎使用经典的价值观框架,如Spranger的分类法。同时,研究结果也强调了解释学的重要性。在大型语言模型中观察到的现象最好理解为在受限提示条件下的模式化输出,而不是内部信仰、意图或类人价值结构的证据。这种区分对于避免拟人化的过度解读以及在新兴的心理学和跨学科人工智能研究中保持概念清晰性尤为重要。

从应用角度来看,研究结果为教育、咨询和其他高风险的场景提出了重要考量,因为在这些场景中,价值敏感的判断非常重要。如果人工智能系统越来越多地被用于支持在具有文化背景的环境中的反思、沟通或决策过程,那么模型输出模式与人类价值观优先事项之间的不一致可能会产生实际后果。因此,这些发现进一步强调了需要采取文化敏感的对齐实践、透明的提示设计以及更具有情境意识的评估策略。

同时,研究应在其方法论界限内进行解读,特别是考虑到有限的人类样本框和人工智能输出的模型特定性质。未来的工作应该测试观察到的模式在更广泛的样本、语言和模型家族中的稳健性和可转移性。

鉴于这些发现及其理论和技术意义,将研究从解释转向行动导向的指导是很有用的。以下建议为在文化敏感环境中使用人工智能系统的用户、研究人员和开发者提供了指导。

5.1 建议
对于人工智能系统的用户而言,本研究的结果强调了以有知识的批判性态度对待人工智能生成内容的重要性,尤其是在文化价值观、伦理判断和规范视角起核心作用的领域。虽然大型语言模型可以提供复杂且情境连贯的响应,但它们的输出可能反映了来自训练数据和对齐程序的模式,而不是基于文化的人类优先事项。因此,在教育、咨询或决策支持环境中使用的用户应关注人工智能生成响应的解释限制,并将其视为信息资源,而不是权威的价值判断。

对于研究人员来说,研究结果强调了需要对人工智能系统中的价值相关输出模式进行更系统和跨情境的调查。应优先进行跨文化复制、多语言验证和稳健性检查,以确认在模型和提示条件变化的情况下观察到的排名是否仍然稳定。结合心理理论、文化分析和计算评估的扩展方法论方法对于推进这一新兴的跨学科研究尤为重要。

对于人工智能系统的开发者和设计者而言,研究结果表明,在模型开发和部署过程中整合文化敏感的对齐策略和评估框架的重要性。随着人工智能技术越来越多地与社会中有意义且文化多样化的环境中的用户互动,应更加关注训练数据、对齐过程和提示结构如何塑造价值相关输出模式。设计能够承认文化多样性、提高响应生成透明度并允许情境适应的人工智能系统,有助于减少模型输出与人类价值观预期之间的潜在不匹配。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号