《The Journal of Social Psychology》:Structural explanations reduce moral outrage toward AI but not human ethnic discrimination in credit lending
编辑推荐:
当基于人工智能的决策系统对特定群体产生歧视时,这种歧视所引发的道德愤慨往往低于人类歧视所引发的反应,这一现象被称为算法愤慨赤字(algorithmic outrage deficit)。本研究在信贷发放领域的种族歧视(基于移民背景)中复制并扩展了这一效应。研究
当基于人工智能的决策系统对特定群体产生歧视时,这种歧视所引发的道德愤慨往往低于人类歧视所引发的反应,这一现象被称为算法愤慨赤字(algorithmic outrage deficit)。本研究在信贷发放领域的种族歧视(基于移民背景)中复制并扩展了这一效应。研究参与者对由银行员工或人工智能做出的歧视性信贷决策进行了道德评估。结果支持了算法愤慨赤字:参与者对人工智能歧视表达的道德愤慨低于对人类歧视的愤慨,这一效应由归因于人工智能的偏见动机减弱所中介。在先前研究的基础上,研究人员还检验了提供关于歧视发生原因的结构性解释(有偏见的训练数据/反映历史不公正的过往经历)如何影响反应。结果显示,结构性解释(以及自我报告的人工智能系统知识)进一步降低了算法愤慨。这些发现表明,算法愤慨赤字是一种广泛存在的现象,且关于算法偏见结构性起源的透明度可能悖论性地进一步降低道德愤慨。
## 研究背景与问题提出
算法系统正日益渗透于日常生活,影响着从在线搜索结果到贷款审批的诸多领域(Martin, Citation2019)。尽管算法决策常被视为比人类判断更为客观(Pethig & Kroenung, Citation2023),但训练数据的不完整性及其中蕴含的历史结构性歧视,使得算法歧视(algorithmic discrimination)——即基于偏见数据对特定群体(往往是边缘化群体)进行系统性不利的自动化决策——成为严峻的社会问题(Barocas & Selbst, Citation2016; Martin, Citation2019)。信贷发放领域的算法歧视后果尤为严重:元分析显示,有色人种、女性及来自结构性弱势社区的人群更可能被系统性地拒绝贷款或面临更差的贷款条件(Garcia et al., Citation2023),且这种差异无法由客观的信用标准解释(Bartlett et al., Citation2022; Park, Citation2022)。歧视性信贷决策不仅限制住房自有、教育投资和创业机会,还深刻影响社会流动性和代际不平等(Kumar, Citation2023; Lewis-Faupel & Tenev, Citation2024)。
在此背景下,关键问题在于:人们对算法歧视与人类歧视的反应是否相同?Bigman等人(Citation2023)提出了"算法愤慨赤字"现象,即算法歧视引发的道德愤慨(moral outrage)显著低于人类歧视,尽管二者产生相同的歧视性结果。该效应在雇佣歧视情境中得到验证,但其机制与边界条件亟待探索。特别是,当提供结构性解释(structural explanations)说明歧视源于有偏见的训练数据或历史经验时,透明度政策究竟会增强问责还是反而成为开脱叙事?
本研究发表于《The Journal of Social Psychology》,旨在:第一,在信贷发放这一新领域复制算法愤慨赤字;第二,检验结构性解释对该效应的调节作用;第三,验证偏见动机归因(biased motive attribution)的中介机制。
## 主要技术方法
研究采用2(歧视主体:人类vs.人工智能,被试内)×2(结构性解释:有vs.无,被试间)的混合设计,通过苏黎世大学心理学学生邮件列表、Reddit论坛及个人网络招募317名参与者,经筛选后最终样本为310人(平均年龄27.18岁,81.61%为学生,85.16%为瑞士公民)。参与者阅读两个信贷歧视情境:人类银行员工或人工智能系统在信用评分阶段系统性地给具有外国姓氏的申请者打更低分数。结构性解释条件中,人工智能情境说明系统"从过去几十年有偏见的数据中学习",人类情境说明员工"在结构性不平等时期的工作经历塑造了其判断"。测量工具包括道德愤慨量表(3题,Ω = .93/.88)和感知偏见动机量表(3题,Ω = .91/.80),采用7点李克特量表。数据分析采用R软件中的线性混合效应模型(lme4程序包)和结构方程模型(lavaan程序包),效应量通过偏差校正Bootstrap法(5000次抽样)估计。
## 研究结果
**算法愤慨赤字的复制**
混合模型显示歧视主体的主效应显著(b = ?0.63, SE = 0.05, p < .001),人工智能歧视引发的道德愤慨(EMM = 4.56)显著低于人类歧视(EMM = 5.81),平均差异ΔEMM = ?1.25。该赤字在有解释条件(AI: 4.16 vs. 人类: 5.63, Δ = ?1.47)和无解释条件(AI: 4.96 vs. 人类: 5.99, Δ = ?1.03)均显著,证实了算法愤慨赤字在信贷种族歧视领域的稳健性。
**结构性解释的作用**
人工智能条件下,结构性解释显著降低道德愤慨(有解释: 4.16 vs. 无解释: 4.96, Δ = ?0.80, p < .001);人类条件下,结构性解释仅产生不显著的趋势性降低(有解释: 5.63 vs. 无解释: 5.99, Δ = ?0.36, p = .222)。歧视主体与解释条件的交互作用显著(b = ?0.11, p = .025),表明结构性解释对人工智能歧视的减弱效应显著强于人类歧视。
**中介机制分析**
第一项中介分析表明,歧视主体对感知偏见动机的影响显著(b = ?1.80, p < .001),感知偏见动机对道德愤慨的预测显著(b = 0.65, p < .001),间接效应显著(b = ?1.17, p < .001),直接效应不显著(b = ?0.08, p = .467),证实算法愤慨赤字完全由偏见动机归因差异中介。第二项中介分析(仅人工智能条件)显示,结构性解释显著降低对人工智能的偏见动机归因(b = ?1.10, p < .001),进而通过该路径降低道德愤慨(间接效应b = ?0.68, p < .001),直接效应不显著(b = ?0.12, p = .486)。
**人工智能知识的调节作用**
探索性分析发现人工智能知识显著调节算法愤慨赤字(p = .015),高知识组赤字更大(Δ = 1.49 vs. 低知识组Δ = 1.02),但该调节不通过偏见动机归因路径实现。
## 讨论与结论
研究人员将算法愤慨赤字从雇佣歧视拓展至信贷发放领域,证实该现象具有跨领域的稳健性。核心发现是结构性解释形成"透明度悖论"(transparency paradox):解释算法歧视源于历史数据的结构性起源,并未增强问责反而成为开脱叙事,这一效应通过进一步削弱偏见动机归因实现。对于人类歧视,结构性解释仅将偏见重新框架为无意识偏见而未能显著降低愤慨,表明人类仍被预设具有持有偏见态度的能力,而人工智能则根本不被视为具有真正的态度。
研究结论指出,随着算法系统日益塑造信贷、雇佣、住房等关键生活结果,理解和应对削弱对算法歧视道德反应的心理机制,对于确保有意义的问责和正义至关重要。强制透明度政策若仅强调数据驱动的学习过程,可能适得其反地减少公众监督压力;政策制定者应关注解释框架的设计,强调可避免的错误和可纠正的过程而非被动的数据学习,方能维持有效的问责机制。