重新对个体进行排序:组内公平分类的影响
《ACM Journal on Responsible Computing》:Reranking Individuals: The Effect of Fair Classification Within-Groups
【字体:
大
中
小
】
时间:2026年04月14日
来源:ACM Journal on Responsible Computing
编辑推荐:
摘要:人工智能(AI)在各个领域得到了广泛应用,但其应用过程中引发了关于公平性的担忧。在分类任务中,目前的讨论往往侧重于基于结果的指标,比较不同子群体之间的差异,而没有考虑子群体内部的差异性影响。偏见缓解技术不仅会影响敏感群体中实例对的排名,还常常显著影响这些群体内部实例的排名。
摘要:人工智能(AI)在各个领域得到了广泛应用,但其应用过程中引发了关于公平性的担忧。在分类任务中,目前的讨论往往侧重于基于结果的指标,比较不同子群体之间的差异,而没有考虑子群体内部的差异性影响。偏见缓解技术不仅会影响敏感群体中实例对的排名,还常常显著影响这些群体内部实例的排名。这些变化难以解释,并引发了对干预措施有效性的质疑。不幸的是,这些效应在通常应用的准确性-公平性评估框架中并未得到充分关注。在本文中,我们展示了几种流行的偏见缓解方法的效果,以及它们的输出如何往往无法反映现实世界的情况。
1 引言
在快速发展的AI和机器学习领域中,追求算法决策的公平性已成为一个核心问题。随着AI系统决策的影响力和范围的扩大,人们越来越担心这些决策模型可能会无意中编码甚至放大人类偏见[10]。算法偏见指的是敏感群体因算法或模型而处于显著不利地位的情况。偏见可能通过使用有偏见的数据进行训练而渗透到模型中,这遵循了“垃圾进,垃圾出”的原则,即有缺陷的输入数据会导致有缺陷的输出[20]。有偏见的AI模型随处可见,几乎每个领域都有相关案例。在招聘背景下,一个著名的例子是亚马逊的自动化招聘系统,由于存在对女性申请者的偏见而不得不被撤下[13]。更早之前,圣乔治医院医学院的种族平等委员会发现,一个用于初步筛选申请者的计算机程序“在仔细分析了员工的选择方式后编写”,不公平地拒绝了女性和名字听起来非欧洲的人[30, 38]。类似这样的例子还有很多。
在本文中,我们关注的是公平分类,其目标是确保算法在不同群体之间做出无偏见的决策。虽然存在许多偏见检测和缓解方法,但大多数方法都集中在“群体间公平性”上,主要目的是纠正不同人口群体之间的预测差异。这无疑至关重要,因为它旨在纠正长期存在的不平等现象。然而,同样重要的是要考虑这些群体内部的复杂性,由此产生了通常被称为“群体内公平性”的概念。Speicher等人[47]已经指出,许多群体公平性的方法只解决了群体间的问题,从而恶化了群体内的公平性。Krco等人[34]强调,常用公平性指标的盲目优化并不能显示每个群体中受影响的人是谁,而Mittelstadt等人[41]则指出,许多当前使用的偏见缓解方法可能会使每个群体的情况变得更糟。这些问题说明了仅仅通过测量群体间的差异来评估公平性是不够的。
尽管各种基准研究试图评估偏见缓解方法的性能,但它们常常因为比较了“苹果和橙子”(即不相似的事物)而显得不足。由于不同的方法会显著改变正面预测的比例,因此它们的结果无法直接比较。例如,在成人收入数据集中,一种方法的正面决策率(PDR)为0.5%,而另一种方法达到了39.3%,而该数据集的实际率为23.9%。这种差异意味着比较它们的准确性相当于评估ROC曲线上的完全不同点——这通常与PDR的实际限制无关。然而,这种方法在当前的基准研究中仍然很常见[8, 26, 28, 29, 40, 44]。
此外,大多数偏见缓解方法并不能满足公平性指标的要求,因此在应用后需要额外的后期干预。为了解决这些问题,应该将预测模型的功能与决策背景分开[46]。这是必要的,以便区分仅由于模型选择更多或更少个体而导致的性能变化,以及由于模型选择了“更差”的个体而导致的性能变化。Scantamburlo等人[46]还指出,自动化系统的最终决策受到预测模型的影响,但在几乎所有情况下也受到配额或业务规则等额外参数的影响。他们区分了预测模型和决策系统,并讨论了公平机器学习领域如何倾向于模糊这两个概念之间的界限[46]。Kwegyir-Aggrey等人[35]确认,在实际应用分类器时,从业者通常需要调整阈值以确保模型预测符合其特定领域的需求。
接下来,我们探讨了每种偏见缓解方法的不同影响。这些方法试图通过在群体层面施加约束来使模型输出更加公平,但它们也对每个群体内部产生了显著影响。虽然主要目标是增加来自受保护群体的选择并减少来自特权群体的选择,但这些方法也可能改变每个群体中具体被选中的个体。这种看似任意的群体内部重新排序作为公平分类的副作用尚未被研究。在这个过程中,某些最初被赋予正面预测标签的个体(无论是来自受保护群体还是特权群体)现在会被标记为负面,而一些最初被标记为负面的群体成员则会被改为正面。这种每个群体内的重新排名过程本身并不一定是负面的——正如我们将要讨论的——但它值得更多的关注。机器学习模型不仅返回预测标签,还返回预测分数,从而产生了实例的固有排名。我们将比较每种偏见缓解方法生成的排名,以分析子群体内的影响,而不考虑PDR的变化。
总之,尽管使用偏见缓解方法的主要目的是为了增加来自受保护群体的选择,但这些方法往往会产生意想不到的后果。在本文中,我们讨论了其中的两个后果:
- 全局选择率经常被偏见缓解方法所修改,使得最终的预测标签不可比较且在现实世界环境中不适用。我们在第5.2节中展示了这一点,并认为没有区分预测模型和决策背景。
- 偏见缓解方法不仅会改变群体间的选择,还会改变每个群体内的选择。我们在第5.1节中通过几种方法和数据集展示了某些方法如何改变每个群体内的排名。我们在第3节讨论了背后的理论。
本文的其余部分组织如下:第2节回顾了公平分类的背景和相关工作。第3节介绍了我们结果的理论基础。第4节描述了实验中使用的材料和方法,第5节报告了结果。最后,第6节对发现进行了讨论,第7节总结了文章的主要发现、局限性和未来研究的方向。
2 背景
在进一步讨论之前,定义一些在公平性文献中常用的关键术语是很重要的。敏感属性是指被认为可能引起歧视的个体特征或属性,例如种族、性别、年龄、宗教、性取向或任何其他可能成为不公平对待基础的因素。因此,受保护群体通常指的是基于其敏感属性而面临不公平对待或歧视风险的人口群体,而特权群体则是通常不会基于该敏感属性受到不公平对待的人口类别。在本文中,我们假设存在一个单一的二元敏感属性,这意味着存在一个受保护群体和一个特权群体。公平性指标是用于评估AI模型公平性的定量度量,而公平性(或偏见)缓解策略是用于学习设计上公平的AI模型或修改AI模型以减少偏见的技术。
在计算机科学界,已经提出了许多公平性指标[10]。其中最流行的方法之一是群体公平性指标,它量化了机器学习模型在不同人口或敏感群体之间的公平性,旨在识别这些群体之间的结果差异。这一类别中最简单和最常用的定义之一是人口平等(或统计平等),它要求无论受保护属性的值如何,PDR都必须相同。在我们的招聘示例中,这意味着模型必须邀请相同比例的白人和黑人申请者参加面试(如果种族是敏感属性),或者男性和女性申请者(如果性别是敏感属性)。其他常用的指标包括机会平等,它要求两个群体中的真正例比例相同,以及机会均等,它检查两个群体中的真正例和假正例比例是否相等。除此之外,还有许多其他公平性指标,问题在于大多数指标无法同时优化[33]。因此,选择要优化的群体公平性指标实际上已经预设了一定的世界观。另一种评估机器学习模型公平性的方法是个体公平性,它要求相似的个体在决策过程中得到相似的结果,无论他们的群体成员身份如何[4, 14]。Dwork等人[14]认为,我们应该更关心个体而不是群体。这一观点与本文的贡献相关,因为我们也认为,满足群体公平性指标并不一定从个体的角度来看是公平的。
设计公平算法的一个常见起点是从模型中排除敏感属性。然而,这种方法的局限性已经被广泛讨论,其中最根本的局限性是代理问题[42]。代理问题指出,省略敏感属性可能导致机器学习模型依赖于间接编码敏感属性信息的代理变量,从而仍然将偏见引入模型的决策过程。代理问题的一个经典例子是在美国使用邮政编码作为种族信息的代理,因为这两个属性往往高度相关。这促使许多人认为也应该从数据集中排除代理变量,但这非常难以实现[10]。这是因为机器学习模型中使用的每个属性至少都与敏感属性部分相关;而且,即使是高度相关的属性也可能被视为决策的合法依据(例如,在招聘中的教育背景[10])。
这表明创建一个公平的机器学习模型是一个繁琐的过程。作为回应,已经引入了许多声称可以改善公平性的偏见缓解方法。我们可以将它们分为三类:预处理、处理中和后处理。每一类都针对机器学习流程的不同阶段来确保公平性。预处理方法的思想是在学习机器学习模型之前改变数据的表示,从而中和可能影响模型决策的任何偏见信息。处理中方法通过在学习算法中加入公平性约束来提高公平性,并努力在准确性和公平性之间取得平衡。后处理方法在模型做出预测后进行干预,通过调整结果来满足公平性标准。我们将在“材料与方法”部分更详细地讨论所使用的偏见缓解方法。这些偏见缓解方法侧重于满足上述衡量群体间差异的群体公平性指标[8]。
另一个我们应该考虑的研究领域是公平排名。杨和Stoyanovich [54] 通过比较列表中不同前缀下受保护和未受保护候选人的分布来衡量排名是否公平,而Zehlike等人[55]则展示了如何满足不同排名前缀的群体公平性指标。杨等人[53]展示了在排名算法中添加多样性约束会降低群体内部公平性,这一概念与我们对群体内部公平性的衡量相关。然而,重要的是要强调与这项研究的区别,因为我们研究的是公平分类,它关注的是群体之间的平等结果,并不意味着排名分布本身必须是公平的。我们将展示,用于公平分类的几种方法会附带改变每个群体内部的排名,这反过来又会影响每个个体的最终预测标签。这种看似任意的“重新排序”作为公平分类的结果目前尚未被研究,值得更多的关注。
**关于重新排名的理论洞察**
本节为分析偏见缓解方法如何影响特定群体的排名提供了理论基础。这样的框架突出了审计公平算法的重要性,并解释了为什么衡量排名差异能够提供对模型行为的有意义见解。本节的关键结论是,偏见缓解方法有两种潜在的结果:它们要么解决群体内部的偏见,要么必须在理论上与阈值优化[31]保持一致才能达到最优。关于本节所依据理论的更全面解释可以在[15]中找到。
考虑一个个体空间,我们已经收集了他们的属性X=(X1,…,Xn),以及一个假定的二元敏感属性A和一个二元标签Y∈{0,1}。在传统设置下,我们假设观察到的数据集是由概率分布P(X,A,Y)生成的。基于这些数据,我们学习了一个模型S(X,A),以尽可能接近地近似P(Y|X,A)。然后我们可以根据模型S(X,A)做出决策。决策被定义为一个函数Y^,它将一对(x,a)映射到标签{0,1}。在本文中,我们将假设有足够的数据使得S(X,A)=P(Y|X,A)。
**示例3.1(第一部分)**
我们想要根据两个独立属性来预测个体的收入(Y=‘高’/‘低’):他们的教育年限(X∈N)和他们的性别(A= ♂ / ♀)。在教育水平相同的情况下,不同性别的个体平均能力相当,因此应该获得相同的平均收入。这可以通过P(Y=‘高’|X,A=♂)=P(Y=‘高’|X,A=♀)来表达,其中概率是在整个人群上计算的。我们人群的任何代表性数据集都是从这个群体中抽取的样本,而在这个数据上学习的模型S会将一对(x,a)映射到区间[0,1]中的一个分数。
基于分数S(X,A),我们可以做出决策。例如,假设一家公司想要向所有高收入的人发送晋升通知。根据模型S和它产生的分数S(X,A),我们可以做出决策Y^(x,a)=1如果S(x,a)≥0.5,否则Y^(x,a)=0。
为了评估决策函数的质量,我们可以使用真正例率(TPR)P(Y^=1|Y=1)和真正例率(TNR)P(Y^=0|Y=0)。这些指标分别量化了正确分类为正例和负例的比例。什么是最优决策取决于上下文;在某些情况下,真正例可能比真正例更重要,在其他情况下则可能相反。然而,如果我们能够访问其他具有严格更好TPR和至少同样好TNR的模型,那么当前的决策函数肯定不是最优的。一个不被任何其他决策函数支配的决策函数被称为帕累托最优的。另一种直观的解释帕累托最优性的方式是:假设我们为真正例和真正例分配不同的收益btp和btn。例如,对于癌症筛查测试,真正例带来的收益远高于真正例。基于这些收益,我们可以计算加权准确率wacc(btp,btn) := btp×(正例数量TPR)+ btn(负例数量TNR)。一个决策是帕累托最优的当且仅当存在btp,btn使得决策优化了wacc(btp,btn)。
**示例3.2(第二部分)**
基于学习到的分数函数S(x,a),我们可以做出以下基于阈值的决策Y^t:{Y^t(x,a)=1如果S(x,a)≥t;否则Y^t(x,a)=0}。如果我们从分数S构建的所有其他决策要么TPR较低,要么TPR和TNR较低,或者TPR和TNR相等,那么Y^t是帕累托最优的。更高的阈值t将导致TPR较低的决策Y^t,但TNR较高。所有可以从给定分数S构建的帕累托最优决策本质上等同于阈值决策Y^t,反之亦然。
在本文中,我们对使用减少数据中偏见的方法训练的公平分类器感兴趣。为了数学上建模偏见,我们假设存在两个概率分布。每个个体都有获得正标签Pf(Y=1|X=x,A=a)的公平概率。理想情况下,我们可以访问从这个公平分布中抽取的数据,但通常我们只能访问有偏见的数据。在这个有偏见的数据上,我们可以训练模型,得到一个分数S(x,a)∈[0,1],这可以作为Pf(Y=1|X=x,A=a)的有偏代理。因此,我们的模型所训练的有偏见的数据是由另一个有偏概率分布Pu(Y,X,A)生成的。在这个正式框架下,研究偏见如何影响数据相当于将Pf与Pu联系起来,以下示例说明了这一点。
**示例3.3(第三部分)**
我们继续这个例子,假设在教育水平相同的情况下,不同性别的个体平均能力相当,因此应该获得相同的平均收入。这表明公平概率满足了众所周知的条件人口差异[11]概念。然而,由于社会偏见,女性在每个教育水平上的收入平均比男性少10%。例如,如果以下情况成立:女性获得高薪的比例只有应有的90%。因此,在由Pu生成的数据上训练的模型将学习到:这种情况的发生是因为模型是基于不公平概率分布Pu(Y,X,A)生成的有偏见的数据学习的。此外,分数不再符合条件人口差异。
正如上面的例子所示,对于有偏训练最优的模型可能不再公平。另一个方向也是如此,下一个例子表明;在公平数据上评估时,公平的模型不一定是最优的。
**示例3.4(第四部分)**
在为前面的例子训练了一个模型后,我们得到了以下分数S(x,a):
假设使用以下决策函数进行预测:Y^(x,a)={1如果S(x,a)>0.5;否则}。根据不公平的概率,这个决策是帕累托最优的(它对应于一个阈值决策)。然而,根据公平概率,这个决策并不是帕累托最优的,因为根据公平概率,这个决策等同于:这具体取决于敏感属性。因此,在公平分布下最优的决策,在有偏训练数据上评估时不一定是最优的。
当然,一个在公平世界中是最优的模型在有偏见的数据上评估时不一定是最优的,这并不令人惊讶。这正是为什么提出了许多公平性缓解技术来在可能有偏见的数据上学习模型的原因。这些技术生成了在有偏训练数据上牺牲最大性以满足某些公平性指标的模型,导致了著名的公平性-准确性权衡[51]。如果在有偏见的数据上较低的准确性可以导致更公平的模型,那么这是可以接受的,因为隐含的假设是这些更公平的模型实际上会在公平分布下表现得更好。
**示例3.5(第五部分)**
让我们继续这个例子。与其使用决策Y^(当且仅当S(x,a)>0.5时分配1),我们可以应用不同的阈值或男性和女性来得到以下模型Y^f:这个决策Y^f对于有偏训练数据来说不是帕累托最优的,因为它不对应于一个阈值决策。例如,S(24,♂)=0.48而S(25,♀)=0.45,而Y^f(24,♂)=0且Y^f(25,♀)=1。但是,Y^f确实满足条件人口平等:如果两个实例具有相同的X值(=相同的工作经验年数),Y^f将以相同的概率分配正标签。然而,根据公平概率,这个决策是帕累托最优的,因为:
最后一个例子展示了一个非常理想的情景:通过在有偏见的数据中学习一个非最优但公平的模型,我们得到了一个根据公平分布的帕累托最优模型。然而,如果不假设公平和不公平分布之间的关系,就不能保证这种情况会发生。幸运的是,在许多情况下,我们可以对公平和不公平分布之间的关系做出强有力的假设。以下是这样一个常见的假设:**平权行动假设**。
**定义3.6(平权行动假设)**
设Y^:X×A→{0,1}是根据公平概率的帕累托最优决策。对于每个a∈A,存在一个根据不公平概率的帕累托最优决策Y^a:X×{a}→{0,1},使得Y^=?a∈A Y^a。平权行动假设基本上声称,在公平世界中是帕累托最优的决策,在不公平世界中也是帕累托最优的,如果我们限制在一个敏感群体上。例如,假设我们想要学习一个决策函数来预测成功的大学生,基于他们在中学的成绩。在同一所学校内,假设更高的成绩意味着更高的大学成功率是合理的,但在没有统一、集中化的测试的情况下,比较不同学校之间的成绩是危险的。在一个公平、无偏见的世界中,会学习一个最优模型来预测基于这种统一、标准化测试的学习成功率。这里的平权行动假设基本上表示,我们相信在这个想象中的公平模型中选中的学生与仅根据那所学校的数据训练的帕累托最优决策选中的学生是相同的。做出这个假设并不不合理,因为假设数据中的偏见来自不同的评分系统,这使得直接比较不同学校之间的成绩变得困难,但在同一所学校内则不是这样。以下定理表明,平权行动假设直接转化为公平和不公平概率分布之间的关系。结合帕累托最优决策总是对应于阈值决策的观察,该定理断言,如果我们有一个根据公平概率的帕累托最优决策,那么在没有群体内部偏见的情况下,这个决策可以分解为一组帕累托最优决策;每个敏感群体一个。
**定理3.7**
平权行动假设成立当且仅当对于所有a∈A,都有概率1成立,即对于(x,a),(x′,a)∈X×{a},Pf(Y=1|X=x,A=a)≤Pf(Y=1|X=x′,A=a)?Pu(x,a)≤Pu(x′,a)。这个定理的证明可以在A.1节找到。
**示例3.8(第六部分)**
在我们的持续示例中,平权行动假设确实成立,因为以下情况成立:这意味着每个公平最优决策都等同于使用两个不同阈值的决策,每个敏感群体一个。总之,定理意味着只有在平权行动假设不成立并且存在某种群体内部偏见的情况下,重新排名在每个群体内部才有意义。在这种情况下,我们需要在每个群体内部进行更改。然而,当平权行动假设成立且没有群体内部偏见时,除了阈值优化之外,没有实际理由使用任何其他公平性干预措施,因为研究表明,对于人口平等和机会平等等公平性度量,阈值优化总是可以找到最优解[16]。我们将在第5.1节中看到,许多所使用的偏见缓解方法确实会导致每个组内的个体重新排序,尽管它们并没有明确假设任何组内偏见。4 材料与方法 4.1 材料 我们将使用几个在公平机器学习领域常见的真实世界数据集[36]。成人收入数据集包含了从1994年人口普查数据中提取的信息,目标变量是一个人的年收入是否超过50,000美元[2]。Compas数据集包括来自布劳沃德县的被告的人口统计信息和犯罪历史,用于预测被告是否会在两年内再次犯罪[1]。荷兰人口普查数据集代表了2001年荷兰人的聚合群体,可以用来预测一个人的职业是否可以归类为高级(有声望的)或低级职业[48]。法律入学数据集包含了1991年在美国163所法学院进行的法律学院入学委员会(LSAC)调查[52],可以用来预测学生是否能够通过律师资格考试。学生表现数据集描述了两个葡萄牙学校学生的成绩[12]。分类任务是预测他们在数学上的成绩是否高于平均水平。4.2 方法 4.2.1 机器学习模型。我们在每个数据集上训练全连接神经网络,使用二元交叉熵作为损失度量标准。选择神经网络是因为其中一种偏见缓解方法(对抗性去偏见)的实施需要这样做。尽管其他方法对模型是不可知的,但我们为了方法的一致性,选择在所有偏见缓解方法中使用神经网络,以确保最终结果的可比性。为了增强鲁棒性,我们还在第A.4节中报告了使用随机森林作为底层机器学习模型获得的结果,并确认我们的所有发现都是一致的。6 4.2.2 偏见缓解方法。目前存在许多去偏见策略,但我们关注的是AIF360包[3]中提供的方法。对于所有算法,我们使用默认的参数设置。为了增强鲁棒性,我们还在第A.5节中报告了在微调偏见缓解方法后的结果。作为预处理方法,我们使用学习公平表示(LFR)和差异影响消除器(DIR)。LFR[56]的思想是学习一个新的表示Z,该表示去除了与敏感属性相关的信息,但尽可能保留了关于X的其他信息。DIR[18]修改训练数据以减少敏感属性的影响,同时保持组内的排名顺序。我们使用对抗性去偏见(ADV)和元公平分类器(MFC)作为后处理方法。对抗性去偏见[57]结合了一个预测类别标签的分类器和一个预测敏感属性的对手。目标是在最小化对手性能的同时最大化分类器的性能。MFC[7]将公平度量作为输入的一部分,并返回一个针对该公平度量进行优化的分类器。作为后处理方法,我们使用平等机会后处理(EOP)、拒绝选项分类(ROC)和阈值优化(TO)。EOP[24]将解决一个线性程序,以找到改变输出标签的概率,以便优化平等机会,而ROC[31]将翻转模型不自信的预测。7 阈值优化[31]可能是最直接的偏见缓解方法,因为它将分别优化两个组的阈值。8 ROC和TO旨在实施人口统计平等,而EOP默认实施平等机会。4.3 度量标准 4.3.1 性能度量。大多数基准研究比较不同缓解方法的准确性,准确性衡量的是机器学习模型分配的预测标签与真实标签相符的频率[8, 27, 34]。普遍认为,准确性并不总是衡量机器学习模型性能的最佳指标,例如,它不适合处理不平衡的类别分布(在这种情况下,模型可以通过将所有样本预测为多数类别来获得高准确性)[8, 41]。这导致一些研究包括其他度量标准,如F1分数、精确度或召回率[8]。然而,这些性能度量的另一个显著缺点是它们在特定的分类阈值下衡量性能,因为它们使用的是机器学习模型的预测标签而不是预测分数。我们可以通过使用ROC曲线下面积(AUC)来评估预测分数的性能[9]。AUC允许在不同分类器之间进行客观比较,因为它不受阈值选择或类别频率的影响[23]。它衡量机器学习模型的预测分数(因此是排名)区分正面和负面案例的能力。AUC分数的公式为:P(S(xi,ai),其中xi是个体的属性,ai是他们的敏感属性:P(S(xi)>S(xz)|yi=1,yz=0)。这个公式意味着AUC分数等同于分类器将随机选择的正面实例排名高于随机选择的负面实例的概率。Provost等人[43]之前提倡在更广泛的机器学习领域采用AUC作为比较分类器的标准。尽管如此,其在公平机器学习中的整合仍然有限[10]。此外,公平机器学习的特定背景为关注机器学习模型生成的预测分数而不是仅仅关注它们的预测标签提供了额外的理由,这是由于不现实的正面率和所需公平度量的不满足。在这项研究中,我们假设不存在标签偏见,这意味着实际标签准确地代表了预期的预测目标[17, 37, 51]。请注意,如果存在标签偏见,将会影响AUC和准确性度量的有效性,因为这些度量依赖于这些标签进行计算。最后,我们将测量整个群体的PDR(或正面分类率)。如前所述,这对于比较不同的偏见缓解方法非常重要。我们使用Y表示实际目标标签,Y^表示机器学习模型预测的标签。A代表敏感属性,其中a代表受保护组,?a代表特权组。正面决策率(PDR)的公式为:P(Y^=1)。4.3.2 公平度量。存在许多可能的公平度量标准,但我们将报告两个在公平领域常用的度量标准来衡量组间的差异:人口统计平等(或统计平等)指出受保护组和特权组的PDR必须大致相同。统计平等差异衡量这两个组之间的PDR差异。统计平等差异(SPD)的公式为:P(Y^=1|A=a)?P(Y^=1|A=?a)。平等机会要求TPR在组间大致相同。平等机会差异(EOD)的公式为:P(Y^=1|A=a,Y=1)?P(Y^=1|A=?a,Y=1)。这些度量的较大值对应于对其中一个敏感组的更高水平的偏见[27]。4.3.3 排名相关性。我们可以使用Kendall Tau度量来衡量两个排名列表之间的相关性。该度量通过量化它们之间的成对不一致数量来衡量两个列表排序的相似性。Kendall Tau系数(τ)的公式定义为:一致对的数量?不一致对的数量。一致对指的是两个列表的排名顺序相同的观察对,而不一致对指的是两个列表的排名顺序相反的观察对。τ值为1表示两个排名之间完全一致,而值为-1表示完全不一致。接近零的值表明两个组之间的排名顺序几乎没有相关性。5 结果 5.1 偏见缓解策略影响谁?公平机器学习领域的缺乏透明度已在文献中得到承认[21, 45, 50]。其他研究已经具体批评了不同偏见缓解方法效果的不透明性[17, 25, 34]。每种方法的影响是什么,不仅在敏感组之间,而且在每个组内部?我们通过比较部署每种偏见缓解方法后的得分分布与初始机器学习模型的得分分布,提供了不同偏见缓解方法操作动态的透明度。我们在x轴上展示了初始ML模型的预测分数,在y轴上展示了应用各种偏见缓解方法后的分数。此外,我们根据实例与受保护组(用深蓝色表示)或特权组(用浅蓝色表示)的隶属关系对实例进行分类。图表分为四个象限,每个象限都展示了初始ML模型和每种偏见缓解方法对实例的分类为正面或负面。11 我们还包括一条对角线,如果预测分数保持不变,这条对角线将包含所有实例。图1中展示的结果是使用Compas数据集计算的。其他数据集的图表可以在附录中找到(图3、4、5和6),其结果与Compas数据集的结果一致。图1. Compas数据集的得分分布。x轴代表初始ML模型的预测分数,y轴代表应用每种偏见缓解方法后的预测分数。第二象限代表被偏见缓解方法“升级”的实例(最初预测为负面,使用偏见缓解方法后预测为正面),而第四象限代表被偏见缓解方法“降级”的实例(最初预测为正面,使用偏见缓解方法后预测为负面)。对每种偏见缓解方法操作动态的洞察。在图1(a)中,我们观察到初始ML模型的预测分数。默认情况下,机器学习模型使用0.5的分类阈值,将高于此阈值的实例分类为正面,低于此阈值的实例分类为负面。12 在图1(b)–(e)中,我们可以评估初始ML模型的预测分数与应用预处理(LFR和DIR)或后处理(ADV和MFC)偏见缓解方法后的预测分数之间的关系。图1(b)显示LFR显著改变了预测分数,似乎是以随机的方式。LFR后获得正面标签的实例与初始分数排名中的实例明显不同。这表明由于预处理方法,特征空间发生了实质性变化。我们将在表3中评估这如何影响性能和公平度量。如图1(c)、(d)和(e)所示,DIR、ADV和MFC方法也对预测分数以及实例的固有排名进行了显著改变。然而,与使用LFR获得的预测分数相比,改变后的预测分数更为接近。表1. 名称#实例#属性受保护属性受保护组目标属性基础率成人48,84210性别女性高收入23.93%Compas5,2787种族非裔美国人低风险52.16%荷兰人口普查60,42011性别女性高职业52.39%法律入学20,79811种族非白人通过律师资格考试88.97%学生表现64929性别男性数学成绩高53.62%使用的数据集表2. 数据集LFRDIRADVMFCROC-EOP-TO成人0.318 (0.002, 0.034)0.770 (0.726, 0.761)0.729 (0.780,0.812)0.638 (0.640, 0.663)1Compas0.408 (0.153,0.534)0.917 (0.883, 0.960)0.805 (0.926, 0.946)0.909 (0.900, 0.935)1荷兰0.361 (-0.007, 0-0.004)0.992 (0.991, 0.991)0.808 (0.812, 0.913)0.819 (0.850, 0.786)1法律0.570 (0.622, 0.523)0.870 (0.882, 0.858)0.908 (0.896, 0.907)-0.758 (-0.872, -0.737)1学生0.215 (0.248, 0.216)0.890 (0.891, 0.891)0.515 (0.731, 0.678)0.775 (0.843, 0.794)1表显示了机器学习模型产生的初始排名与使用偏见缓解方法后产生的排名之间的相似性,通过Kendall-Tau统计量进行测量。括号内的值分别表示受保护组和特权组的排名相似性。表3. 数据集度量ML模型LFRDIRADVMFCROCEOPTO成人AUC0.8430.6230.850.8470.8260.8430.8430.8430.843AUCpro,AUCpri0.811, 0.8260.501, 0.5080.824, 0.8350.834, 0.8430.789, 0.8160.811, 0.8260.811, 0.8260.811, 0.826ACC0.8060.7660.8250.820.810.7280.770.793SPD-0.26-0.005-0.164-0.09-0.139-0.055-0.046-0.005EOD-0.1390.0-0.181-0.274-0.278-0.332-0.283-0.368PDR0.2470.0050.1740.1610.1780.3930.1510.167CompasAUC0.8340.6930.8330.8080.8320.8340.8340.834AUCpro,AUCpri0.814, 0.8210.588, 0.7030.81, 0.8230.809, 0.8150.812, 0.8210.814, 0.8210.814, 0.8210.814, 0.821ACC0.7580.6450.7530.7370.7360.7320.6830.727SPD-0.376-0.866-0.332-0.064-0.211-0.031-0.070.014EOD-0.13-0.055-0.131-0.231-0.231-0.25-0.262PDR0.5180.490.6170.580.6960.5450.569荷兰AUC0.8870.6570.8870.8870.8870.8870.887AUCpro,AUCpri0.884, 0.8480.499, 0.4980.884, 0.8490.881, 0.8470.884, 0.8480.884, 0.848ACC0.8120.4760.7860.7680.6950.7760.7540.763SPD-0.3180.0-0.432-0.171-0.394-0.066-0.159-0.02EOD-0.026-0.315-0.047-0.073-0.024-0.217-0.243-0.254PDR0.4161.00.5860.3030.3950.450.396法律AUC0.8820.8830.8830.8790.1220.8820.882AUCpro,AUCpri0.848, 0.8640.803, 0.8640.843, 0.8620.146, 0.1420.848, 0.8640.848, 0.864ACC0.9030.8970.9030.9010.220.7720.8790.892SPD-0.197-0.207-0.184-0.1410.494-0.044-0.021-0.002EOD-0.111-0.128-0.122-0.143-0.151-0.104-0.197-0.21PDR0.9540.9670.9610.9650.2890.7110.9610.979学生AUC0.8030.6930.8170.7720.8030.803AUCpro,AUCpri0.819, 0.7880.689, 0.6420.819, 0.8140.757, 0.7790.781, 0.7880.819, 0.7880.819, 0.788ACC0.7590.6260.7590.7030.7380.6970.728SPD-0.104-0.72-0.065-0.5730.0310.076-0.0160.071EOD-0.166-0.063-0.2020.027-0.283-0.217-0.205-0.246PDR0.5850.6970.5740.6620.6770.4920.5950.605五个数据集上偏见缓解策略的结果我们报告了:总体AUC分数,以及受保护组和特权组的AUC分数,准确性(ACC),统计平等差异(SPD),平等机会差异(EOD)和正面决策率(PDR)。最佳值以粗体突出显示。图1还为我们提供了关于各种偏见缓解方法之间根本区别的见解——具体来说,它们是影响预测分数还是仅影响预测标签。与预处理和内处理方法不同,所使用的后处理方法不会改变固有的排名;相反,它们根据初始机器学习模型的预测分数来调整标签。每种方法都实现了独特的标签翻转策略,所有这些策略的目标都是满足特定的公平性指标。例如,ROC(图1(f))针对最不确定的实例进行标签翻转,TO(图1(h))为每个组建立不同的阈值,而EOP(图1(g))确定每个组内应翻转的理想标签数量,并随机执行这些翻转。在ROC和TO的情况下,会确定特定于组的新的阈值(如图1(f)和(h)所示)。关于EOP,标签翻转发生在受保护组中被负分类的个体和特权组中被正分类的个体之间(如图1(g)中的绿色和红色所示)。在这种情况下,初始排名会影响初始标签,但不会影响关于哪些标签要翻转的决策。
我们的研究提供了关于每种偏见缓解方法影响的具体实例的见解,这是对Krco等人[34]工作的回应。以ROC为例:从负分类翻转为正分类的实例,是根据初始机器学习模型最初被分类为负类但具有最高预测分数的实例。我们还在图1中展示了某些方法确实会重新排序,但在下一节中,我们将量化这种重新排序的程度。
分数分布有多相似?除了可视化初始机器学习的预测分数与每种偏见缓解方法后的预测分数之间的关系外,我们还可以使用Kendall-Tau统计量[32]来计算两个排名之间的重叠程度。结果如表2所示。表2表明,LFR产生的排名与初始机器学习模型产生的排名相似度最低。相比之下,DIR的使用在所有数据集中都导致了更高的排名重叠度。ADV和MFC应用时的排名相似度属于中等程度。这些观察结果突显了每种方法对预测分数以及个体排名的影响程度不同。使用后处理方法时,排名与初始模型的排名保持一致,导致排名相似度为1(参见表2),并且AUC也与初始模型保持一致(见表3)。我们的分析显示,在所有数据集中,我们评估的每种预处理和内处理偏见缓解方法都显著修改了预测分数,从而修改了内在排名。
虽然这种修改不一定令人担忧,但评估它们是改善还是恶化了排名以及改善到什么程度是至关重要的。从个体的角度来看,由于随机干预而突然降低权重也不公平。
表2显示了每种偏见缓解方法与机器学习模型预测分数之间的相关性,但我们在图2.5.2中也可视化了偏见缓解方法之间的相关性。
我们可以在表3中展示所有偏见缓解方法在五个数据集上的性能和公平性指标结果。与现有文献一致,我们观察到诸如SPD和EOD之类的公平性指标往往会产生矛盾的结果[33]。很少有同一种方法在两个指标上都取得最佳结果。此外,没有一种方法在其中一个指标上始终优于其他方法。然而,DIR因其出色的AUC性能而脱颖而出,这与它旨在保持组内排名顺序的设计相符[18]。
当我们比较偏见缓解方法时,传统的基准研究通常关注准确性和公平性[8, 56]。然而,仅依赖准确性(在特定阈值下使用预测标签)可能会导致不适当的比较。如前所述,使用预测标签有两个原因不合适:首先,公平性指标尚未得到满足;其次,不同的缓解方法可能导致不同的阳性率。这两个原因都会导致事后进一步修改预测标签,因此在这个阶段进行比较似乎不合理。一种更全面的方法是评估预测分数的性能,或者在修改阈值以解决行业约束和公平性考虑时比较预测标签。
为了解决第一个问题,我们看到在大多数情况下,偏见缓解方法未能满足公平性指标,这一点在文献中得到了证实[8]。特别是,只有后处理策略倾向于在实现优化后的公平性指标方面表现出高成功率,这与预处理和内处理方法形成对比。正如其他基准研究[8]所强调的,我们注意到使用偏见缓解方法甚至可能导致组间差异更大的不公平情况。
关于第二个问题,表3显示不同策略之间存在显著的PDR差异。这种不一致性在现实世界应用中带来了挑战,因为在现实世界中通常期望PDR是固定或合理有限的[35]。例如,在尝试满足某个公平性指标时,从业者可能会考虑在成人收入数据集中使用LFR,尽管这会导致轻微的准确性损失。然而,这种选择导致的PDR意外地低(0.5%),与其他方法相比有显著差异。这种方法几乎将每个实例都预测为负类,从而满足了公平性指标,但在现实中并不现实。同样,对于荷兰数据集,MFC在EOD方面取得了最佳值,但其PDR仅为20.3%,而初始模型的PDR为41.6%。DIR获得了最佳的AUC,但其PDR为58.6%。这展示了使用偏见缓解方法的第二个副作用,即改变了全局选择率。我们认为不应将PDR显著不同的方法视为可比较的情况。在实践中,大多数现实世界应用的PDR相对固定,偏见缓解方法必须相应地进行调整。
通过调整预测模型的分类阈值,可以有效地解决这两个问题。因此,基于它们的预测分数而不是仍然可能变化的预测标签来评估这些缓解方法更有意义。我们建议根据AUC分数来比较这些缓解方法,以评估每个组内个体的排名情况,并根据所选的公平性指标和实际约束事后生成预测标签。不仅需要检查整个群体的整体AUC分数,还需要检查按不同组别分解的AUC分数。某些偏见缓解方法可能对一个组产生最佳排名,但对另一个组则不然。这引发了决策需求:是应该优先考虑整体最佳排名,还是缩小受保护和特权组之间的排名差距?或者,可以考虑部署两个独立的模型以确保每个子组的最佳排名。鉴于这些结果,应该评估AUC的轻微改进是否值得采用不同的模型。此外,请注意,对于成人和荷兰数据集,LFR方法将组内排名降低到了基本上随机的顺序。在任何情况下,部署一种降低每个子组AUC分数的偏见缓解方法似乎都是适得其反的,因为我们希望同时优化性能和公平性。
不幸的是,这在实践中是一个常见的结果,因为许多偏见缓解方法可能在尝试遵守公平性指标时牺牲了子组的AUC分数[41]。
请注意,这种比较的目标不是宣布某种缓解方法的优越性能。为此,需要进行更全面的基准研究,涉及更多的数据集、机器学习模型以及对每种偏见缓解方法的广泛调整。这已经是其他多项基准研究的目标[8, 27, 44]。我们的主要目标是展示偏见缓解方法的一些意外副作用,例如全局选择率的改变以及每个组内的影响,并强调目前基于仍然可能变化的预测标签来比较这些方法的不足之处。
在这项研究中,我们展示了在文献中(没有充分)考虑到的部署偏见缓解方法的两个副作用。首先,偏见缓解方法不仅在组间引入了显著变化,也在组内引入了变化,而这些变化目前尚未被注意到。这种重新排名过程不一定是个问题,但值得更多关注。其次,缓解方法导致全局选择率的改变,从而产生了非常不同的情况。我们认为,目前比较偏见缓解方法的方法是不充分的,因为仅关注预测模型的输出而没有考虑决策系统[46]。
关于第一点,这种重新排名过程一定是坏事吗?我们在表3中注意到,偏见缓解方法可以导致略微更好、更差或大致相同的排名准确性(通过AUC衡量)。如果使用偏见缓解方法后排名有所改善,那么这不是问题,因为该方法将导致更公平的排名。但如果排名准确性明显低于初始机器学习的输出呢?这总是不希望的吗?不一定。直到现在,与大多数公平机器学习文献一致,我们假设我们只希望消除组间的偏见。然而,如果我们假设每个组内也存在偏见(因此平权行动定理不成立),并且这是不希望的,那么使用也能改变每个组内排名的缓解方法是有意义的,即使它们在目标标签方面看起来更差。
如果我们假设没有组内偏见,我们认为对于公平性和准确性优化的双重目标,只有当预处理和内处理缓解方法能够改善子组排名时才应采用它们。如果它们未能做到这一点,我们认为使用原始机器学习模型产生的排名,然后事后应用阈值优化是足够且最佳的,因为它直接解决了公平性措施,而无需不必要的组内重新排名。然而,这种做法并不总是可能的,因为这可能导致基于敏感属性而不同对待两个原本相同的实体,这在某些法律框架下可能是非法的(例如GDPR、平等对待立法)。
此外,我们不能总是假设决策机构能够访问敏感属性,因此能够事后进行这些公平性干预。在这些情况下,使用预处理或内处理偏见缓解方法可能更好,即使它们会恶化这种权衡。
最后,如果排名的性能大致保持不变,但排名本身与初始机器学习的排名显著不同(如表2所示),这种任意性是一个问题吗?对此有不同的意见。关于“预测多样性”[39]或“模型多样性”[6]的文献讨论了存在许多具有相似预测性能但对个体做出略有不同决策的模型的情况,这与我们的情况类似。他们认为应该通过消除导致预测分歧的一些方差来减少多样性[9]。正如我们所见,这个问题并没有简单的答案,我们期待更多关于这个话题的讨论。
7 结论
本文探讨了在公平分类中经常被忽视的偏见缓解方法的一个后果:它们对敏感群体内部个体排名的影响。我们从理论和实证两方面证明了,大多数现有的缓解技术不仅改变了群体之间的平衡,还改变了这些群体内部个体的排序。这种重新排序的过程,在群体内部存在偏见时有时是合理的,但往往具有任意性,并可能损害可解释性和公平性。实施偏见缓解方法的实践者应仔细考虑其选择所带来的影响以及可能出现的非预期的群体内部重新排序。在某些情况下,这种重新排序可能是可取的;然而,在其他情况下,它可能会破坏预期的公平目标。例如,考虑上述大学入学考试,学生来自不同的学校,学校A的通过率明显高于学校B。如果我们希望给每所学校分配相同数量的位置,但使用了一种不保留群体内部排名的偏见缓解方法,那么它将重新排序每所学校内的学生。由于在这种情况下我们不期望存在群体内部偏见,因此这种结果是不合逻辑的。在这种情况下,选择一种既能保证群体层面的公平性又能保持原始群体内部排名的方法更为合适。
7.1 局限性
这使我们处于一个两难境地,这在公平机器学习中很常见。一方面,我们假设我们的标签是正确的,以确保我们的指标的可靠性;另一方面,我们认识到模型可能需要调整以纠正偏见。这对于平等机会来说是合理的,因为目标是确保所有群体都有相同的真正阳性率(TPR),因此需要一个不会使情况变得更糟的分类器。对于人口统计平等来说,问题更为复杂:如果标签是正确的,我们为什么要偏离它们呢?尽管如此,为了符合外部政策或法律要求,可能仍需要进行调整。
我们研究的第二个局限性是它基于能够访问静态敏感属性的假设,在这些假设不成立的情境下会遇到困难。例如,假设敏感属性是静态的忽略了某些属性(如性别)的演变性质,因为人们可能会随着时间改变自己的身份类别。
另一个局限性在于假设可以无限制地访问敏感属性。实际上,法律和伦理考虑可能会对获取或使用某些敏感信息施加限制[22, 25, 30, 49]。例如,隐私法律和法规可能会限制特定属性的收集或使用,进一步复杂化了公平性研究。
7.2 未来研究
正如我们所提到的局限性,我们当前的框架假设敏感属性是固定的,并且可用于模型训练和评估。未来的研究可以探讨这些公平干预措施在动态或潜在敏感属性下的表现。这可能包括开发概率推断群体成员身份的模型、将不确定性估计纳入公平性约束中,或适应属性定义的时间变化。其次,预测多样性与公平性干预措施之间的联系值得进一步探索。了解何时以及为什么多个公平但不同的模型会对个体产生不同的结果,可以帮助我们形成新的公平概念,这些概念明确考虑了个体排名的稳定性。最后,我们强调,找到超越阈值优化的具体解决方案是未来工作的一个重要方向,例如通过开发不具有这种缺点的方法。