将人类反欺诈机制映射到多智能体人工智能系统中

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Knowledge-Based Systems》：Mapping Human Anti-collusion Mechanisms to Multi-agent AI Systems

【字体：大中小】 时间：2026年04月27日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　多智能体AI系统可能形成合谋策略，需借鉴人类反合谋机制（制裁、举报、监控等）设计干预措施，并解决归属、身份流动性、边界区分及对抗适应等挑战。

Jamiu Idowu|Ahmed Almasoud|Ayman Alfahid

摘要

随着多智能体AI系统变得越来越自主，有证据表明它们可能会发展出类似于在人类市场和机构中长期观察到的共谋策略。尽管人类领域已经积累了几个世纪的反共谋机制，但这些机制如何适应AI环境仍不清楚。本文通过以下方式解决了这一空白：(i) 制定了人类反共谋机制的分类法，包括制裁、宽大处理和举报、监控和审计、市场设计以及治理；(ii) 将这些机制与多智能体AI系统的潜在干预措施相对应。对于每种机制，我们都提出了实施方法。我们还强调了面临的开放性挑战，例如归因问题（难以将出现的协调行为归因于特定智能体）、身份流动性（智能体容易被分叉或修改）、边界问题（区分有益的合作与有害的共谋）以及对抗性适应（智能体学会逃避检测）。

引言

共谋，即不希望出现的合作行为，在人类机构中一直是一个持续存在的问题。在市场和受监管的行业中，公司或个人有时会合谋操纵价格、串通投标或划分市场，以牺牲竞争和消费者的利益来最大化利润。这种共谋通常是非法的，并可能破坏市场诚信和公众信任。随着多智能体AI系统的普及，人们越来越担心AI智能体也可能在竞争环境中学会共谋[46,54,74]。这引发了一个关键问题：我们能否利用人类领域中来之不易的反共谋策略来防止或减轻AI智能体之间的共谋？事实上，最近的研究强调了跨领域洞察的重要性。Hammond等人[11]认为，通过借鉴其他领域的见解，并从高风险环境（如金融市场）中监管多智能体系统的现有努力中吸取教训，可以在应对多智能体AI风险方面取得更大的进展。

共谋通常被定义为多个参与者协同偏离既定规则或规范的行为，目的是为了获得优势而牺牲他人[4]。在重复博弈模型中，在某些条件下，当一组相对较少的参与者反复互动并能够观察到彼此的行为时，共谋会成为一种均衡状态[1]。其次，共谋涉及高风险和明确的共同收益[6]。第三，进入壁垒较高；例如，在公共采购或专业许可中，限制性的资格规则和不透明的流程可能使一小部分内部人士占据主导地位并协调结果[3,5]。第四，稳定的共谋需要强有力的内部监控（以发现作弊行为）和可信的惩罚机制。同时，当外部监控（如监管机构、审计员、媒体）较弱或分散时，共谋行为更容易发生[14]。共谋可能是显性的——例如，秘密会议、书面协议或各方之间的沟通——也可能是隐性的，即企业通过观察和匹配彼此的行动进行非正式合作，而无需直接沟通[13]。

在合作AI中，Hammond等人[11]将共谋归类为多智能体AI系统的核心故障模式之一，与协调失误和冲突并列。在这种背景下，多智能体AI系统是一个环境，其中两个或多个自主AI智能体相互作用——可能拥有私有信息、独立/共享的目标，并且能够随时间进行适应。为了评估这些系统，有必要根据与全局系统目标的一致性来区分有害的共谋和良性或任务所需的合作。任务所需的合作（或良性协调）发生在智能体协调其行动以最大化全局目标函数或社会福利时（例如，自动驾驶车辆在交叉路口协调以减少整体交通延迟）。在这种情况下，智能体的联合效用与系统设计者的目标一致。相反，有害的共谋发生在一部分智能体协调以最大化他们的局部、私有目标函数时，这会严重降低全球社会福利或违反明确定义的市场规则和约束。共谋本质上是一种对抗性的合作形式，其中受害者是更广泛的系统、消费者或不一致的智能体。在当前文献中，至少提出了两种形式的AI系统中的共谋：市场层面的算法共谋（例如，Calvano等人[2]模拟了在标准寡头定价游戏中竞争的独立Q学习智能体，发现它们在没有明确沟通或直接共谋编码的情况下系统地学会了收取高于竞争水平的价格）和隐写术（例如，最近的研究表明，大型语言模型智能体可以在自然语言中隐藏和交换秘密，使得监督者无法检测到隐藏的信息[12]。

将这些理论问题转化为实际应用时，会发现一个实际复杂性：难以区分可疑的市场模式是由人类参与者、AI智能体还是两者的混合体产生的。在许多实际市场中，包括金融交易所、在线零售和物流领域，人类决策者和算法智能体同时运作。因此，观察到的市场异常可能反映了纯粹的人类协调、纯粹的算法共谋，或者是两者的混合。这种模糊性具有重要的政策意义：仅围绕假设的AI智能体存在而设计的干预措施可能在范围上过于狭窄，在实践中也容易失效。因此，与其从头开始发明特定的AI规则，不如适应已经在人类市场中运用的广泛且经过验证的反共谋机制。

然而，尽管使用这些人类机制的必要性显而易见，但我们仍然缺乏系统性的理解，即如何将它们适应到AI中。本文通过提供人类领域中使用的反共谋机制的分类法，并将这些机制映射到多智能体AI系统的干预措施中，解决了这一空白。图1提供了这种映射的概览，并强调了每种机制的关键实施方法和面临的开放性挑战。

我们将多智能体AI中的反共谋问题定义如下：

•

环境： 由一组规则管理的共享交互空间

R

（例如，定价市场、采购平台或任务分配系统），其中有一个主体（平台运营商），其目标是执行

R

。

•

智能体： 一组

A

自主智能体，每个智能体都有私有的决策策略、观察历史和个人目标。智能体可以是强化学习智能体、基于LLM的智能体或两者的混合体。当智能体随时间适应或学习时，它们的目标是根据整个行为轨迹来评估的，而不仅仅是孤立的动作。

•

协调渠道： 通信或观察空间。智能体可以通过显式渠道（共享内存、直接消息传递）或隐式渠道（可观察的行为、时机、定价轨迹）进行互动。隐写术渠道，即嵌入在其他合法输出中的隐藏信号，构成一种特殊情况[12]。

•

共谋结果： 如果两个或多个智能体的子集

K ? A

采取的协调策略满足两个条件，则该结果被视为共谋。

○
首先，它增加了共谋智能体的预期效用，使得子集中的任何个体都不会变得更糟，并且至少有一个个体的情况比竞争基线更好。
○
其次，这种行为不被主体所期望，意味着它违反了 $R$ 或降低了全球福利（例如，高于竞争水平的定价、投标轮换）。

•

干预机制： 主体可用的机制，用于重塑环境（例如，改变激励措施、限制协调渠道或改变人口构成），使得共谋策略不再是在明确定义的均衡概念（如纳什均衡或相关均衡）下的稳定均衡，或者不再为涉及的智能体所利用。

核心挑战在于设计这样的机制，使得共谋要么与激励不相容（意味着没有一组智能体同时具备共谋的能力和动机），要么能够可靠地检测到（意味着任何共谋策略都能以高概率在大规模上被识别），同时不会降低合法的任务所需合作性能。

章节摘录

人类领域中的反共谋机制分类

我们将人类反共谋措施分为五个核心类别，涵盖共谋的整个生命周期：防止其形成、检测其存在以及惩罚参与者。表1总结了这一分类法以及实践中使用的代表性工具。

将人类机制映射到多智能体AI

为了总结从人类领域到多智能体的映射，表2提供了五种反共谋机制、核心目标、实施方法、预期收益和限制的比较综合。

贡献总结

本文通过系统地将人类反共谋机制映射到AI系统的干预措施，解决了多智能体AI安全中的一个关键空白。首先，我们制定了人类领域中使用的五种核心反共谋机制的分类法：制裁（减少共谋收益的惩罚）、宽大处理和举报（从内部破坏卡特尔的机制）、监控和审计（持续观察和法务检查）、市场设计和结构措施（事前

作者贡献声明

Jamiu A. Idowu：概念化、调查、方法论、写作、审阅和编辑。Ahmed Almasoud：方法论、写作和审阅。Ayman Alfahid：方法论、写作和审阅。

写作过程中生成式AI和AI辅助技术的声明

在准备这项工作时，作者使用了Gemini来提高作品的可读性和语言表达。使用该工具后，作者根据需要审查和编辑了内容，并对出版物的内容负全责。

CRediT作者贡献声明

Jamiu Idowu：写作——审阅与编辑、写作——初稿、方法论、调查、概念化。Ahmed Almasoud：写作——审阅与编辑、写作——初稿、方法论。Ayman Alfahid：写作——审阅与编辑、写作——初稿、方法论。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

作者感谢Sahel AI和Prince Sultan大学的支持。

联系信箱：

粤ICP备09063491号

摘要

引言