
-
生物通官微
陪你抓住生命科技
跳动的脉搏
从基准测试到实际部署:对代理式人工智能评估的全面综述
《ARTIFICIAL INTELLIGENCE REVIEW》:From benchmarks to deployment: a comprehensive review of agentic AI evaluation
【字体: 大 中 小 】 时间:2026年04月26日 来源:ARTIFICIAL INTELLIGENCE REVIEW 13.9
编辑推荐:
代理式AI评估体系存在核心缺陷,15个主流基准测试均未纳入安全/成本维度,过度依赖任务通过率(13/15仅用二进制指标)。需构建涵盖规划合理性、资源效率、安全合规等多维度的评估框架。
本综述系统地探讨了具有自主性的人工智能(AI)系统的评估方法。这类AI系统能够进行多步骤规划、使用工具,并在不同领域与环境进行交互。当前的评估实践存在一个关键问题:即基准测试成绩与实际部署可行性之间存在严重脱节。那些在标准化基准测试中取得高分的AI系统,在现实世界应用中常常失败,这是因为评估方法存在根本性缺陷,这些方法更注重任务完成度,而忽视了成本效率、安全合规性、可维护性和工作流程集成等关键部署因素。我们重点分析了15个主要的AI系统评估基准,包括AgentBench、WebArena、SWE-bench、PaperBench、MLGym、BrowserGym、HumanEval、MBPP、GAIA、ToolBench、Terminal-Bench、Mind2Web、ALFWorld、BabyAI和HotPotQA,研究了它们的评估方法、评估指标、数据集以及应用领域,其中软件开发被作为主要案例进行研究。分析结果表明,评估方法而非模型能力才是限制AI系统可靠部署的主要瓶颈。我们发现,通过测试的评估指标往往忽略了代码质量、安全漏洞和集成复杂性;而二元成功指标则掩盖了规划的一致性、资源利用效率以及安全违规问题(仅有0个基准测试将安全性或安全因素纳入评分标准)。本文提出了一个跨领域的分类体系,揭示了评估方法的不足之处,介绍了关注成本可重复性和有效性权衡的评估框架,系统地指出了评估指标的缺陷(例如缺乏对安全性和成本因素的考量),并综合了新兴的评估范式及其面临的采用障碍。从定量数据来看,0个基准测试将安全性或安全因素纳入评分标准;0个基准测试在其主要评估协议中包含成本效率指标;13个基准测试仅依赖二元成功指标进行评估。这证实了评估方法,而非模型能力,才是影响AI系统可靠部署的关键因素。迈向值得信赖的自主AI系统的进展,从根本上依赖于评估基础设施的改进,需要从基于二元指标的评估方式转向能够全面捕捉这些关键部署因素的多维度评估框架。
本综述系统地探讨了具有自主性的人工智能(AI)系统的评估方法。这类AI系统能够进行多步骤规划、使用工具,并在不同领域与环境进行交互。当前的评估实践存在一个关键问题:即基准测试成绩与实际部署可行性之间存在严重脱节。那些在标准化基准测试中取得高分的AI系统,在现实世界应用中常常失败,这是因为评估方法存在根本性缺陷,这些方法更注重任务完成度,而忽视了成本效率、安全合规性、可维护性和工作流程集成等关键部署因素。我们重点分析了15个主要的AI系统评估基准,包括AgentBench、WebArena、SWE-bench、PaperBench、MLGym、BrowserGym、HumanEval、MBPP、GAIA、ToolBench、Terminal-Bench、Mind2Web、ALFWorld、BabyAI和HotPotQA,研究了它们的评估方法、评估指标、数据集以及应用领域,其中软件开发被作为主要案例进行研究。分析结果表明,评估方法而非模型能力才是限制AI系统可靠部署的主要瓶颈。我们发现,通过测试的评估指标往往忽略了代码质量、安全漏洞和集成复杂性;而二元成功指标则掩盖了规划的一致性、资源利用效率以及安全违规问题(仅有0个基准测试将安全性或安全因素纳入评分标准)。本文提出了一个跨领域的分类体系,揭示了评估方法的不足之处,介绍了关注成本可重复性和有效性权衡的评估框架,系统地指出了评估指标的缺陷(例如缺乏对安全性和成本因素的考量),并综合了新兴的评估范式及其面临的采用障碍。从定量数据来看,0个基准测试将安全性或安全因素纳入评分标准;0个基准测试在其主要评估协议中包含成本效率指标;13个基准测试仅依赖二元成功指标进行评估。这证实了评估方法,而非模型能力,才是影响AI系统可靠部署的关键因素。迈向值得信赖的自主AI系统的进展,从根本上依赖于评估基础设施的改进,需要从基于二元指标的评估方式转向能够全面捕捉这些关键部署因素的多维度评估框架。