提升可信人工智能中对抗性和大型语言模型（LLM）的鲁棒性：一项全面调查

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ARTIFICIAL INTELLIGENCE REVIEW》：Advancing adversarial and LLM robustness in trustworthy AI: a comprehensive survey

【字体：大中小】 时间：2026年04月08日 来源：ARTIFICIAL INTELLIGENCE REVIEW 13.9

编辑推荐：

　　摘要尽管近年来各个领域都取得了显著进展，但人工智能（AI）模型依然表现出强大的性能和广泛的应用潜力。然而，在实际应用中，它们在安全性和鲁棒性方面仍面临诸多挑战。其中，鲁棒性是一个关键因素，导致人们认为AI

摘要

尽管近年来各个领域都取得了显著进展，但人工智能（AI）模型依然表现出强大的性能和广泛的应用潜力。然而，在实际应用中，它们在安全性和鲁棒性方面仍面临诸多挑战。其中，鲁棒性是一个关键因素，导致人们认为AI模型不可信赖，并成为其广泛采用的主要障碍。此外，大多数当前的AI模型采用黑盒结构，缺乏足够的可解释性，这使得研究人员难以理解其决策机制。这种“不可见”的特性不仅限制了预测模型行为的能力，还增加了模型在复杂和未知环境中的不稳定性。在本文中，我们从多个角度系统地回顾了AI模型鲁棒性的评估方法和增强策略：（1）我们指出了当前AI模型鲁棒性方面的主要问题和技术挑战；（2）我们探讨了可信AI的核心概念之间的联系和区别；（3）我们从鲁棒性评估指标和方法的角度总结了近年来鲁棒性评估的发展；（4）我们研究了AI模型生命周期不同阶段（数据预处理、训练、模型架构设计和后处理）的鲁棒性增强方法；（5）我们重点关注生成式大型语言模型（LLMs）面临的幻觉等鲁棒性问题，总结了当前的研究进展和缓解策略；（6）最后，我们讨论了AI模型鲁棒性领域中的开放性问题及未来研究方向。

联系信箱：

粤ICP备09063491号

摘要

热点排行