单智能体强化学习（RL）方法在动态环境中的路径规划与平面图设计应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ADVANCED ENGINEERING INFORMATICS》：Single-Agent RL approach for path planning and floor plan design in dynamic environments

【字体：大中小】 时间：2026年03月28日 来源：ADVANCED ENGINEERING INFORMATICS 9.9

编辑推荐：

　　传统建筑疏散设计依赖静态分析，存在修改成本高的问题。本研究提出基于强化学习的动态环境建模方法，通过代理人在训练过程中自主调整门的位置，形成导航策略与建筑设计的反馈循环。实验表明代理可收敛于符合消防原则的走廊主导疏散路径，且轨迹特征与人类及算法路径规划一致。

伊莎贝尔·菲特考（Isabelle Fitkau）| 蒂莫·哈特曼（Timo Hartmann）

德国柏林工业大学（Technische Universit?t Berlin）土木系统工程系

摘要

传统的建筑设计流程在规划紧急逃生路径时依赖于静态分析方法，当安全要求与空间布局发生冲突时，这些方法需要通过迭代修改来适应。本研究探讨了一种强化学习（RL）方法，其中智能体在训练过程中通过调整门的位置来动态修改建筑环境，从而制定逃生路径策略。使用近端策略优化（Proximal Policy Optimization）实现的原型系统在一个多房间场景中测试了这种智能体驱动的环境设计能力。智能体学会了从不同起始位置导航至出口，并在导航过程中放置门，从而在导航策略与建筑设计之间建立了反馈循环。实验结果表明，强化学习智能体最终形成了以走廊为中心的导航策略，这种策略符合消防安全原则。轨迹分析显示，智能体学会了优先选择直线路径以最小化疏散时间。这些特性与人类的疏散策略和算法路径查找方法相符。这项工作为将强化学习与基于性能的建筑设计工具相结合奠定了基础，为在紧急规划、合规性评估以及偏差分析等领域应用自适应路径查找策略提供了可能性。

引言

建筑设计过程需要在创意和功能要求与安全考虑之间取得平衡，尤其是在可能直接影响人员生存的紧急情况下。传统的设计流程依赖于合规性检查和静态分析方法[1]、[2]，这些方法在预定条件下评估建筑性能。然而，当安全要求与空间布局冲突时，这些方法通常需要通过迭代修改来调整。人工智能在建筑设计中的应用为通过计算学习方法来指导设计决策提供了机会。其中一些方法使算法能够发现人类设计师可能不会直观考虑的空间配置。机器学习与建筑设计的结合有潜力创造出能够同时满足多种目标（如导航效率、安全合规性和空间功能性）的自适应设计工具，尤其是在紧急规划场景中。

传统的静态方法无法适应动态变化或考虑学习到的行为模式。传统方法使用A*搜索算法和Dijkstra算法等算法技术在固定平面图中计算最优路径[3]、[4]，以确保符合最大逃生路径长度等安全标准[5]。然而，这些方法仅适用于固定、稳定的环境。

鉴于这些局限性，基于智能体的建模方法开始考虑人类行为因素。这些方法利用认知智能体、社会力模型或元胞自动机模拟来反映真实的疏散场景中的占用动态和移动模式，从而更细致地描述了紧急情况下的行人行为[6]。然而，现有的基于智能体的方法仍然局限于预定义的环境配置中，限制了它们研究空间变化如何提高逃生路线效率和安全性。

在基于智能体的建模基础上，强化学习（RL）在疏散场景中的应用表明，智能体能够通过与环境的互动学习导航策略[7]、[8]、[9]。实现方式包括基于网格的时间差分学习（grid-based temporal difference learning）和分层路径规划（hierarchical path planning）[10]、[11]，采用了多种状态空间表示方法，如精细的网格模型、粗略的网格模型和连续坐标系统。尽管在模拟复杂人群动态和个体行为因素方面取得了进展[12]、[13]，当前的RL方法通常仍侧重于在静态环境中优化运动策略，以及智能体之间的相互作用和与环境的互动。这仍然存在固定建筑布局的根本限制。

现有方法的局限性凸显了一个研究空白：在强化学习领域，关于智能体在训练过程中根据自身行为和学习进度修改环境设计的动态环境建模概念，在建筑路径查找研究中的探索还不够充分。虽然在其他领域（如程序化内容生成和有移动障碍的场景）已经存在针对动态环境的目标，但基于强化学习积累的导航知识来修改环境的应用为弥合紧急规划目标和建筑设计之间的差距提供了机会。当智能体在平面图中导航时，它不可避免地会从一个房间移动到另一个房间，这就需要门等通道。门的布置会影响逃生路径的规划，因为最大逃生距离通常是从房间中最远点到最近出口的距离来测量的，因此门的布置是这种合规性检查计算中的一个重要因素。与结构修改相比，门的定位相对灵活，通常是单一设计者的决策结果。作为离散的设计元素，门可以作为动态环境建模的初始示例，进而扩展到更复杂的建筑修改中。

如果智能体本身能够设置这些或其他设计特征，那么更新应该能够动态进行，使智能体能够立即了解到设计变化对其导航行为的影响。这种基于智能体的环境变化可以实现更快地适应特定结果。例如，导航路径可以通过试错来学习，而不是遵循固定和确定性的路径，这有助于解决非人类行为的问题。此外，在动态环境中，已知瓶颈可以更快地得到解决，因为在进行更改和进一步训练之前无需重置模拟。

本研究探讨了强化学习智能体是否能够在没有预先计算好的算法路径的情况下，通过门的布置来制定逃生路径策略并影响动态环境设计。本研究将“动态环境”定义为一种能够在运行时实现和显示精确、特定组件变化的模拟环境。这并不涉及平面图的灵活整体空间规划。智能体在训练过程中根据学到的路径查找行为修改平面图中的特定组件，例如放置门以实现最佳疏散效果，并在导航策略与建筑设计之间建立反馈循环。这种方法探讨了强化学习智能体是否能够制定有效策略，并为紧急措施和建筑设计过程提供了见解。用于研究提出的用例中行为演变的实验性原型方法应与当前研究阶段的不同路径规划方法的比较研究严格分开。

第2节将回顾现有的研究。第3节将解释本研究中使用的强化学习方法。第4节将描述实验中使用的原型环境的最重要特征。第5节将展示实验结果。第6节将讨论结果、环境结构及其局限性，第7节将总结研究结果并提出未来研究方向。

章节摘录

建筑空间中的逃生路径查找

逃生路径主要出于消防安全考虑在平面图中规划。房间、门、走廊和楼梯间的位置对于确定这些路径的可行性和功能性至关重要。墙壁和门等组件的具体消防安全要求（如防火性能和可燃性）在减少走廊的可燃性方面也起着决定性作用[14]。在传统的路径查找方法中

研究空白与贡献

本研究使智能体能够根据训练过程中积累的知识独立修改环境。智能体在改变初始环境模型时仅依据其学习到的行为，而不是生成新内容或添加新元素。这些环境修改是在训练过程中的实时进行的，而不是在重置或转换期间进行的。智能体完全根据其学习经验和自身行为作出反应，而不是受外部因素的影响

研究方法

本研究采用强化学习框架，首先确定一个具体的学习任务，然后围绕三个核心组件构建解决方案：智能体（Agent）、环境（Environment）和训练配置（Training Configuration）（图1）。智能体从环境中接收观察结果，并执行移动和选择性环境修改动作。环境包括空间布局、障碍物放置和状态表示，并根据智能体的表现提供奖励信号

第1阶段和第2阶段的结果

4比较了不同环境类型的 episode 长度，图5比较了1000次训练迭代中两种环境的智能体回报情况。Env1共完成了118,356个episode，Env2共完成了111,969个episode，两者总共使用了12,001,280步。由于总步数是固定的，因此episode 较短的环境可以在相同的步数预算内完成更多episode。额外的1280步（12,001,280 – 12,000,000）代表了完成最后一批episode所需的步数

讨论

结果表明，强化学习智能体可以通过放置动态门来学习调整逃生路径策略。无论是在无障碍环境（Env1）还是有障碍环境（Env2）中，智能体都形成了一致的策略。智能体最终形成了以走廊为中心的导航策略，这种策略符合消防安全原则。在每种环境类型中，智能体都发展出了优先选择直线的路径查找行为

结论

本研究表明，使用强化学习时，智能体在动态修改建筑环境（如放置门）的同时能够制定逃生路径策略。使用不同训练配置的原型实现表明，智能体可以发展出以走廊为中心的导航行为，这种行为符合消防安全原则。精心设计的奖励函数在早期训练阶段至关重要。测试结果证实，智能体能够找到合适的空间布局

关于写作过程中生成式AI和AI辅助技术的声明

在准备本论文的过程中，作者使用了工具来调试代码并提高写作清晰度。使用该工具/服务后，作者根据需要对内容进行了审查和编辑，并对出版物的内容负全责。

CRediT作者贡献声明

伊莎贝尔·菲特考（Isabelle Fitkau）：写作 – 审稿与编辑、初稿撰写、可视化、验证、软件开发、方法论设计、概念化。蒂莫·哈特曼（Timo Hartmann）：写作 – 审稿与编辑、监督。

利益冲突声明

作者声明没有已知的财务利益冲突或个人关系可能影响本文的研究结果。

致谢

本研究是作者在柏林工业大学（TU Berlin）博士论文的一部分。

联系信箱：

粤ICP备09063491号

摘要

引言