《AUTOMATION IN CONSTRUCTION》:Semantic scene graph-driven indoor image localization in BIM using synthetic views
编辑推荐:
自动室内图像定位框架结合BIM映射、场景图检索与多级特征整合,有效解决真实图像与BIM模型的空间关联问题,平均平移误差1.94米,旋转误差34.01度。
许伟毅|黎泰华|熊冠勇|张居志|林祖阳|张廷伟|林雅各布·J.|谢尚贤
宾夕法尼亚州立大学建筑工程系,美国宾夕法尼亚州州学院大学公园White Course Dr 556号,邮编16802
摘要
在建筑信息模型(BIM)环境中准确定位室内检查图像对于有效的设施管理和检查文档记录至关重要。然而,由于现场照片缺乏空间信息以及将真实图像直接与BIM几何结构和语义关联的难度,这项任务仍然具有挑战性。为了解决这些挑战,本文提出了一个自动化的室内图像定位框架,包括三个阶段:BIM映射、粗略定位和精细定位。该框架通过使用场景图表示和分层定位过程将真实检查图像与BIM关联起来。在BIM映射阶段,生成合成数据、线框抽象和场景图以捕捉室内空间的几何和语义结构。粗略定位选择与场景图最相似的BIM渲染视图。然后,精细定位通过基于区域的搜索和几何对齐来精确定位相机姿态。在研究建筑中进行的实验表明,所提出的方法在不同空间内提供了可靠的室内定位。该方法的平均平移误差为1.94米,平均旋转误差为34.01度。
引言
设施管理需要准确的空间信息来有效支持建筑物内的检查、维护和安全操作。然而,在按计划设计的建筑信息模型(BIM)环境中实现真实图像的可靠定位是困难的[1]。建筑布局经常随时间变化,资产记录变得过时,文档分散在图纸、BIM模型、纸质日志和工人经验中。这些不一致性导致现场任务效率低下,增加了劳动力需求,并使长期规划和运营决策复杂化。因此,在现场观察和BIM之间建立直接联系变得越来越重要。在可用的传感方式中,每天在现场捕获的图像是一种成本效益高且易于获取的视觉信息来源[2]。特别是,一个关键技术障碍是在室内BIM环境中可靠地定位检查图像。这些检查图像通常是在不同的视角、光照条件和部分遮挡情况下捕获的,这进一步复杂化了图像到BIM的配准。当这些图像能够相对于BIM准确定位时,它们为记录室内条件、验证检查和维护活动提供了即时的空间上下文。因此,图像定位为在设施管理过程中更新和利用BIM提供了一种实用机制,而无需专门的硬件或高成本的测量工作流程。
尽管有这些进展,但由于数据访问受限和缺乏精确的位置信息,手动室内检查仍然难以管理。在当前实践中,检查信息通常分散在多个来源中,如果没有适当的BIM集成,检查人员很难获取相关的资产数据[3],[4]。此外,记录现场条件的过程通常耗时且容易出错,因为观察结果必须手动记录,然后与建筑元素进行匹配。另一个限制是检查图像中缺乏位置元数据[5]。大多数检查期间捕获的图像不包含精确的空间坐标。因此,这些图像无法可靠地与特定的BIM对象或属性关联,这限制了它们在后续活动中的实用性。这种图像证据与基于BIM的信息之间的脱节最终降低了设施管理工作流程的效率和可靠性。尽管检查人员可以手动记录位置或依赖通用的定位技术,但获取可靠的室内坐标仍然具有挑战性。基于全球导航卫星系统(GNSS)的系统,如全球定位系统(GPS),由于信号阻挡和多路径效应,在建筑物内部是不可靠或不可用的。替代的室内定位解决方案通常需要密集的基础设施部署或校准工作,这限制了它们在设施管理实践中的可扩展性。相比之下,在BIM环境中进行定位提供了一种将捕获的图像与数字建筑模型直接关联的手段。这些挑战激发了基于视觉的图像到BIM定位方法的需求。
关于建筑和设施管理环境中的室内图像定位的研究可以分为几个主要领域。基于深度学习的姿态回归方法,如PoseNet及其变体,尝试直接从输入图像中推断相机的6自由度(DoF)姿态,通常使用BIM渲染的视图进行训练[6],[7]。基于检索的方法生成大量的工作现场视图数据库,并识别与真实图像最接近的BIM渲染对应物,通常随后进行几何对齐[8],[9]。传统的基于特征的流程检测并匹配真实图像和BIM派生图像或3D几何之间的关键点,应用PnP和RANSAC进行精细的姿态估计[10],[11]。混合策略整合了这些组件或加入额外的线索,如SLAM轨迹、语义信息或深度和LiDAR等传感器,以提高在杂乱室内环境中的鲁棒性[12],[13]。然而,这些方法受到合成到真实域差距和场景动态的限制。此外,许多方法依赖于多个传感器和BIM渲染,这可能导致在大型和复杂的室内设施中的精度挑战。
除了上述方法外,基于场景图的方法最近在室内定位方面引起了兴趣。场景图表示了墙壁、门、地板和结构元素等关键建筑组件之间的空间和语义关系,形成了室内环境的高级抽象。这种表示对纹理、照明和家具布置的变化具有鲁棒性,非常适合真实图像和BIM之间的跨域对齐。通过关注关系结构而不是原始外观,场景图方法减轻了遮挡和视觉杂乱的影响,在高度重复的室内空间中提供了更独特的线索。此外,场景图的结构化特性使得检索更快,匹配结果更具可解释性,为可扩展和可靠的室内定位提供了有希望的方向[14]。
本研究旨在开发一个基于BIM的自动化室内检查图像定位框架,以增强数据检索、空间索引和设施管理工作流程中的长期归档。这项工作主要针对建设后的设施检查场景,其中室内环境相对稳定。所提出的框架侧重于准确的图像到BIM的配准,以支持检查数据管理,而不是细粒度的缺陷检测。特别是,该框架通过自动将检查照片与其在BIM模型中的精确空间上下文关联起来,促进了广泛的检查活动,包括但不限于损坏检测、状况评估和合规性验证。因此,常规检查数据可以从非结构化的图像集合转换为支持维护计划、故障诊断和生命周期文档的空间索引信息。我们的方法使检查人员能够快速确定观察到的问题的位置,访问特定位置的历史信息,并在现场条件和设计模型之间进行直接比较。这种能力减少了手动位置注释的需求,降低了空间歧义,并提高了检查报告和后续维护决策的效率和可靠性。在我们的框架中,整合了几个组件来解决当前室内定位方法的局限性。首先,设计了一个BIM映射系统,以提取检查路线上的基本几何和语义信息,创建了一个支持高效定位的结构化表示。为了解决真实图像和合成图像之间的领域差距,该框架结合了低级空间线索(如点、边缘和线结构)与高级语义对象(如墙壁、门、窗户和其他结构元素)的跨领域特征集成策略。这种多层次表示使系统能够在虚拟BIM渲染视图和真实检查图像之间一致地解释视觉场景。此外,初始定位是通过场景图检索模块实现的,该模块构建了合成图像和真实图像中结构组件的基于图的表示,然后根据图相似性检索最接近的BIM渲染视图。这一步有效地限制了搜索空间,并减少了在重复性室内环境中常见的歧义。最后,使用计算机视觉技术进行精确的相机姿态估计,将真实图像和检索到的BIM参考之间的特征对齐,从而准确计算设施管理应用所需的6自由度定位。这些组件共同构成了一个连贯的流程,加强了检查图像和BIM数据之间的联系,最终提高了室内检查过程的效率、可靠性和可扩展性。
本文的组织结构如下:第2节回顾了图像定位的文献,为我们的研究和研究空白提供了背景。第3节概述了我们提出的方法论,特别是从粗略到精细的图像定位过程。第4节介绍了在台北的一栋建筑中进行的实验及其结果。接下来,第5节讨论了结果,并与我们进行的另一项类似研究进行了比较。最后,第6节总结了研究并概述了我们的未来工作。
章节片段
相关工作
本节概述了与基于BIM视图的室内视觉定位相关的关键发展。它从传统的基于BIM的图像定位方法开始,然后探讨了基于图表示(如场景图)的集成,并最终重点介绍了使用合成图像训练定位模型的方法。
方法论
我们提出的室内图像定位框架包括三个连续的模块:BIM映射、粗略定位和精细定位(图1)。与依赖基础设施的定位解决方案不同,所提出的方法直接从检查图像和BIM数据估计相机姿态,消除了对额外跟踪硬件或手动位置记录的需求。在框架中,支持图像生成和空间参考的BIM映射过程被处理
实验和结果
本节介绍了所提出的定位框架的实验设置和评估结果。我们首先描述了测试环境、数据采集协议以及合成数据库和真实图像数据集的构建。然后,我们报告了该框架在粗略和精细定位方面的性能,以评估其在室内检查场景中的实际适用性。
讨论
本节讨论了所提出的基于场景图的定位框架的性能,并检查了其在不同室内环境中的局限性。我们首先解释了检索和定位结果,以说明所提出方法表现良好的地方以及其脆弱的地方。然后,我们将所提出的方法与基于CNN的基线方法进行比较,以突出显式建模结构和拓扑信息对于图像到BIM定位的优势。
结论
本文提出了一种用于设施管理中室内检查的自动化图像到BIM的定位方法。该框架包括用于数据库准备的BIM映射和用于估计捕获图像相机姿态的从粗略到精细的定位方法。在这个流程中,首先在模拟环境中生成合成数据。然后从BIM渲染的视图中构建场景图表示。这些图表示了
CRediT作者贡献声明
许伟毅:写作 – 审稿与编辑,撰写 – 原始草稿,可视化,验证,软件,方法论,调查,形式分析,数据管理。黎泰华:写作 – 审稿与编辑,撰写 – 原始草稿,可视化,验证,软件,项目管理,方法论,调查,形式分析,数据管理。熊冠勇:写作 – 审稿与编辑,可视化,软件,方法论,调查,形式分析。张居志:可视化,
利益冲突声明
作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。
致谢
作者衷心感谢Delta Electronics Inc.(台湾)(授权号:113HT907005)、台湾国家科学技术委员会(NSTC)(授权号:112-2221-E-002-127-MY3和114-2628-E-002-023)对本研究的财政支持。