《Alexandria Engineering Journal》:Constrained Topology Diffusion Transformer for urban architectural landscape layout generation
编辑推荐:
城市建筑景观布局的智能生成对于高效且符合约束的城市规划至关重要。传统的基于生成对抗网络(GAN)的模型存在训练不稳定和模式崩溃(mode collapse)的问题,而现有的扩散变换器(DiT)模型缺乏充分的规划约束集成和拓扑监督,导致生成的布局难以在实际中应用
城市建筑景观布局的智能生成对于高效且符合约束的城市规划至关重要。传统的基于生成对抗网络(GAN)的模型存在训练不稳定和模式崩溃(mode collapse)的问题,而现有的扩散变换器(DiT)模型缺乏充分的规划约束集成和拓扑监督,导致生成的布局难以在实际中应用。研究人员提出了一种名为约束拓扑扩散变换器(CT-DiT)的模型,用于端到端的城市布局生成。该模型基于DiT构建,利用多条件规划编码模块和交叉注意力(cross-attention)机制,将规划约束准确地注入生成过程。此外,研究人员引入了由卷积神经网络(CNN)和图神经网络(GNN)混合组成的规划拓扑判别器,以增强几何和空间合理性。研究人员设计了一种多目标损失函数,以平衡生成质量、规划合规性和拓扑一致性。在ReCo和LiPlan数据集上的实验表明,CT-DiT在结构相似性(SSIM)、规划约束满足率(PCSR)、拓扑特征相似性(TFS)和Fréchet Inception Distance(FID)方面优于现有最先进的模型。该模型有效提高了规划合规性和拓扑合理性,为智能城市建筑景观设计提供了可靠的解决方案。
论文解读:面向城市建筑景观布局生成的约束拓扑扩散变换器(CT-DiT)
研究背景与意义
随着城市规划数字化转型的深入,城市建筑景观布局的智能生成已成为解决传统设计效率低、方案多样性不足及规划约束适应性差等问题的关键路径,也是生成设计与深度学习交叉领域的研究热点。传统建筑景观布局生成依赖设计师经验,采用自上而下的手动推导方法,存在设计周期长、多维规划约束难以平衡及方案创新性不足等局限,难以满足现代城市高密度开发和精细化规划的需求。早期生成设计研究以规则驱动方法为主,如形状语法和空间句法结合Grasshopper等参数化工具实现建筑布局初步自动生成,但规则系统完全依赖人工设置与调试,缺乏自主学习与适应能力,无法适应不同城市的纹理特征、地域风格和规划要求,灵活性与实用性有限,难以应对复杂城市街区布局生成任务。随着深度学习技术发展,生成设计逐渐从规则约束转向数据驱动,各类生成模型广泛应用于城市建筑景观布局生成领域。其中,生成对抗网络(GAN)及其变体条件生成对抗网络(cGAN)因结构灵活、训练效率高和生成速度快,成为该领域早期主流方法,但传统GAN模型存在梯度消失、模式崩溃等训练不稳定固有缺陷,且生成结果常仅关注视觉呈现效果,忽视城市规划约束与空间拓扑合理性,难以满足实际工程应用需求。随后,变分自编码器(VAE)和扩散模型(DM)逐渐应用,扩散模型因其生成质量、多样性和稳定性的显著优势,有效缓解了GAN的固有缺陷,成为布局生成领域的研究热点。近年来,扩散变换器(DiT)作为新型扩散模型架构,结合Transformer的全局建模能力与扩散模型的生成优势,能更好捕捉建筑、道路和绿地等空间元素间的长距离依赖关系,显著提高布局生成的合理性与完整性。但现有DiT应用于城市空间生成时,大多未充分集成核心城市规划约束,导致生成结果无法满足实际规划要求,且缺乏专门的拓扑约束监督机制,导致生成布局存在拓扑不合理性。为此,研究人员开展本研究,提出CT-DiT模型,旨在弥补现有模型不足,为城市建筑景观布局智能高效生成提供新方法,推动生成设计在城市规划领域的深入应用。该论文发表于《Alexandria Engineering Journal》。
主要关键技术方法
研究人员提出了CT-DiT模型,其核心生成骨干为Diffusion Transformer(DiT),包含三大核心部分:一是多条件规划编码模块,对土地利用类型、容积率、建筑高度等离散和连续规划约束分别进行嵌入映射和线性变换加层归一化(LayerNorm)处理,再通过多层感知机(MLP)融合,并借助交叉注意力机制将约束特征深度嵌入DiT每一层的去噪过程;二是规划拓扑判别器,采用CNN分支提取布局几何特征(如建筑形态、空间分布),GNN分支将布局抽象为图(节点为建筑、道路、绿地等,边基于欧氏距离阈值构建)以提取空间拓扑特征,两分支特征拼接融合后形成统一结构感知特征;三是多目标损失函数,包含扩散重建损失、规划约束损失和拓扑一致性损失,加权融合实现端-to-end优化。实验采用ReCo数据集(社区级住宅布局矢量数据,含建筑轮廓、高度等,37646个样本)和LiPlan数据集(城市级规划布局数据,含建筑、道路、绿地及规划指标,如土地利用类型、容积率等),按7:1:2划分为训练集、验证集和测试集;对比模型包括Pix2Pix、StyleGAN2、DiT、GCGAN、DNN-GSOF、DCGAN、CBS3-LandGen;评估指标包括SSIM、PCSR、TFS、FID、IS、布局重叠精度、合规率MAE、绿地率MAE及拓扑子指标(节点度相似性、边连接相似性等);实验环境基于PyTorch 2.1.0,硬件为NVIDIA RTX 4090(24GB显存)、Intel Core i9-13900K、64GB内存,Ubuntu 22.04 LTS系统。
研究结果
- 3.
方法(Method)
3.1 模型架构(Model architecture):CT-DiT以DiT为核心生成骨干,围绕多条件规划编码和空间拓扑监督两大技术路线设计,包含基于DiT的生成网络、多条件规划编码模块、CNN-GNN混合规划拓扑判别器三部分,形成约束驱动生成与监督的端-to-end闭环,确保生成布局兼具高质量视觉特征、严格符合城市规划规范和空间拓扑规则。
3.1.1 DiT骨干网络(DiT backbone network):采用前向扩散(逐步加高斯噪声至标准高斯分布)和反向去噪(基于噪声预测函数迭代恢复布局)的双向过程,利用Transformer全局建模能力捕捉建筑、道路、绿地等元素间长距离依赖关系,通过多头注意力机制捕获不同尺度和类型的空间关联,引入规划约束特征c确保每步去噪的条件指导,实现从噪声分布到合理城市布局的映射。
3.1.2 多条件规划编码模块(Multi-condition planning encoding module):对离散约束(如土地利用类型)采用嵌入映射转为连续特征向量,对连续约束(如容积率、建筑高度)采用线性变换加LayerNorm消除维度差异,两类特征拼接后经MLP非线性变换融合,再通过交叉注意力机制(以布局特征为查询,融合约束特征为键和值)实现约束与每步去噪过程的动态交互,确保约束准确引导生成。
3.1.3 规划拓扑判别器(Planning topology discriminator):CNN分支通过卷积和池化提取布局几何特征(建筑形态、间距等),GNN分支将布局抽象为图(节点含坐标、面积、高度、土地利用类型,边基于距离阈值构建),通过多层图卷积聚合邻域信息,全局平均池化得到拓扑特征,两分支特征拼接融合为统一结构感知特征,同时描述几何与拓扑信息。
3.2 损失函数设计(Loss function design):多目标损失包含扩散重建损失(预测噪声与真实噪声的MSE,保障生成质量)、规划约束损失(生成布局特征与约束对齐特征的误差,保障规划合规)、拓扑一致性损失(生成与真实布局的结构感知特征误差,保障拓扑合理),加权融合(权重λ?=0.5,λ?=0.3)实现联合优化。
- 4.
实验(Experiments)
4.1 实验数据集(Experimental datasets):ReCo数据集为社区级住宅布局矢量数据,含建筑轮廓、位置、高度等,37646个样本;LiPlan数据集为城市级规划布局数据,含建筑、道路、绿地及土地利用类型、容积率、建筑密度等规划指标;两者均按7:1:2划分训练、验证、测试集。
4.2 实验设置与实现细节(Experimental setup and implementation details):环境为PyTorch 2.1.0,RTX 4090 GPU,i9-13900K CPU,64GB内存;训练超参数为AdamW优化器,学习率1e-4,批大小32,最大200轮,余弦退火调度;DiT设为8头注意力、256维特征、6层Transformer;多条件编码模块嵌入维256,MLP隐藏维512;CNN分支3层卷积+2层最大池化,GNN分支3层图卷积、节点维128;损失权重λ?=0.5,λ?=0.3。
4.3 评估指标(Evaluation metrics):SSIM(结构相似性)、PCSR(规划约束满足率,需满足土地利用一致、容积率误差≤5%、建筑密度误差≤5%、建筑高度误差≤10%、绿地率误差≤5%)、TFS(拓扑特征相似性,余弦相似度)、FID(分布一致性)、IS(Inception Score)、布局重叠精度、合规率MAE、绿地率MAE、拓扑子指标(节点度相似性、边连接相似性、空间邻接相似性、拓扑一致性得分)。
4.4 对比模型(Comparison models):包括Pix2Pix、StyleGAN2、DiT、GCGAN、DNN-GSOF、DCGAN、CBS3-LandGen。
- 5.
结果(Results)
核心生成质量指标(表3):在ReCo数据集上,CT-DiT的SSIM为0.887±0.002,PCSR为94.6±0.2%,TFS为0.895±0.002,FID为21.3±0.2,IS为4.5±0.03;在LiPlan数据集上,SSIM为0.869±0.002,PCSR为92.8±0.2%,TFS为0.876±0.002,FID为24.5±0.2,IS为4.2±0.03,均优于所有对比模型,且标准差小,性能稳定。
约束与空间匹配指标(表4):ReCo数据集上,CT-DiT布局重叠精度88.6%,合规率MAE 0.042,绿地率MAE 0.085;LiPlan数据集上,重叠精度85.9%,合规率MAE 0.058,绿地率MAE 0.062,均最优。
拓扑结构相似性子指标(表5):ReCo数据集上,CT-DiT节点度相似性0.859,边连接相似性0.837,空间邻接相似性0.864,拓扑一致性得分0.853,均高于对比模型(如GCGAN分别为0.792、0.778、0.801、0.790)。
生成效率指标(表6):ReCo数据集上,CT-DiT推理时间0.67s/样本,吞吐量89.6样本/分钟,GPU显存6.5GB;LiPlan数据集上,0.70s/样本,85.7样本/分钟,显存6.5GB,比DiT(0.75s、7.5GB)、GCGAN(0.81s、6.8GB)更高效,仅慢于轻量级GAN模型。
扩散步数性能变化(图2):10~100步时,各指标显著提升(ReCo上SSIM增0.102,PCSR增14.4%,TFS增0.104,FID降11.2);超过100步后提升可忽略(200步时SSIM仅增0.002,PCSR增0.2%),故100步为最优平衡。
消融实验(表7):仅DiT基线(ReCo:SSIM 0.815,PCSR 85.7%,FID 28.7);加多条件编码后PCSR提升至90.5%;加GNN分支TFS提升至0.852;加CNN分支SSIM提升至0.830;加拓扑损失TFS提升至0.855;CNN-GNN双分支后SSIM 0.851,PCSR 91.3%,TFS 0.872;全模型达到最优,较基线SSIM提升7.2%,FID降低7.4。
损失权重影响(图3):λ?=0.5,λ?=0.3时综合性能最优;权重过小监督不足,过大则过拟合约束、削弱生成能力。
讨论与结论
研究人员指出,当前模型仍存在局限:仅验证于ReCo和LiPlan数据集,对山地、滨水等特殊地形城市适应性不足;仅集成静态规划约束,未纳入交通流、人口密度等动态约束;拓扑判别器仅监督基础邻接与连通性,未涵盖公共服务设施联动等高阶空间功能逻辑;推理速度仍慢于轻量GAN,难以在移动端低算力平台快速部署;损失权重需手动调试,极端约束下多目标平衡能力不足。目前研究处于理论层面,生成方案可为规划师前期初步设计提供备选草案,但未验证符合本地规范、工程标准和专家评估,无法直接用于正式工程实施和规划审批。未来研究方向包括:构建多源异构数据(遥感、POI、规划矢量、地域文化)的大规模多类型城市数据集以提升泛化能力;引入时变约束编码模块纳入动态规划指标,支持静态布局与动态城市运行联动;深化空间功能逻辑与拓扑联合监督,增加公共服务可达性、功能混合度等高阶约束,构建功能-拓扑双驱动判别机制;通过知识蒸馏和结构剪枝轻量化模型,结合交互界面支持约束调整与局部编辑,实现AI生成与人工设计协同;构建涵盖规划规范和工程可行性的多维度评估体系,结合实际案例和专家评估验证实用性;采用强化学习和自适应权重调整实现损失权重自动优化,平衡视觉质量、规划合规和拓扑合理;扩展至街区-城市-城市群跨尺度联动生成,集成规划全流程,构建智能规划生成平台,推动生成AI与城市规划工程实践深度融合。
研究结论:CT-DiT模型通过集成多条件规划编码和CNN-GNN混合拓扑判别器,实现了规划约束与扩散生成的深度融合,构建了约束编码、拓扑判别与生成优化的闭环协同机制,在ReCo和LiPlan数据集上显著优于现有模型,有效提高了城市建筑景观布局生成的规划合规性、拓扑合理性和视觉质量,为智能城市布局设计提供了可靠的新方案,具有推动生成设计在城市规划领域应用的重要价值。