母亲对孩子忽视（“phubbing”）行为对幼儿语言发展及后续社会发展的影响：一项为期三个月的滞后分析作者：Hyojin Ji、Taekmin Lee、Yujin Jang

《Behavioral Sciences》：The Impact of Maternal Phubbing on Toddlers’ Language Development and Subsequent Social Development: A Three-Month Time-Lagged Analysis Hyojin Ji, Taekmin Lee and Yujin Jang

【字体：大中小】 时间：2026年04月22日 来源：Behavioral Sciences 2.5

编辑推荐：

　　### 特色应用该框架能够支持大理石行业价值链中的多个利益相关者生成逼真的纹理变体，用于虚拟原型设计和建筑可视化，而无需昂贵的手动注释，从而减少设计迭代周期，同时保持与人类肉眼无法区分的质量。 #### 摘要在工业纹理合成中部署条件生成对抗网络（cGANs）面临两个

　　### 特色应用
该框架能够支持大理石行业价值链中的多个利益相关者生成逼真的纹理变体，用于虚拟原型设计和建筑可视化，而无需昂贵的手动注释，从而减少设计迭代周期，同时保持与人类肉眼无法区分的质量。

#### 摘要
在工业纹理合成中部署条件生成对抗网络（cGANs）面临两个障碍：手动数据注释的成本过高，以及自动化评估指标与人类感知之间的不一致性。本研究利用289张高分辨率的工业扫描图像，解决了这两个挑战。我们采用了一种无监督的分割流程，结合了简单线性迭代聚类（SLIC）超级像素、高斯混合模型（GMM）和图割优化技术，无需手动注释即可提取大理石的纹理结构。我们对比了四种cGAN架构——基线cGAN、Pix2Pix、BicycleGAN和GauGAN，并使用双评估协议对十项自动化指标和结构化的人类中心评估进行了基准测试。结果揭示了指标与感知之间的显著差异。Pix2Pix虽然获得了最低的Fréchet Inception Distance（FID = 85.3），但由于周期性纹理伪影而获得了最低的人类评分；而GauGAN生成的纹理在统计上与真实大理石无法区分，其视觉图灵通过率（VTPR）为0.533，大理石真实性平均得分（MOS-MA）为2.89，尽管FID较低（87.3）。这些发现有三方面的意义：提供了一种无需注释的分割流程；实证表明仅依靠自动化指标不足以选择合适的架构；以及确立了以人类为中心的评估对于质量关键的工业应用至关重要。

### 1. 引言
在石材加工和建筑行业中，数字化转型催生了对高保真虚拟材料表示的需求，以支持虚拟原型设计、数字孪生应用和大规模定制工作流程[1,2]。天然石材的纹理，特别是大理石因其随机分布的纹理而具有独特的合成挑战：每块板材都呈现出非重复的结构，需要实现逼真的渲染和精确的设计控制[3]。然而，在工业环境中获取大规模的标注数据集以训练条件生成模型极其困难。这一挑战源于手动像素级注释的高成本、生产数据的专有性，以及特殊材料通常批量较小的限制[4]。这种数据匮乏问题成为在制造环境中部署深度学习纹理合成解决方案的关键障碍。虽然条件生成对抗网络（cGANs）[5]在图像到图像的转换任务中表现出色[6,7]，但其应用于工业纹理合成时仍面临两个未解决的挑战。首先，现有方法假设存在真实语义掩码，但这不适用于专有生产数据，因为手动注释需要数周的时间和熟练劳动力[4,8]；其次，标准评估方法仅依赖于自动化指标（如Fréchet Inception Distance (FID)[9]、Inception Score (IS)[10] 和 MS-SSIM)[11,12,13,14]，这些指标最初是为对象识别设计的，并且在纹理合成任务中与人类感知判断的相关性较弱或呈负相关[11,12,13,14]。具体来说，Zhou等人[12]在多个数据集上证明了FID分数与人类判断无关；Stein等人[13]在207,000个感知判断中证实了这一点；Borji[14]指出了FID在特定领域图像质量评估中的盲区[14]。这些发现强调了以人类为中心的评估对于质量关键的工业应用的重要性[15]。

纹理合成的发展经历了三个主要范式。传统的程序生成方法，以Perlin噪声[16,17]为例，通过数学算法生成类似大理石的图案，但真实感有限且需要专家调整[18,19]。基于示例的非参数方法利用真实的源图像，但在处理大规模结构（如连续的大理石纹理）时遇到困难[20,21,22,23,24]。现代深度生成模型，尤其是GANs[25,26,27]，通过学习性合成克服了这些限制：神经风格转移[11,28]确立了结构和外观分离的原则；Pix2Pix框架[29]使用U-Net生成器和PatchGAN鉴别器实现了配对图像到图像的转换；BicycleGAN[30]通过双向潜在到图像的映射解决了模式崩溃问题；GauGAN[6]引入了空间自适应归一化（SPADE），根据输入掩码在每个生成层动态调整归一化参数，这对于保持纹理边界的同时合成自然外观至关重要[30]。尽管扩散模型已经取得了最先进的结果，但在数据量有限的制造环境中部署时面临实际障碍（约200-500个样本），这使得cGAN成为更实用的选择。像ControlNet[31]这样的条件变体依赖于在数十亿图像上预训练的基础模型，对其进行全面比较将是未来的宝贵工作[32]。

注释瓶颈推动了医学成像领域无监督分割研究[33,34,35]的发展，但在制造业中的应用仍然有限[4,8]。结合SLIC超级像素[36,37]进行感官一致区域分组[38]、高斯混合模型[39,40]和图割[40]或归一化切割[41]进行空间规范的无监督流程可以自动提取结构特征，而无需手动标记。本研究将Borovec等人的流程[34]应用于天然石材，证明了可以从原始工业扫描图像中无需注释提取适合cGAN训练的大理石纹理结构。

最近的工业应用展示了GANs的变革潜力。在制造质量控制中，GANs用于缺陷检测[42]和异常检测[43,44]。除了检测之外，GANs还用于设计优化[45]、产品生命周期预测[46]和数字孪生系统[47]。战略应用包括技术路线图规划[48]和定制材料设计[49,50]。然而，关于天然材料（如大理石）的先前研究仍然很少[51,52]，大多数研究集中在规律重复的图案上，而非随机地质纹理。除了视觉合成之外，生成和对抗训练范式在各种工业场景中展现了广泛的实用性。例如，基于GAN的数据增强技术可用于数据稀缺环境下的旋转机械故障诊断[53]、制造设备中无监督故障检测的领域适应[54]，以及铁路基础设施中的多模态深度学习异常检测[55,56]。这种广度突显了对抗框架在应用工程问题中的多功能性。

为了克服这些限制，我们提出了一个双评估框架，用于评估工业纹理合成中的条件GANs，同时解决了注释瓶颈和评估不确定性问题。我们的框架包括：(1) 一个改进的无监督分割流程[34]，可以从原始生产扫描图像中自动提取结构掩码，消除了手动注释的成本；(2) 一个严格的人类中心验证协议，结合了视觉图灵测试[10]和从电信标准[57,58]改编的平均意见得分[57,58]，以补充标准的自动化指标[59]。据我们所知，这是首次系统地将双协议评估（自动化+人工）应用于工业材料纹理合成，也是首次证明无监督掩码生成可以在无需手动标注的情况下实现条件GAN训练。

本研究聚焦于一种名为Exotic Ambar的大理石类型，这来自单一采石场，提供了一个无混杂变量的可控测试平台。我们系统地比较了四种条件GAN架构（基线cGAN、Pix2Pix、BicycleGAN和GauGAN），这些架构因共享的架构基础（U-Net生成器、PatchGAN鉴别器）和在较小数据集（约300个样本）上的可训练性而被选中，这与需要大量调整或数十亿参数的StyleGAN[60]或基础模型不同。本研究的主要贡献包括：
- 验证了一个无监督分割流程（SLIC + GMM + 图割），用于从大理石图像中自动生成语义掩码，为解决注释瓶颈提供了实用解决方案；
- 在相同的条件下对289张高分辨率工业大理石扫描图像对四种cGAN架构进行了系统性的基准测试，为实践者提供了基于证据的架构选择指导；
- 实施了一个双评估框架，将自动化指标（FID、IS、MS-SSIM）与以人类为中心的评估（视觉图灵测试[10]、领域专家的平均意见得分）进行了对比，揭示了指标与感知之间的显著差异，这对部署决策具有直接影响；
- 证明了尽管FID分数较低，GauGAN仍能实现与人类肉眼无法区分的合成质量，而Pix2Pix则呈现相反的情况，这从实证上表明仅依靠自动化指标不足以选择质量关键的制造应用架构[61,62]；
- 提供了全面的方法文档，以便在其他天然材料合成任务（木材、织物、地质样本）中进行复制和扩展。

本文的其余部分安排如下：第2节详细介绍了我们的方法论：数据收集、无监督分割流程、cGAN实现和双评估协议。第3节展示了结果：视觉比较、自动化指标、人类评估结果、指标-感知差异分析以及计算性能。第4节讨论了工业应用的实际意义和局限性。第5节提出了可行的建议和未来研究的方向。

### 2. 材料与方法
本研究介绍了一种可控大理石纹理合成的综合流程，解决了两个关键部署障碍：训练条件生成模型所需的手动注释成本过高，以及自动化指标在纹理合成应用中验证感知质量方面的不足。该方法论包括三个在真实工业扫描数据上经过验证的集成组件：一个无监督分割流程，用于自动生成条件掩码；四个条件GAN架构的系统基准测试，这些架构在这些掩码上进行训练；以及一个结合自动化指标和从电信领域改编的结构化人类评估协议的双评估框架。完整的方法论工作流程如图1所示。流程从数据整理和预处理开始，其中原始工业扫描图像被过滤和标准化。接下来是语义掩码生成阶段，使用多步骤无监督算法从每张图像中提取二值纹理结构。然后将这些图像-掩码对用于条件GAN实现阶段，包括生成模型的构建和对抗训练。最后是全面的性能评估，使用以人类为中心的定性评估和客观定量指标进行系统比较。

#### 2.1. 数据集和无监督掩码生成
数据集包含289张高分辨率的Exotic Ambar大理石板材图像，这些图像是在工业生产线上使用工厂校准的线扫描相机捕捉的。每块板材最长尺寸为0.5-2.5米，扫描分辨率为7185 × 4166像素，在受控照明条件下进行扫描。从最初的327张扫描图像中，通过视觉检查排除了38张样本（占12%），这些样本存在保护膜伪影或扫描器故障，确保数据集反映了真实的大理石外观变化，而非成像缺陷。排除的样本示例记录在附录A.1中。所有图像都经历了标准化预处理：200像素边界裁剪以去除框架伪影，双三次重采样到1280 × 720像素，并归一化到[-1, 1]范围内。数据集被确定为232张训练样本（80%）和57张验证样本（20%），未应用任何数据增强以避免在纹理边界处产生插值伪影。整个预处理流程使用TensorFlow的API实现，以确保在训练和推断过程中对数据进行位级相同的处理。

这里解决的核心挑战是经济可行性。手动进行大理石纹理的像素级注释需要专业知识，且获取精确注释的耗时过程限制了监督方法在工业环境中的可扩展性和实用性[4]。因此，对于产量有限的特殊材料，基于U-Net的监督深度学习方法不切实际。为了规避这一注释瓶颈，我们实现了一个三阶段无监督分割流程，结合了成熟的计算机视觉技术：SLIC超级像素过分割、高斯混合模型颜色聚类和图割空间规范化。

- **步骤1—SLIC超级像素过分割**：SLIC算法通过5D CIELAB空间中的聚类将每张图像简化为大约3000个感知上均匀的超级像素（名义大小20像素，紧凑性0.3），在保持纹理边界的同时降低了计算复杂性。超级像素提供了捕捉局部纹理和颜色均匀性的中间表示，为进一步分析提供了可靠的原始区域[39]。每个超级像素由一个9维特征向量表征，编码了CIELAB平均值、标准差和中值。
- **步骤2—GMM概率颜色分类**：通过期望最大化训练的双组分高斯混合模型基于颜色分布提供初始的概率类别分配（纹理 vs. 矩阵）。然而，简单的基于颜色的聚类在实践中常常因单个板材不同区域的色调、饱和度和亮度变化较大而失败。
- **步骤3—图割空间规范化**：然后使用马尔可夫随机场中的最大后验估计[22]对这些原始概率进行精细化处理，其中最优的二值标记最小化了能量函数，平衡了GMM数据的忠实度和空间平滑度（规范化权重λ = 5.0）。这种能量最小化是通过图割优化全局解决的，产生了空间连贯的掩模，这些掩模在保留精细的静脉分叉的同时抑制了孤立的噪声。图割高效地找到了最小割解，该解最佳地尊重了聚类线索和空间连续性，从而实现了静脉与基质的清晰分割。其他基于图的方法包括用于平衡分区的归一化割（Normalized Cuts）和用于交互式前景-背景分离的GrabCut。所有289个生成的掩模都经过了视觉检查并且未经手动修正就被接受了，这证明了该流程在处理不同静脉密度、方向以及Exotic Ambar大理石特有的基质着色时的鲁棒性。图2展示了数据集中的四个代表性示例：顶部行显示了大理石板上自然的静脉图案变化，而底部行显示了由无监督分割流程生成的相应二值掩模。高质量的分割精细静脉结构而无需人工干预，验证了该流程适用于大规模工业部署。所有流程阶段的详细可视化信息在附录A.2中提供。图2. 代表性大理石板和无监督掩模生成。顶部行：来自Exotic Ambar大理石数据集的四个样本，显示了静脉密度和方向的自然变化。底部行：通过SLIC + GMM + 图割流程自动生成的相应二值掩模。现代基础模型，如SAM [63] 和基于DINOv2 [64] 或DeepCluster [65] 的自监督聚类方法，是无监督分割的强大替代方案。然而，这些方法引入了与我们的无注释目标相冲突的领域依赖性约束：SAM在处理分布外的工业材料数据时表现不佳，需要特定领域的微调才能实现可靠的分割，从而重新引入了注释要求 [66]。基于DINOv2的方法同样依赖于大规模的自然图像语料库预训练，这为专有制造纹理带来了领域迁移风险。选择SLIC + GMM + 图割流程正是为了避免这些依赖性：它不需要预训练，不需要外部模型，并且完全由可解释的可调参数控制——使其可以直接应用于新的材料类型，而无需任何标记数据。

2.2 条件GAN架构和训练
为了建立一个可复制的基准，用于掩模条件下的纹理合成，我们训练了四种代表了条件策略进化进步的开创性条件GAN架构：原始条件GAN [5]、Pix2Pix [7]、BicycleGAN [67] 和具有空间自适应归一化的GauGAN [6]。所有四种架构在实验中都使用相同的训练基础设施，以隔离生成器之间的架构差异。每个模型都采用了相同的PatchGAN鉴别器（70 × 70接收场），以1280 × 720像素的分辨率处理图像。训练使用Adam优化器（β1 = 0.5，β2 = 0.999），批量大小为4，在单个NVIDIA H100 GPU上进行，所有网络权重都是从高斯分布（μ = 0，σ = 0.02）初始化的。所有架构都包括了单侧标签平滑和梯度裁剪。训练最多进行了10,000个周期，提前停止的耐心为2000个周期，同时监控验证FID [68]，并在验证指标趋于平稳时基于收敛性终止训练。 architectures特定的超参数（学习率、损失权重、潜在维度）在表1中报告，这些参数是通过优化验证FID的初步扫描确定的。完整的架构图在附录A.3中提供。

表1. 每个架构的最终超参数设置，通过验证FID优化确定。基线cGAN。基线条件GAN使用U-Net生成器（8个编码器块，通过跳跃连接到7个解码器块），该生成器基于二值静脉掩模和一个从标准正态分布采样的100维潜在向量，并在前三个解码器层中加入dropout（率为0.5）以促进输出多样性。生成器（1 × 10^-4）和鉴别器（5 × 10^-5）分别应用了不同的学习率。由于跳跃连接在重建过程中保留了高频空间细节，U-Net编码器-解码器框架在图像到图像的转换任务中以其有效性而闻名 [5]。

Pix2Pix。Pix2Pix代表了一种确定性变体，它移除了显式的潜在采样，仅依赖输入掩模，在推理过程中加入dropout以提供轻微的随机性，同时在对抗目标中添加了L1像素级重建损失以强制与配对的真实图像保持真实性。组合目标如下：(1) 其中强制了对配对真实图像y的像素级真实性，而控制了重建与对抗训练的相对权重。生成器和鉴别器都使用2 × 10^-4的学习率进行训练。Pix2Pix证明了单一条件GAN框架可以从多样化的输入表示中合成逼真的照片，有效地分离内容和风格 [7]。

BicycleGAN。BicycleGAN通过引入一个专用的编码器网络来扩展这一框架，该网络学习将生成的图像逆向转换回潜在代码（潜在维度），通过L1重建损失（）和潜在回归损失（）强制实现潜在到图像的双射映射，以对抗模式崩溃并使从相同掩模输入生成多样化纹理。生成器、鉴别器和编码器的学习率均为2 × 10^-4。这解决了图像转换中固有的多对一映射问题，即一个给定的掩模可能对应多个真实外观 [67]。

GauGAN。GauGAN代表了根本性的架构改进：它不是使用标准的U-Net编码器，而是从学习到的常量张量开始，通过六个残差块逐步上采样。每个块都包含了空间自适应归一化（SPADE）层，这些层根据输入掩模学习到的空间函数调整归一化参数（γ, β），从而在每一层保留语义结构。这避免了标准批量归一化带来的“漂白”效应，这对于在合成有机外观时保留静脉边界至关重要 [30]。GauGAN使用指数衰减的学习率进行训练（初始率为5 × 10^-5，每2500步衰减率0.995）和L1重建权重λ = 350。正式地，对于层中的激活函数，SPADE计算如下：(2) 其中和是的每个通道的平均值和标准差，而和是作为输入分割掩模的卷积函数学习到的空间变化的比例和偏置参数，确保在生成器的每一层都保留了语义结构 [6]。这种架构选择对伪影生成有直接影响。Pix2Pix的U-Net解码器依赖于转置卷积进行上采样。当 kernel尺寸不是步长的倍数时，转置卷积会在输出像素上产生不均匀的重叠，导致某些位置接收不成比例的贡献，从而产生周期性的网格状强度模式，称为棋盘伪影 [56]。GauGAN完全避免了这一点，它通过最近邻插值进行上采样，然后进行标准卷积，因此每个输出像素都从其邻域接收到相同的贡献。SPADE层然后在每个分辨率级别重新注入来自输入掩模的空间结构，确保在不依赖于转置卷积上采样的情况下保持语义真实性。

2.3 双重评估框架
标准的GAN评估协议几乎完全依赖于自动化指标，特别是FID和IS，这些指标是从最初为ImageNet上的对象分类训练的Inception-v3特征计算得出的，尽管有证据表明这些指标与人类感知判断的相关性较差 [12,13,14]。然而，大多数最近的工业GAN论文仍将人类评估留待未来的工作，仅依赖于FID和SSIM [59]，这对于质量至关重要的应用来说是不足的，在这些应用中，最终用户的感知决定了部署的成功。我们的方法学贡献是一个双重评估框架（图3a），它系统地将自动化指标与结构化的人类评估进行比较，以确定基于指标的优化是否与工业纹理合成中的感知真实性一致。定量部分（图3b）使用一组10个自动化指标，涵盖三个互补的指标家族。基于像素和结构的指标包括均方误差（MSE）和峰值信噪比（PSNR），它们量化了像素级别的重建真实性；多尺度结构相似性指数（MS-SSIM），它评估了多个尺度上的感知结构相似性；以及结构内容差异性（SCD），它测量了内容表示中的结构差异。统计指标包括标准差（SD）、相关系数（CC）、熵（EN）和特征互信息（FMI-Pixel）[69]，它们量化了纹理特征，如强度分布的变异性、生成图像和真实图像之间的线性依赖性、信息内容以及特征共现模式。所使用的学习分布指标，即IS和FID，使用Inception-v3嵌入来测量高级特征相似性。这些指标共同提供了关于重建准确性、结构保留、纹理统计和学习特征相似性的互补视角，其中FID在训练期间作为主要的收敛标准。

图3. 双重评估框架用于比较自动化指标与人类感知判断。 (a) 框架概览：生成的图像经过并行的定量（10个自动化指标）和定性评估（2种带有人类专家评估者的协议），结果用于识别指标-感知的对齐或差异。 (b) 定量指标组合：涵盖基于像素和结构的（MSE、PSNR、MS-SSIM、SCD）、统计的（SD、CC、Entropy、FMI-pixel）以及学习分布的（IS、FID）十个指标。箭头指示优化方向（↑ = 更好；↓ = 更差）。 (c) VTPR协议：三位领域专家在4秒的观看窗口内进行60次二选一强制选择试验，区分真实大理石和合成大理石。VTPR = 1-(错误率)；0.5表示无法区分（机会水平），值 >0.5表示可检测到的合成输出。 (d) MOS-MA协议：专家在5点李克特量表（1 = “明显人造”，5 = “明显自然”）上对图像进行评分，没有时间限制。MOS-MA = 所有试验的平均评分。定性部分实现了两种以人类为中心的协议，这些协议改编自电信质量评估标准 [57,58]。协议1（视觉图灵通过率，VTPR；图3c）遵循Zhou等人（2019）[12] 建立的心理物理学最佳实践，证明利用大约150毫秒的人类图像处理时间阈值可以进行可靠的区分。我们向三位具有10年以上经验的石材加工工程师提供了每次20次二选一强制选择（2AFC）试验。每次试验随机显示一张真实大理石图像和一张合成大理石图像，持续4秒，专家识别哪张是真实的。这种时间限制捕捉了与前馈视觉处理相对应的瞬间真实性 [70]，同时防止了长时间的伪影聚焦审查，这与HYPE基准方法一致，该方法在大约60次评估中实现了强烈的统计可靠性 [12]。VTPR计算为1减去平均识别错误率，其中0.5表示无法区分（机会性能），值超过0.5表示可检测到的合成输出。协议2（大理石真实性的平均意见得分，MOS-MA；图3d）提供了分级质量评估 [58]：同样的三位专家在5点李克特量表（1 = “明显人造”，5 = “明显自然”）上对20张图像进行评分，没有时间限制。MOS-MA是所有评分的平均值，假设专家判断是独立的。定性部分实施了两种以人类为中心的协议。

2.4 频域伪影分析
为了定量描述第2.2节中识别的周期性纹理伪影，我们对所有四种架构生成的输出进行了功率谱密度（PSD）分析。对于每种架构，所有生成的图像都被分解成256 × 256像素的块，块与块之间的重叠率为50%。每个块被转换为灰度并归一化到零均值，然后应用2D快速傅里叶变换（FFT）。得到的功率谱被径向平均，得到一个1D的功率均值轮廓，作为空间频率（周期/像素）的函数，同时在任何方向上保留周期性结构。轮廓在所有块和每种架构的所有图像上进行了平均。为了隔离伪影带行为，通过从每种架构的轮廓中减去真实大理石的平均轮廓来计算差分曲线；正值表示在该频率上超出自然大理石纹理的频谱过剩。计算效率的结果在第3.5节中报告，以供部署决策参考。3.1. 定性评估：不同架构之间的视觉比较所有四种条件GAN架构都在训练了包含232个样本的数据集后，成功地学会了从二进制纹理掩码中合成逼真的大理石纹理，这些数据集配备了自动生成的掩码的无监督注释。图4系统地比较了四种具有不同纹理图案的代表性样本：在给定相同的掩码输入的情况下（列a），每个架构生成的石头外观都显得合理，展示了正确的纹理分布、自然的矩阵着色以及与真实大理石图像相对应的适当纹理粒度（列b）。图4. 四种cGAN架构在大理石纹理合成方面的定性比较。(a) 输入的二进制掩码。(b) 真实的大理石。(c) cGAN的输出。(d) Pix2Pix的输出。(e) BicycleGAN的输出。(f) GauGAN的输出。行展示了具有不同纹理密度和方向的样本。视觉检查显示了不同的架构特征。基线条件GAN（列c）由于显式的潜在采样，产生了多样的输出，成功地在保持对输入掩码的结构性忠实度的同时，生成了纹理变化。Pix2Pix（列d）生成了清晰、高对比度的输出，具有出色的掩码贴合度和强烈的纹理定义，在标准观看距离下显得非常逼真。BicycleGAN（列e）通过其潜在嵌入机制成功生成了控制多样的输出。然而，这种多样性有时表现为全局照明和颜色温度的变化，而不是局部材料纹理属性的变化。GauGAN（列f）展示了平滑的纹理质量，特别是石头与基质的过渡部分非常自然，边界看起来是逐渐变化的，而不是清晰分界的。在所有四种样本中，无论是平行对角结构（样本1-2），还是弯曲的有机图案（样本3）以及复杂的散布网络（样本4），这些架构都展示了持续的合成能力。每个架构在不同的结构输入下都保持了其特征性视觉签名，表明观察到的质量差异源于基本的架构设计选择，而不是特定于掩码的过拟合。所有生成的输出在视觉上都显得合理，并且在结构上忠于其条件掩码，这验证了无监督分割流程作为生成过程的有效几何指导来源。3.2. 定量指标：自动化性能评估表2展示了在全部57个验证样本上计算的10个自动化指标的全面定量评估。Pix2Pix在分布指标上表现最佳，包括广泛使用的Fréchet Inception Distance（FID = 85.286，比GauGAN低2.3%）和Inception Score（IS = 1.940）。这种一致的指标优越性反映了Pix2Pix的L1重建损失，它强制像素级地忠实于真实训练数据。GauGAN在分布指标上排名第二，但在重建忠实度测量方面表现最强：结构相似性（MS-SSIM = 0.713）、像素准确性（PSNR = 22.626 dB，MSE = 0.006）、相关性（CC = 0.847）和掩膜贴合度（FMI-pixel = 0.886）。BicycleGAN和基线条件GAN在指标表现上较弱，特别是在分布指标上（FID > 94），这表明它们的潜在多样性机制产生的输出在Inception-v3特征空间中偏离了训练分布统计。所有架构在57个样本验证集上的完整指标分布以排序值图的形式显示在附录A.4（图A4a-h）中。这些分布证实了GauGAN在感知和重建方面的优势在整个验证集中是一致的，并非由异常值引起的：GauGAN的PSNR、MS-SSIM和CC曲线在几乎所有样本排名位置上都高于其他架构，而Pix2Pix的纹理对比度优势（SD，熵）也是一致的，而不是特定于样本的。表2. 验证集（57个样本，平均值±标准差）上的自动化性能指标。粗体表示每个指标的最佳性能。（↑越高越好；↓越低越好。）3.3. 以人为中心的评估：感知质量评估结构化的人为评估协议揭示了与自动化指标排名之间的显著差异。图5a展示了视觉图灵通过率（VTPR）：GauGAN获得了最低（最好）的通过率（0.533，95%置信区间：0.400–0.667），表明专家评估者无法可靠地区分GauGAN的输出和真实大理石。相比之下，Pix2Pix在基于指标的评估中表现最佳，获得了最高的（最差的）VTPR（0.650，95%置信区间：0.583–0.717），这意味着专家在65%的试验中正确地将Pix2Pix的输出识别为合成图像，尽管其FID优势仅为2.3%。这构成了自动化评估和人为评估标准之间的完全排名反转，如表3所示。图5. 以人为中心的评估揭示了相对于自动化指标的排名反转。（a）视觉图灵通过率（VTPR）：专家评估者正确地将合成图像识别为真实图像的试验比例（较低的值表示更逼真的输出，更容易欺骗专家）。虚线0.5表示机会水平的表现（完全无法区分）。GauGAN的95%置信区间（误差条）跨越了0.5，显示出专家级别的逼真度。尽管Pix2Pix获得了最佳的FID分数，但它最容易被人类评估者发现。（b）在5点李克特量表上的大理石真实性平均意见得分（MOS-MA）（1 = 明显人造，5 = 完全自然）。GauGAN获得了最高的真实性评分；尽管Pix2Pix在指标上表现更好，但其得分显著较低。表3. 在自动化（FID）与人为（MOS-MA）评估标准下的架构排名。较低的FID排名 = 更好的自动化性能；较高的MOS-MA排名 = 更好的感知性能。（↑越高越好；↓越低越好。）BicycleGAN（0.633，95%置信区间：0.567–0.700）和基线cGAN（0.583，95%置信区间：0.517–0.650）表现中等。平均意见得分（图5b）证实了这种排名：GauGAN获得了最高的自然度评分（MOS-MA = 2.889，95%置信区间：2.578–3.200），而Pix2Pix在GAN架构中得分最低（2.333，95%置信区间：2.022–2.644）。基线cGAN的MOS-MA为2.644（95%置信区间：2.333–2.955），BicycleGAN的得分为2.667（95%置信区间：2.356–2.978），得分处于中等范围。这些以人为中心的评估显示了一个与自动化指标略有相反的排名：针对FID优化的架构（Pix2Pix）在感知真实性方面表现最差，而GauGAN虽然获得了第二好的FID，但其生成的纹理被专家评估者认为与真实大理石无法区分。这种指标与感知之间的差异挑战了基于Inception的分布距离最小化会产生感知上更优输出的基本假设，特别是在随机纹理合成任务中，其中细粒度的不规则性定义了自然性。3.4. 指标与感知的差异自动化评估和人类评估之间的矛盾在比较结果中显而易见：具有更好（更低）FID分数的架构并没有一致地获得更好的人类感知分数。这种不一致性与基于指标的GAN开发的基本假设相矛盾：即最小化FID会产生感知上更优的输出。Pix2Pix代表了这种差异的最极端例子，它获得了最佳的FID（85.286），但却获得了最差的人类评分（VTPR = 0.650，MOS-MA = 2.333）。相反，尽管GauGAN的FID（87.308）高于Pix2Pix，但它获得了最好的人类评估分数（VTPR = 0.533，MOS-MA = 2.889）。这种反向模式表明，最佳优化标准训练指标的架构在人类评估中表现最差，揭示了使用基于Inception-v3的指标作为纹理合成任务的唯一验证标准时的根本局限性。视觉伪影分析（图6）通过对比放大真实大理石、GauGAN输出和Pix2Pix输出来揭示了这种差异的机制。虽然在标准观看距离下，这三种结构都显得逼真，但放大观察揭示了关键的定性差异。真实大理石展示了随机、非周期性的纹理，其中细粒度特征（如颗粒图案、纹理边缘不规则性和基质结晶细节）表现出连续的局部变化，没有重复的模式。GauGAN成功复制了这种自然的随机性：放大区域显示出与真实大理石无法区分的有机纹理变化，相邻区域保持了自然的独特性，没有系统的模式重复。图6. 通过放大比较合成大理石纹理的视觉伪影分析。(a) 真实大理石：非周期性的随机微观结构，显示出纹理形态和基质结晶的连续局部变化，没有重复的空间模式。(b) GauGAN输出：在放大下与真实大理石一致的有机纹理变化，具有平滑的纹理到基质的过渡，没有可检测的周期性。(c) Pix2Pix输出：箭头指示重复的纹理模式——特定的纹理分支几何形状和颗粒排列——在局部邻域内以相同的方向重复出现，违反了自然矿物结晶的非周期性特征。这一发现验证了近期文献中关于Inception-v3在随机材料合成中用于纹理质量评估的不足之处，但将其扩展到了具有经济利害关系的工业背景：在产品设计应用中优化FID会选择Pix2Pix，生成的纹理由于明显的局部规律性而立即被专业用户识别为人造，这对建筑可视化、虚拟原型制作和设计工作流程有着直接的影响，因为材料的真实性决定了客户的接受度。相比之下，Pix2Pix的输出在放大时表现出微妙但系统的失败模式：相同的或几乎相同的纹理模式在局部邻域内多次重复出现（图6c中的箭头所示）。这些重复的微观结构，如特定的纹理分支几何形状、基质颗粒排列或边缘细节模式以相同的方向出现3-5次，违反了自然矿物结晶的非周期性特征。虽然真实大理石和GauGAN的输出显示出丰富的局部变化，没有两个相邻区域共享相同的细粒度结构，但Pix2Pix在生成过程中偶尔会复制学到的纹理模式，产生空间上重复的结构。这种伪影出现的频率足够高，以至于接受过自然石材质量评估的专家评估者立即将其识别为合成规律性，这与地质形成过程不符。为了超越定性观察，我们应用了功率谱密度（PSD）分析来提供这种伪影结构的定量频域证据（图7）。Pix2Pix的U-Net解码器使用了四个stride-2转置卷积层，理论上预测的伪影周期为24 = 16像素（0.0625周期/像素）。计算了每种架构所有生成图像的径向平均PSD曲线，并从真实大理石基线中减去，以分离出光谱过剩。Pix2Pix是唯一在预测频率（Δ log power = +0.0068 at 0.0625 c/px）上显示出正光谱升高的架构。GauGAN和BicycleGAN在架构上都没有stride-2转置卷积，显示出负光谱升高（分别为?0.0454和?0.0337），表明它们的输出在这个频段内比真实大理石更干净。先前的架构预测与测量到的光谱升高之间的对齐证实了Pix2Pix的伪影是结构性的和确定性的，而不是训练不稳定或数据集特征的后果。图7. 所有四种cGAN架构在真实大理石基线以上的功率谱密度升高（Δ log power）作为空间频率的函数。垂直虚线标记了0.0625周期/像素（16像素周期），这是具有四个stride-2转置卷积层的U-Net解码器理论上预测的伪影频率。Pix2Pix是唯一在该频率上显示出正光谱升高的架构，证实了棋盘格伪影的光谱特征。GauGAN和BicycleGAN显示出负光谱升高，表明它们的输出在伪影带内比真实大理石更干净。3.5. 计算效率和部署可行性图8展示了所有四种架构的训练演变过程，揭示了不同的收敛模式，解释了它们的最终性能特征。FID演变（图8c）表明GauGAN以最快的收敛速度和最稳定的轨迹达到最终FID为87.308，并在此后保持稳定。Pix2Pix展示了较慢但一致的FID改进，在第3000个周期时达到了最佳分数85.286。基线cGAN和BicycleGAN的训练动态更加波动，最终FID值较高（分别为94.623和100.071），表明显式的潜在多样性机制使得与Inception-v3特征统计的对齐变得复杂。图8. 四种架构的训练动态。(a) 生成器损失收敛。(b) 辨别器损失演变。(c) 历史上的FID演变。生成器损失轨迹（图8a）揭示了架构在学习动态上的差异。GauGAN在最初的1000个周期内损失减少最显著，从约45降至约21，然后稳定下来，这种模式表明SPADE的多尺度语义注入促进了快速的特征学习。BicycleGAN表现出类似的收敛行为，但初始损失较低（约22），而Pix2Pix在整个训练过程中保持了相对稳定的生成器损失（约13–14），与其确定性的映射和L1正则化一致。基线cGAN的生成器损失最低（约2–4），但这并没有转化为更好的FID性能，突出了生成器损失幅度与感知质量之间的脱节。辨别器损失演变（图8b）提供了对抗训练稳定性的见解。GauGAN的辨别器最初表现不佳（损失约0.4，表明预测过于自信），然后在约0.6–0.7之间稳定下来，表明生成器学会了产生具有挑战性的输出，保持了辨别器的不确定性。Pix2Pix的辨别器损失从约1.2稳定降至约0.2，表明辨别器在检测合成图像方面越来越自信。这种渐进的可检测性可能解释了为什么人类评估者也认为Pix2Pix的输出更易于检测，尽管其FID（对抗性散度）更优越。baseline cGAN和BicycleGAN保持了更平衡的判别器损失（约0.5–0.6），这与对抗性训练中的纳什均衡一致。表4报告了与工业部署相关的计算特性。尽管GauGAN的架构复杂，但它需要的可训练参数最少（53.1 M），因为SPADE归一化层相对于U-Net编码器堆栈来说参数效率更高。然而，由于每个像素的归一化参数预测的计算成本较高，GauGAN的训练成本最高（0.82分钟/ epoch，1761.3 GFLOPS）。这意味着GauGAN需要42.4小时才能收敛（3100个epochs），而Pix2Pix需要10.2小时（5100个epochs × 0.12分钟/epoch），baseline cGAN则需要12.7小时（6900个epochs × 0.11分钟/epoch）。 Pix2Pix在参数数量为61.4 M的情况下提供了具有竞争力的训练效率（0.12分钟/epoch）。在推理时，所有模型都能在消费级GPU上处理1280 × 720的输出，适合集成到交互式设计工具中。鉴于GauGAN通过人类评估验证了其 superior 的感知质量，与其相比4.2倍的训练时间成本（42.4小时对比10.2小时）对于建筑可视化等质量至关重要的应用是合理的，因为在这些应用中，人类的质量感知是最终的裁决者。

**4. 讨论**

本节综合了实验结果，以解释它们对工业纹理合成的更广泛影响，分析了训练动态和架构洞察，并讨论了研究的局限性，同时提出了未来研究的具体方向。

**4.1. 结果的综合与影响**

全面的评估证实了条件GAN在合成逼真、结构可控的大理石纹理方面非常有效。然而，结果揭示了自动化定量指标与专家人类判断之间的显著脱节，这对研究社区如何验证生成模型具有深远的影响。如表2和图5所示，Pix2Pix与GauGAN之间的定量感知差异表明，基于Inception的指标无法捕捉随机材料合成中的与人类相关的纹理质量。这一发现与大规模实证证据一致，即生成更逼真图像的模型在FID上的得分反而更低，这表明用其他编码器替换Inception-v3可能会提高人类指标的一致性[13]。我们的结果将这些发现扩展到另一个工业背景，证实了Borji（2022）[14]的观察，即FID特别不适合那些视觉特征与自然图像不同的特定领域。这种失败模式的架构根源可以追溯到Pix2Pix在其U-Net解码器中使用转置卷积进行空间上采样。正如Odena等人[56]所正式描述的，当核大小不是步长的倍数时，转置卷积会在输出中产生不均匀的重叠：某些输出像素接收了不成比例的输入激活贡献，从而形成了一个周期性的、类似网格的强度模式，表现为特征空间频率下的系统性纹理重复。这种伪影不是训练不稳定或数据集限制的结果，而是上采样运算符的固有结构属性。第3.4节中的PSD分析直接从频谱上证实了这一机制：在架构预测的频率（0.0625 c/px，16 px周期）测量的幅度是Pix2Pix独有的，在GauGAN中不存在，这证实了Odena等人[56]的理论框架，并在工业纹理数据上得到了实证频率域的证据支持。

GauGAN完全消除了这种机制。它的生成器通过六个残差块使用最近邻插值进行逐步上采样，然后是标准卷积，确保每个输出像素都从其局部邻域获得相同的贡献，没有不均匀的重叠。SPADE归一化层随后在每个分辨率级别重新注入来自输入掩码的空间结构，保留了纹理的几何形状和语义边界，而不依赖于转置卷积上采样。这种无伪影的上采样与逐层掩码条件的结合解释了为什么GauGAN能够复制自然大理石结晶的非周期性、随机特性，而Pix2Pix的解码器架构在结构上无法实现这一点。这一发现对工业应用有重大影响：如第3.4节中实证的那样，仅在质量关键制造环境中依赖FID进行架构选择会直接带来经济后果，因为材料真实性决定了客户的接受度。对于最终用户是人类的应用，结构化的人类中心评估应被视为验证流程的重要组成部分。虽然自动化指标对于指导训练动态仍然非常有价值，但它们不足以作为感知质量的唯一裁决者。此外，GauGAN在生成可控的高保真纹理方面的成功标志着工业材料设计的一个潜在范式转变。我们的工作表明，条件GAN成功地统一了传统程序控制的方法与数据驱动技术的真实性，能够通过二进制掩码实现明确的结构控制，同时合成逼真的局部外观。这种能力可以将设计过程从从预定义的目录中选择材料转变为根据需求主动创建定制的、数字原生的材料，从而支持虚拟原型制作流程和数字孪生应用。

将这些结果与相关工作进行对比具有挑战性，因为结合自动化和人类评估的工业材料纹理合成研究很少见。最近关于大理石GAN合成的工作，Bernardi（2023）[51]展示了基于GAN的大理石纹理生成的可行性，但完全依赖于自动化指标，没有人类验证。此外，结果仅在单一架构上报告，没有进行比较基准测试，限制了直接的性能比较。据我们所知，我们的双评估协议是第一个系统化的人类验证基准测试。关于VTPR（视觉真实性概率），GauGAN的结果为0.533（95%置信区间：0.400–0.667），与大规模人类评估基准测试中的顶级生成器性能直接相当。具体来说，HYPE基准测试[12]报告称，在类似的限时2AFC条件下，不同图像类别的领先模型的VTPR值接近随机水平阈值0.5，最好的生成器在0.52–0.56范围内。我们的GauGAN结果正好在这个范围内，证实了基于SPADE的合成在仅有289个训练样本的特定工业领域中实现了与人类无法区分的竞争性能。我们研究中观察到的FID范围（85–100）明显高于面部合成（通常FID < 10，对于最先进的模型）或自然场景生成（FID < 30）的报告值，这与Inception-v3对其ImageNet训练分布的领域敏感性的已知情况一致。大理石纹理与ImageNet对象类别的统计结构很少重叠，这 inflated了绝对FID值，同时保持了它们在该领域内跨架构比较的相对区分度。

**4.2. 训练动态与架构洞察**

训练动态揭示了收敛速度、计算成本和感知质量之间的根本架构权衡。GauGAN快速的FID收敛速度证明了SPADE通过多尺度语义注入学习纹理分布的效率。然而，这一优势伴随着每个episode的显著计算成本：由于每个SPADE层中的每个像素卷积，GauGAN每次前向传递需要1761.3 GFLOPS（比Pix2Pix高10.3倍）。判别器损失模式提供了关于指标-感知差异的额外洞察。Pix2Pix逐渐下降的判别器损失表明判别器已经学会了可靠地检测合成输出，这与人类评估结果一致。相比之下，GauGAN在整个训练过程中保持了判别器的不确定性，表明即使对于明确训练来检测它们的网络来说，其输出仍然难以分类。这种对抗平衡与人类无法区分性相关，验证了GAN的最初目标。在本研究的实验条件下，这些发现提出了暂定的决策标准：需要快速迭代的应用可能优先考虑Pix2Pix，尽管存在可检测的伪影，而质量关键的应用则证明GauGAN的4.2倍训练时间投资是合理的。然而，这些指南应在更大范围的大理石类型上进行验证后才能在部署规模上采用。

**4.3. 无监督掩码生成的实际验证**

所有架构成功训练到逼真质量水平，验证了无监督分割流程作为解决注释瓶颈的实际解决方案。从SLIC超像素、GMM聚类和图割优化生成的掩码足以在所有289块大理石上进行高保真合成，无需手动校正。这对于工业部署至关重要，因为这种规模的数据集的注释成本可能很高。对掩码缺陷的鲁棒性值得注意：GAN训练期间的L1重建损失通过学习用与训练数据统计相匹配的纹理填充纹理区域来隐性地纠正了轻微的掩码不准确性。这与最近的工作一致，表明即使标签图不完美，两阶段生成流程也可以有效[35]。然而，系统性的分割失败会传播到合成过程中，这表明未来的工作探索像Segment Anything这样的基础模型可能会进一步提高鲁棒性。

**4.4. 局限性与未来研究的方向**

除了本基准的实验范围之外，在将GauGAN应用于生产环境之前，还需要考虑几个特定于部署的风险。首先，领域转移是一个实际问题：所有模型都是基于来自同一采石场的单一大理石品种（Exotic Ambar）进行训练的，其架构排名可能不适用于纹理形态、色度剖面或结晶纹理有显著差异的大理石类型。其次，GAN训练具有固有的随机性；如果没有严格的随机种子控制，结果可能会表现出运行间的差异，从而影响工业质量流程的可重复性。第三，GauGAN的架构复杂性，特别是每个像素的SPADE归一化块，导致相对于Pix2Pix（42.4小时对比10.2小时）的训练成本高出4.2倍，以及随着生产数据的发展而需要更大的微调开销，这对动态制造环境中的长期维护有影响。这些考虑因素强化了我们对建议的保守解读：GauGAN在本文评估的特定条件下表现最佳，但在部署规模采用之前应在更广泛的材料类别上进行验证。虽然本研究建立了用于随机自然材料掩码条件合成的基础基准，但仍需承认几个局限性。首先，我们的方法只在单一大理石类型上进行了验证。虽然这种材料展示了丰富的纹理模式，提供了一个具有挑战性的测试案例，但地质材料展示了巨大的视觉多样性。未来的工作应该将这一框架扩展到分类多样化的天然石材，以评估不同纹理生成机制的材料类别是否具有普遍性。其次，人类评估的统计功效受到样本大小的限制。虽然对于探索性验证来说足够，并且与感知质量评估文献中的实践一致，但未来的工作应使用更大的样本集来建立稳健的效果大小，并能够在评估者专长水平上进行子组分析。消费者偏好可能与专家判断有系统差异，通过ITU标准化的协议在众包平台上扩展评估将增强普遍性。第三，我们有意从本基准中排除了扩散模型，以保持方法学的严谨性：比较具有根本不同训练范式（对抗性与去噪扩散）的模型、数据要求和计算特性会引入混淆变量，从而掩盖了特定于架构的洞察。像Stable Diffusion和ControlNet这样的先进扩散模型利用了大规模预训练的基础模型，使得直接比较在方法学上变得复杂。作为后续研究，正在进行使用相同数据集和评估协议的专用扩散模型比较，同时仔细注意区分架构效应和预训练数据规模。第四，将这种2D框架扩展到3D体积纹理生成将使得在建筑应用中实现更加沉浸式的可视化，其中大理石纹理会穿透材料深度。最近关于3D感知生成模型和神经辐射场的工作为这一扩展提供了有希望的基础。最后，观察到的指标-感知差异表明需要开发新的评估指标，以更好地与人类判断对齐，以适应纹理合成任务。研究方向包括基于人类判断的学习型感知指标、捕捉随机特性的多尺度纹理描述符，以及结合高效自动化筛选与有针对性的人类验证的混合框架。这里建立的数据集和协议可以作为开发此类指标的基准。

**5. 结论**

本研究证明了条件GAN可以从自动生成的掩码中合成逼真、结构可控的大理石纹理，消除了手动注释的成本。通过对289个工业扫描的四种架构进行系统评估，我们揭示了指标与人类感知之间的关键差异：Pix2Pix获得了最佳的FID（85.286），但人类评分最低；而GauGAN生成的纹理在统计上与真实大理石无法区分（VTPR：0.533，MOS-MA：2.889），尽管其FID较差。这一发现表明，在质量关键应用中，人类参与评估对于部署决策至关重要。在本研究的实验条件下——单一大理石类型（Exotic Ambar）、289个工业扫描和三位领域专家的评估——GauGAN展示了最强的感知性能，并代表了质量关键应用的首选架构。当计算效率是主要约束时，Pix2Pix仍然是一个可行的选择。然而，这些建议应解释为特定于条件的：在得出更广泛的部署规模结论之前，需要在更多大理石类型和更大的专家小组上进行验证。未来的工作将把这个框架扩展到各种不同的地质材料上，并与条件扩散模型进行比较。

热点排行