《ISPRS JOURNAL OF PHOTOGRAMMETRY AND REMOTE SENSING》:The moon’s many faces: A single unified transformer for multimodal lunar reconstruction
编辑推荐:
本研究针对行星科学中多模态学习应用匮乏及传统Shape and Albedo from Shading(SfS,形状与反照率恢复)计算复杂的问题,开发了基于Transformer的统一架构,实现了灰度图像、DEM(数字高程模型)、法线图与反照率图间的任意模态转换。结果表明该基础模型能学习物理一致的跨模态关系,为大规模行星3D重建提供了新范式。
在月球探测的漫长历史中,人类积累了海量的遥感数据,从阿波罗时代的着陆器影像到如今月球勘测轨道飞行器(LRO)的高清照片,这些数据构成了我们认识这颗地球卫星的基石。然而,如何从这些看似平面的二维图像中精准还原出月球表面的三维地形,并同时解析出其物质组成,一直是行星科学领域的核心挑战。传统的Shape and Albedo from Shading(SfS,形状与反照率恢复)技术虽然能够解决这一问题,但其计算过程极度依赖复杂的物理模型和专业经验,且往往耗时巨大。与此同时,尽管多模态学习在地球观测、医疗影像和自动驾驶等领域已大放异彩,但在行星科学这一数据异构性极强的领域却鲜有涉足。面对稀疏的空间覆盖、多变的光照条件以及有限的地面真值数据,科学家们急需一种能够像人类大脑一样,融合视觉、几何与物理规律的全新智能算法。正是基于这样的背景,来自德国多特蒙德工业大学(TU Dortmund University)的研究团队提出了一种革命性的解决方案——利用单一的Transformer架构,打通月球遥感数据的“任督二脉”。
为了验证这一构想,研究人员开展了一项极具开创性的研究。他们构建了一个统一的Transformer模型,旨在学习灰度图像、数字高程模型(DEM)、表面法线和反照率图这四种关键模态之间的共享表征。不同于以往针对特定任务定制的专用模型,该研究提出的架构支持从任意输入模态到任意目标模态的灵活转换。研究团队利用阿波罗11至17号着陆区的LRO窄角相机(NAC)图像作为数据源,首先通过经过充分验证的SfS框架生成了高精度的DEM、反照率图和表面法线图作为训练标签。随后,他们采用了定制化的VQ-Tokenizer(向量量化分词器)对各模态数据进行编码,并结合Dirichlet采样策略进行掩码自编码(Masked Autoencoding)训练。实验结果表明,该模型不仅能够学习到跨模态的物理一致性关系,还能有效解决SfS这一经典的不适定问题。这项成果不仅为月球3D重建提供了新思路,更为未来构建统一的行星表面基础模型奠定了坚实基础,相关论文发表于《ISPRS JOURNAL OF PHOTOGRAMMETRY AND REMOTE SENSING》。
在研究方法上,作者主要运用了以下关键技术:首先是数据集构建,选取了阿波罗11至17号着陆区的6幅大型LRO NAC图像,利用ISIS3进行标准化处理,并通过基于Hapke模型的SfS框架生成了包含DEM、反照率图和表面法线的训练与测试数据集。其次是Tokenizer设计,采用Vision Transformer(ViT)作为编码器,卷积神经网络(CNN)作为解码器,构建了自定义的VQ-Tokenizer,将各模态图像转化为离散的Token序列。最后是模型训练与推理,采用基于Dirichlet采样的掩码策略,设定不同的α参数控制各模态Token的采样比例,利用交叉熵损失函数进行多模态掩码自编码预训练和微调,并在推理阶段通过零初始化目标Token实现非迭代的单次前向传播预测。
6.1. Overview of experimental setup
实验设置旨在评估单一统一Transformer架构学习共享表征及在不同月球数据模态间进行转换的能力。研究设定了两个主要场景:一是利用三种可用输入生成单一缺失模态;二是从单一输入模态生成其余三种模态。
6.2. Qualitative analysis
定性分析显示,在利用三个模态预测一个缺失模态的场景下,模型能有效重建缺失数据。在从单一输入生成三种数据的场景下,模型对灰度图像、法线图和DEM的生成效果良好,但在仅基于反照率(Albedo)生成其他模态时表现不佳,出现了网格状伪影。这揭示了反照率主要受表面成分和空间风化影响,与高程和法线图相对独立。此外,通过可视化注意力机制发现,同模态内的Token相关性高于跨模态,且模型在预测灰度图时高度依赖反照率和法线图,而在预测法线图时则显著忽略反照率,符合物理规律。
6.3. Quantitative analysis
定量分析分为两部分。6.3.1. Performance of missing modality generation结果显示,当利用三个模态预测一个时,DEM表现出最高的SSIM(0.9446)和最低的Relative Error(0.077%),法线图次之(SSIM 0.9170)。灰度图像的RMSE最低(0.00134)但SSIM最低(0.726),推测是由于缺乏光照几何信息导致阴影预测不一致。反照率图的Relative Error最高(43.071%),但SSIM仍高达0.9323,说明空间分布模式捕捉准确。6.3.2. Performance of generation from single modality结果显示,从单一模态生成其余模态时,DEM与法线图之间存在强几何关联,从法线图预测DEM的Relative Error仅为0.0723%,SSIM达0.948。反照率与几何模态的关联较弱,从反照率预测法线图的SSIM仅为0.349。灰度图像作为复合信号,预测DEM的效果尚可,但预测反照率时Relative Error较高(42.9%)。
6.4. Shape and Albedo from shading
该部分专门探讨了模型在SfS任务上的表现。结果表明,模型成功分离了反照率与几何特征。仅使用灰度图像预测DEM时,在Apollo 11测试集上的RE<2m为0.33768,RE<4m为0.63451,RE<10m为0.97733,且存在明显的垂直偏移。而当结合所有三个模态(灰度、法线、反照率)时,性能显著提升,RE<2m达到0.99867。在结构相似性方面,基于坡度的SSIM为0.475,虽低于GADEM等专用方法,但验证了模型恢复高频地形特征的能力。
7. Discussion
讨论部分指出,研究证实了统一Transformer在月球多模态数据表征学习上的有效性,特别是模型识别出了反照率与地形的物理独立性。在单灰度图生成DEM的任务中,模型在坡度SSIM上表现良好,证明了其保留了相对结构,但绝对高度的预测仍需改进。该研究的主要贡献在于展示了多模态学习在统一行星遥感任务中的潜力,无需为每项任务训练专用模型。局限性主要体现在单灰度图预测DEM时的绝对高度误差,以及模型对训练集中光照条件(入射角40°-50°)的依赖。在高入射角(约73.41°)下,模型会出现垂直条纹伪影和几何误判。未来的工作将引入光照几何作为输入,扩展光谱模态,并实现尺度感知的嵌入,以解决bas-relief ambiguity(浅浮雕歧义)等问题。
综上所述,这项研究成功地将多模态学习与Transformer架构相结合,应用于月球遥感领域,构建了一个能够灵活处理灰度图像、DEM、表面法线和反照率图之间转换的统一基础模型。研究不仅验证了利用深度学习解决经典SfS问题的可行性,还深入分析了各模态间的物理关联特性,特别是反照率与几何特征的独立性。尽管在绝对高度预测和极端光照适应性上仍有提升空间,但这项工作无疑为行星科学的数据分析开辟了新路径,预示着未来通过融合更多模态(如光谱数据、光照几何)和扩大训练数据覆盖范围,有望构建出真正全面、通用的行星表面数字孪生模型,极大地推动人类对太阳系天体的认知边界。