实验与计算数据大规模融合驱动二维材料发现:X2DB开放数据库的构建与应用

《ACS Nano》:Large-Scale Integration of Experimental and Computational Data for 2D Materials

【字体: 时间:2026年04月09日 来源:ACS Nano 16

编辑推荐:

  为解决二维(2D)材料领域知识高度碎片化、实验与计算数据缺乏整合的问题,研究人员构建了X2DB──一个集成的开放数据库。它通过文献挖掘和社区上传,系统整理了370种已实验实现的二维材料,并将其与计算数据库(C2DB)中的对应结构相链接。该工作不仅提供了统一的材料分类与数据框架,还支持社区持续上传,推动了实验与理论的交叉融合,为数据驱动的二维材料预测性合成奠定了基础。

  
过去十年,二维(2D)材料领域经历了爆炸式增长,从石墨烯到各类过渡金属硫族化合物,众多新材料展现出从绝缘体、半导体、金属到超导体、铁电体、拓扑材料等丰富多样的物理化学性质,在催化、能源存储、光电子学和量子器件等领域展现出巨大潜力。然而,这片繁荣景象背后却隐藏着一个日益凸显的难题:关于这些材料的晶体结构、合成路线、测量或预测性质的信息,散落在数以万计的研究论文中,缺乏统一的整理和连接。相较于经过一个多世纪研究、已有多部手册和大型数据库(如ICSD)系统整理的体相材料,二维材料的实验数据仍处于一种“孤岛”状态。与此同时,虽然已有多个专注于预测的二维材料计算数据库,却没有一个可与之对等的实验资源库。这种数据割裂不仅使研究者难以纵览全局,也阻碍了实验与计算之间的有效对话。计算预测常用的一些简单描述符(如形成能、声子谱)在真实合成条件下的预测能力和相关性也尚不明确。为了打破这一僵局,打通实验与计算之间的壁垒,建立一个系统化的知识基础设施迫在眉睫。近期发表于《ACS Nano》的研究,正是对这一迫切需求的回应。
研究者们开展了一项大规模的数据整合工作,旨在为已实验实现的二维材料构建一个统一、结构化、且与计算数据深度集成的开放数据库。为此,他们建立了名为X2DB(Experimental 2D Materials Database)的开放基础设施。该研究通过结合文献挖掘与社区上传,系统性地识别出370种已成功在单层或少层形式下制备的独特二维材料,并将它们与计算数据库(C2DB)中的数字化模型链接起来,实现了从单层、双层到体相材料性质的一致性第一性原理表征。这项工作不仅描述了X2DB数据库的结构与内容,展示了其如何支持社区数据上传和生成科学见解,还首次为已知的二维材料集合引入了一个层次化的分类体系。该研究有力地支持了实验与理论知识的融合与相互促进,并为数据驱动的、可预测的二维材料合成铺平了道路。
为构建X2DB,研究人员采用了一套系统的数据采集与处理流程。首先,他们从Web of Science核心合集中筛选了约9000万篇论文,通过关键词过滤出约20万篇可能与二维材料实验研究相关的文献。接着,利用化学式匹配,将范围缩小至与计算二维材料数据库(C2DB)中稳定单层结构对应的约2.9万篇论文。随后,依据引用次数、发表年份及是否包含DFT(密度泛函理论)计算等标准进行排序,并通过人工核查最终确认了来自221篇论文的280种独特材料,并将其与C2DB中的结构进行匹配,赋予1-3的置信度等级。此外,数据库向有限的研究者群体开放上传功能,最终将材料总数扩充至370种,其中200种以高置信度与C2DB单层结构匹配。
2.1. 填充数据库
研究团队通过上述文献挖掘工作流,初步识别了280种已实验报道的二维材料,并将其与C2DB中的单层结构关联。经过后续社区上传,X2DB最终收录了涵盖370种独特化学式的550个条目。其中,163种材料在初步匹配中获得了最高的3级置信度,意味着其结构相可被明确识别。这为后续的分析提供了可靠的数据基础。
2.2. 二维材料分类学
为标准化描述实验二维材料,X2DB采用了一套量身定制的高级分类学。该分类学将信息组织成涵盖晶体结构与成分、样品形貌、合成方法、基底、表征方法、以及性质与应用等主要类别。它不仅提供了预定义的描述标签(如常见的合成技术、基底类型),也允许用户自定义文本,旨在建立一个可控的词汇表,以支持跨文献的统计推断。
2.3. 上传条目至X2DB
X2DB以“材料-出版物”对的形式组织信息,外部用户可通过简单的网络表单上传新条目,仅需提供ORCiD身份标识。这种设计使得同一材料可关联多篇文献,同一文献也可报道多种材料,从而能综合呈现特定材料的不同合成方法、样品形貌及性质测量结果。
2.4. X2DB的数据统计
通过对X2DB中数据的统计分析,可以洞察当前二维材料领域的实验概况。例如,分子束外延(MBE)通常制备出横向尺寸小(<1微米)的超薄样品,而化学气相沉积(CVD)可制备出横向尺寸大得多(10-100微米)的样品。在表征方法、合成路线和所用基底方面,分布相对均匀,没有单一技术占据绝对主导,显示了该领域技术的多样性。在晶体结构方面,二维六方晶系结构占显著优势。
2.5. 计算数据的整合
X2DB与计算数据库(C2DB, BiDB, CrystalBank)的深度整合,使得直接比较测量与计算性质成为可能。分析显示,所有通过机械剥离(如胶带法)制备的材料,其层间结合能均低于35 meV/?2。此外,通过计算揭示了已实现二维材料的电子特性分布:约59%预测为半导体或绝缘体,41%为金属;其中25%的材料倾向于磁基态,且金属中磁性材料的比例相对更高。能隙分布显示,非金属单层的HSE06计算带隙范围为0至5.7 eV。大多数材料的单层能量位于凸包面(convex hull)0.1 eV/原子以内,表明其热力学稳定性较高。
2.6. 二维材料的分类
基于X2DB中的整理数据,研究团队构建了一个层次化的分类体系,以系统化地概述所有已实验实现的二维材料。该分类主要依据阴离子类型划分,包括历史重要的元素二维材料(Xenes)、硫族化物、卤化物、氧化物、碳化物和氮化物(包括MXenes)以及混合阴离子化合物。分类不仅提供了材料空间的紧凑视图,还能用于比较化学相关家族内的趋势、识别材料空间中的空白区域,并为机器学习模型构建平衡的基准集。
该研究通过构建X2DB这一开放的、基于分类学的数据库,首次系统性地整合与呈现了实验二维材料的丰富化合物空间。其核心贡献在于弥合了实验与计算数据之间的鸿沟,使研究者能够无缝地在实际测量与理论预测之间导航。这不仅有助于深入探究控制材料稳定性和可合成性的因素,支持跨文献的统计推断,还能指导针对性的新材料发现。X2DB还能帮助识别当前二维材料版图中的“空白”区域,例如由于在阴离子、金属或合成策略选择上的偏差所导致,并据此推断针对特定组分和材料家族的有前景的合成路线与生长基底。
截至论文发表,X2DB已包含370种独特化合物,其中210种材料以高置信度与其在计算数据库中的单层、同质双层和体相对应物匹配。然而,X2DB的意义远不止于作为一个展示已合成材料及其计算数据的静态目录。通过收集同一化合物的多个实验记录,数据库能够系统性地探索样品形貌和质量如何随合成方法、基底等参数变化,并全面汇总针对特定材料的表征技术、测量物理性质和已报道应用。同样,X2DB可用于识别报告了特定类型测量(如拉曼光谱、电荷密度波、激子、磁振子等)的文献。
X2DB的持续发展与价值发挥,依赖于研究社区的积极参与。通过贡献实验数据和出版物,研究者不仅能提升其工作的可见度和FAIR(可查找、可访问、可互操作、可重用)性,还能通过建立与互补计算数据的链接来丰富其工作。这样的数据贡献对于将X2DB推进为一个动态的社区资源至关重要,使其能够持续演进,并为整个二维材料领域的实验学家和理论学家提供持久价值。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号