WeChemSynOntology:在用于纳米材料和先进材料的自动驾驶实验室中,对湿化学合成过程进行语义建模

《Digital Discovery》:WeChemSynOntology: semantic modeling of wet chemical syntheses in a self-driving lab for nano- and advanced materials

【字体: 时间:2026年04月28日 来源:Digital Discovery 5.6

编辑推荐:

  以一种清晰、明确的方式表示实验程序,使其他科学家能够理解和重现这些程序,这是科学进步的核心。几个世纪以来,这些描述都是由人类为人类制定的,通常假设存在隐含或默会知识。然而,当使用材料加速平台(MAPs)和自动驾驶实验室(SDLs)进行材料的自主发现和优化时,共享由机器设计和执行的

  以一种清晰、明确的方式表示实验程序,使其他科学家能够理解和重现这些程序,这是科学进步的核心。几个世纪以来,这些描述都是由人类为人类制定的,通常假设存在隐含或默会知识。然而,当使用材料加速平台(MAPs)和自动驾驶实验室(SDLs)进行材料的自主发现和优化时,共享由机器设计和执行的工作流程就变得越来越重要了。这些机器需要一个明确、精确且准确的描述和建模,涵盖所有需要执行的过程参数和步骤。为了满足这些需求,特别是在材料科学以及纳米和先进材料合成领域,我们开发了湿化学合成本体(WCSO),它基于平台材料数字核心本体(PMDco)和基本形式本体(BFO)。该本体包含了科学文献中数百万湿化学合成程序中的重复概念。我们详细讨论了本体的设计考虑、概念和架构,并展示了如何将其应用于构建和查询之前为SDL设计并在SDL上执行的湿化学纳米和先进材料合成工作流程的语义标注知识图谱。使用这样的形式化表示和语义标注来描述合成程序和工作流程,有助于在全球不同实验室之间实现合成程序的可重复性、共享和执行,即使这些实验室使用的机器人硬件各不相同。

实验程序的准确、精确和明确的描述在所有实验科学中都至关重要。它允许世界各地的科学家以及后代能够重现和建立在过去取得的知识和进展基础上。因此,一些科学领域报告称存在严重的可重复性危机,这非常令人担忧。

在(合成)化学和材料科学中,几乎所有现代期刊都要求有一个“实验部分”或“方法部分”,其中需要以自由文本格式描述导致化合物、观察结果和结论的实验。这种方法几十年来(甚至几个世纪以来)一直适用于由人类科学家为人类科学家描述的实验程序,但随着自动驾驶实验室(SDLs)和材料加速平台(MAPs)的出现,以及人工智能加速的材料发现,这种方法出现了一些新挑战。这些实验程序通常以自由文本形式存在,没有统一的格式或精确的、受控的词汇表。再加上语言本身的熵性,即可以用不同的方式表达相同的事实或程序(或者某些概念在其他语言中可能根本没有确切的对应词),这使得机器很难读取、交换和互操作实验程序,即使使用现代的自然语言处理(NLP)工具,如大型语言模型(LLMs)也是如此。

此外,在这些实验部分中通常描述的人为中心的工作流程中,有时会使用不精确的语言;或者至少使用了依赖于机器人平台或自动化设备不熟悉的默会知识或概念。例如,将添加描述为“滴加”或“缓慢”,而不是给出一个精确的流速(例如,1 mL min^-1);将反应时间描述为“过夜”,而不是给出一个精确的时间(例如,16 h);将搅拌速度描述为“剧烈”,而不是给出一个精确的值(例如,800 rpm);或者将温度描述为“室温”,而不是给出一个确切的温度(例如,23 °C)。虽然使用这样的主观描述可能表明在实验过程中相应的过程参数没有得到严格控制或优化,但机器在构建自动化合成工作流程时仍然需要对其值进行假设,而合成过程中使用的确切值对于重现实验可能仍然很重要。特别是在由机器执行——在某些情况下甚至由机器设计——的工作流程中,以更加结构化、明确和语义标注的方式表示实验过程和参数可以提高实验程序的互操作性和重用性。这种方法支持遵循FAIR原则,并推动了全球范围内MAPs和加速发现工作流程的民主化。实现这一目标的一种方法是把这些过程建模为符合明确定义的基础本体的知识图谱。SDLs提高了实验吞吐量,并实现了闭环优化,但它们也放大了跨仪器、软件堆栈和研究组的长期数据协调挑战。在分布式的SDL环境中,已经提出了依赖于知识转移、图表和本体的架构,因为它们能够明确表示实验工作流程、材料流动和来源,甚至突出了潜在的经济效益。这些方法符合FAIR指导原则,这些原则强调数据应该是可查找的、可访问的、可互操作的和可重用的,特别是以支持大规模机器可执行重用的方式。然而,在许多SDL部署中,数据管理实践仍然以项目特定的方式发展,这导致了定义的多样性、临时性的注释属性和数据导出和文档中的不一致术语。由此产生的“词汇漂移”降低了互操作性,并使自动化分析和跨实验比较变得更加复杂,这促使人们基于语义技术进行标准化,作为迈向稳健的、机器可执行的研究数据管理和可互操作数据共享的基础步骤。

为了应对这些挑战,通常依赖于语义框架,这些框架将领域中立的概念与领域特定内容分开,从而支持重用并促进不同社区之间的语义互操作性。ISO/IEC 21838标准通过定义顶层本体的要求来形式化这一理念,这些顶层本体可以作为枢纽本体,支持跨异构信息系统的交换、检索、发现、集成和分析。在这一框架中,基本形式本体(BFO)扮演着重要角色,因为它提供了一组领域中立的抽象概念,支持一系列互操作的本体,并且已经作为ISO/IEC 21838-2进行了标准化。BFO提供了一个高级建模词汇表,区分了连续体与瞬现体,并支持材料实体、过程和依赖属性的系统性表示,这也适用于结合了化学、材料、过程工程、测量和自动化的实验室中心用例(图1)。

自动驾驶实验室平台用于自主进行湿化学(纳米)材料合成,并描绘了重要概念。在材料科学与工程(MSE)中,PMD核心本体(PMDco)是在Platform MaterialDigital(PMD)项目框架内开发的,它提供了一个中级语义框架,该框架建立在BFO之上,并重用了已建立的与BFO对齐的本体,同时也针对MSE特定的需求,包括过程、材料结构/状态、属性和性能。PMDco被明确地设计为一个中间层,它将领域中立的顶层类别与可扩展的、以应用为中心的本体连接起来,支持MSE子领域之间的互操作性,并支持实验和工作流程的一致建模。这种设计理念与许多本体工程社区所描述的架构区分相吻合,即顶层本体(TLOs)、中级本体(MLOs)和领域/应用本体之间的区别,后者为不同的用例提供了越来越具体的术语。PMDco的用户指南还建议,描述MSE领域方面的应用本体应该建立在PMDco之上,并且实际上由Open Biological and Biomedical Ontology(OBO)Foundry和技术实现的Ontology Development Kit(ODK)所倡导的标准实践所支持。这支持了一种与社区惯例兼容的工作流程,并鼓励重用现有的本体资产。这个本体工作专注于SDL环境中的湿化学合成,需要覆盖实验室过程(计划、执行和报告)、材料及材料转化、仪器和设备、测量对象、量和单位,以及描述化学合成期间产品和结果的领域特定属性的表示。此外,测量对象、量和单位还必须符合全球通用的标准,例如SI系统和ISO专家委员会的标准(针对纳米材料的情况是ISO TC 229),以及OECD的全球公认测试方法和测试指南中的规范。这种广度激发了采用与BFO对齐的方法,因为BFO旨在支持跨多个领域的集成,并因为它提供了稳定的高级类别,可以容纳来自化学、材料科学和实验室自动化的更具体术语。这也激发了选择PMDco作为中间层的原因,因为PMDco已经针对MSE的处理-结构-属性范式,并且它支持通过应用本体进行扩展,这些应用本体可以与更广泛的MSE语义框架保持互操作性。与此同时,面向SDL的工作表明,本体可以表示设计-制造-测试-分析周期,并能够以支持FAIR目标的方式记录来源,这为自动实验管道的以本体为中心的设计提供了外部验证。

最近的研究进一步强调了语义建模和知识图谱作为实验室自动化和SDLs的基础设施的相关性。特别是,关于SDLs中数据集成和融合的最新观点强调了本体驱动的框架和知识图谱作为协调异构实验数据、计算数据和文献数据的关键机制,并使得这些数据能够在大规模上被机器执行。在一个互补的方向上,连接的数字孪生愿景主张基于动态知识图谱和通用知识模型的全面、分布式的实验室数字孪生,支持跨平台特定的“孤岛解决方案”的协调、互操作性和推理。在合成报告和机器可读表示的界面处,已经展示了借助LLM辅助的管道,可以从非结构化文献中提取合成程序,并通过专用的合成本体和语义代理将它们集成到更大的知识生态系统中。最后,已经报告了与BFO对齐的努力,这些努力通过API收集电子实验室笔记本(ELN)环境中的元数据,并使用基于SPARQL的转换管道将它们转换为符合BFO的RDF图谱。

在这个领域中,WCSO被定位为一个轻量级的、以BFO/PMDco为基础的应用本体,专注于在SDL环境中执行的湿化学合成工作流程的程序级、配方级表示。与更广泛的数字孪生或以ELN为中心的知识图谱工作相比,WCSO的主要重点在于建模时间上协调的动作序列(包括并发性和有序的子过程结构),以及通过可重用的过程属性模式捕获过程参数。这种设计直接支持跨工作流程的比较和跨异构协议和自动化堆栈的“配方片段”的检索,同时与更广泛的BFO对齐的生态系统保持互操作性。应用和领域本体设计通常依赖于(选择性的)重用已建立的本体和概念,这些本体和概念为方法、研究、过程化学、属性、单位和以实验室为中心的表示提供了成熟的词汇表。在相关领域中的一些可用资源在表S.1中进行了总结(见补充信息)。为了促进候选词汇表和本体用于语义建模的发现和验证,有许多免费访问的在线工具提供了精心整理的集合、术语级浏览和程序化访问,例如:(i)Ontobee是一个链接数据服务器和浏览器,它将本体术语URI解析出来,并将它们以人类可读的HTML页面和机器可读的RDF形式呈现出来,便于跨多个本体的术语检查和导航。(ii)TIB术语服务提供了一个访问科学和技术术语的单一入口点,支持基于Web的浏览和REST API(表示状态传输应用程序编程接口)来检索术语信息(例如,标识符、定义、关系),以便集成到工具和工作流程中。(iii)MatPortal是一个专门用于材料科学的本体存储库,支持发布、搜索和比较相关本体,并提供额外的门户功能,如注释和映射。

此外,一个共同的本体可以帮助在不同的SDLs之间实现工作流程的互操作性。在过去几年中,已经开发了许多用于SDLs的编排框架,以适应它们所构建的各个平台的特定需求,例如MinervaOS、IvoryOS、ChemOS、AlabOS、FINALES、NIMS-OS、HELAO、XDL、MADSci等。尽管它们的架构和底层概念有明显的相似之处,但没有普遍采用的命名约定。因此,在各个硬件上执行完全相同的实验步骤(例如,加热、搅拌、添加)及其相应的过程参数(例如,温度、搅拌速度、流速)的功能在不同的编排器中可能有不同的名称,即使它们在语义上指的是相同的概念或操作。每次从不同实验室适应一个实验以便将其映射到自己的组织者时,都需要分析运行实验程序或工作流的组织者的架构和命名约定,这给共享、比较和扩展现有实验知识带来了不必要的负担。另一方面,将概念和操作从执行这些操作的底层硬件和软件中抽象出来,并将其映射到一个语义上良好注释的本体中,可以加速这一过程,使其明显不那么繁琐且不易出错,并实现运行不同SDL/MAP平台以及具有不同硬件和软件后端的实验室之间的真正和易于互操作。虽然这样的语义层可以大幅减少技术障碍,但大规模的互操作性最终仍取决于社区的采纳、与现有平台约定的映射,以及各利益相关者之间的持续对齐。如果现有的配方和(元)数据(如关于化学品、合成路线和参数的信息)根据本体概念进行系统化结构化并整合,并通过自动化和专用的数据整合工作流进行扩展,那么产生的语义表示将能够实现灵活且机器可读的实验知识访问。这为数据驱动的发现方法提供了基础。随着知识库的增长,这样的框架支持针对经济效率和可持续性的最佳批量参数的识别,以及探索以前未探索的参数范围和设计空间。此外,这里介绍的方法使用自然语言合成描述和易于使用的图形用户界面来构建工作流和本体对齐的知识图谱,也可以通过减少主要接受合成训练的化学家和材料科学家用正确本体概念的复杂性来帮助社区的采纳。使用明确的基于本体的(元)数据描述,所获得的互操作性提升使得合成工作流不依赖于特定硬件,并支持按需国际复制(参考)材料。尽管有这些优势,由于学习曲线陡峭和需要专门知识,语义技术在材料科学和实验室自动化中的采用仍然有限。然而,最近的发展已经展示了成熟且社区驱动的本体的长期价值。AlphaFold开发者的认可间接强调了像基因本体(Gene Ontology)和ChEBI这样的与BFO对齐的资源如何能够系统地注释结构数据和结合位点,并支持在大型数据集之间实例的语义链接。

受到这些进展的启发,我们提出了一个SDL用例,展示了本体和知识图谱在真实实验室环境中实现的语义互操作性的好处。通过使用已建立的工具和方法,我们的方法旨在支持技术、专业知识和社区接受的融合。在这项工作中开发的符合BFO和PMDco的本体模式为进一步的SDL和MAP应用提供了可转移的基础。此外,所介绍的本体“WeChemSyn-Ontology (WCSO)”支持一种联邦化和协作式的方法,其中本体本身以及相关的纳米材料合成知识库可以由社区不断扩展和完善。

我们最近提出了一种使用自然语言处理来自动化生成我们在SDL中的工作流和知识图谱的方法。在这种方法中,我们使用了基于规则的算法和大型语言模型(LLMs)来处理实验描述,并创建“动作图”,以标准化的方式表示在自然语言中描述的合成程序中的各个步骤。为了描述这些动作,我们使用了Hawizy等人在他们的ChemicalTagger工作中最初提出的21个“动作标签”(这些标签是基于与人类领域专家的文献调查得出的),并增加了5个额外的标签。由此产生的26个“动作标签”集可以用来描述从超过150万项专利中提取的实验程序。它们也与Vaucher等人在从Pistachio数据集中提取化学合成动作的工作中使用的28个动作标签非常相似,这些标签用于描述620万个实验描述以及来自化学文献的1764个手工标注的动作。这说明了这些动作在数百万个实验程序中的普遍性,并证明了仅用大约二十几个单独的动作就可以描述广泛的湿化学合成。为了将上述动作词汇应用于纳米材料合成,我们开发了WeChemSyn Ontology (WCSO)作为一个轻量级的、以用例为驱动的应用本体,它提供了一个从化学角度表示纳米材料生产和表征工作流的语义框架。与广泛覆盖多个领域的纳米材料本体不同,我们的主要设计目标是描述在SDL中执行的湿化学合成的程序性描述:即,将“配方”表示为机器可执行的、模块化的过程描述,这些描述可以跨实验设置转移并由异构自动化系统执行(或至少解释)。这直接解决了纳米材料社区中的一个关键瓶颈:虽然科学文献提供了大量的合成程序的“大数据”覆盖,但操作知识通常嵌入在叙述性描述中,需要隐性的专业知识和手动解释。WCSO明确基于PMD核心本体(PMDco),这是一个为材料科学和工程(MSE)设计的中级本体,旨在将特定应用的模型与领域中立的顶级类别联系起来。PMDco遵循规范的MSE范式(处理-结构-属性),并重用已建立的与BFO对齐的资源,如RO、IAO和OBI,以模块化和互操作的方式表示过程、材料、设备、角色、功能和信息工件。通过导入和扩展PMDco,WCSO继承了(i)一个经过良好测试的表示实验过程链及其参与者的 водопроводной каркас и (ii) 与BFO对齐的互操作性策略,特别是能够与其他符合BFO的本体和知识图谱在更广泛的MSE相关语义生态系统中集成。这种固定特别是在SDL环境中特别有益,在这种环境中,合成、表征和数据驱动的优化需要无缝连接。PMDco提供了稳定的建模原语(例如,计划过程、计划规范、目标规范、材料实体、设备),允许一致地表示纳米材料合成步骤以及随后的分析和元数据。在上面介绍的动作标签的基础上,WCSO扩展了以化学为中心的实验室动作的受控词汇表,包括例如添加、混合、搅拌、加热、冷却、淬火、离心、洗涤、过滤、沉淀、提取、纯化、回收和去除等术语,每个术语都通过领域适当的定义和使用示例进行了建模,并附有统一的标签。这种覆盖对于纳米材料合成至关重要,在这种合成中,“相同”的目标材料可以通过多种程序变体获得,而能够模块化和重组动作序列的能力是大规模自动化、比较和优化的实际前提。此外,WCSO引入或改进了与合成结果和表征描述符相关的领域术语(例如,产量及其变体、浓度、分散系统),以便能够表示所做的和获得/观察到的结构化知识,这些知识可以轻松查询。26个动作类别的粒度水平旨在平衡(i)跨异构协议的互操作性和广泛检索,以及(ii)对重复性、自动化约束和结果解释至关重要的方法特定区别。在日常实验室语言中可能看起来相似的动作,在它们的基本物理机制和典型参数化不同时故意分开,因为这些差异会影响可行的设备实现和对材料及混合物的预期效果。例如,搅拌主要通过机械搅动引起宏观对流混合(通常通过旋转速度和几何形状参数化),而超声则引入声能,可以驱动分散、解聚集和局部加热(通常通过功率/振幅、占空比和超声时间参数化)。同样,过滤和离心都是分离步骤,但它们依赖于不同的分离原理和操作约束(例如,过滤介质/孔隙率和压力或真空与离心力和转子设置),这导致不同的可测量过程属性和经常不同的过程结果和故障模式。同时,动作词汇表旨在支持在多个抽象层次上的查询。当不需要方法特定的区别时,可以通过针对更高层次的组别(例如,“搅拌/混合”或“分离/纯化”)和检索所有相应的子类来进行更广泛的检索和跨协议比较。当需要详细比较时,更具体的动作类别能够进行分层分析(例如,区分“超声”和“搅拌”或“离心”和“过滤”),以检查程序变体如何与分散状态、产量或下游表征结果等结果相关联。这种多层次的查询能力支持一般能力问题(例如,“哪些协议使用了任何分离步骤?”(也见方法部分)和受控制的跨协议比较(例如,“当分离步骤是通过过滤还是离心执行时,协议有何不同?”)。作为创建完整本体中语义表示的核心目标之一,WCSO的一个重要设计目标是超越纯粹的分类学“术语列表”,并提供支持一致实例化、验证和推理的公理。这些公理正式约束了类别成员资格和属性的使用,从而实现自动化推理和一致性检查。具体来说,WCSO利用了围绕计划过程、计划规范和目标规范的BFO语义模式来表示程序动作作为明确配方意图的实现。这对于SDL环境至关重要,因为它保留了“预期是什么”与“实际执行了什么”的来源,允许工作流自适应地分化(例如,在执行过程中的替换或调整),同时仍然可以在语义上追溯为包含相关修改的计划实例。例如,类heat在ontology中作为一个定义明确的类别进行建模,使用三个等价公理来共同表征过程实例何时符合热处理的资格(图2)。

过程类“heat”的等价类别公理(仅以标签形式呈现),在描述逻辑(DL)表示法中给出。第一个公理将加热限制为实现至少一个相关功能的进程,该功能是可实现实体的子类,无论是加热功能还是热处理功能,从而捕捉了在实验室或处理环境中应用热的功能/目的论方面。第二个公理要求加热过程具有参与者(对象属性)某个温度,确保该过程明确与被操纵或跟踪的热力学量相关联。最后,第三个公理指定了一个额外的参与约束:该过程必须至少涉及一个参与者,该参与者是加热磁力搅拌器、热处理设备或更一般的温度变化设备。这种析取建模(联合)适应了多种加热实现方式,从组合的搅拌和加热实验室设备到旨在诱导温度变化的通用设备,同时将它们保持在相同的正式定义的过程类型之下。为了在扩展到数十个动作和许多映射的程序时保持建模一致性,我们依赖于语义(本体设计)模式。这种方法与PMDco的发展策略保持一致,后者明确支持模式库和可重用的建模模板,以确保跨模块和贡献者的一致公理化。对于WCSO来说,模式扮演着两个关键角色:(i)它们为表示常见的合成结构提供了可重复的“蓝图”(例如,具有指定输入/输出的动作;由设备执行的动作;实现目标的动作),以及(ii)随着新纳米材料系统、动作变体或表征步骤的添加,它们保持了本体的可维护性。此外,模式的视觉表示提供了便于人类理解特定语义建模的优势文档。在实验室工作流中的一个实际建模挑战是将过程级描述(例如,“在1000°C下退火”)与物理参与者(例如,样本或烤箱的温度)所固有的质量联系起来。在与BFO对齐的建模中,许多这样的质量是特定依赖的连续体(SDCs),必须内在于独立的连续体(IC)而不是过程中。此外,像has characteristic这样的广泛重用的关系是功能性的,即特定的SDC实例只能是某个承载者的特征;根据一阶建模逻辑,将相同的SDC实例同时附加到过程和参与者上是无效的。WCSO通过广泛使用过程属性模式来解决这个问题:过程具有过程属性(如速率、设定点等),这些属性可以引用过程参与者的SDC(结构化数据描述),从而将过程条件与适当的承载者关联起来,而不违反功能约束(图3)。此外,WCSO通过一个专用的非功能性关系(“关系质量的关系”)来区分关系质量(存在于两个或更多承载者中的质量),避免了在使用功能性的“质量的关系”时可能出现的错误推理,例如在比例或共享关系度量情况下(图4)。对于我们的用例来说,这种选择是有益的,因为合成协议经常表达关系性和上下文性量(例如比率、浓度、速率),其正确的解释对于可重复性和在不同实验室配置之间传递配方至关重要。

图3展示了与一个示例过程属性和参与者相对应的过程“加热”的示意性语义模式,以及它们的形式化表示——值规范,说明了在本体中如何使用实例(ABox)引用类(TBox)。

图4以示意图的形式展示了添加过程,其中两种化学实体作为输入,另一种化学实体作为输出,这说明了如何使用与某些质量相关联的输入和输出实例。图3显示了一个语义模式,它可视化了本体(一般语义表示)和断言图(知识图)如何共同作用来表示加热过程、相关的过程属性(加热温度)以及相应的测量/值编码(数值和测量单位)。此外,还给出了一个设备的标识示例。因此,图中有两个层次:术语箱(“TBox”)表示由类及其子类层次结构组成的模式(上半部分,粉色/青色/黄色框),如本体中所建模的;以及断言箱(“ABox”)表示实例数据(示例实例)以及它们之间的关系(下半部分,灰色框)。在这个模式中,特定的加热过程被实例化为wcso:heat类的一个实例,并与一个最初未定义的过程属性相关联。这里选择了过程属性“加热温度”作为示例;为了进一步描述加热过程,还以类似的形式指定了其他几个参数作为过程属性,以加热温度为代表。过程属性(它是过程依赖的)通过使用对象属性pmd:refers to间接连接到相关的质量类型(pmd:temperature),而不是假装过程本身具有温度质量。因此,温度质量在概念上仍然是某个承载者的质量(通常是样本或环境这样的参与者),但过程属性可以使用pmd:refers to“指向”相关的质量维度。这是本体中建模表示的意图,用于将过程属性与过程或过程步骤联系起来,这对于建模湿化学合成中的配方非常相关。此外,还引入了标量值规范模式(SVS),每当需要指定和链接(测量的)值和测量单位时,就可以重用该模式,它代表了一个构建块或拼图块。这通过红色虚线框表示出来。因此,图表显示了一个涉及iao:quality的小关系,它在温度质量实例和SVS(ex:heating_temp与ex:heating_temp_SVS通过iao:quality is specified as相关联)之间。该模式的意图是将温度质量建模为与标量值规范相关联,该规范编码了其测量值(80)和测量单位(°C)。此外,还使用类似的模式来演示设备如何获得标识符:机器人臂(示例设备)由一个标识符(iao:denoted by)表示,该标识符有一个值规范,其字面值为‘XArm-6’。这反映了SVS方法,但在这里,值是一个字符串标识符而不是数值测量。图4展示了将语义模式扩展到添加过程的示例情况,并演示了如何在BFO对齐的知识图中建模过程输入/输出和组合类描述符。在术语部分,模式将wcso:add定位为bfo:process的子类,将chebi:chemical entity定位为bfo:material entity的子类,同时遵循BFO、PMDco和WCSO的逻辑层次结构。在质量方面,图表明确区分了广延质量关系质量和关系质量:pmd:volume(pmd:size的子类)被建模为广延质量(即随系统大小变化),而wcso:concentration是bfo:relational quality的子类,这反映了浓度本质上编码了至少两个相关者(例如,部分和整体/总体的)之间的关系。在实例层,中心个体ex:adding_process_1被类型化为wcso:add的实例,并通过ro:has input对象属性与两个输入参与者ex:EtOH_1和ex:NaOH_1相关联,表达了预期的含义:有一个添加过程,其输入为EtOH_1和NaOH_1。相应地,如果可行,过程可以通过ro:has output与输出化学实体ex:EtOH_NaOH_1相关联,后者捕获了转换结果:添加过程产生了一个输出化学实体。这反映了图3中所示的过程中心建模原则,但现在强调的是通过输入/输出进行材料转换,而不是像加热温度这样的过程属性。然后,模式用与组成解释相关的量来注释输入和输出。在输出方面,ex:EtOH_NaOH_1通过ro:has quality与体积实例ex:volume_3(类型为pmd:volume)相关联,表明结果实体与一个可测量的广延质量相关联。在输入方面,图表还显示了体积实例(ex:volume_1、ex:volume_2),每个都类型为pmd:volume,同时使用了之前介绍的SVS模式。这传达了建模意图,即输入化学实体有自己的体积(测量的/记录的),这些体积被视为输入的体积质量。除了绝对体积,图表还引入了浓度作为输入实体所具有的关系质量。具体来说,个体ex:concentration_1和ex:concentration_2被类型为wcso:concentration的实例,并通过pmd:has relational quality与ex:EtOH_1和ex:NaOH_1相关联。这种选择符合PMDco的建模理念,即关系质量(如浓度或比例)需要一个与标准“has quality”模式不同的专用关系,因为它们不像普通质量那样自然地局限于单一承载者。从语义上讲,这些边应该被理解为:每个组分都与一个关系质量相关联,该质量捕获了其作为溶质相对于相关载体/溶液的浓度。因此,除了输入和输出的预期通用用途外,该图表还展示了如何在一致的本体框架内表示(i)绝对广延量(体积)和(ii)相对的、部分-整体描述符(浓度)。最后,小小的“SVS”拼图块注释标记了SVS模式的重用(见图3),用于创建结构化的值表示。虽然图4中的示例强调了以过程为中心的输入/输出视图,以明确材料转换,但这应该被理解为一个说明性的建模选项,而不是工作流中每个(子)步骤的强制性要求。在实践中,实验协议通常包括许多微动作,其主要作用是时间上的协调(例如,预热/清洗、等待、清洁)或容器处理,没有必要在每个动作后引入一个明确命名的中间(虚拟)“化学实体”。因此,子过程可以通过时间关系或通过它们的部分-整体结构简单地连接起来,包括并发的情况,而不需要断言一个完全实例化的中间材料输出链。中间实体应在它们在语义上或分析上相关时引入(例如,当选择一个不同的部分时,当多个输出重要时,或者当中间实体被测量/表征从而需要明确身份和属性时)。即使许多内部步骤不“传递”明确实例化的输入和输出,整个过程仍然可以在科学感兴趣的层面上一致地指定其主要输入和输出。讨论的编排模式可以放在本体工程中更广泛的时间建模策略背景中考虑。除了区分持续体和事件体并通过过程部分结构和时间关系表示时间协调的BFO对齐方法外,还存在突出的四维(4D)方法,其中实体被视为时空范围,变化通过时间部分来捕获。一个著名的例子是ISO 15926,52,其生命周期集成本体是为工业资产和过程工厂信息集成开发的,并明确支持时间部分建模作为一种4D机制。在本工作中,关键要求涉及实验室操作的配方级协调(例如,顺序排序、并发、等待和设备中介处理),而不是长期视野的工业资产生命周期集成,这些都可以在BFO/PMDco框架内通过事件分解(例如,has temporal part、has occurrent part)和时间关系(例如,precedes、simultaneous with)来完全表示,同时保持与重用的BFO对齐资源的兼容性(例如,RO/IAO和其他OBO-生态系统本体),这些资源支持来源和信息实体的模块化集成。为了进一步说明过程步骤的相关建模,以下模式展示了过程与其子过程之间的关系。第一个示例展示了如何将一个化合物实验步骤表示为一个由协调的时间部分组成的单一过程,每个部分都由不同的过程类型类型化,并通过自己的过程属性进行参数化(图5)。具体来说,个体ex:infuse_while_heating被建模为一个过程,它具有对应于(i)加热子过程(ex:infuse_while_heating_heating_part,类型为wcso:heat)、(ii)搅拌子过程(ex:infuse_while_heating_stirring_part,类型为wcso:stir)和(iii)添加/灌注子过程(ex:infuse_while_heating_adding_part,类型为wcso:add)的时间部分。明确指出这些子过程不仅仅是顺序的“步骤”,而是旨在同时发生:加热部分与搅拌部分相关联(相关部分之间也是如此),通过ro:simultaneous with关联起来。这表示整个程序在执行加热和搅拌的同时进行。与之前的过程属性模式(图3)类似,每个时间部分都配备了其中一个特征过程属性作为示例,分别通过pmd:has process attribute:加热部分与时间相关属性(ex:heating_time)相关联,搅拌部分与旋转属性(ex:stirring_speed)相关联,添加部分与添加速率属性(ex:addition_rate)相关联。然后为wcso:addition rate进一步示例化了过程属性的建模,它是pmd:process attribute的子类。此外,还重用了熟悉的SVS模式来编码每个属性的具体参数值,以确保数值和单位表示在不同子过程参数中保持一致。总体而言,通过这种方式,像“在加热和搅拌的同时灌注”这样的高级实验室指令可以表示为一个具有同时时间组件的单一过程,每个组件都通过相同的值规范机制携带自己的类型化过程属性(持续时间、搅拌速度、添加速率)。图5展示了描述“在加热的同时灌注”过程的示意性语义模式,该过程由三个部分组成,每个部分都建模为同时运行的独立过程;其中一个过程属性的分配作为子过程“添加”的示例给出。

基于此,图6展示了互补的情况,其中一个化合物实验步骤被结构化为按顺序进行的上下文过程。这里,个体ex:redisperse被建模为一个通用bfo:process的实例,它明确由三个事件部分组成:ex:redisperse_removing_part(类型为wcso:remove)、ex:redisperse_adding_part(类型为wcso:add)和ex:redisperse_dissolving_part(类型为wcso:dissolve)。与之前的“在加热的同时灌注”模式不同,关键意图是捕获顺序工作流而不是并发:移除部分被断言为先于添加部分(bfo:precedes),添加部分又先于溶解部分。因此,表示了一个有序的协议片段:remove → add → dissolve。整个过程通过重复使用bfo:has occurrent part从其这些事件部分继承内部结构,这允许高级“redisperse”指令被查询为一个单独的步骤或分解为其组成操作。综合来看,这两种模式为实验程序提供了一个连贯的建模工具箱:复杂步骤可以表示为(i)通过ro:simultaneous和bfo:has temporal part连接的同时子过程包,或者表示为(ii)通过bfo:precedes和bfo:has occurrent part连接的顺序子过程链,这取决于协议语义是否需要并发或明确的时间排序。图6展示了这一概念。

示意图展示了由三个部分组成的“分散”过程,每个部分都被建模为依次运行的独立过程(“相互前置”)。该本体旨在支持将提取的“动作图”转换为可执行、可查询的知识图表示。实际上,这意味着程序中的每个步骤都可以实例化为一个计划好的过程(或其 specialization),并将其与指定的输入/输出以及(如果适用的话)设备、过程属性和目标连接起来。由此产生的实例图支持基于能力问题的检索,例如:(i)识别使用特定纯化策略的过程(例如,离心+洗涤循环);(ii)提取参数化的“配方片段”(例如,淬火条件、加热/冷却速率或溶剂去除步骤);(iii)跨批次或纳米材料系统汇总结果,如产量和浓度。这种查询对SDL操作来说是一个核心优势,因为它能够实现自动化比较,支持系统地探索替代合成路径,并便于将来活动重用成功的“动作模式”。结合(i)以动作为中心的词汇表,(ii)基于PMDco的中层语义,以及(iii)基于模式的公理化,在所考虑的背景下具有几个实际好处。首先,互操作性得到了提高:通过与PMDco和BFO的对齐,建模的过程可以与其他采用相同基础承诺的MSE知识图和工具生态系统集成,从而降低了集成成本并增加了社区的采用率。其次,跨设置的再现性得到了增强:WCSO不是以散文形式共享配方,而是支持对程序意图、参与者和条件的标准化表示;这使得“该做什么”对机器和人类来说都是明确的,并减少了在仪器、实验室或自动化技术栈之间迁移协议时的歧义。第三,数据变得适合AI处理:结构化、形式化受限且有语义注释的表示减少了下游学习系统的噪声和歧义,这些系统可能包括基于机器学习(ML)和大型语言模型(LLM)的组件,它们从一致、类型良好的数据以及动作、参数和结果之间的强链接中受益。这对于未来的“神经符号”方法尤其相关,其中LLMs生成或调整候选过程,而符号约束和基于模式的知识图提供了验证、规范化和可解释性。

本体开发和维护过程结合了(i)依赖电子表格和实验室工作流程描述的领域专家友好的引导阶段,以及(ii)依赖Protégé进行OWL编写和ODK驱动的仓库自动化进行构建、导入、质量控制和发布的标准导向工程阶段。集成策略遵循了MaterialDigital方法,该方法将基于PMDco的建模与基于ODK的工程惯例相结合,确保WCSO作为一个领域本体与更广泛的材料科学语义框架保持互操作性。GitHub Actions协调工具链的执行,以便每个修订都经过自动化检查,并生成与仓库状态保持一致的更新后的工件和文档。特别是,通过使用GitHub Actions工作流实现的自动化缩短了领域专家面临的反馈循环,因为每个合并的本体更新都会触发文档更新,审阅者可以在浏览器中检查这些更新而无需本地工具。同样的自动化策略也支持轻量级的策划,因为它减少了本体发布时通常伴随的手动步骤,这是限制广泛社区参与的一个反复出现的问题。

本体的开发是由反映SDL基础湿化学合成中典型信息需求的代表性能力问题指导的,包括:

(i)在SDL中进行的湿化学合成涉及哪些实体(例如,材料、仪器、过程、过程步骤)?

(ii)如何以结构化、机器可解释的形式表示湿化学合成配方,以便跨实验和系统进行互操作查询和重用?

(iii)使用了哪些前体材料、溶剂和处理条件来生产特定的中间体/材料?

(iv)在工作流程中使用了哪些仪器进行特定操作?

(v)过程步骤是如何在时间上协调的(顺序 vs. 并发),以及哪些过程属性(例如,设定点、速率、持续时间)与这些步骤相关联?

(vi)哪些参数化的“配方片段”在工作流程中重复出现(例如,在加热过程中添加然后是分离步骤),它们如何与记录的结果相关联(例如,产量变体或下游特征描述符)?本体开发过程遵循了一个已建立的领域本体工程路线图,该路线图在之前的工作中有所描述,它概述了从术语收集和概念结构到正式OWL/RDF表示的进展。虽然本工作没有明确复制该路线图,但它与其总体意图保持一致,同时根据快速发展的实验室环境的实际约束调整了具体步骤。特别是,工作流程结合了(i)以电子表格为中心的阶段,支持领域专家的快速审查,以及(ii)以OWL为中心的阶段,支持逻辑验证、模块化和发布自动化。

领域知识的收集依赖于两个主要来源:来自SDL环境的过程工作流程,这些工作流程建立在领域专家之前收集的过程步骤之上,这些步骤已被证明适用于文献中的数百万个示例反应;以及在一个电子表格工具中维护的结构化术语清单。电子表格格式支持了早期阶段的共识构建,因为它以领域专家无需本体工具即可检查的形式展示了候选实体、过程参数和测量相关描述符。这个阶段对应于参考路线图中的“信息收集”步骤,尽管本工作强调了迭代细化,反映了实验室工作流程和报告实践的更新。从这些来源,开发团队得出了一组初始的类和属性,并将它们分配到反映过程阶段、材料相关实体和测量质量的类别中。这种分类建立了后来的模块边界和OWL实现中的导入决策的分类学框架。概念建模和形式编辑在建立的Protégé工具中进行,该工具是类层次结构、属性公理和注释管理的主要本体编辑器。Protégé提供了一个以OWL为中心的环境,支持在导入的本体之间导航,并直接检查实体注释,这促进了术语集中一致 labeling 和定义实践。工作流程保持了以人类为中心的术语引导(在早期迭代中仍然基于电子表格)和以机器为中心的公理化(在可编辑的OWL源中进行)之间的严格分离。这种分离在审查周期中减少了摩擦,因为电子表格的修订不需要OWL专业知识,而OWL的修订保持了需要下游工具的语义精度。

为了出版和长期维护,GitHub被采用作为版本控制、问题跟踪和审查的主要平台。这一选择反映了希望开发过程支持频繁的 Minor 更新,并能够跨本体版本进行追蹤的愿望。仓库结构和自动化策略遵循了Ontology Development Kit (ODK),它为本体生命周期任务提供了标准化和可配置的工作流程,包括持续集成、质量控制、发布准备和导入管理。ODK还提供了一个作为Docker镜像的策划工具链,这减少了贡献者之间的本地设置差异,并支持在操作系统之间保持稳定的可复现构建。作为起点的特定仓库模板源自Platform MaterialDigital (PMD)倡议,它提供了一个基于ODK的“应用程序本体模板”,该模板已经为领域和应用程序本体配置,以建立在PMD核心本体(PMDco)之上。该模板包括预定义的GitHub工作流,并采用了一种方法,将可编辑的本体文件放置在src/ontology/*-edit.owl下,这与ODK惯例一致,并支持通过pull请求进行协作编辑。这个模板被采纳作为基础,并大幅扩展以匹配WCSO特定的范围、导入和发布输出。与PMDco的对齐确保了领域级别的术语与为材料科学和工程(MSE)设计的中层语义框架保持互操作性,后者本身依赖于基于ODK的模块化开发实践(参见引言)。与大多数应用本体一样,随着实验室实践、术语和建模要求的变化,WCSO TBox预计会随着时间而发展。为了支持可复用的重用,变更通过版本控制和发布工件进行跟踪,并在可能的情况下优先选择向后兼容的演化(例如,稳定的IRIs和弃用而非重命名)。当TBox的变更影响实例数据时,ABox的更新被视为一个受控的迁移问题:工作流到RDF的导出步骤和仓库自动化提供了一个自然的集成点,用于基于SPARQL的转换或再生ABox数据集,以便发布的知识图快照与给定的本体版本保持一致。

常规策划任务的自动化依赖于GitHub Actions,它为持续集成和部署任务提供了集成在仓库中的工作流执行。为此,维护了多个工作流,这些工作流处理不同的生命周期阶段。一个工作流专注于在变更进入发布分支之前检测本体中的语法和结构问题。另一个工作流刷新本体导入,以确保外部依赖关系保持最新,这支持了一致的推理行为,并防止了当导入的工件变得过时时可能出现的无声漂移。这些工作流程反映了ODK对持续质量控制和依赖管理的强调,ODK文献将其突出了作为本体生命周期管理中复杂性的反复出现的来源。

发布生成和文件格式生产依赖于ROBOT工具链,该工具链在OBO社区内开发,作为一个命令行系统,自动化了常见的本体任务,如合并、推理、查询、验证和格式转换。ROBOT提供了将OWL编辑文件转换为多种分发格式的显式命令,这支持了期望OWL、RDF序列化或OBO风格工件的下游消费者。在ODK上下文中,ROBOT作为核心构建引擎,当ODK工作流实现发布产品并应用标准化检查时调用它,这些检查通常基于简单的SPARQL查询,例如,用于检测可能违反最佳实践的缺失语义概念注释。在这个项目中,这种安排允许本体编辑者将变更提交到可编辑的源代码,而自动化工作流生成了一组与仓库状态保持同步的发布工件。除了基于SPARQL的质量检查之外,还可以使用SHACL(SHApes Constraint Language)形状表达基于约束的验证,这非常适合RDF实例图的标准化验证和工作流图的预执行检查。在当前版本中,保留了基于SPARQL的方法,因为它与已建立的ODK/ROBOT工作流无缝集成,而基于SHACL的验证被认为是一个有前途的补充选项。

此外,工作流程将文档视为需要与本体文件相同自动化水平的发布工件。为此,使用了WIDOCO工具,它为本体生成了丰富的技术HTML文档,并支持通过可下载的JAR进行命令行执行。WIDOCO支持的文档生成依赖于本体元数据和术语注释,这鼓励了与本体本身保持一致的文档,即使版本可能会改变。实际上,GitHub Actions在本体更新后执行文档工作流,生成了一个静态网站,其中暴露了本体概览和术语级别的交叉引用页面。除此之外,另一个旨在更容易被人类读者理解的文档是由使用Mkdocs工具的工作流自动生成的,该工具基于作者专门设计的markdown格式的网页。技术性的WIDOCO和基于Mkdocs的文档都是独立可访问和可引用的。

在合成描述中使用的一些术语以及几个特定领域的术语已经在ISO标准中定义。尤其是对于总体术语来说。理想情况下,这样的既定术语可以反映在本体中,以支持社区之间的对齐。然而,在实践中,标准文本(包括正式定义)的重用通常受到标准化机构施加的许可和版权约束的限制。由于这个原因,这里呈现的本体并没有直接逐字复制ISO的定义。在适当的情况下,一些定义是根据基于ISO的描述重新制定的,以避免不必要的分歧,同时仍然遵守这些约束。更广泛地说,这突显了标准和本体之间的一个反复出现的挑战:两者都旨在促进共享和可靠的术语,但法律和许可条件可能会限制直接的文本重用。因此,本体开发者可能需要为已经标准化的概念提供释义或新编写的定义。从互操作性的角度来看,这不是理想的,因为它可能会增加资源之间的术语异质性。努力提高清晰度并改善对标准的了解以促进重用(例如,通过许可或标准化的定义引用机制)将有助于社区在共享术语上达成一致,并有利于长期的互操作性。

有几种优秀的开源和商业工具可以用来生成知识图谱。在这里,我们为我们的基于节点的工作流程编辑器实现了一个简单的导出器,它允许将整个工作流程及其所有过程参数作为遵循WCSO标准的知识图谱导出为turtle文件格式。对于代表整个工作流程的节点图中的每个“高级”节点,脚本会从WCSO中查找相应的概念及其IRI,并自动应用它们,模拟包含几个同时或顺序步骤的复合节点(例如,“加热的同时进行浸渍”、“离心和重新分散”),如论文中所述。每个高级节点的过程参数也被提取出来,并与WCSO中相应的概念链接起来,自动构建“标量值表示”,以根据WCSO和底层的PMDco存储数值及其单位。为了展示WCSO的多功能性和广泛适用性,我们选择了之前在我们的SDL上执行的七种不同的合成程序。这些合成的示例ttl文件提供在本文附带的GitHub仓库中,作为Jupyter笔记本演示器中示例SPARQL查询的知识库。我们还包括了一个简单的端到端示例,说明如何使用一个简单的图形工具(节点编辑器)将一个(不精确且不完整的)合成程序句子(“溶液在80摄氏度下加热了12小时,同时逐滴滴加试剂X”)导出为遵循WCSO标准的知识图谱,而无需深入了解底层本体概念(见补充信息中的图1和表2)。示例还讨论了在创建知识图谱之前如何在节点编辑器中实现启发式方法和错误纠正措施,以处理不精确的实验描述或合成协议中缺失的参数。例如,不精确的时间(例如过夜)、温度(室温)、添加速率(逐滴滴加)或搅拌速度(剧烈搅拌)规格可以用默认值替换,例如16小时、25摄氏度、1毫升每分钟和600转每分钟,而缺失的过程参数可以用预定义的默认值替换(例如,如果未指定值,则始终使用300转每分钟的搅拌速度或8000转每分钟的离心速度)。关于这些启发式方法和替换的更多信息,以及不同模型在应用于不同科学领域的更长和更复杂的合成程序时的提取准确性的比较,可以在我们之前的出版物中找到。应当注意的是,大型语言模型有时无法捕捉到预期的操作顺序(例如,添加和加热是顺序进行还是并行进行),或者无法正确地将定性的过程参数描述分配给各个过程步骤。在这种情况下,用户可以在将其导出为知识图谱之前手动更正节点设置,确保在以后查询知识库时知识图谱中的语义注释是正确的。

为了展示湿化学(纳米)材料合成数据的使用案例并实现一个轻量级的演示器,使用了Jupyter Notebook。这些特别适合演示,因为它们结合了人类可读的叙述(以Markdown格式提供并相应地呈现)和可执行的代码单元,允许以逐步的方式记录、解释和复制计算工作流程。这种literate-programming风格支持假设、中间结果和参数选择的透明沟通。此外,读者能够在不需要完整的软件部署流程的情况下重新运行和调整单个代码块。

为了展示对创建的知识图谱的数据访问和信息检索,提供了一个专门的Jupyter Notebook。该笔记本使用OWLready2 Python包建立了一个本地三元存储,通过实例化owlready2_world()对象并加载(i)PMD核心本体(PMDco),(ii)WCSO,以及(iii)几个示例A-Box数据集(从Turtle文件创建的RDF知识图谱),这些数据集基于之前描述和发布的湿化学合成工作流程,将它们加载到同一个内存存储中。这种设置使得可以直接对加载的图谱执行SPARQL查询。应当注意的是,演示器中使用Owlready2的目的是作为一种实用的自包含方式,将OWL/RDF工件加载到本地环境并执行SPARQL查询,而无需额外的基础设施。在更大的软件工程环境中,例如基于pydantic的对象图映射器可以通过同步类型化的Python类层次结构与RDF知识图谱来提供更面向对象的开发体验,正如最近的工具所示。 Schema-first方法还可以将更高层次的架构视为“单一真实来源”,并根据需要生成多个工件(例如,pydantic模型、JSON-LD上下文和OWL/Turtle渲染);代表性的例子包括LinkML的OWL和pydantic生成器以及OO-LD的结合JSON-Schema/JSON-LD方法。这些替代方案与本研究中存在的OWL-first本体设计兼容,被认为是未来更大规模部署的有希望的集成选项。此外,由于本工作的重点在于本体设计、建模模式和演示器级别的查询,而不是评估大规模部署场景,因此没有进行专门的推理性能或查询复杂性的基准测试。在本体开发期间,使用了标准的OWL推理进行常规的一致性检查和(在适用的情况下)TBox的分类。在演示器中执行的示例查询用于验证表达能力和能力问题的覆盖范围;实际的运行时性能预计将取决于所选择的三元存储实现、索引策略和数据集规模,这些可以在更大的跨实验室知识库可用时进行详细评估。一般来说,基于本体的表示旨在支持更复杂的跨工作流程能力问题类别,这些问题类别依赖于(i)时间结构化的过程部分(包括并发性),(ii)对动作类别的子类感知检索,以及(iii)通过可重用的过程属性模式进行参数提取。作为此类查询场景的一个示例,可以检索到这样的工作流程:添加步骤与加热(可选地还有搅拌)同时进行,然后是任何分离步骤(例如过滤或离心),同时返回相关的参数值(例如添加速率、温度设定点、分离持续时间)以及产生的材料和记录的结果描述符(例如产量变体)。这样的检索可以表示为图模式匹配,适用于时间关系和可变长度的过程部分结构,同时能够扩展到“分离”的新子类,而无需重新设计架构。在传统的关系数据库模式中,要稳健地实现相同的检索通常需要为每种步骤类型准备严格、预先声明的表格,需要跨越不同长度的工作流程进行广泛的连接逻辑,并在引入额外的程序变体或关系时进行特别的架构更改。使用本工作中自包含的查询环境设置,我们展示了5个复杂程度不同的示例查询,这些查询在现实生活中的设置中可能是有趣的,当(重新)使用知识图谱中的数据在SDL后端运行所描述的合成时。第一个示例展示了如何通过构建一个简单的SPARQL查询来检索有关知识库的一些信息,该查询计算了所有提供的示例的实体数量,另一个查询检索了所有输出材料的描述。下一个示例展示了如何提取用于描述Au@MSN Core-Shell纳米粒子合成的工作流程中使用的所有步骤的离心时间(值和测量单位)。第三个示例展示了如何查询描述金纳米粒子合成的合成工作流程所需的某种溶剂(这里是水)的量。除了在执行程序之前帮助规划实际合成外,这样的查询在应用于大量不同的合成工作流程时,还可以用于分析、比较和根据可持续性指标(如溶剂消耗)对各个程序进行排名,例如筛选“绿色”溶剂。第四个示例展示了如何从知识图谱中检索CuO纳米粒子(CuO-NP)合成所需的化学物质集以及常用的化学标识符。为了产生紧凑且人类可读的输出,查询利用了编码在标识符IRI中的标识符命名方案,同时引用相应的化学名称、CAS注册号和SMILES表示。返回了不同的名称、CAS、SMILES元组,从而得到了直接适用于下游任务的CuO-NP合成所需化学物质的清晰表格,例如试剂规划、采购和库存检查。这也使得可以在应用到更大的合成协议集合时进行跨工作流程的化学输入比较。第五个示例展示了如何从知识图谱中检索所有合成中所需的化学物质及其数量。同样,除了有助于库存管理外,这样的查询还可以用于了解例如有毒或关键原材料的使用情况,并可以在Safe and Sustainable by Design (SSbD)评估的背景下使用。在笔记本中定义了小型帮助函数以方便检查结果。为了方便展示结果,笔记本将输出显示为pandas数据帧的可读表格。

在对手稿进行校对期间,使用了Microsoft Copilot来提高文本的语言质量、清晰度和可读性。作者仔细检查了生成的句子,确保了它们的正确性和科学严谨性,并对本文的内容承担全部责任。

这项工作介绍了WeChemSyn本体(WCSO)并展示了其在SDLs中用于湿化学纳米材料合成的适用性。基于WCSO的知识图谱是通过将其相应的工作流程导出到MinervaOS后端自动生成的,用于七种不同的纳米粒子合成。这种使用直观的图形用户界面(如节点编辑器)直接导出知识图谱的方法表示执行的工作流程,并自动处理应用正确的本体概念(如“SVS模式”,将过程步骤注释为顺序或并行等),有助于主要受过合成训练的化学家和材料科学家更容易应用本体来构建知识图谱。同时,它显著减少了用户在创建与底层本体概念对齐的知识图谱时需要处理的“样板代码”量。此外,基于大型语言模型(LLMs)的自然语言(NL)界面可以通过协助查询制定和在基于本体的知识图谱上进行信息检索来进一步降低非专家的障碍。特别是,NL到SPARQL的支持(例如,通过LLM辅助的查询生成结合对本体文档的检索)代表了一个有前景的方向,使得无需用户手动编写SPARQL就可以进行特定的跨工作流程问题。这些方法被认为与基于GUI的工作流程抽象相补充,并且随着强大的受限输出和验证策略的成熟将变得越来越实用。在这样的知识图中展示了示例查询,并演示了这些知识图谱一旦形成全面的知识库后,如何用于获取关于自动化合成工作流程的信息,这对于在其他SDLs或MAPs上计划、执行和重现这些合成至关重要。此外,通过查询知识图谱可以方便地获取有关某些化学品的使用和所需量的信息,例如关键原材料或有毒或有害化学品,这有助于在规划和发展新的材料合成时做出明智的决策,例如Safe and Sustainable by Design (SSbD)标准。WCSO(Workbench Chemistry and Synthesis Ontology)基于PMDco-BFO语义框架构建,是朝着建立一个可重用且互操作的语义基础迈出的第一步,这一基础适用于整个材料科学领域,尤其是在MAPs(Material Automation Platforms)/SDLs(Synthesis Decision Languages)中的纳米和先进材料合成方面。它以一种支持跨自动化实验、分析和控制工作流一致数据集成的方式,对合成程序、材料、工艺参数和结果进行了形式化定义,而这些工作流是SDL操作的核心。这也有助于不同MAPs和SDL平台之间工作流的互操作性和可重复性,无论这些平台使用何种编排器后端。然而,广泛的互操作性取决于社区的采用和协调;因此,WCSO被定位为一个基础性的贡献和参考实现,而不是一个完整的、通用的解决方案。除了重用和定义领域概念之外,WCSO还提供了明确的使用模式,使得异构SDL组件之间的系统化重用和语义互操作成为可能。通过建立标准化的术语和过程表示方法,它促进了湿化学合成知识与材料合成、优化、自动化推理和数据驱动决策的整合。利用SHACL(SHApes Constraint Language),可以在执行工作流之前直接对其进行验证。这还有助于抽象、形式化并共享启发式规则(例如,在尝试添加化学物质之前检查容器中的可用体积是否足够),或者从长远来看,甚至是隐性的或默会知识(例如,在添加步骤中使用哪种移液器以及何种吸液和分配速率),这些知识通常编码在编排器后端或工作流中。该本体是开放维护的,并设计用于社区驱动的扩展,同时已经提供了符合MAPs要求的可适应模式。由此产生的语义结构化数据集使得工作流具备了“AI-ready”(适合人工智能处理的)特性,这使本工作成为湿化学纳米材料合成领域中可扩展、自主发现的基础架构。

作者贡献:

概念化:MS、BB、BR;数据管理:MS、HB、BB、BR;研究:MS、HB、BB、BR;方法论:MS、BB、BR;项目管理:MS、BB、BR;软件开发:MS、BR;监督:BB、BR;验证:MS、HB、BB、BR;可视化:MS、BB、BR;初稿写作:MS、BB、BR;审阅与编辑:MS、HB、BB、BR。

利益冲突:

本文不存在需要声明的利益冲突。

数据可用性:

本文的数据,包括与本体及其开发相关的数据,以及具体的样本数据集(使用位于https://github.com/BAMresearch/MAPz_at_BAM/tree/main/Minerva-Workflow-Generator的工作流节点编辑器创建),以及以Jupyter Notebook形式提供的数据检索演示器,都存储在一个名为BAMresearch/wcso的免费访问的专用GitHub仓库中:https://github.com/BAMresearch/wcso。所有这些数据也可在Zenodo上获取(DOI:https://doi.org/10.5281/zenodo.19609498),网址为https://zenodo.org/records/19609499。关于本体的技术文档也可以通过其命名空间(持久URL)访问,即https://w3id.org/wcso,以及通过https://BAMresearch.github.io/wcso/和https://BAMresearch.github.io/wcso/docs/。更多数据可以在补充信息中找到。补充信息包括:选定的可重用本体及其在湿化学纳米材料合成中的相关性;包含本体及其开发相关数据的GitHub仓库,以及作为Jupyter Notebook的数据检索演示器。参见DOI:https://doi.org/10.1039/d6dd00058d。

致谢:

非常感谢联邦材料研究与测试机构(Bundesanstalt für Materialforschung und-prüfung,简称BAM)和BAM的材料加速平台中心(MAPz@BAM)的支持与协助。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号