《Annual Review of Analytical Chemistry》:Machine Learning and Autonomous Systems for Accelerated Synthesis
编辑推荐:
摘要:集成机器学习(Machine Learning, ML)与实验室自动化的自主系统(autonomous systems,亦称self-driving laboratory或自驾车实验室)通过实现闭环实验(closed-loop experimentati
摘要:集成机器学习(Machine Learning, ML)与实验室自动化的自主系统(autonomous systems,亦称self-driving laboratory或自驾车实验室)通过实现闭环实验(closed-loop experimentation)与发现,正在变革合成化学。本综述考察了用于有机合成的自主系统的现状,重点关注实现自动化反应规划、执行及优化的系统组成、构型与ML算法。研究人员调研了涵盖从反应发现到分子优化的代表性系统,比较了流动(flow)与批次(batch)构型,并识别了系统设计趋势。重点阐述了纯化与分析测量——特别是对意外产物进行结构解析(structural elucidation)——这一当前制约自主平台发展的关键瓶颈。描述了色谱方法开发、基于质谱(Mass Spectrometry, MS)与核磁共振(Nuclear Magnetic Resonance, NMR)的结构解析,以及新型基于ML的无校准复杂混合物定量方法的最新进展。通过聚焦化学分析中的使能技术,研究人员指出了ML与自动化超越特定领域平台、加速合成发现步伐的机遇。
《机器学习与自主系统加速合成》论文解读
本文发表于Annual Review of Analytical Chemistry(2026年,第19卷,第331–353页),题为"Machine Learning and Autonomous Systems for Accelerated Synthesis"。当前有机合成发现依赖人工试错,通量受限;而组合化学和高通量筛选虽积累数据却缺乏目标导向的假设检验。自主合成系统(self-driving laboratory)结合ML与实验室自动化,可通过闭环反馈自主规划、执行并分析实验,有望大幅加速反应条件优化、底物范围确定、新反应性发现及分子性质优化。然而,此类系统必须能观测反应结果才能学习与优化,目前纯化困难及未知产物结构解析能力不足严重制约了其通用性与自主性,多数平台被迫局限于预设的特定化学反应类型。为此,研究人员对该领域已发表自主合成系统的硬件构型、算法框架及分析技术进行了系统性综述,特别强调化学分析算法与仪器端创新对突破现有瓶颈的关键作用,并指出标准化、开源关联原始谱图与反应记录的数据基础设施对未来ML训练的重要性。
主要关键技术方法:
研究人员采用文献综述方法,系统梳理已发表的自主有机合成平台(见表1),归纳其物理构型(可重构流动反应器、96/384孔板微批次、移动机器人及固定流路)、所用ML模型(贝叶斯优化/Bayesian Optimization, BO;计算机辅助合成规划/Computer-Aided Synthesis Planning, CASP如ASKCOS;图神经网络/Graph Neural Network, GNN;连接树变分自编码器/Junction Tree Variational Autoencoder, JT-VAE;大语言模型/Large Language Model, LLM等)及分析检测手段(液相色谱Liquid Chromatography, LC、MS、NMR)。重点分析各系统工作流中反应规划与脚本语言(χDL, ChemOS)、HPLC/UHPLC方法开发、串联MS碎片谱解析、1H/13C NMR谱预测与逆解析、免纯化条码标记策略(中性丢失MS、DNA编码文库)及全自动制备级色谱纯化流程,评估各项技术在自主闭环中的适用性与瓶颈。
1. INTRODUCTION(引言)
研究人员指出自主系统依据反馈决定行动并具有达成目标的方法论自主权,区别于传统高通量筛选在于收集靶向数据以形成并验证假设。典型工作流含实验规划、自动化执行、纯化、分析及结构解析,再回馈新知识以规划下一轮实验。反馈依赖分析技术,有机合成常用MS(测m/z)、NMR(ppm化学位移)及与色谱联用(HPLC-MS, HPLC-NMR)。自主系统算法分五类:生成(分子/反应)、优化(BO等)、CASP、化学分析算法(由仪器数据识别/定量/测性质)及编排(orchestration,协调硬件)。研究人员认为借助串联MS、已知组分及其他光谱联用改进结构解析技术影响最为深远;此外详细标准化且关联原始色谱图和谱图的开源反应记录(如Open Reaction Database)是未来ML训练基础。
2. PUBLISHED AUTONOMOUS SYSTEMS(已发表的自主系统)
2.1. System Components and Arrangements(系统组件与排布)
流动平台在流体管路中进行反应,可用微液滴平行化并可连续调节条件串行采样;批次操作多用ANSI/SLAS标准多孔板(well plate),天然平行化但各孔温度/时间难单独控制,且大多数分析技术无法并行形成瓶颈。另有移动机器人直接在现有人工实验室空间作业。流动适合连续序列设计,批次适合并行初筛配合快速进样MS。
2.2. Applications(应用)
- •
2.2.1. Reaction optimization systems(反应优化系统):目标产物已知无需结构解析,用BO或LLM集成CASP优化产率/选择性,流动体系可序贯采样反馈,多步药物合成(如sonidegib三步)已有成功案例。
- •
2.2.2. Reaction discovery systems(反应发现系统):关注新转化生成未表征分子,通过比较反应前后谱图差异判断"发生某事",再用优化找最大化新转化条件,需明确纯化与结构解析后方能归纳新反应规则。
- •
2.2.3. Materials optimization systems(材料/分子性质优化系统):需归纳(ML预测性质)与演绎(解释失败原因、解析意外产物)推理,实例显示仅约37%合成计划成功,说明多样性探索与成功率间存在权衡。
3. TOOLS AND ALGORITHMS FOR AUTONOMOUS SYSTEMS(自主系统工具与算法)
3.1. Representing Chemistry to Computers(化学信息计算机表示)
χDL(chemical description language)提供硬件无关的脚本化实验步骤描述;ChemOS、IvoryOS等提供编排与界面。NLP模型可将文献合成步骤转为χDL,LLM可生成步骤再转χDL驱动商业化反应器。CASP工具(ASKCOS用Monte Carlo树搜索+模板,Synthia用专家规则集)可与硬件集成规划路线,但目前尚无工具能从主流CASP直接生成可移植实验脚本。
3.2. Analytical Methods(分析方法)
- •
3.2.1. HPLC analysis(HPLC分析):反相HPLC/UHPLC最常用,通用梯度可能导致峰重叠。ML预测保留时间(RepoRT、SMRT数据库)辅助峰指认;BO可自动化梯度开发最大化分离度或最小化时间;光谱检测器(PDA)结合多元曲线分辨(Multivariate Curve Resolution, MCR)可去卷积重叠峰并用ML预测摩尔消光系数无校准定量。通用检测器ELSD(蒸发光散射检测器)、CAD(电雾式检测器)可非依赖性定量。
- •
3.2.2. MS analysis(MS分析):灵敏度高需样少,LC-MS按预期m/z确认产物峰。串联MS(MS/MS或tandem MS)碎裂谱可辅助未知物解析;ML正问题(结构→碎片,如ICEBERG)较成熟,逆问题(碎片谱→结构,如DiffMS编码器-解码器图扩散模型)top-1准确率仍低于10%,受限于数据集与仪器参数敏感性。MEDUSA Search等自建高分辨MS数据库可辅助匹配。
- •
3.2.3. NMR analysis(NMR分析):1H NMR提供较明确结构信息但需较多较纯样品,多用于流动或大批次系统。CNN可对反应前后谱图对分类评估反应性(0–3级),Junction Tree VAE预测反应性评分指导新反应性探索。ML限分子式约束下1H NMR top-1结构解析近90%,结合13C可达67%,但因需样量大、对杂质敏感、高场仪器昂贵,NMR在高速自主合成中应用受限。
- •
3.2.4. Other spectroscopies(其他光谱):红外IR、拉曼Raman可辅助限定结构,指纹区特征经ML或可增强解释力但不足以独立全结构解析。
3.3. The Purification Problem(纯化问题)
多数反应产物难通用纯化,现有平台或限简单演示反应、或限定特定转化配专属纯化、或依赖需逐反应开发的色谱。免纯化策略含中性丢失MS定量共同碎片、同位素标签质量差法、DNA/多肽编码文库(DNA-Encoded Library, DEL需反应不损DNA,肽编码用MS检测灵敏度较低)。"crude to DMSO stock"流程示范全自动分析—制备HPLC分馏—UPLC-MS/CAD纯度验证—干燥溶解制10 mM DMSO储备液,每样约25分钟为当前瓶颈,未来需自优化梯度、二维液相色谱(2D LC)、闪蒸色谱及更强电离源扩展适用性。理想一步预测纯化方案尚缺完整副产物/杂质预测数据与物化行为知识。
3.4. Structural Characterization of Unknown Molecules(未知分子结构表征)
反应混合物中大量未指认峰蕴含新反应性与竞争路径信息。串联MS联合色谱可尝试指认;IR+NMR+MS多谱联合用Transformer模型可辅助简单分子结构推导。若能结合已知反应物信息与HPLC色谱图做条件生成,将极大提升自主系统知识产出。
4. OUTLOOK(展望/讨论)
研究人员认为随着ML增强结构解析、反应机理推断及性质预测能力,自主合成系统将进一步加速化学发现。现有平台用已知化学建新分子但面临高失败率或窄转化范围限制,人化学家更擅长深挖"失败"反应,而自主系统系统收集标准化关联原始数据的潜力可实现回顾性发现——未知反应规则可能已隐含于ML从大数据提取的相关性中。最有价值的近期发展是基于LC-MS或串联MS数据的化学假说生成器;同时反应纯化改进、标准化可及反应记录及科学方法自动化将持续推动新化学进展。
结论翻译:
自主合成系统通过新ML算法增强推理能力——尤其在结构解析、反应机理及性质预测方面——有望进一步加速化学发现的速率。当前集成平台能用已知化学构建新用途分子,但须接受显著的反应失败率或限定化学反应类型。虽然单种转化的迭代偶联已产出多样化产物,有机化学界仍渴望新反应,其中部分新反应可能隐于人化学家和自主系统曾执行的所谓"失败反应"中。人化学家更善于调查失败反应,但自主系统系统性稳健的数据采集与编目可能促成回溯性发现。未知反应规则或许已在影响ML合成规划,因为模型提取了尚未记载于期刊或实验记录的相关性。最终,基于现有分析技术,以LC-MS或串联MS数据为条件的化学假说生成器可能是最有用的方向。色谱纯化、标准化可及反应记录及科学方法自动化的其他改进也将持续带来令人振奋的化学进展。