从大型语言模型中提取和利用定量洞察，以改进化学反应的贝叶斯优化

《Digital Discovery》：Distilling and exploiting quantitative insights from large language models for enhanced Bayesian optimization of chemical reactions

【字体：大中小】 时间：2026年04月17日 来源：Digital Discovery 5.6

编辑推荐：

　　机器学习和贝叶斯优化（BO）算法可以显著加速化学反应的优化过程。迁移学习可以通过利用现有的化学信息或直接优化任务之外的数据（即源数据）来增强BO算法在数据量较少情况下的有效性。大型语言模型（LLMs）已经证明，基础训练数据中包含的化学信息可以用于处理化学数据。此外，这些模型还可以

　　机器学习和贝叶斯优化（BO）算法可以显著加速化学反应的优化过程。迁移学习可以通过利用现有的化学信息或直接优化任务之外的数据（即源数据）来增强BO算法在数据量较少情况下的有效性。大型语言模型（LLMs）已经证明，基础训练数据中包含的化学信息可以用于处理化学数据。此外，这些模型还可以通过整合多种与优化任务相关的源化学数据模式来进一步提升其能力。在这项工作中，我们研究了如何从LLMs中提取化学信息，并利用这些信息进行迁移学习，以加速反应条件的优化，从而最大化产率。具体来说，我们展示了如何使用类似于调查的引导方案和偏好学习来推断一个效用函数，该函数能够建模LLMs中嵌入的关于化学参数空间的先验化学信息；我们发现，尽管是在零-shot设置的条件下，这个效用函数与真实的实验测量结果（产率）之间存在一定的相关性。此外，我们还表明可以利用这个效用函数来将BO的努力集中在参数空间的有希望的区域，从而提高初始BO查询的产率，并在大多数研究的数据集中提升优化效果。总体而言，我们认为这项工作是在LLMs中嵌入的化学知识与基于原理的BO方法加速反应优化能力之间架起桥梁的一步。

## 引言

机器学习和数据驱动的方法可以显著加速化学过程的优化。在数据不足以进行全面预测建模的应用中（例如高通量筛选），贝叶斯优化（BO）算法作为一种数据高效的方法，能够迭代地在化学和工艺参数空间中导航，以目标化获得所需的化学产品属性。例如，Shields等人展示了BO在识别化学品（如碱、溶剂、催化剂配体）和反应条件（如温度、化学浓度）方面表现优异，这些因素可以最大化Buchwald–Hartwig偶联、Suzuki–Miyaura偶联以及直接芳基化反应的产率。我们建议读者参考Guo和Rankovic等人最近的一篇综述，以获取关于BO在化学过程开发中成功应用的全面讨论。迁移学习可以通过利用给定优化任务直接领域之外的信息或数据来显著加速基于BO的工作流程。例如，源数据集可以用于更好地指导该领域任务的模型开发。此外，源数据还可以通过修改获取函数来识别并聚焦于参数空间的有希望的区域。然而，这些及其他迁移学习策略的应用在实践中往往依赖于相关源数据的识别、整理和数值编码，而这通常是困难且耗时的。此外，尽管非结构化数据集中的定性信息（例如研究文章中的见解/结论）包含了大量对新化学设计任务有价值的信息，但通常并未被用于迁移学习。近年来，大型语言模型（LLMs）已经证明它们在模拟自然语言方面的能力可以帮助解决不同化学领域的挑战性问题。例如，利用上下文学习，LLMs已被用作回归和分类模型来预测化学性质。此外，LLMs在化学优化问题的背景下设计实验或做出关于优化过程的元决策方面也显示出潜力。基于这些观察，我们提出可以通过查询LLMs来将源数据中的相关化学信息（如基础模型训练数据、微调数据）传递到目标贝叶斯优化活动中，以加速过程开发。在这项研究中，我们探讨了如何从LLMs中提取信息，并利用这些信息通过迁移学习来加速贝叶斯反应优化。具体来说，我们展示了如何使用偏好学习来从LLMs回答的调查中推断出一个效用函数，该函数能够反映反应参数空间上的先验化学信息，并且与测量得到的反应产率有一定的相关性；值得注意的是，我们是在没有任何上下文学习或微调的情况下完成这一点的。此外，我们还表明，当这个效用函数被纳入获取函数时，它可以用来将BO的努力集中在参数空间的有希望的区域，从而提高初始BO查询的产率，并在大多数研究的数据集中提升优化效果。

## 方法

### 2.1 数据集

我们使用了Shields等人编制的六个化学反应数据集来探讨我们的方法（访问日期：2024年6月）。数据集1-5对应于Buchwald–Hartwig（BH）反应，每个数据集包含792个记录的实验。这些数据集中的实验由四个反应参数表征：特定的芳基卤化物反应物、钯前催化剂、添加剂以及用于反应的碱，并且都标注了测量的产率。数据集6对应于直接芳基化（DA）反应，包含1728个实验。这些数据集中的实验由五个反应参数表征：钯催化剂配体的身份、碱、溶剂、温度和浓度，也都标注了测量的产率。所有数据集的目标是识别出能够在给定反应参数集下产生最大产率的实验。为了评估方法的泛化能力并排除数据污染，我们还使用了2025年发表的一项研究中的三个酰胺偶联数据集（AC1-3，访问日期：2025年10月）。由于这些数据集的更新时间晚于本研究中使用的LLMs的训练截止时间，它们可以作为测试模型将化学推理应用于真正未见过的反应空间的严格指标。这些数据集涉及优化用于形成酰胺键的偶联试剂、溶剂和碱。

### 2.2 方法的制定与实施

每种数据集的整体方法在图1中以定性方式呈现。方法的第一步旨在从LLMs中提取化学洞察，并将其表示为一个效用函数g(x)。在步骤1a中，我们制定了一份调查问卷，每个问题都涉及两组不同的实验参数。在步骤1b中，我们提示LLMs回答这份调查问卷，选择它预测哪个实验（A或B）会产生更高的产率。在步骤1c中，我们利用偏好学习来根据调查中表达的偏好来推断效用函数g(x)。由于我们提示LLMs偏好预测产率较高的实验，因此我们期望g(x)能够与产率相关联，从而代表LLMs关于数据集中实验集合的有用定量先验信息。

### 2.2.1 贝叶斯优化下的化学反应参数优化

本研究中的化学反应参数优化被视为一个黑盒优化问题：

其中xi代表一个候选实验，X代表所有考虑的候选实验的完整集合，f(xi)代表执行实验xi应产生的无噪声输出量（例如产率）；通常，我们可以通过实验获得f(xi)的噪声测量值：yi = f(xi) + ε。在我们的工作中，我们将实验xi表示为一个由独热编码的分类变量（例如碱、配体、溶剂身份）和连续变量（例如浓度和温度）组成的序列。鉴于获取测量值可能耗时且成本高昂，我们的目标是在尽可能少的实验次数内，识别出能使f(x)值最大的候选实验x*。贝叶斯优化（BO）是一种利用概率建模的迭代方法，可以用来解决这类优化问题。在BO的n次迭代中，我们已经测量了n个实验的输出，得到数据集Dn = {(xi,yi)}i=1n。随后，利用这个数据集来开发一个替代模型，用于预测给定实验的输出并估计该预测的不确定性。高斯过程回归模型（GPR）和贝叶斯神经网络（BNNs）都是常见的替代建模策略，它们提供了估计预测后验分布p(?i|Dn,xi)的原理性方法。我们采用了Shields等人开发的建模策略，该策略利用了适合本研究中描述的实验表示策略的核参数的特定先验。替代模型的所有细节，包括核规范、先验均值定义和超参数先验，在补充信息（SI）的第S3节中提供。替代模型用于计算获取函数α(x, Dn)中的各项，其最大化参数被选为下一个最佳实验，以获取测量值。

预期改进（EI）函数是研究中最常用的获取函数之一，并已广泛应用于化学设计：

其中ymax,n是Dn中找到的最大测量值。我们使用这个获取函数作为我们工作的基准。一旦找到最大化参数x**并获取了对应的实验测量值y**，x**和y**就被添加到数据集((x**, y**) ∪ Dn)中，然后开始下一次BO迭代。通常，当迭代实验的预算耗尽或对最大观测值的改进连续几次停滞时，优化工作就结束了。

## 从LLMs中提取化学洞察

在本节中，我们讨论了从LLMs中提取定量化学洞察的方法，这些洞察以效用函数g(x)的形式呈现。我们注意到，整体框架（在第2.2节中总结）不依赖于完成调查的代理的身份，在当前工作中，这个代理是LLM。首先，对于每个数据集，我们制定了一份包含多个问题的调查问卷。对于问卷中的每个问题，LLM会看到数据集中的两个实验（由反应参数表征），然后被提示选择哪个实验会产生更高的产率，并提供其理由。图S3的SI中提供了一个问题提示和LLM响应的示例（具体是由Claude 3.5 Sonnet版本提供的）。为了设计给定数据集的问卷问题，我们创建了两个相同的数组，每个数组包含数据集中每个实验的L个实例。然后，我们在每个数组之间随机配对元素来形成问题，移除了重复的问题以及配对实验相同的问题。对于BH1-BH5数据集，我们将L设置为10；对于DA数据集，L设置为5（以保持问题总数与BH调查大致相同）。这样就为BH1-BH5和DA数据集分别设计了7792、7842、7788、7825和8610个问卷问题。总体而言，我们假设使用这种程序生成的问卷有助于表达对所有实验的层次化偏好以及后续的偏好学习。在第4.1节中，我们简要评估了几种常用基础LLM模型正确回答调查问题的性能，并选择了最准确的模型来完成我们的调查。一个完成的调查问卷表示为：

其中，在问题i中，实验j比实验k更受偏好，总共有m个问题。接下来，我们利用偏好学习来推断一个效用函数g(x)，该函数与大型语言模型（LLM）在调查中做出的预测相一致：也就是说，如果

由于LLM被提示基于其化学推理偏好预期收益较高的实验，我们期望g(x)与数据集中实验的真实实验收益相关。我们采用了Chu和Gharamani的方法，将g(x)建模为高斯过程，并定义了一个函数来模拟在给定效用函数值的情况下观察到的选项对之间偏好的可能性（假设效用函数中包含噪声）。为了调整超参数（例如，核的参数），他们使用拉普拉斯近似来定义基于数据的效用函数的后验密度表达式并将其优化（最大后验概率估计，MAP估计）。在我们的工作中，我们使用了Chu和Gharamani方法的BoTorch5实现，该实现使用了PairwiseGP模块。模型实现的详细信息在补充信息（SI）的第S4节中提供。训练完成后，我们取基于调查数据的GP后验的平均值作为效用函数g(x)，作为嵌入在LLM中的先验化学知识的表示。

2.2.3

利用LLM的化学洞察力进行优化改进

在BO算法中融入先验知识或信息的一种常见方法是通过调整获取函数。例如，Souza等人40和Hvarfner等人19用一个衰减的先验概率函数来加权标准的BO获取函数（该函数随着BO迭代次数的增加而减弱其影响），该概率函数计算实验x映射到f(x)最大值的概率π(x）。通过这种方式，在BO的早期迭代中，获取函数倾向于探索π(x)中编码的参数空间的有前景的区域。我们的工作遵循了他们的加权框架，计算修改后的获取函数为：
απ,n(x,Dn,n) = α(x,Dn)π(g(x),p(n))
其中π是一个简单的指示函数：
π是集合G = {g(x)∣x ∈ X}的第p百分位值。这种对获取函数的二元加权允许优化集中在g(x)突出的化学空间的有前景的区域，而不会进一步偏向于可能具有噪声的效用值的候选者选择。我们的方法也可以被视为设计空间修剪，14,28,46，其中设计空间的无前景部分被从候选实验集合X中排除。鉴于我们的加权/修剪方法可能会在g(x)与f(x)负相关时对优化产生不利影响（或者通过排除f(x)的真正最大化参数），我们建议将百分位数p(n)设置为BO迭代次数n的衰减函数，使得p → 0随着n → ∞。实际上，这放宽了由于g(x)对候选者选择所施加的设计空间限制，因为随着进行更多实验，替代模型（x）变得越来越可靠。在我们的工作中，我们选择了p(n)的一个简单的两步函数；补充信息中的第4.2节和S1节提供了关于我们工作中如何选择p(n)参数的额外细节。

3

相关工作

3.1

通过针对获取函数的定制修改进行迁移学习

在迁移学习的一个范式中，利用先验信息对获取函数进行明智的修改，以加速目标领域的贝叶斯优化4,17,44,47。例如，Souza等人40和Hvarfner等人19用一个关于函数最大值的先验π(x)来加权获取函数，使得BO算法在早期迭代中倾向于优化具有高概率质量的参数空间区域。正如所提到的，我们利用g(x)中编码的信息的方法遵循类似的框架。然而，在他们的工作中，π(x)通常被编码为一个参数化的概率函数；选择哪种类型的函数或特定的参数值来匹配源数据或信息可能并不简单。除了制定一个新的获取函数来融合π(x)之外，Adachi等人1还提出使用偏好学习来从人类专家那里提取洞察并获得π(x)。我们自己的实验表明，由人类专家完成的调查中收集的数据的质量和数量不足以将这种方法应用于我们的领域。我们认为LLM提供了一个有前景的替代方案：它们可以在短时间内回答多倍数量的问题，并可以利用源数据中的化学信息来准确回答问题。Aglietti等人2提出了另一种方法，他们引入了FunBO，这是一个利用LLM驱动的程序搜索来生成用代码表达的新获取函数的框架。

3.2

在化学系统中增强LLM的贝叶斯优化

一些最新的研究探索了如何利用LLM来加速化学系统中的BO；这些工作主要是利用LLM来指导替代模型的开发。一种策略是将LLM本身用作替代模型。例如，Ramos等人29展示了如何利用上下文学习和特定的提示策略（以及对令牌概率的解释）来开发一个能够进行不确定性量化的回归器，然后他们用它来进行BO。另一种方法是使用LLM处理化学系统/实验的某些描述，并生成一个嵌入，从而可以训练出一个替代模型来做出预测。例如，Rankovi?和Schwaller30展示了这些LLM嵌入与从更复杂和领域知情的预训练程序获得的嵌入相比具有竞争力（并且可以超越它们）。Kristiadi等人24展示了使用特定领域的和经过微调的LLM可以进一步提高这种方法的性能。此外，他们还表明，参数高效的微调和贝叶斯神经网络可以提供一种原则性的方法来使用LLM作为替代模型，并使其能够进一步学习反应的有信息嵌入。总体而言，这些是利用LLM中的源信息来加速化学系统目标领域BO的有希望的发展。我们的工作与这些方法的不同之处在于，我们将目标信息的建模（GPR替代模型（x）和源信息的建模（来自LLM的效用函数g(x)）分开，后者在定义获取函数时被包括在内。总的来说，我们使用的二元加权方案来实现的目的与Liu等人26提出的类似，他们使用LLM首先预选在给定迭代中考虑的初始化和优化点。我们建议，获取和利用效用函数中存在的定量信息可以为实验选择策略提供更精细的控制。在另一种有前景的方法中，Zeng等人49提出了一个基于LLM的多任务BO框架，该框架使用微调过的LLM通过强大的初始化点在任务之间传递知识，并展示了他们的方法对于设计抗菌肽非常有效。

4

结果与讨论

4.1

调查评分和偏好学习结果

我们首先评估了多个LLM基于它们在为BH1-BH5和DA数据集设计的简短调查中的表现来提取化学洞察力的能力。对于每个数据集，我们通过随机配对不同的、不相同的实验条件生成了1000对问题对。具体来说，对于给定调查中的每个问题，如果LLM的偏好（它对实验A或实验B哪个有更高收益的预测）与真实情况一致，则该问题被标记为“正确”；在给定调查中正确回答的问题百分比被定义为准确性。所有评估的LLM（Sonnet-3.5、Sonnet-3、haiku-3和GPT-4）都使用了相同的一组固定的1000对问题对，结果准确性显示在SI的图S2中。除了BH 4和BH 5数据集上有几个点低于50%之外，我们观察到所有LLM的调查的总体准确率都超过了50%，其中Sonnet-3.5的表现始终优于其他LLM。基于这个结果，我们选择了Sonnet-3.5并用于本研究中的所有后续分析。这表明LLM可以利用在基础模型中训练的化学知识来做出关于哪个实验会产生更高收益的明智决策。接下来，我们应用Sonnet 3.5完成为每个数据集构建的完整长度的调查（在2.2.2节中有描述）。SI中的图S3提供了一个LLM回答调查问题的典型推理示例；我们观察到决策是基于相对简单的化学推理做出的（例如，溶剂的极性、碱的强度、配体的立体化学）。尽管如此，我们发现这足以使调查的准确率超过50%（所有调查的双尾二项式检验在统计上都是显著的，p < 0.01），这再次表明，尽管简单，嵌入在LLM中的化学信息足够相关，可以帮助做出（平均而言）明智的决策。接下来，对于给定的数据集，我们使用LLM完成的调查和偏好建模来推断效用函数；我们将它的输出与实验的真实测量收益进行比较。总体而言，我们观察到每个数据集的效用函数输出与真实实验收益之间存在正相关（图2），表明偏好建模可以用来推断出一个与化学信息丰富的、由LLM完成的调查相一致的效用函数。重要的是，输出不在与测量收益相同的尺度上，因为它们只编码了给定实验的效用，而不是直接编码了收益。我们将我们的方法与直接要求LLM从反应参数的描述中预测收益的方法进行了比较（即，零-shot回归），我们观察到得到的输出值与收益没有正相关（图S4）。总体而言，这表明这里提出的LLM调查+偏好建模方法是一种从LLM中提取定量洞察的有前景的方式。

评估所有数据集中计算出的效用函数输出与它们的真实测量收益之间的相关性。效用值与收益之间的皮尔逊r相关性分别为BH1、BH2、BH3、BH4、BH5和DA数据集的0.55、0.63、0.67、0.22、0.49和0.48，所有数据集的p值< 1e–10。为了引导视线，每个面板中的效用值与收益之间的最小二乘回归线用虚线黑色线绘制。有趣的是，对于几个数据集，我们观察到不同的簇，其中效用函数对不同的实验给出了相似的输出值（图2），这可能反映了先前的观察结果，即（对于显示聚集的数据集）LLM主要利用了简单的化学推理（即，基于1或2个特征）来对一个实验进行排名。对于BH1–4数据集，我们观察到了三个不同的簇，BH5数据集有两个定义较为宽松的簇，而DA数据集没有显示聚集。值得注意的是，虽然每个簇内实验的平均收益随着平均效用值的增加而增加（从而产生了整体上的正相关性），但同一簇内的实验收益与相应的偏好模型输出之间的相关性相对较低。我们推测，对于簇内的实验，LLM无法应用合理的化学推理来预测为什么一个实验应该比另一个实验产生更高的收益，导致调查中的随机预测，并在偏好模型中表现为过拟合噪声。这一观察结果促使我们制定了2.2.3节中详细阐述的方法，我们基本上试图限制BO算法仅在具有最高平均偏好值的簇中查询实验，并由于簇内的明显噪声而放弃精确值。我们怀疑未来的工作流程可能会从识别调查中LLM不确定的问题（例如，“幻觉”在其响应中（例如，通过重复提问）中受益，并从偏好模型训练数据中移除不确定的响应中受益。

4.2

BO实验

接下来，我们旨在比较预期改进（EI）获取函数（方程（1）与LLM效用函数修改后的EI获取函数（LLM-EI）（方程（2）在包括在本研究中的数据集上的贝叶斯反应参数优化中的性能。我们对每个数据集和获取函数进行了50次独立的优化运行。使用EI获取函数的优化运行是通过从给定数据集中随机选择一个实验来初始化的。LLM-EI获取函数的优化运行是通过从集合{x∣x ∈ X ∧ π(g(x), p(n = 0)) = 1}中随机选择一个实验来开始的，该集合包含给定数据集中的实验。对于每次运行，我们都会跟踪在BO的给定迭代中观察到的最大产量。然而，在进行比较之前，需要明确指定p(n)的精确函数形式。一般来说，最适合优化任务的p(n)函数形式将部分取决于真实属性表面的拓扑特征（例如，f(x)的模态）以及优化先验g(x)的质量（即，它与真实属性表面f(x)的相关性）。由于这两者事先都是未知的，我们试图开发一种在多个数据集（BH1–5）上表现良好的p(n)形式，并随后在参数调整期间未使用的其他反应优化数据集（DA, AC1–3）上评估其性能。补充信息（SI）的第S1节提供了用于开发p(n)的程序的额外细节，并指定了此后呈现的所有优化结果所使用的函数形式。总体而言，我们观察到LLM-EI获取函数在所有测量指标上要么显著优于EI获取函数，要么与其表现相当（没有统计学上的显著差异），这些数据集包括用于调整p(n)的BH1–5，以及未使用的DA。具体来说，图3a显示，在BH1、BH2、BH4和DA中，LLM-EI在优化过程中通常在给定的实验次数下实现更高的平均最大产量，而数据集BH3和BH5中两种获取函数的表现相当。此外，图3b显示，使用LLM-EI识别出产生最大结果的反应参数所需的平均实验次数显著减少，分别从32次减少到13次（减少了59%）、22次减少到11次（减少了50%）以及89次减少到33次（减少了63%）。由于数据集BH4中的收敛困难，其中接近最优的产量（>99%的最大值）很早就达到了，但需要额外的实验来定位绝对最大值（可能是由于GP噪声或多模态目标景观），因此两种获取函数达到最大产量所需的平均实验次数没有统计学上的显著差异。然而，图S5显示，用于识别出达到最大可获得产量99%的反应参数所需的平均实验次数在数据集BH4中显著减少，从19次减少到9次（减少了53%）；对于BH1、BH2和DA也是如此。LLM-EI在识别出达到最大产量的99%方面同样具有优势。对于BH3和BH5，识别出达到99%或100%的最大产量所需的平均实验次数在两种获取函数之间相似，并没有显示出统计学上的显著差异。此外，图3c显示，使用LLM-EI选择的种子实验在所有数据集中的平均结果显著高于随机选择的实验结果。这在那些只需要中等产量或属性值就能推进开发的应用中可能特别有利，而不需要接近最大值。总体而言，这些结果表明，从LLM完成的调查中推断出的效用函数有助于识别化学空间中的有希望的区域，并提高贝叶斯优化的效率。此外，它们证明了优化的p(n)在BH1-5中表现良好，并且能够有效地泛化到DA（虽然没有包含在优化过程中），尽管数据集之间存在差异，例如图2中显示的g(x)的质量。

使用预期改进获取函数与LLM偏好引导的预期改进获取函数进行BO反应参数优化的比较。面板(a)绘制了使用给定获取函数在BO活动中执行的实验次数函数的最佳测量产量。每条线代表n = 50次随机播种活动中给定实验次数的平均值；所有线条的标准误差都很小，它们对应的阴影区域紧密跟随平均值。面板(b)显示了观察到给定数据集和获取函数的最大产量所需的平均实验次数，以及来自n = 50次试验的标准误差。面板(c)显示了在BO期间选择的初始实验中观察到的平均产量，同样带有来自n = 50次试验的标准误差。所有值都通过每个数据集观察到的最大产量进行了归一化。使用双尾Welch's t检验来评估所有面板中两种获取函数之间的平均指标差异的显著性（p < 0.01）。没有标记表示没有显著差异，绿色标记表示我们的方法相对于基线有显著改进，红色标记表示相对于基线有显著表现不佳（在这里没有发现）。

4.3

在较新的数据集上的验证：酰胺偶联

在使用LLM进行科学任务时，一个关键问题是数据污染——模型表现良好可能仅仅是因为它在训练数据中看到了优化景观。为了解决这个问题并进一步验证我们方法的各个要素，我们将我们的方法应用于2025年发布的三个酰胺偶联数据集（AC 1–3），这些数据集在时间上与LLM的训练数据是不连续的。与BH1–5和DA数据集类似，图4显示LLM-EI获取函数在AC1–3数据集上的表现优于EI获取函数。具体来说，图4a显示LLM-EI识别高产量条件的速度明显快于EI，导致在所有三个数据集中的大多数优化活动中平均最佳产量更高。图4b进一步显示LLM-EI显著减少了达到最大产量所需的平均实验次数；这种效果在AC1和AC2中尤为明显，平均实验次数减少了一半以上。此外，图4c显示LLM-EI在优化活动开始时识别出的实验条件比随机选择更好。然而，对于AC3，使用LLM-EI选择的初始实验与随机选择的实验之间的平均产量差异很小，且在统计上不显著。总体而言，这些结果提供了强有力的证据，证明本研究中数据集间观察到的性能提升来自于LLM的化学推理，而不是记忆和复制文献数据。此外，它们表明本研究中的方法选择（例如，调查问题的设计、基础LLM的选择以及p(n)的指定）可以很好地泛化到其他反应优化任务。

在“未见过的”酰胺偶联数据集（AC1–3）上的性能。有关面板(a–c)中绘制的量和统计测试的更多细节，请参见图3的标题。

讨论与结论

在这项研究中，我们提出了一种方法，通过迁移学习从LLM中提取和使用定量洞察来加速贝叶斯反应优化。具体来说，我们提示LLM完成调查，其中的每个问题都要求LLM预测两个实验中哪一个预计会提供更高的产量。我们发现LLM通常使用简单的化学逻辑来进行预测，这在调查中导致了（平均而言）正确的预测。随后，对于每个数据集，我们使用偏好学习来推断一个效用函数g(x)，该函数定量地模拟了LLM在调查中表达的偏好。我们发现效用函数的输出与给定数据集中实验的实际产量有适度的相关性；因此，我们将g(x)解释为LLM提供的关于化学参数空间的先验信息的表达。最后，我们展示了g(x)的输出可以用来集中BO查询在参数空间的有希望的区域，从而在所检查的几个数据集中显著提高了优化效果，并提高了初始BO查询的实验产量。展望未来，我们预期有几个研究方向可以提高本文中提出的方法的性能。在第一条研究方向中，我们假设努力最大化g(x)和f(x)之间的相关性将使剪枝算法能够更好地将优化工作集中在设计空间的有希望的区域，并进一步加速发现。我们设想了几个改进我们算法的领域以实现这一目标。首先，我们怀疑用特定领域的文献对LLM进行微调或使用上下文学习（可能通过文档检索系统识别）可以用来细化用来回答调查问题的信息，从而改进完成的调查中编码的化学知识。此外，我们怀疑可以进一步优化调查本身周围的参数，以便更好地编码LLM的化学知识/推理。例如，探索调查的替代公式（例如，同时排名几个实验）和相应的偏好建模策略可能是有利的。此外，在某些情况下，可以移除LLM对回答非常不确定的调查问题（例如，重复的查询、特定的提示），这将从用于推断偏好模型的数据集中移除噪声响应。最后，在任何应用中，探索用于引发LLM响应的精确措辞的敏感性都是重要的。在另一项工作中，我们假设估计g(x)的质量可能是有利的，例如，通过使用在优化活动期间获得的第一个标记实验来验证LLM的推理。作为主要好处，这可能允许用户避免方法的失败模式，即当g(x)与f(x)负相关时，因为LLM在调查响应中一贯表达错误的化学推理，这种情况我们没有观察到，但原则上可能会发生。在这种情况下，可能需要通过恢复到基线获取函数来消除g(x)在优化努力中的影响。在其他情况下，关于g(x)的额外信息可能使得对本工作中用于剪枝的优化p(n)进行有根据的修改成为可能。例如，在g(x)估计接近1的情况下，调整p(n)可能更有利，以便在较小的n值时更积极地剪枝实验。然而，总体而言，我们怀疑这样的有根据的修改需要对改进如何依赖于g(x)的质量、f(x)的特性以及p(n)的选择进行表征。

作者声明没有竞争性财务利益。

数据可用性

补充信息（SI）：关于p(n)的开发、LLM在测试调查中的表现、LLM生成的调查问题回答的示例、我们的方法与零样本回归的比较、额外优化指标的分析，以及与研究中使用的替代和偏好建模方法相关的详细信息。请参见DOI: https://doi.org/10.1039/d6dd00052e。本文中的代码可以在GitHub仓库中找到：https://github.com/Sanofi-Public/Pref-BO。

致谢

作者感谢Sanofi的CMC Synthetics Platform的Jason Tedrow、Shawn Walker和Christian Airiau对这一项目的宝贵讨论和支持。

热点排行