综述：植物蛋白质计算解析的进展与机遇

《The Plant Journal》：Advances and opportunities for computational interrogation of plant proteins

【字体：大中小】 时间：2026年05月01日 来源：The Plant Journal 5.7

编辑推荐：

　　植物表现出显著的生化和生理多样性，并能够适应广泛的环境条件和胁迫。这种复杂性使得它们成为理解生命如何应对气候变化的关键系统。植物蛋白质是执行这些适应性过程背后的反应、信号传导和调控的分子引擎。然而，研究植物蛋白质仍然受到有限的实验通量以及遗传操作挑战的限制，这

植物表现出显著的生化和生理多样性，并能够适应广泛的环境条件和胁迫。这种复杂性使得它们成为理解生命如何应对气候变化的关键系统。植物蛋白质是执行这些适应性过程背后的反应、信号传导和调控的分子引擎。然而，研究植物蛋白质仍然受到有限的实验通量以及遗传操作挑战的限制，这些挑战在不同物种间差异很大。虽然合成生物学和异源表达系统扩大了研究植物蛋白质的机会，但植物体内（in planta）研究仍受限于遗传转化方法的可用性和效率。计算方法通过生成高通量、可检验的假设，为实验研究提供了强有力的补充，能够加速植物蛋白质功能的发现。近年来，用于蛋白质研究的计算方法在功能、通用性和易用性方面显著增强。这些方法现在能够详细预测蛋白质的结构、动力学和相互作用，以及对其进化历史和机制功能的洞察。在这篇综述中，作者强调了不断扩展的植物蛋白质分析计算工具包，重点介绍了已确立和新出现的方法。作者总结了最近计算方法有成功提供关于植物蛋白质功能的关键生物学见解的案例，并强调了这些方法在植物研究科学发现中的潜力。通过将计算与实验相结合，植物生物学可以克服当前研究植物蛋白质的限制，并更快地迈向对植物过程的机制理解，从而在农业、生态学和气候韧性方面取得进展。

蛋白质进化与祖先：祖先序列重建（ASR）

植物拥有漫长的进化历史，主要分支（如被子植物、裸子植物和无种子植物）可追溯至数亿年前。在整个进化过程中，随着植物适应环境变化，植物蛋白质的序列、结构和功能发生了多样化。植物蛋白质的多样性受到无数遗传变化的影响，包括全基因组重排和复制、杂交、水平基因转移以及叶绿体和线粒体基因组独特的进化轨迹。通过计算重建蛋白质进化史，可以推断蛋白质功能是如何出现和演变的。祖先序列重建（Ancestral Sequence Reconstruction, ASR）已被用于连接进化的过去与现存的生物化学，生成关于植物蛋白质如何随时间适应变化环境的不同假设，并识别出具有增加的活性、稳定性和混杂性的重建祖先酶。

ASR预测系统发育树节点上的蛋白质序列。将现存蛋白质序列进行比对，构建系统发育树，并应用统计模型来确定每个位点最可能的祖先残基。随后可以通过实验表征重建的蛋白质来检验来自ASR的进化假设。此类方法产生的是推论而非直接观察结果，因此其准确性取决于基础数据、比对和模型的质量。

存在多种ASR框架，最常见的两种是最大似然法（Maximum Likelihood）和贝叶斯推断（Bayesian Inference）。最大似然法是目前使用最广泛的框架，它通过计算在给定每个可能祖先序列的情况下观察到现存序列的概率，来识别最可能的祖先序列，并结合了考虑不等氨基酸替换率的替换率矩阵。现代工作流程通过整合系统发育工具，在减少替代模型不确定性方面取得了巨大进展。例如，IQ-TREE使用高效的随机/启发式树搜索策略从输入比对中探索系统发育空间，并识别最高似然的拓扑结构，并结合ModelFinder评估候选替代模型，从而减少了ASR流程中的替代模型不确定性。比对不确定性也会影响重建准确性，将多个替代比对纳入最大似然ASR已被证明比使用单一输入比对更能减少整体重建误差。

贝叶斯推断通过采样树拓扑、分支长度和进化模型参数的分布，直接纳入了不确定性衡量。其主要缺点是计算成本高，因此通常局限于较小的数据集。尽管贝叶斯推断明确量化并传播了祖先重建中的不确定性，但根据输入比对、系统发育和替代模型的不同，最大似然方法可能同样甚至更准确。当在模拟数据上进行测试时，最大似然法和贝叶斯推断的准确率分别约为94%和92%。这些准确度数字反映了特定条件下模拟数据集的性能，并未捕捉到贝叶斯推断在不确定性量化方面的独特优势（例如树、模型参数和祖先状态的后验概率）。

ASR的最新进展集成了结构生物学和机器学习（Machine Learning, ML），将其纳入高通量计算工作流程，以提高预测准确性并减少偏差（如系统性高估热稳定性）。它们还通过结合扰动遗传学和多组学读数，增加了研究人员在没有广泛计算专业知识情况下采用ASR方法的便利性。

结构感知方法结合了进化和生物物理信息以增强推断。经典的ASR方法将残基视为序列中的独立位点，替换概率仅由替换模型告知。当考虑到结构背景（如残基是溶剂暴露还是埋藏）时，重建变得更加现实。诸如ProtASR等工具考虑了折叠稳定性。新的替换矩阵如RAM55结合了旋转异构体几何结构，并在重建功能合理的祖先蛋白方面优于仅基于序列的模型。

基于神经网络的方法现正用于序列比对（如BetaAlign）、系统发育树推断（如Phyloformer）以及评估ASR衍生的酶库以预测特征（如改进的热稳定性）。随着蛋白质语言模型（Protein Language Models）的不断改进，它们可能会越来越多地与ASR结合，以预测更好地捕捉上位性约束（epistatic constraints，即不同残基突变对蛋白质结构和功能的耦合效应）和结构-功能关系的祖先序列。

通过增加自动化网络服务器和管道的可及性，方法的可及性得到了改善。包括FastML、FireProtASR和ProtASR2等资源使研究人员能够以最少的计算专业知识执行ASR，通常只需要输入序列或比对。作为补充，Revenant数据库提供了重建祖先蛋白质的精选存储库，这代表了迈向社区可访问参考数据的一步。

对于叶绿体编码的植物蛋白质祖先序列的重建，必须使用叶绿体特异性模型来模拟蛋白质进化。几种叶绿体特异性模型已经开发出来，最常用的是cpREV，它已被整合到现有的ASR程序中。然而，尽管对绿色植物的质体编码蛋白进行了深入研究，但Viridiplantae特异性模型gcpREV在系统发育和ASR分析中仍未得到充分利用。

在植物生物学中，ASR已被用于研究植物蛋白质家族中稳定性和特异性的进化。两项值得注意的ASR研究分别关于（i）绿色植物核苷二磷酸激酶的热稳定性，以及（ii）茄科Rubiscos的酶活性和反应焓，揭示了与地球地质时期冷暖变化相关的趋势。重建的大豆或辣根过氧化物酶谱系的祖先被发现显示出更高的稳定性，而重建的祖先羟基腈裂解酶被发现表现出比现存同源物更高的熔点温度。同样，重建的祖先鸢尾素合酶和羟基腈裂解酶被发现比现存酶表现出更高的混杂性（即扩大的底物特异性）。

重建的祖先蛋白质还可以提供对分子功能的见解。例如，查尔酮异构酶的ASR表明，其在类黄酮生物合成中的催化功能源于非催化祖先的复制，随后形成了黄烷酮结合口袋。对EPYC1（一种固有无序的淀粉核连接蛋白）的ASR分析表明，所有祖先的EPYC1都能诱导相分离。其他研究追踪了植物Rubisco的进化轨迹，以确定其伴侣依赖性是以中性方式而非适应性方式进化的。此外，祖先重建的蛋白质往往表现出比现存蛋白质更高的热稳定性、活性和底物耐受性，因此是设计更稳定、活性更高和更具混杂性酶的宝贵方法。

由于无法直接观察到祖先序列，ASR工作流程的验证传统上依赖于模拟数据集的基准测试。诸如现存序列重建（Extant Sequence Reconstruction, ESR）等新近方法提供了更准确的经验测量，允许研究人员通过尝试重建已知的现代蛋白质序列来测试流程。最终，最稳健的验证来自于对重建蛋白质的实验表征。通过异源或在植物体内表达祖先蛋白的功能测试，可以直接评估溶解度、稳定性、活性和特异性，以确认预测特性是否与计算预期一致。

最近的进展正在将ASR从一种专业技术转变为一种多功能且日益主流的工具。与ML和蛋白质语言模型的整合可以通过捕获上位性约束、改进比对和预测合理的祖先变体来减少不确定性。更复杂的物种感知系统发育基因组学模型将有助于适应杂交和基因组复制，而结构感知模型将提高细胞器蛋白质的准确性。虽然ASR已被用于追踪植物蛋白质功能的进化轨迹并发现具有有益特性的酶变体，但其在植物生物学中的潜力远未完全实现。许多植物蛋白质家族的进化历史仍知之甚少，植物途径工程策略尚未充分利用ASR来设计具有改进的热稳定性、活性或混杂性的酶。扩展数据库（如Revenant）并将植物特异性数据整合其中，将改善重建蛋白质的可用性。将绿色植物叶绿体特异性模型（如gcpREV）整合到ASR工作流程中，以及在新的植物谱系和途径中更广泛地应用ASR，为揭示进化机制和检验关于植物蛋白质功能的机制假设提供了巨大的机会。

功能、定位与修饰

现代植物生物学面临着大量的组学数据，但缺乏经过实验验证的蛋白质功能。计算方法整合序列信息、机器学习和实验数据，以推断功能、定位和翻译后调控，为解释组学数据集、重建信号通路和优先考虑实验验证靶点提供了背景。对于植物蛋白质而言，这些方法对于处理特有的大基因家族、细胞器特异性靶向和复杂的调控机制至关重要。

功能注释

功能注释方法为未表征的蛋白质分配生物学功能。在植物中，由于谱系特异性多样化和存在多个细胞器基因组，注释变得复杂。虽然基于同源性的方法通常可以推断模式植物中的功能，但当蛋白质缺乏密切的同源物或属于快速进化或复制家族时，这些方法就受到了限制。因此，功能注释方法越来越多地整合比较基因组学、变异效应预测和ML来预测生化作用。

功能注释方法可分为三类：基于变异的、基于序列的和基于ML的。基于变异的工具（如SnpEff和ANNOVAR）预测核苷酸替换、插入或缺失的功能后果。下游工具（如MAGMA）可以将变异集连接到基因和途径，实现对复杂表型的机制解释。基于序列的工具依靠进化保守性直接从序列推断功能。经典例子包括SIFT和PolyPhen-2，它们估计替换对稳定性和活性的影响。这些方法计算效率高且易于实施，但在很大程度上依赖于高质量同源序列的可用性，而对于非模式植物，这些序列通常很稀疏。

基于ML的方法正在通过整合进化和结构信息来改变功能注释。深度学习模型越来越多地被开发用于直接从序列和/或结构预测蛋白质功能，并且当缺乏密切的同源物时可以提高性能。例如，DeepGOPlus使用序列相似性和深度学习预测蛋白质序列的本体论类别。DeepFRI利用蛋白质语言模型特征和结构信息推断功能并突出显示功能重要的残基。DeepECTransformer是一种细菌特异性深度神经网络方法，可从序列嵌入中预测酶学委员会（Enzyme Commission, EC）编号。当与UniProt、Pfam和InterPro等蛋白质数据库结合时，这些框架可以在缺乏同源物的情况下将蛋白质分类为功能类别，并随着实验支持的植物注释的扩展，为植物聚焦的再训练或迁移学习提供自然的起点。

植物生物学中的功能注释正朝着更加集成、物种无关和植物训练模型的方向发展。大多数现有工具是针对动物或微生物基因组优化的，往往未能考虑植物特异性特征，如密码子偏好、多倍体和调控序列模式。ML框架可以在植物基因组数据集上重新训练，并整合来自组学层（包括表达和定位数据）的特征。同样，人类特异性工具（如OpenCRAVAT）和现有的注释管道组合工具（如WGSA）可以被修改以支持作物谱系间的比较注释。

虽然大多数现有的功能注释方法并非植物特异性，但几种常用的注释工具确实包含了植物基因组。例如，SIFT包含18种植物物种的数据库。这些工具已用于植物生物学中的全基因组关联研究（Genome-Wide Association Studies, GWAS）以及预测影响气候适应的有害变异和候选基因。ANNOVAR在预测性状变异方面也有应用，例如鉴定拟南芥乙烯不敏感和荞麦同源基因功能差异的贡献变异。GWAS流程（如MASH）已在高粱和柳枝稷中定位了与糖代谢、生物量分配和圆锥花序结构相关的性状位点。

虽然功能注释极大地加速了假设的生成，但对预测功能的实验验证仍然至关重要，以此连接植物基因型与表型。预测的蛋白质功能可以使用生化、遗传学和组学方法进行实验验证。例如，CRISPR/Cas介导的基因敲除（或RNAi knockdown）可以直接测试预测的活性丧失是否会产生预期的发育、生理或应激反应表型。对于酶学预测，最直接的验证是靶向生化测定，这使得能够在体外确认底物特异性和动力学特性。为了进一步细化计算预测的蛋白质功能并确定机制后续研究的优先级，植物管道正越来越多地结合扰动遗传学和多重组学读数，以识别下游途径特征，从而帮助将以前未表征的蛋白质置于调节或代谢网络中。

翻译后修饰

翻译后修饰（Post-Translational Modifications, PTMs）扩展了蛋白质组的功多样性，充当控制酶活性、信号转导和亚细胞命运的分子开关。对于植物而言，PTMs使得能够快速、可逆地适应干旱、温度和病原体攻击等环境波动。计算PTM预测因子可以识别候选调控位点，并绘制难以通过实验追踪的信号网络。在数千种已知PTMs中，磷酸化、糖基化和泛素化在植物生物学中占主导地位。

磷酸化、糖基化和泛素化预测因子通常使用ML和深度学习算法，基于序列、结构、进化保守性和生物物理特征，在实验验证的数据集上进行训练，以识别修饰位点。

磷酸化是将磷酸基团共价添加到丝氨酸、苏氨酸或酪氨酸上，改变了局部电荷和构象，使蛋白质能够在激活和失活状态之间切换。在植物中，磷酸化构成了几乎所有主要信号级联的基础，包括脱落酸、干旱和病原体响应。预测平台（如Phosformer和MusiteDeep）使用ML方法识别可能的磷酸化位点。植物特异性PTM数据库（如P³DB和PhosPhAt）提供了来自模式物种的实验数据，可用于模型训练和基准测试。

糖基化是将碳水化合物共价连接到天冬酰胺（N-连接）或丝氨酸/苏氨酸（O-连接），参与调节免疫反应、花粉发育和激素信号传导，以及膜蛋白和分泌蛋白的折叠、运输和稳定性。与动物不同，植物O-糖基化可发生在伸展蛋白和阿拉伯半乳聚糖蛋白中的羟脯氨酸残基上。常见的预测方法包括StackGlyEmbed和DeepNGlyPred，它们利用ML或蛋白质语言模型以更高的准确性识别真核和人体蛋白质组中的糖基化位点。

泛素化是将一个76个氨基酸的泛素多肽连接到赖氨酸、丝氨酸或半胱氨酸残基上，调节蛋白质周转和信号转导。在植物中，泛素化参与多种过程，包括激素信号传导、防御反应和光形态发生。预测因子（如UbPred）和使用ML方法（包括集成和深度学习）的植物特异性方法UPFPSR用于识别泛素受体残基。

PTM预测的最新创新扩大了植物蛋白质组分析的广度和精度。最近的工具（包括StackGlyEmbed、EMNGly和Phosformer）利用深度学习方法和来自大型蛋白质语言模型的迁移学习，提高了跨物种的预测准确性。此类方法可以通过整合序列、结构和PTM共现信息，将PTM分析扩展到组蛋白以外的更广泛的植物蛋白质组，以识别可能调节酶活性、代谢和应激适应的候选位点。

计算PTM预测工具已越来越多地用于研究植物中的蛋白质调控、信号传导和应激反应。磷酸化预测因子（如MusiteDeep）已用于多种植物物种，包括拟南芥、甘蓝型油菜和玉米。MusiteDeep是一种拟南芥训练的模型，能够准确识别其他绿色植物的磷酸化位点，这表明深度学习PTM预测因子在植物之间具有一定的普遍性。NetNGlyc（一种糖基化预测因子）已成功鉴定出本氏烟草Kunitz蛋白酶抑制剂样蛋白中的特异性N-糖基化位点，尽管它最初是为人类蛋白质开发的。泛素化预测因子已在作物和模式物种中鉴定出调控机制。例如，UbPred被用于预测水稻开花抑制因子Ghd7中经历蔗糖诱导的多聚泛素化的赖氨酸残基。泛素化预测工具也被用于鉴定拟南芥MAPKKK18中的泛素化赖氨酸，该蛋白调节脱落酸信号传导和耐旱性。

虽然计算预测极大地加速了假设的生成，但实验验证仍然是必要的。质谱（Mass Spectrometry, MS）是识别PTM位点的金标准，辅以富集策略，如用于磷酸肽的固定金属亲和色谱（Immobilized Metal Affinity Chromatography, IMAC）或用于糖蛋白的凝集素亲和测定。基于抗体的方法，包括磷酸化特异性或抗二甘氨酸免疫印迹，可以验证修饰状态和周转动力学。新兴的植物蛋白质组学管道将TurboID邻近标记与液相色谱-串联质谱（Liquid Chromatography–tandem Mass Spectrometry, LC–MS/MS）相结合，以在体内绘制PTM网络。

定位预测将分子功能与细胞环境联系起来

蛋白质运作的细胞环境决定了其对底物、辅因子和相互作用伙伴的获取，所有这些都定义了蛋白质的生理功能。例如，叶绿体靶向酶在不同的氧化还原、pH和离子条件下发挥作用，而细胞质旁系同源物可能在完全不同的约束下参与相关反应。亚细胞定位还可以暗示广泛的功能：例如，鉴于光合作用发生在叶绿体中，叶绿体定位暗示了光合功能。定位预测需要考虑植物细胞的区室复杂性。核编码的叶绿体和线粒体蛋白质在细胞质中合成，并通过N端转运肽引导至目的地。蛋白质也可以通过任一末端的信号定位到过氧化物酶体和液泡。此外，双重靶向和再定位很常见：蛋白质可能被引导至叶绿体和线粒体，或根据应激或发育线索在细胞核和细胞质之间穿梭。因此，预测算法必须捕捉到依赖于环境的灵活性。

早期的定位预测工具（如WoLF PSORT）主要依靠氨基酸组成、电荷和序列基序来推断蛋白质的亚细胞位置。在这些模型中，某些生物物理特征（如疏水信号肽或碱性转运序列）在统计学上与已知区室相关联。虽然有用，但这些方法受到训练数据质量和广度的限制。例如，许多方法主要在陆生植物数据集上训练，因此难以识别其他光合真核生物中的靶向序列，因为细胞器的起源和膜复杂性可能不同：植物叶绿体源于一次原发性内共生事件，而硅藻和许多藻类经历了继发性或三次性内共生，导致其质体周围有额外的膜层。

最近的工具有助于整合ML，以提高在各种谱系（包括植物）中的准确性和覆盖率。例如，DeepLoc 2.1使用带有蛋白质语言模型的ML来识别分选信号，包括叶绿体靶向肽。同样，LocPro使用混合卷积、全连接和双向神经网络，允许对单个或多个区室进行定位分配。这些进步使得能够以更高的精度和通量预测整个植物蛋白质组的定位。

新兴的创新正在模糊预测与观察之间的界限。深度生成模型（如deepGPS）和基于蛋白质语言模型的方法（如PUPS）结合蛋白质序列和荧光图像数据，推断人类细胞内的空间分布。在植物特异性显微镜数据集上训练的定位预测因子可以自动注释植物蛋白质组中的亚细胞位置。此外，与结构预测工具和相互作用组映射算法的整合，有潜力解析叶绿体、类囊体和过氧化物酶体等区室内的多组分组装体。

植物特异性定位预测工具已被证明是有价值的。LOCALIZER检测核定位信号以及靶向叶绿体和线粒体的转运肽，在植物序列方面优于通用真核模型。Plant-mSubP是一种基于ML的方法，在UniProt注释的植物蛋白质上训练，允许将蛋白质分配到10多个亚细胞区室的单个或多个定位。两者都在不同的分类群中得到了验证。例如，LOCALIZER正确识别了小立碗藓氧化应激调节因子PpNBS1的核定位，以及柠檬香蜂草萜类生物合成酶McDXS的叶绿体靶向，而Plant-mSubP已被用于研究木薯的抗病性和辣椒红素受体的定位。

定位预测因子在大规模植物基因组或转录组研究中特别有用，可以从大型表达数据集中缩小候选蛋白质的范围。例如，这些方法已被用于鉴定和表征玉米DnaJ（Hsp40）伴侣蛋白家族成员，以及一种胚胎发育和叶绿体生物发生缺陷的拟南芥突变体。

定位预测越来越多地通过实验成像和蛋白质组学进行补充。通过瞬时或稳定转化表达的荧光蛋白融合（如GFP、YFP、mCherry）允许在体内可视化定位。当结合先进的光学显微镜技术，如光漂白后荧光恢复（Fluorescence Recovery After Photobleaching, FRAP）、光漂白荧光损失（Fluorescence Loss in Photobleaching, FLIP）或福斯特共振能量转移（F?rster Resonance Energy Transfer, FRET）时，这些系统可以量化定位动态和蛋白质之间的空间接近度。互补的生化方法，包括密度梯度分离结合Western blotting或LC–MS/MS，区分细胞器特异性蛋白质组并验证预测的靶向。空间蛋白质组学方法使用邻近标记能够绘制区室特异性相互作用组。将计算与此类实验数据集相结合，允许迭代优化计算模型，提高预测准确性，并揭示植物细胞中短暂的或条件依赖的定位模式。

未来功能、定位与修饰方向

虽然非特异性注释方法在植物研究中可能很强大，但开发针对植物进化历史、多倍体和基因组复杂性的专用工具可以显著提高注释的准确性和生物学相关性。随着植物特异性PTM预测因子的开发，计算预测将继续指导植物蛋白质组翻译后调控的实验发现。随着更多植物蛋白质组的定位数据可用于模型训练，这将提高更广泛模式和非模式植物物种的预测准确性。此外，扩展工具以覆盖更广泛的细胞区室将提高准确性，减少不确定性，并增加计算预测对植物生物学家的适用性。

将蛋白质水平特性与其影响的细胞途径和生理结果联系起来仍然是植物生物学的中心目标。整合功能注释、PTM预测和定位分析提供了蛋白质功能的多维视图，并可能实现完整细胞途径的预测。这种混合方法不仅暗示了蛋白质的作用及其作用位置，还暗示了其活性如何通过化学修饰和环境响应进行动态调节。这种综合注释在植物系统中特别强大，因为基因组扩张、内共生区室化和环境可塑性在此交汇。随着模型越来越多地纳入植物特异性特征（如细胞器靶向信号和再定位），其加深理解和发现新过程的潜力将继续扩大。

蛋白质结构预测

蛋白质结构能够预测催化残基、相互作用表面和结合口袋，从而合理化突变效应并生成可检验的假设。在植物生物学中，大多数蛋白质在结构上仍未表征，结构预测是探索蛋白质功能、进化和相互作用网络的强大工具。

最早的现代结构预测方法是基于模板的建模（Template-Based Modelling），包括同源建模（Homology Modelling）和穿线法（Threading）。当存在合适的模板（即与目标序列具有至少30%氨基酸同一性的蛋白质的实验确定结构）时，此类方法很有价值。常用的基于模板的方法包括HHpred和SWISS-MODEL。这些方法提供透明的比对控制，并且在模拟配体结合状态、侧链和环（尤其是靠近辅因子处）方面表现出色。最近的创新，包括I-TASSER-MTD和Foldseek，增强了模板搜索的速度和灵敏度，并改进了模板整合。

深度学习方法彻底改变了结构生物学，在没有模板的情况下生成具有日益接近实验水平的准确性的蛋白质模型。AlphaFold2设定了单链预测的标准，而AlphaFold3和AlphaFold-Multimer则增强了对蛋白质复合物、配体、离子和核酸相互作用的准确性。替代工具如RoseTTAFold、ESMFold和OmegaFold在准确性、计算成本和速度之间提供了权衡。当模拟固有无序区域、大型膜整合组装体、构象动力学和原子水平相互作用时，此类方法仍然存在局限性。因此，基于模板的方法仍然很重要，因为在某些情况下它们仍然可以优于人工智能（Artificial Intelligence, AI）方法，计算强度较低，并且通常能产生具有相似同一性和准确性的结构。重要的是，基于模板和深度学习的方法可以是互补的，混合管道（如Phyre2.2, D-I-TASSER）提高了蛋白质复合物和对接的准确性。

植物系统对结构预测提出了独特的挑战。细胞器靶向肽使建模复杂化，因为成熟蛋白质可能与基因组编码的蛋白质有很大不同。此外，标准工作流程往往没有考虑叶绿体和高尔基体蛋白质折叠所特有的pH、氧化还原状态和离子条件，也没有考虑许多植物蛋白质对辅因子、金属或色素的依赖性。此外，信号传导和防御蛋白中丰富的固有无序区域、长重复序列和卷曲螺旋基序可能导致功能重要区域（如短线性基序或相分离驱动因子）的低置信度预测。

最近的创新使得以现实的准确性模拟动态组装、细胞器特异性环境和复杂的植物蛋白质组变得越来越可行。例如，AlphaFold3将建模扩展到配体、离子和核酸，而ESMFold和OmegaFold通过快速、无比对的预测实现蛋白质组范围的筛选。与实验密度图的迭代优化增强了预测准确性，而集成管道（如MoDAFold）将预测与分子动力学（Molecular Dynamics, MD）相结合以捕捉构象变异性。

结构预测因子广泛用于植物生物学，已被用于鉴定番茄病毒抗性蛋白中的病原体识别域，对拟南芥天冬氨酸蛋白