《PLOS Biology》:Evolutionary analysis of transcription elongation factors reveals conserved and lineage-specific regulatory domains
编辑推荐:
摘要:在真核生物中,转录延伸因子(transcription elongation factors, TEFs)与RNA聚合酶II(RNA Polymerase II, RNAPII)结合以促进基因表达,并使转录与染色质调控及RNA加工等共转录过程相偶联。为深
摘要:在真核生物中,转录延伸因子(transcription elongation factors, TEFs)与RNA聚合酶II(RNA Polymerase II, RNAPII)结合以促进基因表达,并使转录与染色质调控及RNA加工等共转录过程相偶联。为深化对TEF生物学的理解,研究人员开发了以结构域(domain)为核心的分析流程,对10种TEF直系同源物——Paf1、Ctr9、Cdc73、Rtf1、Leo1、Spt4、Spt5、Spt6、Spn1及Elf1——在整个生命树(Tree of Life)中进行广泛调查,并在结构背景下分析其进化模式。研究人员提供证据表明全部10种TEF均存在于末代真核共同祖先(last eukaryotic common ancestor, LECA)中,说明TEF介导的转录调控机制既古老又保守。然而,部分早期分化的真核分支表现出TEF结构域组成发生改变的迹象。比较系统发育分析凸显了在后生动物(metazoans)和真菌(fungi)中均可检测到的TEF保守区域,以及其他仅在后生动物中可检测到的谱系特异性(clade-specific)区域。上述观察结果,结合进化速率共变(evolutionary rate covariation, ERC)分析所获的额外线索,阐明了TEF此前未被充分表征的方面,包括功能尚待解析的结构域。
论文解读:转录延伸因子的进化分析与保守及谱系特异性调控结构域的发现
本文由研究人员发表于《PLOS Biology》,旨在系统阐明真核生物核心转录延伸因子(transcription elongation factors, TEFs)在生命树中的起源、结构域架构保守性及谱系间分化特征。
研究背景与立项依据:
在所有生命域中,蛋白质编码基因由RNA聚合酶II(RNA Polymerase II, RNAPII)转录,TEFs作为RNAPII的辅助因子协调共转录事件并促进RNAPII通过染色质的延伸。核心TEFs包括形成DSIF复合物的Spt4(hSUPT4H)与Spt5(hSUPT5H)、Spt6(hSUPT6H)、Spn1(hIWS1/Spn1)、Elf1(hELOF1/Elf1),以及五亚基的聚合酶相关因子1复合物(Polymerase Associated Factor 1 Complex, Paf1C)——Paf1(hPAF1/PD2)、Ctr9(hCTR9)、Cdc73(hCDC73/Parafibromin)、Rtf1(hRTF1)和Leo1(hLEO1)。既往研究多局限于模式生物,TEF序列在多样物种中的保守程度及结构域组织仍不清楚,尤其对早期分化真核类群中Paf1C亚基和Spn1是否存在于末代真核共同祖先(last eukaryotic common ancestor, LECA)尚无定论。因此研究人员开展了跨304个物种的域中心(domain-centric)进化调查。
主要关键技术方法:
研究人员从EukProt数据库获取227个真核物种、从GTDB数据库获取37个古菌和40个细菌物种的预测蛋白组。采用BLAST初筛加自定义隐马尔可夫模型(hidden Markov model, HMM)按各TEF特征结构域(如Spt5的NusG N-terminal domain[NGN]和Kyrpides-Ouzounis-Woese[KOW]域、Spt4的锌指域、Ctr9的四肽重复[tetratricopeptide repeat, TPR]域、Rtf1的Plus3和组蛋白修饰结构域[histone modification domain, HMD]、Paf1的Ctr9-binding/Link及Leo1-binding域、Cdc73的N-terminal domain[NTD]和C-domain、Spt6的tandem Src Homology 2[tSH2]等)进行hmmscan检索,辅以 reciprocal BLAST、基因树重建和多序列比对(multiple sequence alignment, MSA)过滤假阳性。对HMM未检出的候选域,依次使用FoldSeek结构比对、AlphaFold3/AlphaFold2结构预测及PSI–BLAST验证。基于IQ-TREE构建的系统发育树计算相对进化速率(relative evolutionary rate, RER)及保守性得分[-log10(RER+0.1)],并对后生动物与真菌直系同源物分别评分以识别协同或差异保守区。利用343个酵母物种的全蛋白进化速率共变(evolutionary rate covariation, ERC)分析推断TEF功能互作网络(Z-score cutoff=3.5)。
研究结果:
Paf1C和Spn1仅检测于真核生物(Paf1C and Spn1 are only detected in eukaryotes):
研究人员用域中心HMM流程确认Spt5(含NGN+≥1个KOW域)是唯一在三域均保守的TEF;Spt4锌指域见于大多数古菌和真核;Elf1锌指域见于多数Asgardarchaeota和部分非Asgard古菌及多数真核。Spt6核心域、全部Paf1C亚基特征域(Paf1、Ctr9之TPR及Vertex域、Cdc73之NTD/C-domain、Rtf1之Plus3/HMD/Fastener/Pincers域、Leo1特征域)及Spn1之IWS1域仅在真核蛋白组检出,即使在218个Asgardarchaeota蛋白组中亦未发现。据此研究人员提出Paf1C与Spn1(IWS1)是真核生物特有创新,而Spt6虽与细菌Tex有共同祖先但其核心域在序列水平已与Tex分化。
部分Discoba、Metamonada和Alveolata的Paf1C结构域未检出(Some Paf1C domains are not detected in sub-clades of Discoba, Metamonada, and Alveolata):
除Spt4/Spt5/Spt6/Spn1在真核各支几乎普遍检出外,部分Paf1C域(如动质体Kinetoplastea中Paf1之Leo1-binding域及Ctr9-binding域缺失、副基体虫Parabasalia中Paf1之Leo1-binding域缺失、Kinetoplastea和Diplonemea中Rtf1之HMD未检出、Kinetoplastea和Diplonemea中Cdc73之NTD未检出)在特定低等真核亚支未通过HMM检出。经FoldSeek或AlphaFold3预测,Ctr9之Vertex域在Parabasalia和Diplonemea实际存在但序列高度分化;Colpodellida(Alveolata)中Rtf1之HMD和Cdc73之NTD也可通过结构比对找回;但Kinetoplastea和Diplonemea确证缺失Cdc73-NTD及Rtf1-HMD,Parabasalia和Kinetoplastea确证缺失Paf1-Leo1-binding域,提示这些类群发生了选择性结构域丢失或极端序列歧化。
TEF的多结构域架构广泛保守(Multi-domain architectures of TEFs are broadly conserved):
UpSet图分析显示除Rtf1最常见架构仅为Plus3域(次常见为Plus3+HMD共现)外,其余多域TEF(Spt5、Cdc73、Ctr9、Paf1、Spt6)最普遍架构为全部已知特征域共存,说明多域组织形式多已在LECA确立并大体保留。
保守性评分锁定TEF中具有功能重要性的残基(Conservation score analysis pinpoints functionally conserved residues in TEFs):
将人源TEF各残基保守性得分映射到人转录延伸复合体结构(PDB: 9EH2)显示:已知功能域核心残基(如Spt6 tSH2折叠稳定残基、Rtf1 Latch刺激RNAPII延伸速率之残基)高度保守;Paf1C亚基间互作界面(Paf1 Linker–Rtf1 Fastener、Paf1与各Paf1C亚基接触面)及Paf1/Rtf1/Leo1/Spt5与RNAPII邻近残基均显著富集保守残基,而Ctr9 trestle虽有HMM检出率高但无明显保守热点,暗示其主要为支架/空间阻遏功能。
真菌与后生动物共有及特异的保守残基(Conserved residues in fungi and metazoans suggest regions with preserved functions):
对比真菌(酿酒酵母Saccharomyces cerevisiae)与后生动物(人Homo sapiens)直系同源物保守模式,协同高保守(top 20%)残基多位于蛋白折叠核心及已知互作面——如Spn1(IWS1)核心域延伸至与Elf1、Spt5-NGN及RNAPII Rpb2互作区,Rtf1 HMD与组蛋白分子伴侣Spt16结合区,Ctr9 N端cap(β-strand+α-helix+首TPR)与Paf1互作区——提示这些为后口动物(Opisthokonta)共有功能元件。
差异保守性评分揭示后生动物特异而真菌中不保守的潜在互作界面(Differential conservation score analysis uncovers putative interfaces selectively conserved in Metazoa but not in Fungi):
在人Cdc73 NTD、Paf1 Linker(Rtf1-Leo1结合位点间区段)及Ctr9 TPR表面发现仅在后生动物高度保守、真菌中快速演化之残基簇,提示这些区域可能在后生动物中获得新互作功能或保留祖先功能而真菌中丢失。
人与酵母TEF序列无法比对区域中的高保守位点(Sites of high conservation within regions unaligned between H. sapiens and S. cerevisiae TEFs):
人Cdc73中Cyclin-K Interacting Motif(KIM, Tyr290-Thr324,与CDK12/13互作)及N-Ctr9-binding域间连接区保守簇、人Rtf1 N端LLALA box上游(41–63)及HMD上游(149–162)保守区均为酵母无对应区段,提示后生动物特异调控功能。人Spt6之S1域中存在约50残基插入——命名为S1 Insertion Domain(SID),具预测C2HC锌指折叠,带负电表面不适于RNA结合,广泛存在于后生动物及部分领鞭毛虫(choanoflagellates),为后生动物谱系获得性特征。
支持人Rtf1具Ctr9互作基序(Support for a functional Ctr9-interacting motif in human Rtf1):
人Rtf1 C端655–674位保守区段对应酵母Rtf1 Hook(Ctr9-interacting region),AlphaFold3预测人和酵母Rtf1均以相似模体结合Ctr9相同疏水口袋,实验删除人Rtf1 604–710段削弱Paf1C共免疫沉淀,支持后生动物Rtf1通过线性基序(linear motif)结合Ctr9。
TEF的进化速率共变图谱(Evolutionary rate co-variation landscape of TEFs):
基于343酿酒酵母物种的ERC网络显示TEFs彼此高度共变(黑节点互连),并与RNAPII核心亚基及转录起始因子共变;已知互作因子CHD1与RTF1、SGV1/BUR1(编码Bur1激酶磷酸化Spt5 C-terminal repeat region)与SPT5均有高ERC(Z-score>3.5)。SPT6、RTF1和CDC73各自拥有较多独特高ERC基因(含转录终止因子Pcf11、Clp1、Rna14、Cft1等),提示个体化功能扩展。
讨论与结论总结(翻译研究结论部分):
本研究通过对生命树304个物种核心TEF直系同源物的综合分析,证明TEFs在真核生物中广泛保守但存在显著例外。Spt5为唯一公认通用延伸因子;Spt4和Elf1为古菌域创新;Spt6、Spn1(IWS1)及Paf1C各亚基为真核延伸因子,其在早期分支真核类群中存在表明它们于LECA前已确立——尽管部分Paf1C域在Discoba、Metamonada及Alveolata特定亚支中未检出或疑似丢失,可能与这些类群染色质生物学改变(如Kinetoplastea中Dot1不依赖H2Bub运作致Rtf1 HMD约束松弛)及功能代偿机制有关。将保守性评分映射到结构可获得TEF功能图谱并确认Paf1C亚基间及RNAPII接触面跨物种保守;比较真菌与后生动物保守模式识别出共有功能元件及后生动物特异保守区(如Cdc73 NTD特异位点、Spt6 SID、人Rtf1 C端Ctr9结合基序、Cdc73 KIM等),为后续机制研究提供进化框架。ERC分析进一步揭示Spt6、Rtf1及Cdc73具广泛共变基因伙伴,指向其在延伸复合体中作为多功能枢纽或参与转录外过程(如Spt6与PCNA共变提示复制/基因组稳定性作用)。综上,此项域中心进化分析阐明TEFs古老起源、保守架构及谱系特异性创新,为跨模式生物统一认识转录延伸调控及挖掘未表征TEF功能域提供路线图。