基于整合hERG试验与药物警戒相关信号的QT间期风险优先级评估
《Computational Toxicology》:Computational QT-liability prioritization using integrated hERG assay and pharmacovigilance-derived signals
【字体:
大
中
小
】
时间:2026年06月18日
来源:Computational Toxicology 2.9
编辑推荐:
远木勇行|山口贵正日本三重县铃鹿市铃鹿医科大学药学部药学科学系药物信息学实验室摘要药物引发的QT间期延长问题仍是小分子有机化合物及药品在毒理学研究中的重要课题。本研究开发了QT-M2M4模型,这是一种基于分子图谱的计算工具,可通过整合人类ether-a-go-go相关基因(hER
远木勇行|山口贵正
日本三重县铃鹿市铃鹿医科大学药学部药学科学系药物信息学实验室
摘要
药物引发的QT间期延长问题仍是小分子有机化合物及药品在毒理学研究中的重要课题。本研究开发了QT-M2M4模型,这是一种基于分子图谱的计算工具,可通过整合人类ether-a-go-go相关基因(hERG)检测结果以及美国食品药品监督管理局不良事件报告系统(FAERS)中的药物警戒信号,来对具有QT间期延长风险的化合物进行优先级排序。该模型的内部数据集结合了PubChem BioAssay AID 1671200中的检测数据,以及通过报告概率比分析筛选出的FAERS阳性药物数据,随后对这些数据进行处理,包括父结构整合、化合物级别筛选以及图谱/描述符特征提取。研究人员通过逐步增加结构差异的分组方式,对不同的候选分子图模型进行了评估。在去除PubChem化合物标识符及结构重复项后,使用来自PubChem BioAssay AID 588834的独立数据集进行外部对比评估。QT-M2M4模型在内部评估中的接收者操作特征曲线下面积为0.94,精确度-召回率曲线下面积为0.63;而在外部评估中的相应数值分别为0.80和0.51。通过设定内部阈值,该模型可对外部数据集进行绿色/黄色/红色三级分类,其中红色类别的阳性率高于绿色类别。此外,研究还分析了描述符空间中的结构差异、模型校准情况、排名实用性、描述符级别的替代解释方法,以及代表性体外心律失常综合检测探针的原子级别特性。研究结果表明,结合检测数据和药物警戒信息的分子图谱建模方法,可作为一种可靠的计算毒理学工具,用于对具有QT间期延长风险的化合物进行优先级排序。该模型的输出结果应被视为用于后续毒理学研究的排序或分级信号,而非经过校准的临床风险概率值,也不是证明药物与疾病之间存在因果关系的证据。
引言
药物引发的室性复极化延迟以及QT/QTc间期延长问题,一直是小分子有机化合物及药品在毒理学研究和监管领域的重点关注对象,因为这些现象可能引发尖端扭转型室性心动过速甚至猝死。为此,国际上制定了ICH E14和ICH S7B等监管标准,旨在降低因心律失常风险导致的后期研发失败及上市后的危害[1]、[2]。与此同时,“体外心律失常综合检测”项目也强调,不能仅依据单通道检测结果来判断心脏电生理风险,而应综合考虑多通道及系统层面的影响[3]。正是基于这些考虑,人们开始探索计算毒理学方法,以便对需要进一步测试的化合物进行优先筛选,减少不必要的安全相关试验,同时在开展耗时的实验或临床评估之前整理相关证据。
从机制层面来看,hERG(KCNH2)钾通道的阻断以及由此导致的IKr电流下降,是引发室性复极化延迟和QT间期延长的主要因素,不过实际的心律失常风险还取决于药物暴露剂量、患者易感性、代谢状况、合并用药情况以及其他电生理因素[3]、[4]、[5]。从基于结构的计算毒理学角度出发,无论是局部结构特征还是整个分子的物理化学性质,都可能影响QT间期延长的风险。分子图谱模型在这一领域具有优势,因为它可以直接从原子的连接关系和键结构中学习特征,而基于描述符的表示方法则有助于捕捉整个分子的物理化学和拓扑特征[6]、[7]、[8]。这两种方法相结合,为研究与QT间期延长风险相关的结构-性质关系提供了实用的基础。
现有的生物检测资源以及药物警戒数据库,为超越仅基于hERG指标的分类方法,构建更全面的计算毒理学优先级评估框架提供了可能。在本研究中,我们将PubChem BioAssay资源中的hERG相关实验检测数据,与通过FAERS报告概率比分析得到的药物警戒相关QT间期延长风险信号相结合。其中来自FAERS的信号数据被用作模型开发的弱信号来源,并不被视为证明药物与疾病存在因果关系的证据。选择分子图谱学习作为主要建模方法,是因为它能够直接从化学结构中学习特征,同时还可以与简洁的分子整体描述符相结合[6]、[9]。
在之前关于临床药理学与治疗学的研究基础上[10],本研究的目的是构建一种更为稳健且可重复使用的计算毒理学框架,用于在化学结构发生变化的情况下对具有QT间期延长风险的化合物进行优先级排序。为此,我们放弃了单一模型设计,转而采用由多个互补型分子图模型组成的集成模型,这些模型是在考虑分子骨架特征及聚类特征的基础上进行训练的。此外,本研究还注重化合物标识符级别的评估、独立的严格化合物分离的外部对比评估、三级分类体系,以及可部署的重复性验证工具,这样模型输出结果就可以被视为用于毒理学优先级排序的排序型信号,而非确定的临床QT间期风险预测结果。因此,本研究的创新之处在于采用了考虑化学结构差异的集成模型评估方法、以排序为导向的优先级确定策略,以及具备可重复性的模型部署方案,而非宣称这是首次将图神经网络应用于hERG/QT间期延长风险预测领域。
章节要点
研究概述与数据集设计
本研究在模型开发时使用了同一个整合后的内部数据集,而在外部对比评估时则使用了另一个严格满足化合物相互独立条件的外部数据集。内部数据集结合了PubChem BioAssay AID 1671200中的hERG相关实验检测结果,以及通过FDA不良事件报告系统(FAERS)的报告概率比分析筛选出的具有临床相关风险的阳性药物数据。外部数据集则来源于PubChem BioAssay AID 588834,之后通过去除重复项等方式进行了筛选
数据集构建与特征
在排除那些检测结果不确定的记录后,AID 1671200数据集共包含9001条检测记录(其中704条为阳性记录,8297条为阴性记录)。经过质量控制及结构异常过滤后,这些记录与512种FAERS阳性药物的数据被整合在一起。在进行SMILES格式的重复项删除处理后,合并后的数据集共有7401条记录;在完成重复项处理及父结构整合后,最终得到6931种独立的内部化合物。通过仅保留阳性记录的随机抽样方法,阳性训练样本的数量从752个增加到了4512个,从而提升了模型的性能
讨论
本研究提出了一种结合检测数据与药物警戒信息的分子图谱框架,用于计算分析化合物的QT间期延长风险。该框架通过将基于图谱的分子表示方法与简洁的描述符集合相结合,并通过逐步增加结构差异的分组方式对不同的模型组合进行测试,旨在实现对化合物级别的毒理学优先级排序,而非仅进行记录级别的分类。最终的QT-M2M4模型在内部评估中保持了较高的区分能力
结论
我们开发了QT-M2M4模型,这是一种基于hERG检测数据及药物警戒相关信号整合的分子图谱模型,可用于计算分析化合物的QT间期延长风险。该模型在内部评估中能够实现良好的化合物级别区分能力,在严格满足化合物相互独立条件的外部数据集上也能展现出有意义的排序性能。此外,该模型还支持三级分类功能,同时能够在描述符、子结构及原子级别上进行具有化学意义的相关分析。这些特性使得
CRediT作者贡献说明
远木勇行:概念构思、方法设计、软件开发、数据整理、正式分析、研究实施、模型验证、结果可视化、初稿撰写、论文修订。山口贵正:数据整理、研究实施、资源协调、研究指导、论文修订。所有作者均参与了最终稿件的审阅与确认。
伦理声明
本研究使用的是公开可用的、已去标识化的化学物质、检测数据及药物警戒相关数据,没有涉及针对人类受试者或动物的新实验,因此无需获得机构伦理审查批准或受试者知情同意。
资金支持
本研究未获得任何公共部门、商业机构或非营利组织提供的专项资助。
关于 manuscript 编写过程中生成式AI及AI辅助技术的声明
在撰写本论文的过程中,作者们使用了ChatGPT(OpenAI)工具,协助编写和优化Python脚本、进行数据分析、语言编辑、格式调整以及论文结构整理等工作。在使用该工具后,作者们对内容进行了必要的审阅和修改,并对最终提交的论文内容承担全部责任。本论文中的图表及图形摘要并非通过任何生成式AI或AI辅助工具创建或修改的。
利益冲突声明
作者声明自己不存在任何可能影响本研究结果的已知财务利益关联或个人关系。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号