DiscoVerse:面向可追溯药物发现与反向转化(Reverse Translation)的多智能体(Multi-agent)药学共同科学家(Co-scientist)
《Frontiers in Artificial Intelligence》:DiscoVerse: multi-agent pharmaceutical co-scientist for traceable drug discovery and reverse translation
编辑推荐:
摘要:药物研发(Pharmaceutical R&D)已积累了海量且高度异构的档案数据,其中大量知识源自终止项目(Discontinued Programs),重新利用这些档案对反向转化(Reverse Translation)具有重要价值,但在实践中
摘要:药物研发(Pharmaceutical R&D)已积累了海量且高度异构的档案数据,其中大量知识源自终止项目(Discontinued Programs),重新利用这些档案对反向转化(Reverse Translation)具有重要价值,但在实践中往往难以实现。本研究介绍DiscoVerse——一种专为罗氏(Roche)药物研发设计的多智能体共同科学家(Multi-agent Co-scientist)。DiscoVerse作为人在回路(Human-in-the-Loop)辅助系统,通过检索相关数据、跨文档关联、总结关键发现及保存机构记忆,提供基于证据的领域特异性问答。研究人员通过专家评估含源链接的输出对系统进行评估,评估涵盖Roche研发知识库中精选的180个分子子集,包含超过8.7亿Byte-Pair Encoding(BPE)词元(Token)及逾四十年的研究资料。据研究人员所知,这是首个在真实药物数据上针对反向转化进行系统评估的智能体框架,其获授权访问覆盖药物开发全生命周期的保密档案。研究贡献包括:与科学家工作流对齐的角色专业化智能体设计;支持反向转化的人在回路机制;专家评估;以及证明可提供有决策价值洞察的大规模演示。简而言之,在七个基准问题上,DiscoVerse实现了近完美召回率(≥0.99)与中等精确度(Precision=0.71?0.91)。定性评估与三个真实制药用例进一步表明其能跨临床前与临床证据进行忠实且含源链接的综合归纳。
论文解读:DiscoVerse——面向可追溯药物发现与反向转化的多智能体药学共同科学家
研究背景与意义
制药企业在数十年药物研发中产生了海量实验数据,包括内部研究报告、毒理学发现、组织病理学评价、非临床与临床研究汇报及决策过程文档。其中相当比例的数据来自各阶段终止的候选药物,虽因研发损耗未被推进,却蕴含治疗相关发现、靶器官毒性、安全与疗效信号及详细实验方法。反向转化(Reverse Translation,指将临床结局信息回溯用以启发早期研究、识别新靶点及生物标志物、复用临床药理学与监管审评经验)可使这些沉淀数据产生新价值,例如通过追溯临床研究中的治疗抵抗现象发现TGF-β通路作为治疗靶点。然而反向转化的核心障碍在于数据规模巨大且高度碎片化——端到端药物开发产生数千份异质文档,散布于不同组织与外部合作方,命名不规范、术语随项目演化发生漂移(Terminology Drift),同义词、表格数据及语境依赖表述使人工浏览与关键词检索效率低下,导致证据遗漏与误匹配。解决此问题需语义检索(Semantic Retrieval)、跨文档链接(Cross-document Linking)、临床前–临床数据对齐(Preclinical–Clinical Data Alignment)及可审计综合(Auditable Synthesis)。近期大语言模型(Large Language Model, LLM)虽具备阅读非结构化语料与生成基于源文的综述能力,但单一LLM智能体在制药场景下受限于研究背景特异性(终点、 assay、术语差异)、合同研究组织(CRO)引入的异质性、数据孤岛及远超上下文窗口的单分子归档文档量,常无法从稀疏或非代表性来源泛化,且缺乏 regulated environment 要求的全程溯源。因此研究人员采用角色专业化的多智能体系统(Multi-Agent System, MAS)架构,通过智能体间相互批判与强制源文锚定输出,支持可追溯与可审计推理,开发DiscoVerse并发表于《Frontiers in Artificial Intelligence》。
主要关键技术方法
研究人员构建DiscoVerse多智能体系统,由分类与分解智能体(Decomposition Agent,采用读–重写–检索Read-Rewrite-Retrieve工作流将问题拆解为子查询)、检索智能体(调用混合符号–语义检索Hybrid Symbolic-Semantic Search访问DiscoVerse数据库)、审查智能体(Review Agent,判断缺口并反馈细化)、研究智能体(Research Agent,发现并综合科学发现)组成临床前(Preclinical)、临床(Clinical)、策略(Strategic,处理项目终止理由、组合比较等高阶问题)三条领域分支;由监督智能体(Supervisor Agent)协调路由、跟踪执行并整合跨域结果;下游分类学智能体(Taxonomy Agent)将提取证据映射至与科学家共同制定的模式库(Schema Library,含问题类型、所需证据元素与结构化输出模板),确保一致性及溯源。所有智能体以结构化消息通信。知识库选自Roche内部180个分子对应15762份PDF文件(约8.72亿BPE Token,跨度超40年,含扫描件与动物/临床/会议纪要/研究者手册等),经解析、嵌入与索引构建。全部智能体后端采用GPT-4.1(gpt-4.1-2025-04-14),嵌入与重排模型本地部署于NVIDIA A100 GPU。评估设计七个生命周期基准问题(Q1–Q7:首次人体剂量FIH Dose、给药途径Route of Administration、最高I/II期临床剂量、伴严重不良事件SAE最高剂量、有效剂量Efficacious Dose、治疗方案Treatment Regimen、安全窗Margin of Safety),由毒理与安评专家标注真值,计算准确率、精确率(Precision)、召回率(Recall)、特异度(Specificity)及F1值,并结合三个真实用例做定性评估。
研究结果
3 Materials
知识库含180个分子的15762份PDF文件,合计872,453,585 BPE Token,平均每分子约一万页文档(动物研究报告、临床研究报告CSR、会议纪要、项目总结PPT、研究者手册IB等),大量源于临床前体内(In Vivo)动物研究。数据跨越四十余年,含扫描 legacy 文档,语言风格、技术细节深度与结构格式差异极大,对文本检索、解析与数据标准化构成显著挑战。
5.1 Experimental setup
实验旨在测试DiscoVerse多智能体架构的系统级性能而非单LLM能力,所有智能体统一驱动于GPT-4.1以隔离架构贡献,嵌入与重排模型本地运行于A100。对每个分子–查询对(Q1–Q9)执行并生成非结构化与结构化输出,记录所有检索片段、中间智能体输出与源归属。
5.2 Results for benchmark questions
七项基准问题结果显示:Recall近完美(六项为1.0000,Q4为0.9864),Precision介于0.7142(Q5)~0.9078(Q6),Specificity介于0.6707(Q3)~0.8828(Q4),F1为0.8333~0.9517。高Recall低Precision的模式表明系统倾向激进检索(少漏检)但会纳入边界不匹配证据(如将临床前剂量误作临床剂量、计划给药混淆为实际给药、I期SAD与MAD混淆、将剂量错误关联无关不良事件、把临床前安全窗误报为含临床数据等),误判主要源于语境理解不足而非幻觉(Hallucination极少)。专家认为假阳性不构成捏造,而是临床前/临床混淆、计划/实际混淆、试验分期混淆、细节不完整或数值范围偏差等。该系统适合作为增强工具——自动化全面检索,由领域专家完成语境核验,将工作流转变为AI辅助"审阅与发现"。
Q8(项目终止理由Discontinuation Rationale)与Q9(多阶段毒性证据整合Multi-Phase Toxicity Evidence Integration)定性评估亦显示框架能有效汇编分散数据为结构化可审计摘要。
5.3 Real-world pharmaceutical industry use cases
5.3.1 Use case 1: reverse translation of hepatotoxicity across species(跨物种肝毒性反向转化)
研究人员以临床肝脏安全信号(如肝酶升高、Hy's Law事件、肝细胞损伤)为起点,用DiscoVerse检索跨物种对齐的临床前、体外(In Vitro)及机制学证据。分析终止/降级项目发现四类规律:①物种不相关(Species Non-relevance)——尤指大分子/免疫模态分子无合适种属捕获靶点或脱靶肽–MHC互作;②免疫介导肝效应在临床显现而在非人灵长类仅轻微/不一致;③啮齿类有时具误导性——仅在超治疗暴露出现肝毒从而掩盖临床风险;④人源体外系统(如3D肝细胞球体)可给出体内未检出的早期风险信号。DiscoVerse通过明示物种缺口、机制信号与暴露限制助早期识别转化风险。
5.3.2 Use case 2: quantitative risk assessment in embryo-fetal development(胚胎–胎儿发育定量风险评估)
为区分直接胚胎–胎儿毒性和母体毒性继发效应,研究人员定义相对敏感度比(Relative Sensitivity Ratio = Maternal NOAEL / Embryo-Fetal NOAEL)。DiscoVerse从180分子多物种报告中同步提取配对母体与胚胎–胎儿NOAEL及Cmax、AUC值(由临床前智能体交叉验证数值表与叙述描述过滤非特异性毒性),绘制风险分区——相对敏感度比>1(Red Zone)提示胚胎–胎儿毒性出现于低于母体NOAEL暴露,暗示直接致畸可能;同时提取小鼠/大鼠/兔/食蟹猴二元发育毒性结局计算物种一致性率,支持定量评估模型预测力与早期种属选择。
5.3.3 Use case 3: strategic retrospective on immunogenicity and attrition(免疫原性与淘汰归因战略回顾)
免疫原性团队希望找出以临床安全或疗效为主要淘汰原因、但隐匿有人免疫原性事件的分子。DiscoVerse先将终止项目按主因分层(临床安全11.7%、临床疗效17.6%等),再对临床疗效组与临床安全组细分分析动物vs人免疫原性。结果显示动物免疫原性在两组合并常见(36.4%),而确证人免疫原性罕见——系统在安全组定位2例、疗效组定位1例人免疫原性阳性分子并提供具体研究语境,使本被归入广义安全/疗效失败的潜在免疫原性数据可被提取再利用。
讨论与结论(翻译浓缩)
本研究表明DiscoVerse可将碎片化的制药归档文档转化为可追溯、可操作的知识。传统研究工具难以应对不一致格式与流失的机构记忆,DiscoVerse通过将科学问题拆解为临床前、临床与策略对齐子任务,并由监督智能体强制执行基于源文锚定的综合,实现了模拟跨学科科研团队协作的结构化推理工作流。在七项定量基准(Q1–Q7)中,DiscoVerse取得高召回率(≥0.986)与中等精确率(0.71–0.91),这种特性在安全至上的场景下具有实用价值——漏掉真实安全信号的代价高于额外审查候选条目;多数假阳性源于语境歧义而非虚构,表明其为广泛但含证据链检索。Q8与Q9定性评估凸显框架能将分散数据组装为结构化可审计摘要。DiscoVerse的关键设计是与专家监督对齐:它自动化穷尽检索与初版综合,由科学家裁决语境与含义,降低幻觉风险并支持GLP/GVP环境下的监管溯源;通过结构化模式链接源材料,使阴性或终止项目也可分析,将潜在数据转化为反向转化、假设检验、靶点验证与安全窗估算的可复用证据。研究人员提出实践建议:①安全关键检索中优先召回率而非精确率,后续由人在回路过滤;②将复杂查询分解为领域对齐子任务,角色专业化智能体与聚焦指令可减少幻觉提升可解释性;③每步保留源出处,受监管环境中无溯源链的答桉实用价值有限;④设计优雅降级——文档缺失或模糊时应报告不确定性而非编造;⑤投入领域专家评估,自动指标与制药场景科学效用相关性弱,专家裁量为验证输出之必需。局限含语境漂移导致的中等精确率及仍需人工最终解读。未来工作将扩展至在研项目评估、整合In Silico建模、标准化审计追踪与量化不确定性以支持受控环境部署。综上,DiscoVerse证明多智能体LLM系统可作证据富集领域的共同科学家;强调基于源文锚定、可解释性与专家监督而非单纯自动化,为制药研究中负责任AI集成提供蓝图——结合机构专长,将历史档案转化为活知识,加速发现、提升可重现性并确保既往经验指引未来药物开发。