面向非结构化文档的基于方法论的建模中的代理生成式人工智能：多智能体生态系统映射管道的设计与评估

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Information》：Agentic Generative AI for Methodology-Grounded Modelling from Unstructured Documents: Design and Evaluation of a Multi-Agent Ecosystem Mapping Pipeline

【字体：大中小】 时间：2026年06月10日 来源：Information 2.9

编辑推荐：

　　建模构成一个受纪律约束的转化过程，通过该过程，异质、非结构化的证据被转化为支持推理与决策的结构化表示。生成式人工智能（GAI）融入此类过程引入了自动化的新可能性，但有损方法严谨性、可追溯性和人类责任的风险。本文提出一种基于方法论的约束的多智能体（Multi-A

建模构成一个受纪律约束的转化过程，通过该过程，异质、非结构化的证据被转化为支持推理与决策的结构化表示。生成式人工智能（GAI）融入此类过程引入了自动化的新可能性，但有损方法严谨性、可追溯性和人类责任的风险。本文提出一种基于方法论的约束的多智能体（Multi-Agent）架构，用于从非结构化文档集合中构建结构化业务生态系统地图。该架构将建模生命周期分解为专门化的代理功能，涵盖边界规范、源发现、文档分析、语义提取和受控模型编辑，解决了五个方法论阶段中的四个，而自动完备性验证不在当前范围之内。中央编排器（Orchestrator）协调各代理，同时强制执行源自形式化建模方法论的本体论（Ontology）约束。所有提议的修改在执行前均需经人类审核后分阶段进行，且地图的每个元素均维护与源材料的显式溯源链接。为评估生成式建模管道的可靠性与正确性，一个混合评估框架整合了操作指标、使用基于大型语言模型（LLM）的评判器进行的语义评估以及人类一致性验证。在34个生成模型和4382次实验运行中的实证评估刻画了跨建模任务的能力。在受控的单文档提取任务中，基于文本的提取达到0.947的平均语义匹配得分，而交互提取得分为0.431，视觉图表解释得分为0.470，识别出关系推理和多模态解释为主要瓶颈。模型性能在不同代理角色间存在差异，与任务对齐的模型选择比超参数调优带来更大的性能变化；该架构的因果贡献未被分离，与单体式或消融基线的比较仍为未来工作。

**研究背景**
建模是将异质、非结构化证据转化为支持推理与决策的结构化表示的受纪律约束的转化过程。传统依赖人工分析文档、专家访谈和迭代综合的方式限制了可扩展性、引入了主观性，且难以在动态环境中频繁更新模型。随着源材料数量和多样性的增加，这些约束愈发突出——构建单一生态系统地图可能需要系统分析数十至数百份文档（政策报告、战略出版物、技术规范和组织图），分析者需反复遍历源材料以识别实体、调和术语并验证关系结构。过程依赖稀缺的领域专家，结果反映个体分析者的解释选择，源材料更新时需重新处理整个证据库。生成式人工智能（GAI）的快速发展带来了重塑建模实践的可能性，但这类系统固有的概率性、非确定性和易出现幻觉及不一致性的特点，若无方法论约束和治理机制，可能损害建模输出的可靠性。因此，将GAI集成到建模过程中需要在利用其大规模语义提取和综合能力的同时，保留方法严谨性、源归因和人类责任。本研究以业务生态系统建模为实证背景，该领域具有形式化规定的本体、异质源材料（文本、表格、图形）以及需要关系推理的特点，适合探索GAI辅助建模。

**研究内容与结论**
研究人员设计并评估了一个由方法论约束的多智能体GAI管道，用于将非结构化文档集合转化为结构化生态系统地图。该架构将建模过程分解为五个专门化代理（边界规范、源发现、文档分析、方法论专家、编辑），每个代理对应一个不同的转化阶段，所有对地图的修改提议均需经人类审核后执行，并维护显式溯源记录。实施覆盖了五个方法论阶段中的四个（完备性验证留由人类控制且未实现计算自动化）。为评估生成式建模管道的输出，研究人员开发了一个混合评估框架，整合操作可靠性指标、基于LLM的语义评判（GPT-4o-mini）以及人类一致性验证（Cohen’s κ系数）。在丹麦能源领域（海上风电和能源市场参与者）的34个生成模型和4382次实验运行上的实证评估显示：在受控单文档提取任务中，文本提取的平均语义匹配得分为0.947，而交互提取得分为0.431，视觉图表解释得分为0.470；关系推理和多模态解释是主要瓶颈。模型性能在不同代理角色间存在差异，且任务对齐的模型选择产生的性能变化大于超参数调优；该架构的因果贡献未通过消融研究分离，与单体式基线的比较留待未来工作。该论文发表在《Information》期刊上。

**主要关键技术方法**
研究人员采用基于方法论锚定的多智能体架构：编排器代理负责分解高层次建模目标、协调各代理；搜索代理执行由边界约束的源发现与相关性过滤；文档分析代理进行文本转换与本体约束的语义提取（区分实体类型、分配分类标签、附源引用）；方法论专家代理通过两阶段循环（边界形式生成+自评估）确保符合方法论准则；编辑代理生成经结构检查后的分段修改提议。所有代理输出以形式化JSON模式约束，并经过两级强制执行（输出模式验证+语义后验证）。混合评估框架结合操作指标（阶段完成率）、基于LLM的评判（GPT-4o-mini进行语义匹配）以及人类一致性验证（Cohen’s κ=0.942/0.847）。样本来源为丹麦能源领域的政策文件、报告及图表，约含12个角色、9个角色和21个交互的参考集由单作者根据建模本体构建。

**研究结果**
**6.1 文档提取性能（TC-D）**
在受控单文档任务中，角色提取（0.846）和参与者提取（0.786）显著优于交互提取（0.431），交互提取的均值95%置信区间不重叠。文本源提取得分（0.947）远高于图像源提取（0.470），图像源交互得分仅0.172，模态差距达68个百分点。溯源质量（0.499）远低于实体提取，且呈现级联失效模式：早期引用标识缺失导致后续检查几乎归零。观察到六种系统化失败模式：工具调用失败、理解但不执行、部分完成、溯源级联、多模态提取失败（边缘缺失/反转、容器误分类为参与者）、图形容器误分类。
**6.2 跨代理角色性能**
编排器（TC-O）的管道F1平均0.66，完成率65.5%，但呈极化分布（约半数模型>0.70，其余<0.25或完全失败）。实体生成（TC-G）平均实体完成率68.0%（22个有效模型），源集成4.0/6，与实体完成相关系数0.75。方法论专家（TC-M）加权质量0.877，范围0.747-0.989，格式符合性呈双峰分布（14个模型零失败率，其余6.7%-100%）。搜索相关性（TC-S）30个模型中27个完美分类，其余仅因格式错误。
**6.3 模型选择主导性能因素**
超参数调优（温度0.0-1.0，top-p 0.5-1.0）产生的平均绝对性能变化低于0.03，而同一提供商家族内模型切换可带来≥0.20的差异。模型选择主导输出质量。且模型排名在不同代理角色间反转（如Gemini 2.5 Pro方法论专家得分0.989但编排器F1仅0.60）。实体生成显示系统偏向创建新实体（80-100%源集成）而非增强现有实体（13-57%）。
**6.4 经验模式总结**
实体级提取可靠（角色得分>0.84），关系提取不可靠（交互得分0.431）；性能方差由模型选择主导而非超参数调优。

**总结讨论部分**
讨论指出，生成式AI可以增强建模实践，但必须嵌入明确的方法论框架和监督机制。实体提取可能适合自动化，而关系推理仍然困难——这一边界条件为先前工作提供了具体补充。编排器的极化分布表明其是门槛能力（约1/3模型无法维持多步协调），部署需预筛选。实体生成的任务复杂度差异（单文档提取0.947 vs 多文档合成68%）揭示当前模型随推理范围扩展而失去连贯性的局限。方法论专家的胜任表现反映结构化输出格式的约束作用。关系提取的持续困难表明本体约束不足以处理隐式含义和语境细微差别的需求。多模态上下文中，图表解释需要正确映射图形约定到建模构念，人类监督最适用于交互提议。参考集成中的创建偏向提示增量建模需专门机制。模型选择的角色依赖性支持模块化架构中任务对齐选型的优势。溯源保留的级联失效模式（均值0.499）表明，即使提取准确，源追溯仍系统性地失败，需架构层面强化。操作工作流含义：文本参与者/角色提议可常规接受（审查聚焦边缘情况），交互提议需系统裁决，图表衍生提议应视为初步，溯源验证不能抽样。治理与问责方面，交互瓶颈和编排器极化表明生成式输出并非均匀可信，管道可靠性依赖需人类判断的模型选择决策，治理机制是结构性必要。局限性包括：仅限三个核心本体的业务生态系统建模领域；参考集由单构建者决定（TC-G和TC-M通过高κ值支持可靠性，但TC-O、TC-D、TC-S未独立验证）；评估框架未穷尽所有正确性维度；交互类型在抽象级别处理；研究为设计与表征而非比较与消融（无单体基线和消融实验）。未来方向包括跨领域验证、改进关系推理能力、多标注者复制参考集、用户中心评估认知负荷与效率提升。翻译研究结论部分如下：
本研究将建模概念化为基于方法论的转化过程，并提出一个与建模阶段对齐的多智能体架构，在业务生态系统建模领域运行了五个方法论阶段中的四个（完备性验证仍由人类控制）。通过将生成式代理锚定于显式本体、强制执行分阶段提议审查、维护源级审计溯源，该架构旨在保留建模决策的表征一致性和可追溯性；而这些机制是否因果性地优于更简单的替代方案，在消融研究缺失的情况下仍属开放问题。
在34个模型和超过4300次运行上的实证评估揭示了一个任务依赖的性能景观：在受控单文档设置下，实体和角色提取在本体约束条件下达到高准确率，而交互提取和多模态图表解释仍然困难。这些任务需要当前生成式系统尚未以足够一致性提供的关系推理和视觉理解能力，以实现自主操作。平均交互提取得分0.431和溯源归因得分0.499构成主要负面结果，表明关系推理和证据追溯在无人审阅的自动化所需水平上仍未解决。由于图像源实体在受控提取任务中超过一半的地面实况条目，图像提取与总得分的相关性（r=0.89）部分源于结构，但多模态能力仍成为整体管道质量的主要区分因素。模型性能在不同代理角色间存在差异，且模型选择始终优于超参数调优作为输出质量的决定因素，表明允许任务对齐模型分配的模块化架构可能比单体式配置具有结构性优势（但该比较尚未通过消融实验因果地验证）。
本文开发的混合评估框架解决了评估语义建模输出的更广泛方法论挑战。通过结合操作可靠性指标与经人类一致性校准的基于LLM的语义评判，该框架提供了一个可重用的评估工具，适用于除本研究生态系统领域之外的生成式建模管道。在经校准的测试用例中观察到的高评分者间一致性支持自动化语义评分的可行性，而五个测试用例中有三个缺乏独立人类验证，为未来复制指明了方向。
除直接发现外，本研究还表明，方法论锚定的代理式分解架构模式可能适用于其他结构化知识构建问题，其中异质源材料需要转化为本体一致的表征，但需在这些领域进行实证验证。过程建模、企业架构和监管知识图谱共享使生态系统建模适用于此方法的结构性特征，但在声称泛化性之前，跨领域验证仍是必要的。
未来研究应优先考虑三个方向：将架构扩展到其他建模领域以测试泛化性；通过改进提示策略、专用微调或视觉解析工具与生成式代理的混合方法，解决关系推理的主要性能瓶颈；结合用户中心评估认知负荷和效率增益，以补充技术性能表征，确立混合治理模型在操作建模实践中是否带来净生产力提升。

联系信箱：

粤ICP备09063491号

热点排行