HistActor：召唤你最喜爱的历史人物吧！

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Expert Systems with Applications》：HistActor: Summon Your Favorite Historical Persona

【字体：大中小】 时间：2026年04月24日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　历史人物角色扮演框架 HistActor 与评估基准 RoleFactPsyBench 的研究提出数据生成、模型优化与协作推理三阶段方法，解决大模型部署难、知识干扰及评估标准缺失问题。通过构建多维度评估基准和引入多模型协作机制，实验验证了 HistActor 在历史角色模拟的准确性和推理效率上优于现有大模型，同时能有效拒绝越界查询。

肖汉文|张金山|沈根航|奚萌

浙江大学

摘要

历史涵盖了人类文明的深厚遗产，其中历史人物作为文化传统的构建者，拥有特定事件的知识和意识形态框架，这些有助于历史重建。近年来，大型语言模型（LLMs）取得了显著进展，在各个领域展现了卓越的学习能力。然而，当前的LLMs在历史人物角色扮演应用方面仍存在局限性：参数数量较多的模型在本地环境中的部署存在挑战，而参数效率较高的模型则在特定事实知识的表达上表现不佳。为了解决这些问题，我们提出了HistActor，这是一个结合了数据生成、模型训练和性能优化机制的角色扮演框架。此外，我们还引入了RoleFactPsyBench，这是一个多维评估基准，可以同时评估角色扮演场景中的事实准确性和心理真实性，并且适用于不同历史人物。以苏轼和苏格拉底的模拟模型为例，我们的HistActor框架实现了高历史保真度和高效推理，其性能可与大规模模型相媲美，同时能够有效识别并拒绝不合时宜的查询。因此，它为历史人物模拟任务提供了一个有效的解决方案。代码可在https://github.com/hwhyyds/HistActor获取。

引言

近年来，以ChatGPT（OpenAI）为代表的大型语言模型（LLMs）在多个领域得到了广泛应用，不仅在传统的自然语言处理任务（如语言生成（Xu, Guo, Duan, & McAuley, 2023）、翻译（Anwar, Shi, Goswami, Hsu, Pino, & Wang, Liang, Huang, Xu, Tang, Ye, Zhang, Chen, Yu, & Xu）和对话系统（Lopo, Prasasti, & Permatasari, 2024）中表现出色，而且其在角色扮演场景中的互动能力也非常出色（Basavatia, Ratnakar, Murugesan, 2023, Wang, Zhang, Yang, Shi, Zhou, Hao, Xiong, Li, Sim, Chen, Zhu, Yang, Nik, Liu, Lin, Wang, Liu, Chen, Xu, Liu, Guo, & Fu）。通过构建数字孪生体来重现历史人物，这些模型能够模拟多样的个性并以角色特有的话语风格进行回应（Avram, Iuga, Manolache, Matei, Micliu?, Muntean, Sorlescu, ?erban, Urse, P?i?, Cercel, 2024, ?zate?, T?ra?, Adak, Do?an, Karag?z, Gen?, & Ta?demir），这对传承历史记忆具有深远意义，同时也可能推动文化研究、教育创新和数字人文学科的变革性突破。这一技术进步为知识产权保护和跨学科学术交流开辟了新的范式（见图1,2）。

尽管研究人员目前可以通过提示引导模型在对话中扮演特定角色（Google, Technology），但仍存在一些挑战。这些问题包括：（1）在开放式对话情境中，角色扮演容易受到用户输入的干扰，模型难以在预设的性格特征和对话目标之间保持平衡，最终导致通用化的响应模式；（2）预训练阶段获得的知识超出了目标角色的范围，从而影响了角色表现的真实性；（3）不同角色类型的挑战多样性使得建立标准化基准以系统评估角色扮演表现变得复杂；（4）高性能模型的大量参数给本地部署带来了挑战，而大规模模型的训练成本仍然过高。

为了解决这些问题，我们提出了HistActor，这是一个可以在本地设备上运行的角色扮演框架，采用三阶段协作架构，包括数据生成、模型优化和模型推理。此外，我们还引入了RoleFactPsyBench，这是一个用于系统评估模型在历史人物模拟中角色表现真实性的新基准。

我们的贡献总结如下：

•

我们提出了HistActor，这是一个角色扮演模型构建框架。通过该框架开发的LLMs能够真实地再现相应的历史人物，展现出使用所代表历史人物的修辞风格和语言模式来响应用户查询的能力。

•

我们引入了RoleFactPsyBench，这是一个专门用于角色扮演领域的基准，有效解决了该领域标准化评估的难题，实现了对多种角色扮演代理的快速统一评估。这一基准解决了获得一致评估标准的持续难题，同时为跨角色性能比较提供了高效框架。

•

通过严格的实验验证，我们的发现表明HistActor在RoleFactPsyBench基准上表现出色，在角色模拟和人物心理特征描述方面具有卓越的能力。

•

我们引入了一个协作框架，多个专业代理共同识别并避免处理超出其专业领域的查询。实验结果表明，增强了我们多代理协调机制的紧凑模型在拒绝超出范围查询方面比缺乏此类协作机制的传统大型模型表现得更好，同时保持了特定领域的响应质量。

大型语言模型

LLMs的发展迅速（Almazrouei, Alobeidli, Alshamsi, Cappelli, Cojocaru, Debbah, Goffinet, Hesslow, Launay, Malartic, Mazzotta, Noune, Pannier, Penedo, 2023, Biderman, Schoelkopf, Anthony, Bradley, O’Brien, Hallahan, Khan, Purohit, Prashanth, Raff, et al., 2023, Wang, Lv, Yu, Hong, Qi, Wang, Ji, Yang, Zhao, XiXuan, et al., 2024a），应用领域也在不断扩大（Agostinelli, Wild, Raffel, Fuad, & Chen, Bi, Zhang, Xue, Ou, Ji, Zheng, Chen, 2024, Verma,

方法

在本节中，我们将介绍HistActor和RoleFactPsyBench开发过程中采用的方法。首先，我们阐述了数据集的构建方法（§3.1）。接着，我们说明了用于防止模型生成屏蔽词的重罚系数设置方法（§3.2）。随后，我们描述了强化学习辅助训练微调（RLAIF）以优化模型输出的过程（§3.3）。

实验

在本节中，我们将详细阐述实验的完整工作流程。首先，我们介绍实验设置和基线模型的详细描述（§4.1）。其次，我们介绍所使用的提示设计（§4.2）。第三，我们介绍了使用RoleFactPsyBench生成的问题集（§4.3）。最后，我们介绍了构建与RoleFactPsyBench基准一致的人类评估场景的方法（§4.4）。

多模型性能比较

我们选择了具有公开API的知名LLMs进行评估，包括两个版本的我们的模型——一个经过了强化训练，另一个没有；以及其他著名模型：Tongyi（Cloud, 2023）大型语言模型、Zero One（01.AI, 2023）大型语言模型、Kimi（Moonshot, 2023）大型语言模型、Hunyuan（腾讯, 2023）大型语言模型和DouBao（ByteDance, 2023）大型语言模型。此外，还进行了比较

结论

在本文中，我们介绍了专为角色扮演领域设计的HistActor框架，该框架结合了数据生成和模型优化。为了解决角色扮演效果评估的挑战，我们提出了RoleFactPsyBench，它从内在知识和性格评估的角度评估模型的角色扮演能力。我们提出的数据生成方法有助于快速且全面地提供正面和负面互动场景。

代码

代码可在github⁸获取。

作者贡献

所有列出的作者都参与了研究概念的构建和设计。肖汉文和张金山起草了手稿的初稿，所有作者都对手稿的早期版本提供了宝贵的建议。所有作者都阅读并批准了本文的最终版本。

CRediT作者贡献声明

肖汉文：概念化、方法论、验证、可视化、写作——原始草稿、验证。张金山：监督、写作——审阅与编辑、资源。沈根航：写作——审阅与编辑、方法论。奚萌：写作——审阅与编辑。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。

联系信箱：

粤ICP备09063491号

摘要

引言

相关研究

大型语言模型

方法

实验

多模型性能比较

结论

代码

作者贡献

CRediT作者贡献声明

利益冲突声明

热点排行