ExPred：通过混合反射和直接偏好层次优化实现可解释的股票走势预测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Artificial Intelligence》：ExPred: Explainable stock movement prediction via hybrid reflection and direct preference hierarchical optimization

【字体：大中小】 时间：2026年04月27日 来源：Artificial Intelligence 4.6

编辑推荐：

　　可解释股票预测模型ExPred通过混合反思代理和分层优化算法，解决了现有方法数据覆盖不足和预测解释失衡问题，实验表明其预测准确性和解释质量均优于基线。

李书琪|林和月|刘欣|严瑞

沙特阿拉伯图瓦尔国王阿卜杜拉科技大学

摘要

股票价格受到多种因素的影响，因此很难确定价格变动的确切原因。虽然大型语言模型（LLMs）为可解释的股票预测提供了一条有前景的途径，但现有框架面临两个关键限制。首先，尽管最近的方法通过自我反思实现了数据注释的自动化，但它们通常会丢弃模型无法自我纠正的“难点样本”，从而导致训练数据存在偏差，无法涵盖复杂的市场情景。其次，将预测准确性和解释质量视为同等重要的目标忽略了它们之间的层次关系：只有当相应的预测准确时，解释才有意义。为了解决这些问题，我们提出了ExPred，这是一个结合了混合反射代理（HRA）和直接偏好层次优化（DPHO）算法的新框架。为了提高数据覆盖率，HRA在自我反思的同时加入了监督反射循环，注入教师信号以恢复难点样本，并自动生成首选和次优的完成对。基于这些对，DPHO通过显式优先考虑预测正确性在令牌级别进行微调，同时在句子级别改进解释的连贯性。在真实世界数据集上的实验表明，ExPred成功地对齐了这两个目标，在预测准确性和解释质量方面显著优于现有的最佳基线。我们的代码可在https://github.com/Shuqi-li/ExPred获取。

引言

有效市场假说（EMH）[1]认为股票价格反映了所有可用信息，而行为金融学则认为投资者偏见和信息处理延迟可能导致偏离理性市场行为，从而为那些快速获取和解释新信息的人创造机会[2]。因此，从新闻文本中预测股票走势引起了学术界和工业界的广泛关注[3]、[4]、[5]。然而，文本信息的量庞大，真正的预测信号往往被嘈杂或无关的内容所掩盖，这对实践者来说是一个重大挑战。深度学习通过使模型能够处理大规模文本数据并发现以前难以检测的复杂模式，推动了这一研究领域的发展[6]、[7]、[8]、[9]。

除了预测性能之外，可解释性在股票走势预测中也变得越来越重要[8]。尽管基于注意力的模型可以突出文本的显著部分并提供某种可解释性[7]、[10]，但它们的决策机制仍然难以审计：学习到的注意力权重不一定对应于因果驱动因素，而且产生的解释在实践中可能难以验证[11]。相比之下，大型语言模型（LLMs）表现出强大的自然语言理解和推理能力[12]、[13]、[14]、[15]、[16]，并且可以生成自然语言的合理性解释，为金融预测提供了更具人类可读性的解释途径[17]、[18]、[19]。最近的研究要么冻结预训练的LLMs并提示它们产生理由[20]、[21]，要么用金融数据对LLMs进行微调[19]。

其中，SEP[22]是一个值得注意的步骤，它利用了一个自我反思的代理来迭代地批判和改进其推理过程。关键的是，SEP通过自动化训练数据的策划解决了数据稀缺问题：它只过滤并保留模型最终通过自我反思正确预测的实例，从而在不需要昂贵专家注释的情况下大规模生成高质量的预测-解释对。

尽管取得了这些进展，但在使用LLMs进行可解释的股票走势预测时，仍有两个挑战尚未得到充分解决。首先，虽然SEP成功自动化了数据生成，但其过滤机制在“样本难度和数据覆盖率”方面引入了一个关键限制。在自我反思过程中，SEP会丢弃模型多次尝试后仍无法正确预测的样本。虽然这确保了生成解释的正确性，但它无意中排除了“难点样本”——即模型难以自行正确推理的复杂市场情景。因此，结果数据集偏向于“简单”案例，阻止了模型学习处理模糊或困难的市场信号。为了构建一个强大的预测器，保留这些难点样本并为模型提供正确的推理路径是至关重要的，而不仅仅是简单地丢弃它们。

其次，预测准确性和解释可靠性紧密相关，但并没有自动对齐：只有当相应的预测正确时，解释才有意义。然而，当预测和解释以自回归方式共同生成时，它们的学习信号并不平衡。在典型的输出中，预测部分只包含一个或几个令牌（例如，“正面”或“负面”），而解释部分通常包含几十甚至数百个令牌。在最大似然估计或直接偏好优化（DPO）等标准训练目标下，序列对数似然被计算为所有令牌对数概率的总和。因此，优化过程通常由解释令牌主导，因为它们的数量显著更多。这种结构不平衡可能导致模型更倾向于提高解释的流畅性而不是预测的正确性。例如，模型可能会学习生成语言上连贯且与首选响应风格一致的解释，即使潜在的预测令牌不正确或输入信号的支撑较弱。在这种情况下，解释质量可能会提高，但预测可靠性却没有相应提高。这种现象在金融预测任务中尤为明显，因为文本信号本质上具有噪声性，预测线索可能很少。因此，一个关键挑战不仅是共同优化预测和解释，还要确保优化过程适当优先考虑对预测至关重要的令牌。这需要在不同的粒度级别显式平衡这两个目标，确保解释学习基于改进的预测正确性，而不仅仅是提高语言流畅性。

为了解决这些问题，我们提出了ExPred，它结合了一个复杂的混合反射代理（HRA）和一个新颖的直接偏好层次优化（DPHO）算法。在HRA中，我们设计了一个由自我反思循环和监督反射循环组成的混合反射机制。自我反思循环的工作方式类似于SEP，用于改进简单样本。关键的是，对于自我反思无法纠正的难点样本（SEP [22]会丢弃的样本），我们的监督反射循环通过注入教师信号（真实的走势标签）来引导模型走向正确的推理。这种方法通过恢复难点样本，显著扩大了训练数据的量和多样性。迭代过程产生了一系列自动标记的首选和次优完成对，使我们能够为后续优化构建偏好数据。基于这些对，DPHO通过层次微调方案显式平衡了双重训练目标——精确的预测和合理的解释：令牌级别的偏好优化侧重于提高预测令牌的正确性，而句子级别的偏好优化则提高了生成解释的整体质量、连贯性和忠实度。我们的贡献可以总结如下：

•

我们引入了ExPred，这是一个用于可解释的股票走势预测的框架，它从与股票相关的文本信息中预测未来的股票走势，同时提供可解释和合理的解释。

•

为了解决以前自动化标注方法中丢弃难点样本的限制，我们提出了一个混合反射代理（HRA）。通过结合监督反射机制，HRA恢复了具有挑战性的样本，并自动生成首选和次优的完成对，显著丰富了高级偏好优化的训练数据。

•

为了明确平衡预测准确性和解释质量，我们提出了直接偏好层次优化（DPHO），它在句子和令牌级别对LLMs进行层次微调。令牌级别的优化强调预测的正确性，而句子级别的优化则针对解释的整体质量和连贯性。

表1提供了ExPred与其他可解释模型的系统比较（详细模型描述请参见附录A）。比较重点关注四个关键能力：生成自然语言解释的能力、自动策划标记数据的能力、通过领域特定微调的适应能力以及细粒度令牌级别优化的实现。如图所示，传统的判别模型无法提供可读的解释，而大多数现有的生成基线缺乏自动标注或精确令牌级别控制的机制。相比之下，ExPred满足了所有四个标准，特别是通过其用于数据生成的混合反射机制和用于层次优化的新颖DPHO算法而脱颖而出。这种全面的设计使ExPred在预测准确性和解释质量方面显著优于强大的基线。

问题表述

在本节中，我们定义了基于新闻的可解释股票走势预测任务。与仅关注数值准确性的传统定量预测不同，这项任务要求模型像财务分析师一样运作：它必须分析非结构化的新闻文本来预测价格趋势，同时阐明决策背后的逻辑解释。

图1提供了一个说明性的比较。如图的上半部分所示，给定过去的新闻

ExPred

ExPred的总体框架如图2所示。该框架包括四个主要组件：

1.

文本摘要模块用于从给定的原始新闻文本中总结关键事实。

2.

预测与解释模块以结构化的摘要事实作为输入，尝试进行预测和相应的解释。如果预测准确，则解释被认为是有意义的，数据被视为自动标注的；否则，输入和输出将被发送到

数据集

我们在WWW24 [22]数据集上训练和评估我们的模型和基线。该数据集包含2020-01-01至2022-12-30期间11个美国市场行业中55只股票的推文新闻。根据原始数据集的处理方式，它进一步分为两个子数据集：

•

前1名股票子数据集包括每个行业中的前1名股票；

•

剩余股票

子数据集包括其余的44只股票。

我们将这两个子数据集分为训练集、验证集和测试集，比例为7:1：

结论

在这项研究中，我们介绍了一个开创性的可解释股票预测模型ExPred。通过提出并结合混合反射代理和直接偏好层次优化算法（DPHO），ExPred生成了高度准确的预测和合理的解释。反射代理通过自我反思和监督反射的结合，学会了预测股市趋势并提供相应的解释。同时，DPHO对LLM进行了微调

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作

相关工作

问题表述

ExPred

数据集

结论

利益冲突声明

热点排行