面向供应链韧性的模块化人工智能：融合强化学习(RL)、需求预测、因果推断与进化协调的库存优化

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Results in Engineering》：Modular AI for Supply Chain Resilience: Blending RL, Forecasting, Causal Inference, and Evolutionary Coordination for Inventory Optimization

【字体：大中小】 时间：2026年06月21日 来源：Results in Engineering 7.9

编辑推荐：

　　摘要：当今零售供应链面临持续的不确定性，需求波动、脆弱的供应网络及产品间相互关联的关系使得传统库存控制日益不足。对此，研究人员提出一种由八种混合强化学习(Reinforcement Learning, RL)模型组成的模块化框架，旨在动态不确定条件下改进决策制

摘要：当今零售供应链面临持续的不确定性，需求波动、脆弱的供应网络及产品间相互关联的关系使得传统库存控制日益不足。对此，研究人员提出一种由八种混合强化学习(Reinforcement Learning, RL)模型组成的模块化框架，旨在动态不确定条件下改进决策制定。每种模型将深度RL与各互补技术相融合，包括因果推断(Causal Inference)、需求预测(Demand Forecasting)、基于图的表示及遗传算法(Genetic Algorithm, GA)，以解决特定运营挑战。部分变体引入反事实推理(Counterfactual Reasoning)以评估替代情境下的策略鲁棒性；其他变体将强化学习与启发式及进化协调机制相结合以提升决策稳定性。预测驱动的RL通过将预测需求信号纳入决策过程，进一步支持预见性库存控制。所提框架在沃尔玛M5数据集导出的单SKU（Stock Keeping Unit）、单门店子集上评估，为所有混合模型提供受控实验环境以进行一致比较。实验结果表明，混合方法——尤其是反事实增强RL及GA协调变体——在服务水准(Service Level)、成本效率和决策稳定性方面优于标准RL基线。在评估设定下，模型展现出对需求变异性、促销活动和供应中断更好的适应性。尽管本研究聚焦于受控子集，所提框架具模块化特性，可扩展至多SKU及多门店供应链环境。研究结果凸显了混合AI驱动方法在不确定性下增强库存决策制定的潜力。

论文解读：面向供应链韧性的模块化AI混合强化学习库存优化研究

（一）研究背景与动机

传统库存管理方法依赖静态假设和历史模式，难以应对零售业中消费者需求的高度不确定性、供应链中断风险及跨门店跨产品的复杂依赖关系。纯强化学习(Reinforcement Learning, RL)虽具备自适应能力，却存在泛化性差、缺乏领域知识及可解释性不足等局限。近期研究表明，将RL与因果推断(Causal Inference)、需求预测(Demand Forecasting)、图神经网络(Graph Neural Network, GNN)及进化算法相结合可弥补上述缺陷。该研究即在受控环境下提出并验证一套模块化混合RL框架，以提升不确定动态条件下的库存决策质量。

（二）关键技术方法

研究人员基于沃尔玛M5(Walmart M5)数据集提取单SKU（Stock Keeping Unit）、单门店子集构建仿真环境（符合OpenAI Gym API），设定马尔可夫决策过程(Markov Decision Process, MDP)状态含过去7日需求、当前库存、价格及日历特征，奖励函数加权惩罚缺货、持有成本与服务水准不足。核心算法采用近端策略优化(Proximal Policy Optimization, PPO)，对比基线外加七种混合变体：PPO＋启发式动作钳位(Clamp Penalty)、PPO＋结构因果模型(Structural Causal Model, SCM)反事实仿真、多智能体PPO＋遗传算法(Genetic Algorithm, GA)协调、PPO＋GNN嵌入(GraphSAGE)、TD3(Twin Delayed Deep Deterministic Policy Gradient)＋因果奖励塑形(Reward Shaping)、PPO＋Seq2Seq注意力LSTM需求预测状态增强、PPO/GA/(s,S)启发式集成(Ensemble)。评估指标涵盖服务水准(Service Level, SL)、满足率(Fill Rate, FR)、缺货率(Stockout Rate, SOR)、平均成本(Cost)、牛鞭效应(Bullwhip Effect, BW)及订单方差(Order Variance, OV)。软件栈为Python 3.10、Stable-Baselines3、PyTorch、causal-learn、NetworkX。

（三）研究结果

5.1. Bullwhip Effect Analysis Across Hybrid RL Models（牛鞭效应分析）： 各模型在仿真中计算订货量方差与需求量方差之比。结果显示PPO＋Causal Simulation（反事实SCM增强）牛鞭效应最低(BW=0.65)，Vanilla PPO最高(BW=0.78)；引入预测、GNN及GA协调均不同程度抑制牛鞭效应，表明混合结构有助于平滑补货波动。

5.2. Inventory Dynamics Across Reinforcement Learning Models（库存动态演化）： 追踪50轮训练期内库存水平变化。Vanilla PPO振荡剧烈；PPO＋Clamp与PPO＋Causal Simulation轨迹较平滑；Forecast?Aware RL展现预见性调整；Ensemble模型将库存维持在目标阈值附近，证实混合机制提升库存稳定性。

5.3. Training Episode Reward Dynamics Across Models（训练奖励曲线）： 绘制累计回报随训练轮次变化。TD3＋Causal Reward与PPO＋Causal Simulation收敛平稳且单调上升；PPO＋GNN亦呈明显上升趋势；Multi?Agent PPO＋GA增长不均；Ensemble较单一RL波动小，说明混合策略提高学习可靠性。

5.4. Model Evaluation Summary（模型综合评价）： 量化六指标如下表趋势——PPO＋Causal Simulation与PPO＋Heuristic Clamp均达SL=0.990最低成本分别为20.5与24.3；Forecast?Aware RL获最高Fill Rate=0.991；Ensemble总成本最低(18.5)且OV较小(39.9)；Vanilla PPO综合表现最弱(SL=0.970, Cost=25.1, BW=0.78)。混合模型整体优于基线，因果推断与预测增强对降低BW及提升SL贡献显著。

（四）讨论与结论

研究人员指出：(1) NOTEARS发现的因果有向无环图(Directed Acyclic Graph, DAG)显示促销日历与SNAP变量显著影响需求，支持干预分析；(2) SCM支持无真实数据的反事实量化模拟（如折扣取消对需求影响）；(3) 在受控实验中PPO代理提升了填充率与服务水准并控制缺货与总费用。局限性含未建模仓储容量限制、多层级设施约束及货架空间限制，未来将扩展至多SKU多门店并加入实际运营约束。结论为：所提模块化混合RL框架——尤其融合因果推理与反事实分析者——在单SKU单门店Walmart M5环境下相较标准RL基线改善了服务水准、成本效率与策略稳定性，且框架具模块化与可扩展性，为智能供应链库存决策提供了结构化基础。

—End of Interpretation—

联系信箱：

粤ICP备09063491号

热点排行