需求冲击下的全渠道供应链：一种集中式的层次强化学习框架帕纳约蒂斯·G·雅诺普洛斯（Panagiotis G. Giannopoulos）和托马斯·K·达萨克利斯（Thomas K. Dasaklis）

《Logistics》：Omnichannel Supply Chains Amid Demand Shocks: A Centralized Hierarchical Reinforcement Learning Framework Panagiotis G. Giannopoulos and Thomas K. Dasaklis

【字体：大中小】 时间：2026年04月15日 来源：Logistics 3.6

编辑推荐：

　　摘要背景：全渠道零售业的快速发展通过结合多个需求渠道的补货、履约和服务决策，在库存、前置时间和产能限制下重塑了零售供应链（SCs）。这些相互依赖性带来了协调挑战，特别是在需求冲击与有限的运营能力相互作用时。方法：为了解决这些挑战，本研究开发了一个中央集权

　　摘要背景：全渠道零售业的快速发展通过结合多个需求渠道的补货、履约和服务决策，在库存、前置时间和产能限制下重塑了零售供应链（SCs）。这些相互依赖性带来了协调挑战，特别是在需求冲击与有限的运营能力相互作用时。方法：为了解决这些挑战，本研究开发了一个中央集权的层次强化学习（HRL）控制框架，明确了决策时间：补货和分配每周进行优化，而履约和横向库存再平衡则每天控制。使用近端策略优化（PPO）在代理-评论家架构中学习策略，对于受限的动作空间采用有界随机策略。为了减轻HRL中的维度灾难，我们引入了一种容量感知的状态-动作编码机制，将控制接口压缩为结构化的摘要信号。需求冲击使用两种规范进行建模：一种是混合模型，其中一半的产品遵循均匀需求过程，另一半遵循Merton型跳跃扩散过程；另一种是完全由冲击驱动的模型。结果：该框架通过预测驱动的基础库存和贪婪履约启发式方法以及完美信息预言机进行了评估，并通过Wilcoxon符号秩检验检查了成对差异。结论：总体而言，所提出的框架提高了学习效率和可扩展性，表现优于启发式基线，同时保持在预言机界限之下。 1. 引言现代零售供应链（SC）经历了根本性的转变，尤其是在电子零售和数字化支持的履约网络兴起的情况下。电子商务零售商（e-tailers）在当今的在线购物领域发挥着关键作用，它们提供了数字化平台，使消费者能够方便地搜索、比较和在线购买产品。特别是，电子商务零售商是一个直接向消费者销售产品的在线零售平台，同时可能在同一平台上提供第三方卖家，从而结合了零售和市场功能[1]。在这种背景下，传统的实体店零售商和纯电子商务零售商越来越多地在需要紧密协调库存、物流和客户服务决策的互连分销生态系统中运作。早期的实证证据表明，零售商正在逐步重组其物理分销流程以支持这种新环境，例如，通过整合商店和配送中心的库存，并利用零售商店作为前向履约节点来提高最后一英里的响应能力[2]。这些发展显著增加了零售SC内的运营依赖性，并为库存定位、需求履约和网络协调带来了新的挑战。同时，物流和运营管理的最新发展突显了向数据驱动和AI支持的工具的广泛转变，进一步包括上下文感知的需求预测和数据驱动的SC映射方法。尽管这些方法主要集中在提高预测网络的准确性和可见性上，但它们进一步强调了现代零售系统中信息的复杂性和强度[3,4]。这一问题的运营重要性还得到了最近市场证据的进一步强调。在全球范围内，电子商务所占的零售销售额份额从2017年的10.4%增加到2019年的14.1%，预计到2025年将达到21.0%，表明数字渠道现在占零售活动的重大且不断增长的部分[5]。同时，美国的官方统计数据显示，2025年零售电子商务销售额达到了1.2337万亿美元，比2024年增长了5.4%，占总零售销售额的16.4%[6]。这种增长并不意味着实体零售的消失；相反，消费者越来越多地结合数字和店内购买模式，进一步加强了对紧密协调的全渠道履约系统的需求[7]。基于这一演变，全渠道零售已成为一个主导范式，在这个范式中，企业在一个统一的客户体验和运营框架内同时管理物理和数字渠道[8]。过去十年中，全渠道系统的快速增长引入了由于跨渠道需求替代、多地点库存耦合和产能受限的履约决策而产生的显著复杂性。最近的研究表明，常用的策略如从商店发货和在线购买-店内取货（BOPIS）可以创造显著价值，但其有效性严重依赖于需求结构、成本参数和库存分配能力[9]。同时，研究BOPIS采用、渠道协调和需求互动的研究表明，全渠道性能对替代效应、入侵动态和非线性需求行为非常敏感[10,11]。这些发现强调了需要更复杂的运营决策框架来管理全渠道环境中紧密耦合和随机性。全渠道SC系统的另一个关键方面是决策的时间层次结构。在SC和生产规划研究中，这一概念与时间整合的概念密切相关，即跨不同时间尺度和决策层次（如战略、战术和运营层）的决策协调[12]。类似的时间结构也出现在其他供应链功能中，包括预测，其中需求估计支持以库存和生产为导向的规划、服务水平管理以及在不同层次中常见的更广泛的决策支持过程[13]。这些特性在不仅空间或组织上分散，而且在时间上也有结构化的多层次系统中尤为普遍。高层次的决策通常是更汇总的、移动较慢的，而低层次决策则更详细、更反应迅速，并且与实时运营条件更为紧密相关。最近关于多层规划的工作同样强调，每月、每周和每日的决策层次服务于不同的规划目的，并且必须保持一致，以在不确定性下支持有效执行[14]。这种区分在全渠道SC中尤为重要，因为上游决策如补货规划、库存定位和分配受到前置时间和产能限制的影响，而下游决策如履约、订单路由和本地转运必须更快地响应实现的需求。尽管全渠道系统的运营重要性日益增加，但相应的分析和数据驱动决策文献仍然大多分散。例如，越来越多的工作通过博弈论方法、双层优化、仿真-优化和非线性编程方法研究了协调和库存决策[15,16,17,18,19,20,21]。尽管这些研究提供了宝贵的结构见解，但它们主要依赖于静态分析公式或离线优化程序，这些方法不足以捕捉现代全渠道履约系统的多时期、随机性和动态演变特性。同时，最近的研究开始探索强化学习（RL）和其他自适应控制方案在全渠道环境中的应用。然而，这些贡献在捕捉现实网络复杂性方面仍然不足，包括多层次库存互动、横向再平衡、产能耦合的履约动态以及时间差异化决策层的显式表示[22,23,24,25]。还要注意，大多数现有方法专注于简化的网络结构或单层决策过程，限制了它们对集成全渠道系统的适用性。在产能受限的全渠道环境中，这一差距尤其关键，因为决策在多个时间尺度和高维状态空间中相互作用，因此使得集成控制变得越来越具有挑战性。受到这些限制的启发，本研究开发了一个层次强化学习（HRL）框架，以支持在产能受限的全渠道零售网络中协调补货和履约决策。特别是，该研究的主要贡献是开发了一个HRL决策框架，通过将每周补货规划和每日履约控制分解为协调的管理层次，明确捕捉了全渠道运营的多时间尺度特性。与通常依赖于简化网络表示或单层决策过程的现有基于RL的方法不同，所提出的框架能够跨多个层次、决策层和运营约束进行集成控制。在此基础上，本文还介绍了一个集成的全渠道建模环境，该环境考虑了物理商店、中央配送中心（FC）和在明确库存和处理能力限制下的多个需求渠道，同时将横向店间转运纳入作为动态库存再平衡机制。该研究通过在Merton型过程中评估所提出的框架，并将其性能与平面PPO、业务相关启发式方法和完美信息预言机进行基准测试。可以说，这些元素展示了层次控制如何在复杂、产能受限的全渠道系统中实现更有效的协调，从而提高服务性能和盈利能力，从而扩展了基于RL的方法在数据驱动零售运营中的适用性。总之，本研究的主要贡献如下：我们开发了一个HRL框架，通过协调补货和履约来捕捉多时间尺度决策。我们提出了一个包含商店、配送中心、多个需求渠道和明确产能限制的集成全渠道模型，并进一步将横向转运纳入作为动态库存再平衡机制。我们将基于RL的方法扩展到多层次、能力耦合和层次控制环境。我们在易受冲击的需求条件下评估了性能，并与PPO、启发式方法和完美信息预言机进行了基准测试。我们提供了关于在产能受限全渠道系统中协调控制的管理见解。本文的其余部分组织如下。第2节提供了背景信息和文献综述，首先通过时间抽象和多时间尺度决策的视角讨论了RL和HRL之间的区别，然后回顾了与全渠道SCs相关的RL中心文献。第3节阐述了所研究的全渠道问题，介绍了网络结构、决策变量、目标函数、不确定性来源和潜在的受限运营模型。第4节介绍了所提出的HRL框架，开发了相应的MDP表示，并详细说明了状态和动作空间、架构设计以及基于PPO的实现。第5节介绍了采用的基准测试协议，报告了实验评估，并分析了在不同产能配置、需求率和商店规模下获得的数值结果，同时还研究了节点特定能力如何影响网络弹性。第6节讨论了主要发现、管理意义、研究限制和未来研究方向，第7节总结了本文。2. 背景信息和文献综述我们的工作基于这样的前提：层次强化学习（HRL）可能是SCs的合适解决方案，其中决策层次结构自然源于底层的业务模型和组织结构。在全渠道SCs中，这种层次化政策也在运营中出现，因为产品流动和履约责任需要在多个层次和时间尺度上进行协调。因此，明确考虑决策的时间层次结构为全渠道SCs中的HRL提供了更强的理由，因为HRL可以通过将较慢的、高层次的策略分配给汇总规划决策，将较快的、低层次的策略分配给运营执行，从而使控制架构与系统的多层次时间逻辑保持一致。基于这一视角，本节首先通过决策时间如何在各个层次上结构化的角度，强调了RL和HRL代理方案之间的关键区别。然后，它回顾了与全渠道SCs相关的现有RL中心文献，以说明当前技术水平之外的前进方向。2.1. HRL vs. RL：供应链中的决策时间层次RL是最近机器学习文献中最常研究的范式之一，旨在捕捉智能代理通过与环境的重复互动及其行为后果的反馈来获得决策能力。大多数RL公式基于马尔可夫决策过程（MDP）框架，该框架通过元组（??, ??, ??, ??, ??）对不确定性下的序列决策进行建模，其中??表示状态空间，??表示动作空间，???(??′ ∣??, ??)表示转移动态，???(??, ??)表示奖励函数，?? ∈(0, 1]表示决定未来结果相对重要性的折扣因子。在每个时间步t，代理观察到???? ∈??，根据策略???(?? ∣??)选择???? ∈??，接收一个标量奖励????，并转移到????+1。学习目标是识别一个策略，该策略最大化预期长期回报，通常定义为折扣后的累积奖励???? =∑∞??=0?????????+??，从而平衡短期收益和长期表现[26]。这种功能被认为特别适用于SC管理，因为许多问题保持顺序和渐进的性质；因此，RL方案已被应用于SC协调、定价、库存管理和生产控制等多个动态问题，并显示出显著潜力[27,28]。在开发RL方案时，通常需要在设计方面做出三个主要决策。第一个决策对应于选择单一代理或多代理方法。这主要是反映SC中应用的信息对称性和不对称性的考虑，因为它决定了代理之间以及代理与环境之间的互动方式。第二个决策涉及RL求解器的选择，即学习方案将是基于价值的、基于策略的还是基于代理-评论家的。这个选择主要受到模拟决策的性质和'action representation'（动作表示）的影响：当决策是离散的时候，基于价值的方案通常更为方便；而基于策略的方案则天然支持连续和受限的控制（例如，比率、分数、分配）。Actor-Critic（演员-评论家）方案通过学习价值估计器来结合这两种视角，以稳定策略优化[29]。第三个决策与用于组织环境控制的架构方案有关，具体来说，是设计代理与环境之间的交互是如何在组件和时间尺度上结构和协调的。在大多数现有案例中，这通常意味着在集中式控制与分散式控制之间进行选择。这些规范不依赖于强化学习（RL）控制器是以简单方式还是分层方式实现的，因为它们在任何基于RL的框架下都是必需的，主要关注问题定义和求解器家族的选择，而不是决策制定的时间组织[30]。需要详细探讨HRL（Hierarchical Reinforcement Learning，分层强化学习）方案主要是与SC（Supply Chain，供应链）操作中自然出现的时间层次结构相关。特别是，它反映了SC中所谓的层次结构的直接后果，在这里，决策是根据具有不同责任和时间尺度的层次来构建的：战略性和战术性控制通常是缓慢且周期性的（例如，补货周期和库存定位），而操作性控制则是快速且反应性的（例如，日常履行、转运调整和渠道分配）。在简单的RL方案中，决策制定通常是在单一时间网格上进行的，这强制所有控制都以相同的节奏进行表示和优化，尽管它们本质上具有不同的节奏。相比之下，HRL通过在不同层次之间分离控制来明确考虑这种时间感，利用时间抽象，使得高层策略在较慢的时钟上运作，并发布在多个低层步骤中持续有效的时间扩展指令，而低层策略则在较快的时钟上运作，并根据这些指令执行操作性动作[30]。图1提供了一个单代理HRL方案的图形示例。在较高层次（层次?? =1），管理代理在粗略的决策时间点上行动。其策略??(1)?(·)发布一个指令??(1)??，该指令在Δ(1)个较低层次步骤内保持有效。在较低层次（层次?? =2），工作代理在每个基本步骤上行动。其策略??(2)?(·)选择操作性动作??(2)??。这种选择通常基于细粒度状态和当前有效的指令，即??(2)?(??(2)??∣??(2)??, ??(1)??）。这两个层次不仅在时间上有所不同，它们在状态表示上也不同。管理代理通常观察一个更粗略的状态空间，包括聚合的和更长期的总结以及全局上下文。工作代理观察一个详细的操作状态，该状态通过??(1)??和进度变量（例如，剩余预算）进行补充。奖励在基本层面上生成（例如，????），它们可以在Δ(1)个步骤中累积形成第一层的宏观回报。环境也在相同的窗口内从????过渡到????+Δ(1)。同样的结构可以推广到L个层次。我们将层次表示为?? ∈{1, …, ??}。每个代理都由一个策略??(??)?(·)参数化。每个层次发布的指令??(??)被下一个较低层次消耗。这允许在存在多个决策层次的情况下进行可调级的配置。图1. 分层强化学习代理（管理器、工作代理）与环境交互的概念性表示。

2.2. 在全渠道SC中的RL中心应用
越来越多的研究开始将RL作为一种决策支持方法来研究全渠道零售，特别是在与补货、履行、定价和库存控制相关的问题上。在这一系列研究中，有一项工作专注于在不确定性下的库存中心型运营决策，表明基于学习的方法在高维环境中表现良好，并且可以相对于更传统的基准提高盈利能力或服务相关结果。这通过关于产品退货下的补货和配给、集成补货和履行以及联合定价、补货和配给的研究得到了说明，这些研究共同表明RL可能为动态全渠道控制提供一个有用的方法论方向[22,23,31]。同时，现有的证据或许应该谨慎解读，因为这些框架通常是在简化的单零售商环境中开发的，并不总是能够捕捉到现代全渠道系统的更广泛的结构复杂性。

第二个新兴的主题是将基于学习的方法扩展到核心库存决策之外的更专业的运营和分析导向应用。在运营方面，RL已被用于改善实时店铺执行，例如，在动态店内拣选路径中，从而突显了其在本地全渠道履行任务中的潜力[32]。在分析和行为方面，最近的研究已将RL纳入客户行为不确定性、忠诚度预测、多目标零售优化和AI驱动的市场适应模型中，表明学习方法越来越多地被视为数据丰富的全渠道环境中的灵活工具[24,25,33,34]。尽管如此，这些贡献似乎针对的是不同的决策层次和目标，因此尚未形成一个完全统一的全渠道SC控制流。

回顾的研究表明，以RL为中心的全渠道文献既有进展也存在碎片化。虽然该领域显然正朝着更加适应性和数据驱动的公式化方向发展，但许多现有贡献仍然只有限地代表了多层库存互动、横向库存再平衡、产能耦合的履行协调以及更复杂的冲击敏感需求环境。因此，对当前文献的合理解读是，RL在几个全渠道决策领域展现了令人鼓舞的潜力，但仍需要更加分层、网络意识强且运营上整合的公式化，以便更好地反映大规模全渠道供应链紧密耦合的结构。此外，尽管有几项研究采用了顺序决策公式化，但在现有的全渠道RL文献中，对时间差异化决策层次的明确表示仍然相对不发达。为了综合回顾的文献并更清晰地定位本研究，表1总结了全渠道供应链中基于RL的现有贡献，涵盖了关键的方法论和运营维度。

3. 问题构建和建模方案
如前所述，我们研究的范围是开发一个HRL（Hierarchical Reinforcement Learning）框架，作为在全渠道SC（Supply Chain）中缓解随机需求到达导致的缺货风险的决策工具。这一节首先深入探讨所考虑问题的构建和具体细节，这些将在第二部分进一步分析，以定义相应的决策变量并构建管理整个系统的整体目标函数。

3.1. 问题构建
本研究考虑的问题涵盖了一个在全渠道结构下运营的零售SC。根据这一规范，主要建模的决策反映了参与者应该作出的补货和履行决策，以在保持客户满意的同时最大化盈利能力，简而言之，就是最小化缺货风险并在所有支持的销售渠道中实现高水平的服务。与该领域的大多数最新研究类似，我们的构建基于这样一个前提：许多商店（n）可以在SC中向下运作，它们都销售特定数量的产品（m）。除了商店之外，我们的场景中的其他参与者还包括一个负责服务来自实体商店的需求的集中FC（Facility Center），具有直接向客户发货的能力。FC和商店都假设是由同一个零售商在集中协调的全渠道结构下运营的。因此，该系统在一个全信息设置中进行建模，在这个设置中，库存状态、预测和运营能力在网络层上是可观察的。这样的表示与通过共享的数字基础设施和集中库存可视性进行操作的综合全渠道零售商是一致的。这允许分析在随机需求和能力约束下跨多个时间尺度协调补货、履行和转运决策。

除了这两种类型的参与者之外，还使用了一个外部仓库。这个参与者通过作为面向供应商的节点来促进上游补货，它在非零 lead time（提前时间）内将库存注入系统，从而缓冲供应的不确定性并支持FC的及时供货。这两个主要参与者——FC和商店——都被建模为具有容量限制的实体，意味着它们在关键运营资源上有明确的限制。在这项研究中，容量主要指的是有限的库存持有能力（每个节点的每种产品的最大在手库存）和有限的处理/调度能力（例如，每天FC到商店的发货量和横向转运量）。这些约束至关重要，因为它们限制了可行的补货和履行行动，迫使策略优先考虑产品和渠道，并在短期服务改进和长期库存定位及成本效率之间进行权衡。

在我们的案例中，每个订单都映射到一个客户。这确保了对需求所有权和履行责任的一致表示。它还支持服务渠道的地理分区，因为每个客户都链接到一个特定的服务区域。因此，对于n个潜在的商店，我们考虑n个相应的区域。这种一对一的映射是故意的。在全渠道SC中，商店不仅仅是销售点；它们还用作客户的本地取货和交接点，特别是对于以取货为导向的服务。因此，将需求锚定到特定的商店区域提供了一种简单且可解释的方式来捕捉空间结构，而不会引入额外的路由复杂性。根据这一规范，需求通过三个零售渠道实现：（i）现场购买（文献中也称为店内/离线需求），（ii）点击取货订单（文献中也称为BOPIS——在线购买，商店取货），以及（iii）在线宅配订单。请注意，这三个渠道是分别建模的，因为它们在运营特性和与库存网络的互动方面有着根本的不同。特别是，现场购买的需求必须在本地商店立即得到满足，因此受到销售点可用库存的限制，一旦客户出现就无法重新分配。点击取货订单引入了部分灵活性，因为订单是提前放置的，但在指定的商店履行，从而允许与库存规划进行一些协调，但仍依赖于本地可用性。相比之下，在线宅配需求是最灵活的，但也是资源最密集的渠道，因为它可以从多个节点（商店或FC）履行，并且在能力约束下需要明确的路由和分配决策。所有这些差异意味着每个渠道对库存定位、补货时间和履行能力施加了不同的压力，因此有必要在模型中明确和分别表示它们。

除了上述渠道外，我们的模型还包含了一个额外的转运渠道，旨在实现库存在不同节点之间的流动。这个渠道的操作前提是，库存共享和商店之间的再平衡可以缓解局部短缺，减少缺货风险，并支持各区域之间的更高服务性能。尽管这种卖家间的转运机制在操作上很重要，但在全渠道文献中很少被建模，特别是在那些采用RL作为主要解决方法的研究中。在这方面，我们的工作通过评估基于RL的全渠道控制框架内横向库存再平衡的价值，并量化其在现实的能力和lead time（提前时间）约束下对盈利能力和服务相关结果的影响，推进了当前的知识体系。图2展示了为本研究设计的建模方案。

另一个值得提及的方面是需求剖面及其对网络性能的影响，特别是关于lead time（提前时间）暴露和缺货风险。虽然相关文献的很大一部分依赖于简化的需求假设，例如均匀或完全周期性的模式，但真实的零售需求通常表现为不规则的波动和间歇性的实现。为了反映这些实证相关的压力因素，本研究考虑了两种需求剖面，如图3所示。第一种对应于围绕一个恒定平均水平??波动的均匀需求过程。第二种遵循Merton-type需求规范，其中需求从冲击前的平均水平??1转移到更高的冲击后平均水平??2，然后又回到冲击后的平均水平??3，满足??1 =??3且??2 >??1。这种Merton型跳跃结构在这里特别相关，因为它能够以简约的方式捕捉到需求基线的突然偏离，从而允许分析在需求波动的情况下研究中断与恢复的情况。这种建模选择也与[35]中的方法一致，该研究使用Merton跳跃扩散过程来表示波动环境中的非平稳客户需求。需求是在渠道-产品层面生成的，因此在每个时期，每个零售渠道和每种产品的特定区域需求都是分别抽样的。这导致了异质的需求流，这些需求流在联邦中心（FC）和门店之间竞争共享的库存和能力，使得可以观察到特定产品和渠道中的冲击如何通过全渠道履行结构传播，放大交货期效应，并增加局部缺货的可能性。图3展示了本研究中分析的两种需求概况。符号说明：红色虚线表示特定概况的平均需求水平。在均匀序列中，需求围绕一个常数平均值μ变化。在Merton型序列中，阴影区间标记了冲击期，在此期间平均值从μ1上升到μ2，然后又回到μ3，其中μ1=μ3。量|μ2 ? μ1|表示冲击效应的大小。本研究中的运营设置可以由以下假设来总结：不允许分批履行；每个客户订单必须由单一卖家（商店或FC）全部完成，即不允许部分发货或多来源履行[23]。从供应商处补充的产品被合并成批次，这反映了常见的做法，即以标准化的批量大小下订单以加快零售商的运营速度[36]。当选定的履行节点没有足够的库存来满足需求时，销售就会立即丢失（视为丢失的销售；不允许积压），这与最近的全渠道库存模型一致，这些模型将未满足的需求视为丢失的销售而不是延迟履行[23,37,38]。补充决策是在较粗的时间尺度上循环做出的，而履行决策则在销售期限的每个时间段内做出，这与最近的多周期全渠道模型一致[23,37]。这些假设是故意采用的，以保护一个结构良好且可操作实施的决策环境，同时与最近的全渠道和多周期库存模型保持一致[23,35,37,38]。关于似乎是最严格的丢失销售假设，我们注意到它在最近的数据中心库存研究中仍然很常见，并且与可行性密切相关，因为引入积压将需要一个结构化的机制来优先处理、延续并履行未来的需求和渠道，从而扩大状态转换结构和有效决策空间。在这些假设下，每日事件的顺序是固定的：首先接收管道到达的订单；然后，如果适用，则执行周期级别的补充控制；接下来，应用日常运营控制，包括转运和在线分配；最后，实现并履行特定渠道的需求。

3.2 决策变量、目标函数和不确定性来源
在本小节中，我们通过指定其主要的状态转换组件、运营控制变量和目标函数来表述所研究的全渠道系统的核心数学描述。基于网络中需求冲击的概念，该系统在一个有限的销售期间内进行建模，在每个基本时间步骤都会做出履行决策，而补充类型的决策仅在指定的周期时期激活。以下数学公式中使用的符号在表2中进行了总结。所得到的公式为受限运营问题提供了基础。

表2. 所提出全渠道模型数学公式中使用的符号。基于表2中给出的符号，所提出的建模框架建立在一组核心指标和集合之上，这些指标和集合定义了问题的时间、产品、空间和渠道维度。特别是，我们考虑一个离散的时间范围，其指标集为?? = {1, …, ??}，产品集为??，商店集为??，一个由f表示的中央FC，需求区域集为??，以及渠道集?? = {??, ??, ??}，分别代表上门服务、点击取货和在线需求，而?? :?? →??将每个区域映射到其服务的商店。不确定性通过特定渠道的随机需求、预测误差和诱导的随机转换引入。具体来说，如果?????????????表示随机需求，????????????表示时期t、产品p、区域z和渠道X的实现，则需求随???????????? ～?????????????在?? ×?? ×?? ×??上演变。

为了在不确定性下支持控制，系统通过移动平均类型的更新规则来维护需求预测，这里体现为指数加权更新。具体来说，一步预测根据方程(1)演变：
????(??+1)??????=???????????????+(1???)?????????????，??∈(0, 1)。
(1)
这个预测组件在基准测试和学习程序中的确切作用将在本文后面讨论。

整体运营问题被构建为一个受限利润最大化问题，其中控制器选择决定补充和履行行动的运营变量。在每个时间t，控制包括每个渠道和区域的履行数量、丢失销售数量、分为商店履行和FC履行部分的在线路由数量、商店节点之间的横向转运数量，以及在补充时期激活的补充/分配数量。我们将这些变量汇总在方程(2)所示的控制捆绑中：
????=(????????????, ????,los????????,????,??????????, ????,??????????, ????→??′?????, ??????????)??,??,??,??′,??,??。
(2)
在这个公式中，????代表必须最终满足系统运营规则的业务级控制捆绑。

控制受到需求核算、库存可行性、非积压逻辑和容量限制的约束。首先，实现的需求要么被履行，要么被丢失，如方程(3)所述：
????????????+????,los????????=??????????????(??, ??, ??, ??)。
(3)
其次，商店方面的履行必须考虑到可用库存的可行性，这产生了方程(4)：
????????????+????????????+????,??????????≤?????(??)???????(??, ??, ??)。
(4)
此外，不允许对在线订单进行分批履行，因此对于给定的(??, ??, ??)，在线需求最多只分配给一个卖家，通过二进制选择器?????????? ∈{0, 1}来确定，其中????,?????????? ≤??????????，????,?????????? ≤(1???????????)???，并且????,?????????? +?????????? =????????????。在实施方面，这个选择器不被视为一个独立发出的原始决策，而是当相应的路由信号被转换为一个单一的允许卖家分配时诱导出的二进制执行结果，以保持不分批履行的规则。库存也受到存储容量的限制，即0 ≤????????? ≤??????，适用于所有相关节点?? ∈?? ∪{??}。最后，在线发货和商店间转运的运输和运营限制在方程(5)中总结：
0≤??????????≤?????????????, 0≤??????????≤????????????(??)??,0≤????→??′?????≤?????→??′??。
(5)
系统动态由这些控制引发。库存根据交货期到达、补充注入、转运活动和履行流出量演变。这在方程(6)中得到体现：
????(??+1)???=?????????+?????????2(????)?Out???????3(????)??(??, ??, ??)。
(6)
因此，系统动态由方程(1)和(3)–(6)共同定义。

在上述动态和可行性条件下，目标是在??上最大化预期总利润。让????表示渠道X的单位收入，????,??和????,??表示来自商店和FC的在线履行成本，??tr表示转运成本，???表示节点j的持有成本，????表示渠道X的丢失销售惩罚。每个时期的利润贡献在方程(7)中定义：
Π??2(????)=∑??,??,???????????????????∑??,??(????,???????,??????????+????,???????,??????????)?∑??,??≠??′??tr?????→??′??????∑??,?????2??????????∑??,??,??????????,los????????。
(7)
因此，受限运营问题可以写成方程(8)的形式：
max??1:??2[∑??∈????2(????)]s.t.?Equations?(3)–(6)。
(8)
在这种形式下，利润最大化本质上与损失销售最小化相结合，因为可行性限制限制了服务决策，而未满足的需求则通过方程(3)中的丢失销售项被吸收，并在方程(7)中直接受到惩罚。

4. 提出的HRL框架：方法和实施技术
本节基于上述数学建模，并介绍了开发HRL框架以解决所研究问题的方法。由于决策环境是顺序的并且在不确定性下演变，上述运营公式自然地嵌入到相同规划时期的MDP表示中。特别是，问题与MDP ? =(??, ??, ??, ??)对齐，其中系统动态由方程(1)和(3)–(6)定义的状态转换结构引发。与第2节中关于HRL执行的背景规范一致，相同的底层公式可以在扁平RL控制器或多级HRL控制器下实现，这取决于行动时机和决策特定信息集在控制层次上的结构。为了与原始优化问题保持一致，奖励被定义为方程(7)中每个时期利润贡献的仿射变换，即
????=??2(????, ????)=Π??2(????)+??。
(9)
因此，RL的目标是最大化预期回报，即max???(??) =?????[∑??∈??????]，而其与原始利润最大化目标的对齐来自于???(??) =???[∑??∈????2(????)] +|??|???。通过这种方式，与每个状态转换相关联的奖励机制实现了与方程(8)中的受限运营问题相同的利润驱动标准，而由方程(3)–(6)引发的可行性结构确保了在容量限制下利润最大化仍然与损失销售最小化直接相关。

4.1 状态和动作空间的详细信息
在分析用于开发与环境动态相关的MDP之后，本小节深入探讨了实施中使用的状态-动作元组的结构，特别是经理在HRL变体中条件化工作者的目标信号。让?? ∈??表示原始决策时期，让?? ∈{1, …, ??cyc}表示固定长度L（在我们的实现中为每周）的补充周期，其中周期k对应于原始时期集合
????={(???1)???+1, …, ?????}。
(10)
在扁平控制器下，时间t的环境状态是???? ∈??，包括手中库存、由交货期引起的管道库存、需求预测特征和简单的时间特征，即
????=(?????????,?(?????????)??∈??,?(????,??????)????=1,?(????,?????????)????=1,?(????????????)??∈??,??∈??,?????)??∈??。
(11)
扁平动作???? ∈??是一个连续向量，它通过诱导(i)目标位置商店??????????（环境用于执行可行的横向转运）和(ii)在线路由比例????????? ∈[0, 1]（商店在线需求的份额）来参数化方程(2)中的运营控制????；此外，在补充时期?? ∈??cyc ???，动作还诱导了周期级别的补充/分配数量（??????????, ??????????）。在实施方面，扁平动作向量在[0, 1]范围内进行了归一化，并按组件解码：目标位置坐标缩放到商店容量，在线路由坐标直接解释为有界的商店履行份额，供应商订单坐标缩放到每周供应商上限，FC到商店的发货坐标缩放到每周FC发货上限。这种映射总结为
?????(??????????,??????????,???????????,???????????)??∈??,??∈??≡????，
(12)
其中(??????????, ??????????)仅在?? ∈??cyc时激活。更具体地说，诱导的商店目标是通过将归一化动作坐标缩放到商店容量获得的，?????????? ∈[0, ????]，而在线路由坐标保持在[0, 1]范围内。在补充时期，供应商订单请求缩放到每周上限??max?????? =250单位/产品，FC到商店的发货请求缩放到每周上限??max??2??→?? =120单位/产品。状态转换由方程(6)中的库存动态以及应用方程(1)估计的随机需求引起，奖励以利润为中心，如方程(9)所示。

在分层实现中，我们定义了在周期索引k上操作的经理和在原始索引t上操作的目标条件化工作者。经理在周期k开始时观察到周期的初始状态??(??)?? ∈??(??)，定义为周期的第一个原始时期的环境快照，
??(??)??=??(???1)???+1，
(13)
并选择包括(i)补充/分配因此，平面策略和层次化对都优化了相同的利润驱动目标（通过方程（3）将利润最大化与损失销售最小化等同起来），唯一的区别在于时间抽象和方程（14）中明确的目标条件机制????，该机制用于协调管理者与员工的工作。关于我们HRL方法中使用的演员和评论家的实现，我们注意到它们都是基于前馈神经网络构建的。在演员的情况下，动作生成基于Beta策略，因此每个动作组件都在有界区间[0, 1]上建模。具体来说，对于每个动作坐标i，演员通过各自的输出头部输出两个严格正的形状参数（????, ????），然后进行Softplus变换和一个正的偏移量（在我们的案例中是+1），相应的动作组件被采样为???? ～Beta?(????, ????)。在确定性评估期间，使用平均动作???? =????/(????+????)。这种选择在我们的设置中是合适的，因为动作空间是连续且标准化的，所以Beta分布的支持与控制变量的支持直接对齐，与高斯策略不同，后者需要额外的压缩或裁剪。重要的是，这些动作组件并不以原始形式直接执行业务决策；相反，它们提供了标准化控制信号，由模拟器在第3节中介绍的业务规则下解码为可行的实现控制。例如，与路由相关的输出参数化了有界的在线履行份额，而与补货相关的输出参数化了随后被转换为批量可行、容量可行和交货期一致的Quantities的发货或分配请求。因此，Beta策略用于参数化一个受限的决策接口，而不是意味着所有业务动作在执行层面本质上是连续的。同样值得注意的是，为了保证学习问题的可行性，并使控制逻辑与底层业务环境对齐，对原始动作空间应用了一个状态依赖的剪枝机制。特别是，尽管原始动作空间正式包含了所有可接受的控制坐标，但在特定的决策点，其中一些在操作上变得不相关，例如，在周期之外与补货相关的组件或由于库存为零、容量耗尽或交货期限制而变得不活跃的流量分配组件。为此，我们定义了一个二进制相关性掩码???(??) ∈{0,1}dim?(??)作为当前状态的确定性函数，相应的剪枝动作集为??pr?(??)={??∈??:????=0whenever?????(??)=0}，（18），而控制器应用的有效动作为?????(??)=???(??)⊙??。（19）因此，?????(??) =0的坐标仍然是正式动作表示的一部分，但由于在当前操作条件下它们不能引起有意义的状态转换，所以被视为不相关的。然后，被掩码的动作????(??)被传递给模拟器，在那里它被解码为可行的实现控制。在这个阶段，在最终确定运营转换之前，强制执行库存可行性；残余的不可行性通过确定性可行性映射来处理；与路由相关的输出被转换为单一的可接受卖方分配，以便遵守不分割履行规则。这种剪枝机制对于平面RL和HRL都是相关的：在前者中，它减少了直接控制向量的有效维度，而在后者中，它将管理者和员工级别的决策限制在业务一致的子空间内，从而减轻了维数灾难。本研究中报告的所有实验和结果都是在这个剪枝动作空间实现下获得的，且策略更新是针对实际暴露给模拟器的掩码动作接口计算的。

4.2. 架构范式和实现细节
在明确了建模的环境及其相应的状态和动作空间之后，本节介绍了用于开发HRL框架的架构范式。我们的方法是基于策略的，这意味着在每次迭代中，策略都是直接从与环境互动生成的轨迹数据中估计出来的。在连续控制环境中，基于演员-评论家和基于策略的方法通常显示出更稳定的优化行为和更有利的经验收敛特性，相比于基于动作离散化的基于价值的方法[39]。从实现的角度来看，原则上可以考虑多种替代方法来开发有效的基于策略的解决方案；然而，越来越多的近期工作集中在演员-评论家变体上，因为它们在训练期间结合了直接策略学习和基于价值的指导[40]。在HRL环境中，主要来自机器人技术和推荐系统的证据进一步表明，演员-评论家公式特别适合层次化决策结构，因为它们支持跨多个时间尺度的学习，同时保持稳定的策略改进[41,42]。根据这一理念，我们的工作采用了图4所示的层次化演员-评论家方案。图4. 为本研究绘制的实现的HRL-PPO方案的图形表示。所采用的方法遵循在线策略范式。这意味着策略更新是使用当前策略通过与环境的直接互动生成的轨迹数据来执行的。在每次训练迭代中，演员网络估计两个层次级别的当前决策规则，即管理者策略???????(??(??)??∣??(??)??)和员工策略???????(??(??)??∣??(??)??)。基于这些策略，从环境中采样轨迹，然后用于计算指导演员和评论家参数更新的目标函数。在这个方案中，评论家提供用于构建优势信号的价值估计，而演员则通过PPO目标进行更新。特别是，价值损失被定义为?????(??) =?????[(?????(????)?????)2]，其中????表示回报目标。因此，这个量度衡量了评论家预测和由采样轨迹引起的回报之间的差异，从而确定了评论家侧的学习信号。另一方面，演员侧的学习信号基于估计的优势，如方程（20）中所给出的，其中时间差残差被定义为???? =???? +??????(????+1) ????(????)。^????=??????1∑??=0(?????)??????+??。（20）根据方程（20），优势估计捕获了采样动作相对于评论家基线表现得更好还是更差，因此它是确定策略改进方向的量。引入概率比率是为了比较当前正在优化的策略与生成轨迹数据的策略。更准确地说，对于每个采样的状态-动作对（????, ????），比率被定义为?????(??) =?????(????∣????)????old?(????∣????)。在这个运算符中，分子对应于更新后的策略分配给采样动作的概率，而分母对应于收集轨迹时之前的策略分配给相同动作的概率。因此，比率量化了由策略更新引起的采取动作的相对可能性变化。这个比率的解释是直接的。当?????(??) =1时，更新后的策略和之前的策略在状态????下为动作????分配了完全相同的概率。当?????(??) >1时，更新后的策略为该动作分配了更大的概率质量；而当?????(??) <1时，更新后的策略为该动作分配了较小的概率质量。因此，?????(??)提供了政策基于相同经验样本变化的局部度量。然后将这个比率与估计的优势^????结合起来，这样策略改进的方向就取决于采样动作表现得更好还是更差。基于这个规范，如果^???? >0，则优化鼓励增加分配给采样动作的概率；如果^???? <0，则鼓励减少概率。然而，仅仅基于概率比率来更新策略可能导致政策变化过大，因为每当????和????old之间出现显著差异时，它们仍然可能被认为会改善目标。为了解决这个问题，PPO引入了一个裁剪运算符，将比率限制在一个界定的范围内，即clip?(?????(??)，1 ???, 1 +??)，其中?? >0表示裁剪阈值。这种机制旨在防止在单次优化步骤中更新后的策略与之前的策略偏离过多，从而减少不稳定性并限制在策略估计过程中可能出现的噪声。根据这一理念，最终的优化目标在方程（21）中给出。??clip?(??)=?????[min?(?????(??)?^????,?clip?(?????(??), 1???, 1+??)?^????)]。（21）如方程（21）所示，概率比率成为PPO调节策略更新规模和支持稳定策略改进的核心机制。这两个损失直接通过基于梯度的优化与参数更新相关联。演员参数根据方程（22）更新，而评论家参数根据方程（23）更新。相同的逻辑适用于两个层次级别，即管理者级别的对（????, ????）和员工级别的对（????, ????）。??←??????????clip?(??），（22）??←?????????????(??）。（23）关于我们HRL方法中使用的演员和评论家的实现，我们注意到它们都是基于前馈神经网络构建的。在演员的情况下，动作生成基于Beta策略，因此每个动作组件都通过有界区间[0, 1]上的Beta分布随机变量来建模。这种选择在我们的设置中特别合适，因为动作空间是连续且标准化的，因此Beta分布的支持与控制变量的支持直接对齐。另一种选择是使用其支持范围扩展到（?∞, +∞）的高斯策略；然而，这种选择需要额外的压缩或裁剪机制来强制有限的动作，而Beta公式提供了一个直接的有界表示。重要的是，这些动作组件并不以原始形式直接执行业务决策。相反，它们提供了标准化控制信号，由模拟器在第3节中介绍的业务规则下解码为可行的实现控制。例如，与路由相关的输出参数化了有界的在线履行份额，然后映射到一个可接受的卖方，以便遵守不分割履行规则，而与补货相关的输出参数化了随后被转换为批量可行、容量可行和交货期一致的量化请求。因此，Beta策略用于参数化一个受限的决策接口，而不是意味着所有业务动作在执行层面本质上是连续的。经过实验后，保留的超级参数配置在表3中报告；相同的配置被用于平面RL基准和HRL方案。表3. 用于开发HRL-PPO方案的超级参数配置。关于用于定位超级参数集的实验协议，我们提到在预定义的候选值网格上进行了一系列受控敏感性实验，调优逻辑与“实验设计”方法[43]的结构化比较意义一致。特别是，学习率在{10?4, 2 ×10?4, 5 ×10?4, 7 ×10?4}范围内进行了测试，折扣因子在{0.95, 0.97, 0.99}范围内进行了测试，GAE参数在{0.90, 0.95, 0.97}范围内进行了测试，PPO裁剪参数在{0.10, 0.20, 0.30}范围内进行了测试，熵系数在{0.0, 10?3, 10?2}范围内进行了测试。表3中报告的其余超级参数在整个实验过程中保持不变，以限制搜索空间的维度并保持候选配置之间的可比性。对于每个设置，训练在相同的模拟条件和相同的训练种子池下进行了5000个剧集。然后根据以下标准评估了结果配置：（i）收敛稳定性，（ii）最后剧集的最终训练性能，以及（iii）跨种子的稳健性。

5. 实验评估
本节介绍了研究中采用的实验协议和相应的数值结果。在这方面，它旨在展示所提出的HRL-PPO框架在应对不同需求模式下的全渠道SCs的韧性方面的潜力。

5.1. 基准测试协议
为本研究设计的评估协议有三部分。首先，我们检查所提出的HRL公式是否在相同的模拟环境和需求生成设置下优于标准的PPO方案。其次，我们将所提出的方案与两种与业务相关的启发式方法进行基准测试，即基础库存/按需补货规则和贪婪履行/再平衡规则，这两种规则都反映了简单的但具有操作意义的库存管理和库存分配策略。在启发式和基于学习的设置中，未来需求不是直接观察到的，而是通过模拟器中嵌入的预测组件估计的，该组件通过简单的指数平滑（????+1 =??????? +(1???)?????）实现。这一选择是由于其在预测准确性、鲁棒性和实现简便性之间的良好权衡，这解释了它长期以来作为预测文献中实际基准的用途[44,45]。此外，平滑参数??是经过校准的，而不是预先固定的。具体来说，对于每种需求配置，分别评估了五个候选值?? ∈{0.2, 0.4, 0.5, 0.6, 0.7}，使用了一步预测的均方根误差（Root Mean Squared Error）进行评估。对于混合需求配置，最佳结果出现在?? =0.4时，RMSE为6.124；而对于仅Merton的需求配置，最佳结果出现在?? =0.6时，RMSE为9.126；其余的??值在每种情况下都与最佳性能规格相差约20%。这种差异也与所考虑的需求结构一致，因为混合配置更倾向于使用适度的平滑权重，而更易受冲击影响的仅Merton配置则更适合使用更反应性的更新参数，这与关于平滑操作器和异常需求行为的广泛文献[46]是一致的。值得注意的是，描述性比较还通过Wilcoxon符号秩检验对配对的非样本结果进行了补充。选择这种非参数检验是因为在如此有限的配对观察数量下无法可靠地评估正态性[47]。更具体地说，对于每种规则和10个不同的评估种子，执行了500个训练后的评估周期，并计算了每个指标的相应种子级平均值；这10个配对的种子级摘要构成了测试中使用的样本。对于启发式规则，重复独立的模拟运行直到观察到运行平均值目标值的收敛，在少数情况下，如果这个过程超过了给定种子的500次迭代，则保留最后的500次迭代，以便保持规则之间的共同报告窗口，并关注轨迹的稳定部分而不是瞬态部分。因此，对于每对比较和性能指标，让????表示评估种子i上基准策略和HRL-PPO之间的配对种子级差异，?? =1, …, 10。然后将Wilcoxon符号秩检验应用于集合{????}10??=1，零假设和备择假设分别为??0:Median?(????)=0和??1:Median?(????)≠0。相应的p值来自Wilcoxon符号秩统计量，并根据?? =0.05的显著性水平进行评估。出于报告目的，表格展示了种子之间的平均配对差异，表示为Δ?(benchmark?HRL-PPO) =110?∑10??=1????，以及相关的Wilcoxon p值。最后一步，我们评估了所得策略与在相同模拟器规则下构建的完美信息基准之间的性能差距。具体来说，这个基准实施为一个可以直接访问实现需求的策略，并使用这些信息来确定每周的补货和从FC到 stores 的运输决策，以及每天的运输目标和在线履行分配。因此，与启发式和基于学习的方法不同，这个基准在网络中分配库存时并不依赖于预测机制。严格来说，这个基准不应被解释为一个数学上的最优上限，而应被视为在拥有privileged需求信息下的一个强有力的参考策略。尽管这种设定是对实际操作条件的过度简化，因为在实践中很少能确切知道未来的需求，但它仍然提供了一个强有力的参考点，用于评估在完美需求信息下提出的HRL-PPO方案的性能[23]。关于这两种启发式方法和完美信息基准的确切编码的分析在附录A中提供了。为了确保提出的HRL-PPO方案与flat PPO基准之间的比较在方法上是公平的，这两种基于学习的控制器都在相同的模拟器、奖励基础、场景家族和训练-测试协议下进行评估，同时也在相同的总体交互预算下进行训练，并在相同的预测范围内进行评估。此外，两种情况都执行了相同的操作可行性和动作过滤规则。因此，比较旨在隔离控制组织方面的差异，而不是环境假设或privileged信息访问方面的差异。更具体地说，flat PPO策略直接作用于可用的系统状态，而HRL-PPO控制器通过管理层级的协调和员工级别的执行引入了时间分解。在层级方案中使用的额外协调信号是从相同的决策上下文中内部生成的，因此应将其解释为架构本身的一部分，而不是作为外部信息增强。评估协议在三种不同的商业场景中实施。应该注意的是，这些场景不是从单一案例研究中得出的，也不是在一个特定的零售数据集上校准的；相反，它们被定义为受控的 omnichannel 配置，以便在策略层面检查网络中不同的容量分配和前置时间结构如何影响整体系统性能和对需求冲击的韧性。在这方面，表4总结了每个场景指定的容量限制。所有三种场景都是基于这样的前提开发的：库存定位在网络中起着补偿作用，因为一个层级更多的库存集中可能会部分抵消另一个层级的更严格的容量限制或更长的前置时间[48,49]。表4. 每个研究商业场景中使用的容量因素的详细信息。场景1作为基准配置，反映了FC和store层级之间相对平衡的容量分配。在实际情况下，这种场景近似于一个 omnichannel 设置，其中上游和下游节点以相对均匀的方式参与补货和履行执行。场景2代表了一个更偏向上游的操作结构，其中store端的库存位置相对于FC较弱（例如，???? =23???(1)??）。在实际操作中，这对应于一个网络更依赖中央库存支持的设置，而本地商店则以更紧密的库存和运输灵活性进行运营。相比之下，场景3反映了一个更偏向下游的安排，其中库存和订单履行能力更接近需求点（例如，???? =43???(1)?? 和 ??????? =65????????,(1)），而FC到store的补货链路变得较慢。这种设置近似于一个更本地响应的操作方案，其中加强了商店级别的自主性，并预期下游节点将吸收更多服务响应性，特别是因为商店也可能在我们的模型中作为中间配送点发挥作用。正如表4所示，所有商业场景都是假设最后层级有多个商店的情况下进行评估的，商店的数量从2到30不等，而产品种类固定为6种。鉴于我们的工作旨在分析开发的HRL-PPO对保护 omnichannel 网络韧性的影响，实验协议应用于两种不同的需求类型。表5指定了产品级别的需求配置和用于表示种类间异质需求的相应参数值，并在所有商业场景中进行了检验。还应注意的是，这些需求设置并不是作为特定情况的实现引入的，而是作为旨在检验所提出框架在混合和完全由冲击驱动的条件下的政策行为的替代控制需求变化。更具体地说，第一种配置采用了一种混合需求结构，其中三种产品遵循均匀的需求模式，其余三种通过Merton类型的需求进行建模；而第二种假设了一个完全由冲击驱动的设置，其中所有六种产品都受到Merton类型需求的影响。在实际操作中，前者允许分析捕捉到部分受干扰的操作环境，而后者则近似于一个更严重的系统范围内的中断。采用的校准是一个有意的选择，旨在反映 omnichannel 需求的预期跨渠道结构，即对于walk-in需求的更强基线，对于click-and-collect流程的更有限限制，以及对于在线渠道的相对更高的冲击脆弱性；这与文献中的观点一致，即破坏性事件倾向于促使向数字渠道的更剧烈重新分配，而商店流量通常仍然是零售系统中的主导参考流量[50]。为了便于我们工作的可重复性，我们还注意到每个实例都是在?? =48天周期内进行的评估，相当于8个销售周，每周6天，补货决策每6天激活一次。flat PPO基准每个实例训练了5000个周期，而层级方案使用了1500个员工热身周期、2500个员工全训练周期和5000个管理人员周期。在5000个周期后停止训练，因为观察到平滑的训练返回轨迹和固定种子的评估奖励曲线在该点稳定，表明没有从更长的运行中获得有意义的收益。采用了固定的种子池协议，使用42个训练种子和10个不同的评估种子；没有使用单独的验证分割或提前停止规则，所有实验都在PyTorch（v.2.10）和Gymnasium（v.1.2.3）中实施，并在CPU上执行。表5. 三种商业场景中考虑的需求参数值。5.2. 结果本小节报告了上述三重评估协议获得的结果。它首先对目标函数（即利润最大化）进行了比较分析，比较了基线PPO和提出的HRL-PPO框架。这种比较是在实验设计中考虑的两种需求配置下进行的，即具有均匀产品和受冲击影响产品的混合设置以及完全由冲击驱动的设置。第二层分析将提出的方法与完美信息预言者和选定的特定问题启发式方法进行了对比。这种比较是通过将奖励综合为其主要的成本和服务相关维度来进行的。5.2.1. 在不同操作场景下均匀需求和Merton类型需求的混合根据表5关于产品间需求模式混合的规范，本小节比较了在实现研究问题的整体目标函数方面取得的进展。为了说明目的，我们参考了图5，该图展示了在第一个需求配置下对本研究中分析的第一个商业场景进行5000个训练周期后获得的奖励。图中的六个部分对应于网络最后层级中模拟的替代商店数量，即2、7、12、18、24和30家商店。由于奖励是基础利润目标的仿射变换，它直接反映了学习策略的收敛情况，因此也是估计每种方法随时间提高系统级决策效率的有效性的方法。为了提高可解释性，结果以移动平均值的形式报告。具体来说，我们平均了每60个连续周期的性能，并跨学习阶段使用的多个训练种子（即42个）进行平均，以减少随机初始化、随机需求实现和探索效应引起的噪声。这种呈现方式在RL文献中是标准化的，因为它有助于更稳定地观察收敛行为，并更可靠地评估鲁棒性和泛化能力[51]。对于其余两个商业场景，相应的奖励轨迹遵循了非常相似的模式，因此为了简洁起见省略了这些结果，但这并不影响本小节讨论的收敛行为的解释。图5. 在第一个需求配置下（一半的产品面临Merton类型需求）进行5000个训练周期后的奖励进展，不同网络规模如下：(a) 2家商店，(b) 7家商店，(c) 12家商店，(d) 18家商店，(e) 24家商店，(f) 30家商店。根据图5，可以得出关于两种方法行为和收敛水平的几个结论。具体来说，HRL-PPO似乎在所有分析的情况下都比flat PPO基准达到了更高的奖励水平。此外，在大多数情况下，渐进式奖励在其平均值周围呈现出较弱的波动，并且在训练通过初始适应阶段后呈现出持续的下降，这可以被视为稳定性的证明。为了更清晰的比较，热身后的阶段最具信息量。这个阶段可以确定为奖励曲线开始稳定并显示出更明确上升方向的点。在我们的实验中，这通常在大约1500个周期后发生。此外，对于几个商店规模的设置，HRL-PPO从或很快就达到了一个明显更高的奖励区域。这表明层次结构为学习早期阶段的决策提供了更好的时机。这一发现反映了层次方案在协调成本和服务相关决策方面的更强能力，从而在随机需求条件下保持了网络的整体韧性。基于上述分析以及对奖励的分解，可以识别出问题解决方案的几个维度。考虑到我们的研究旨在评估HRL-PPO方案收敛到最小化损失销售额的解决方案的能力，同时保持运营上有意义的库存行为，表6报告了持有成本、损失销售额率和卖家节点间转运的相应成对比较结果。后者与我们的建模方案特别相关，因为它反映了该政策在支持全渠道需求满足方面利用卖家间横向库存重新平衡的程度，这是本研究对现有研究成果的扩展。报告的差异表示为Δ?(benchmark ?HRL-PPO)，其中Δ表示10个评估种子间的平均成对差异，而括号中的p值是通过将Wilcoxon符号秩检验应用于种子级别的成对差异得到的。更具体地说，对于每个规则和每个保留的种子，执行了500个训练后的评估周期，并计算了每个报告指标的种子级别平均值。然后将得到的10个种子级别摘要作为Wilcoxon比较的样本。对于两个启发式基准，即基础库存/补货规则和贪婪满足/重新平衡规则，在相同的模拟环境和需求生成设置下进行了评估，基于在相同实验条件下的重复独立模拟运行，并且在连续两批运行之间的运行平均值目标值的相对改进，即??(??) =ˉ??(???1)?ˉ??(??)ˉ??(???1) ×100，下降到2%以下时终止评估，表明进一步的运行不会导致实质性的不同结果。在相对较少的情况下，如果对于某个种子，这种收敛监控过程超过了500次迭代，我们只保留了最后的500次迭代，以便在规则之间保持一个共同的报告窗口，并关注轨迹的稳定部分而不是瞬态初始化阶段。表6显示了第一需求配置下的Wilcoxon符号秩比较。条目报告了评估种子间的平均成对差异Δ?(benchmark ?HRL-PPO)，以及括号中的Wilcoxon p值。表6的结果表明，所提出的HRL-PPO框架在所检查的性能维度上实现了最平衡的优化，相对于PPO，持有成本差异从9.4到225.1单位（大约4.9%到11.2%），损失销售额率差异从0.012到0.022单位（大约10.9%到14.3%）。相对于基础库存/补货规则，相应的持有成本差异从30.4到473.8单位（大约13.3%到21.0%），而损失销售额率差异从0.028到0.085单位（大约19.0%到32.4%）。相对于贪婪满足/重新平衡规则，持有成本差异从20.3到604.1单位（大约8.8%到25.3%），而损失销售额率差异从0.023到0.050单位（大约15.2%到22.5%）。卖家节点间转运差异相对于PPO从4.3到173.2单位，相对于基础库存/补货规则从9.5到445.4单位，相对于贪婪满足/重新平衡规则从13.5到380.3单位。同时，所有检查设置中的相关p值始终较小，支持报告结果的统计显著性。如果最具有韧性的网络是在需求干扰下未满足需求最低的网络，那么损失销售额差异提供了韧性的直接比较读数。根据这一逻辑，表6中的结果表明，HRL–PPO在所有场景和商店规模配置中始终优于基准策略，就损失销售额的减少而言。更具体地说，相对于PPO，报告的损失销售额率差异范围从0.012到0.021单位，大约相当于10.9%到14.3%的改进。相对于基础库存/补货规则，相应的差异范围从0.028到0.085单位（大约19.0%到32.4%），而相对于贪婪满足/重新平衡规则，它们范围从0.023到0.050单位（大约15.2%到22.5%）。结果还表明了一个明显的规模效应，因为随着商店数量的增加，比较损失销售额差异通常会扩大，表明更大的网络创造了更大的协调负担，并放大了层次控制的价值。同时，这种韧性的提高并没有以牺牲库存效率为代价，因为HRL–PPO还产生了更低的持有成本，相对于PPO有大约8.4%的相对改进，相对于基础库存/补货规则有17.8%的改进，相对于贪婪满足/重新平衡规则有17.6%的改进。这表明，该框架不是通过过度积累库存来保护服务水平，而是通过更好地协调库存定位和补货决策来实现的。有趣的是，与完美信息基准的比较分析显示，在小网络规模下，所提出的HRL-PPO方案能够非常接近这一参考性能，在两商店情况下达到了大约85%的基准值。随着商店数量的增加，这种接近性逐渐下降，表明随着网络规模的增大，协调复杂性变得更加明显，性能差距也随之扩大；在最大的商店配置中，相应的比率下降到大约72%。尽管如此，HRL–PPO策略在所有测试规模上始终保持竞争力，保持了在有优势需求信息下获得的价值的相当大份额。从计算角度来看，比较还揭示了一个可测量的时间相关差距，完美信息基准和HRL-PPO方案之间的平均执行时间差异在所检查的配置中大约为16%，进一步强调了未来需求可见性的实际价值作为强大信息参考的重要性。图6展示了在所有渠道的所有产品都受到需求冲击的情况下获得的奖励，基于本研究中安排的第一个场景的设置。与图5一致，图的六个部分对应于网络最后一层中建模的替代商店数量，即2家、7家、12家、18家、24家和30家商店。作为混合需求设置下奖励说明的对应部分，这种情况下的结果表明，总体学习行为与在混合需求环境中观察到的行为在质量上是一致的。在两种设置中，两种方法都保持了类似的收敛趋势，而层次公式在鲁棒性和奖励形成方面继续显示出更明显的长期优势。这表明，从混合需求结构向完全由跳跃驱动的结构转变并没有从根本上改变策略的比较学习特征，尽管在表7中变得更加明显的干扰敏感模式变得更加明显。更具体地说，在仅Merton的情况下，有三个差异凸显出来。首先，奖励显示出更尖锐的局部峰值和更明显的短期修正，特别是在小和中等商店规模上，这与Merton过程引起的突然需求冲击一致。其次，Flat RL和HRL之间的临时交叉和短暂逆转比在混合需求设置中更频繁，其中两条曲线的分离通常更平滑。第三，平台期不太均匀，并且在商店配置中表现出更高的局部变化性，表明从广义上来说仍然实现了收敛，但在更强的随机扰动和不太规则的稳定动态下。图6显示了在第二需求配置（仅Merton需求配置）下，经过5000个训练周期后的奖励进展，涉及不同的网络规模：(a) 2家商店，(b) 7家商店，(c) 12家商店，(d) 18家商店，(e) 24家商店，以及(f) 30家商店。表7显示了第二需求配置下的Wilcoxon符号秩比较。条目报告了评估种子间的平均成对差异Δ?(benchmark ?HRL-PPO)，以及括号中的Wilcoxon p值。根据表7中呈现的结果，可以得出几个结论。首先，在完全由冲击驱动的需求设置下，所提出的HRL-PPO框架总体上仍然有效，特别是相对于两种简单的启发式方法。更具体地说，相对于基础库存/补货规则，持有成本差异范围从29.0到465.5单位（大约12.4%到20.2%），而相应的损失销售额率差异范围从?0.044到0.082单位。相对于贪婪满足/重新平衡规则，持有成本差异范围从18.9到598.3单位（大约8.0%到24.5%），而损失销售额率差异范围从?0.054到0.102单位。相对于PPO，持有成本差异范围从13.5到272.1单位（大约6.0%到12.9%），而损失销售额率差异范围从?0.064到0.032单位。然而，与此同时，与其他简单PPO基准相比，其优势不再均匀。更具体地说，在情景1的所有商店规模实例中，PPO实现了比HRL-PPO更低的损失销售额率，在情景2的较小规模案例中也是如此，这反映在表7中损失销售额率列的Δ?(PPO ?HRL-PPO)的负值上；相比之下，从第12家商店开始，HRL-PPO再次获得了优势，并在整个情景3中保持一致的优势。其次，与混合需求情况的直接比较表明，冲击效应是实质性的，因为在仅Merton需求设置下，HRL–PPO的服务优势明显变得更加压缩。更具体地说，相对于PPO，损失销售额率差异从第一需求配置中的均匀正值0.012到0.021变为第二种情况中的更宽范围?0.064到0.032，表明层次框架相对于Flat PPO的优势不再均匀。从成本方面的比较读数也指向相同的方向。相对于PPO，持有成本差异从9.4–225.1增加到13.5–272.1，而卖家节点间转运差异从4.3–173.2增加到7.3–235.0，表明完全由冲击驱动的环境在整个网络中放大了协调负担。这种模式与此处考虑的需求配置一致：当所有产品同时面临类似跳跃的干扰时，补货变得不太可预测，局部短缺发生得更频繁，网络必须更加依赖保护性库存定位和紧急库存重新分配。从这个意义上说，相对于启发式基准，HRL–PPO观察到的较为温和的比较恶化表明，层次协调仍然承担了一部分中断负担，尽管其与Flat PPO的韧性优势变得更加依赖于具体场景。因此，两个表格的比较读数表明，所提出的框架在最恶劣的运营条件下保持了竞争力和适应性，但其相对于Flat PPO的韧性优势在冲击成为系统性时明显压缩。5.3. 特定节点上的容量如何影响网络的韧性？先前的分析验证了HRL-PPO可以作为在有限容量全渠道设置下进行弹性库存控制的有希望的决策支持框架，特别是在需求不确定性和冲击暴露的情况下。同时，迄今为止获得的见解表明，韧性不是由容量的普遍丰富度决定的，而是由特定容量元素在网络中的相互作用决定的，特别是那些与商店侧存储、横向转运能力和上游节点的补货支持相关的元素。基于这些发现，本小节旨在发展关于特定节点上的容量如何影响网络韧性和服务 preservation 的业务导向见解，特别强调在分析的有限容量问题中出现的库存定位逻辑。在这个方向上，重点从策略的比较性能转向容量分配的结构解释，以更好地了解网络节点间的库存定位如何有助于减少损失、响应性和在干扰下的强健库存传播。利用我们分析中出现的证据，本节引入了一个探索性指数，旨在总结似乎最强烈影响网络韧性的容量方面的条件。先前的结果表明，服务 preservation 受到的影响较少是由孤立容量丰富度决定的，而是更多地由本地存储支持、横向库存移动性和对上游补货的依赖程度之间的相互作用决定的。在这方面，为了提供对有限容量网络中库存定位的业务导向解释，我们引入了Transfer–Storage-to-Central-Replenishment指标（TSCR），在方程（24）中正式定义： TSCR=????·?????????????? （24）方程（24）中包含的因子反映了从问题设置和相应的实验观察中最清晰出现的结构模式。术语????代表商店层级的本地存储支持，而???????则反映了网络在出现短缺时能够横向重新分配库存给不同卖家的能力。这两个元素以乘法形式表达，不是作为唯一推导出的交互规律，而是一种简洁的方式来总结当前情境下它们的共同可用性，在这种情境中，韧性似乎取决于它们的综合贡献，而不是任何一个单独的因素。分母???????被引入作为一个规范化项，因为从配送中心（FC）到商店的补货构成了网络的主要上游支持机制。从这个角度来看，这个比率旨在总结本地存储和横向移动能力相对于中央补货依赖性的支持程度。根据这种解释，较高的TSCR值表示更强的本地缓冲能力和横向灵活性，而较低的值则表示对中央节点的服务保持有更大的依赖。然而，TSCR并没有包括实验中变化的所有结构性因素，如前置时间参数、配送中心库存容量、供应商上限或商店到在线服务的容量，因此应该将其理解为一个简洁的描述性指标，而不是一个完整的韧性构建。

使用这个指标提供了一个紧凑的描述性视角，通过它可以看到选定的容量方面特征与对需求冲击的韧性之间的关系，从而支持本小节中讨论的主要问题。为了记录这种关系，我们采用了双重程序。首先，针对所研究的业务场景定义的三种容量设置计算TSCR。其次，将这些值与每个渠道、每个商店规模配置以及两种需求模式设置观察到的相应平均损失销售额率配对。因此，在图7中，每个圆圈代表在相应TSCR值下与特定商店规模相关的平均损失销售额率。虚线分别连接了混合需求设置和仅Merton需求设置下的这些平均值，而实线黑色和红线追踪了各自均值集合的中位数路径，以强调共同的单调趋势。这种构建也意味着，通过将三种容量设置下的相应圆圈连接起来，可以在每个商店规模层面读取到相同的单调关系；例如，12家商店案例的确切单调曲线是通过连接每个面板中的第三个圆圈获得的。所得到的模式应该被解释为测试配置的经验总结，而不是韧性评估的统计验证的阈值规则。

图7显示了通过综合指标TSCR视角审视的每家商店平均损失销售额率与网络容量之间的关系。该图表明了三个渠道中存在的两个规律性。首先，对于任何固定的TSCR水平，平均损失销售额率随着商店数量的增加而增加，这意味着当容量架构保持不变时，网络扩张加剧了协调压力。其次，完全受冲击驱动的产品配置使所有渠道的性能相对于混合案例都有所提升。在定量上，中央到店的损失水平从13.68%、11.34%和14.56%上升到了20.60%、18.30%和18.90%，而点击取货的相应中央水平从12.00%、9.98%和11.95%上升到了16.48%、14.21%和17.75%，在线需求的相应中央水平从9.36%、8.82%和11.48%上升到了13.44%、13.05%和15.40%。这种模式与采用的需求校准一致：到店购物仍然是损失最严重的渠道，因为它承载了最强的基础流量；而在线需求是最容易受到冲击影响的组成部分，因为它结合了最高的跳跃频率和跳跃幅度；点击取货在结构上较为薄弱，但在冲击在整个商品范围内传播时会明显恶化。从这项分析中得出的一个重要概念是，所提出的公式使得可以通过其容量方面的结构与相应的损失销售额行为之间的紧凑关系来表达网络的韧性特性。基于上述设计的TSCR表示法，可以将实证证据总结如下：

???????????=?{ { {?{ { {?≤3.6?ˉ???????≤0.248,ˉ??????????≤0.216,ˉ??????????≤0.176,≤8.2?ˉ???????≤0.228,ˉ??????????≤0.196,ˉ??????????≤0.180,≤16.2?ˉ???????≤0.248,ˉ??????????≤0.229,ˉ??????????≤0.202。

在管理层面，上述分析可以转化为对渠道更敏感的容量控制逻辑。简单来说，最突出的配置不仅取决于库存是否部分或完全暴露于跳跃驱动的需求，还取决于哪个渠道被战略性地优先考虑。当到店购物需求占主导时，韧性主要依赖于更强的下游容量，即相对较高的商店侧库存和本地履行能力，而上游支持可能保持在中等但稳定水平（例如，较高的商店容量和商店侧配送能力，以及相对平衡的配送中心支持）。当在线需求成为主要服务优先级时，相关配置转向更强的上游容量，即更高的配送中心库存可用性、更大的配送中心出库能力和更响应快速的配送中心到商店的补货接口，因为数字需求更容易受到冲击放大和跨节点重新分配的影响（例如，更大的配送中心缓冲区和更强的配送中心配送能力，而仅依靠本地扩展则不够）。相比之下，如果优先考虑点击取货，最有效的设计是一种中间方案，在这种方案中，商店侧的可用性得到足够的加强，以保持在本地节点快速处理订单，同时不会显著削弱上游支持。同时，卖家之间的转运层也应该相应地进行调整，因为它是TSCR逻辑中的一个额外韧性杠杆：当预计本地需求不对称性适中时，商店间的适度重新平衡能力就足够了；而在更强的冲击暴露或更高的在线波动性下，更高的卖家间转移能力变得更加有价值，因为它允许更快地在网络中重新定位库存，并部分补偿本地短缺。因此，TSCR分析的管理含义并不是说一个节点应该系统性地主导容量设计，而是应该根据预期的需求概况和被视为运营上占主导的渠道，调整对商店容量、配送中心容量、层级间响应能力和卖家间转运能力的相对重视。

6. 讨论
前一节报告的结果提供了一个关于这里研究的全渠道环境中分层控制价值的一致图景。总体而言，它们表明所提出的HRL-PPO框架相对于平面的PPO基准和基于规则的启发式方法，特别是在混合需求设置和更高协调强度的网络规模下，提供了一个高度竞争力的控制架构。在检查的所有需求设置中，分层公式实现了更低的持有成本、更低的商店间转运量以及大多数情景和商店规模下的更低损失销售额率，这些共同表明了库存定位和履行时间的更好协调。这一优势在第一个需求配置中尤为明显，其中HRL-PPO在所有情景和商店数量中始终优于平面PPO，并且在中小规模实例中尤为显著，在这些实例中，控制问题的维度变得更加严峻，错时补货和路由决策的操作后果被放大。重要的是，这种模式不仅是描述性的，而且也得到了推断上的支持，因为之前报告的Wilcoxon符号秩比较在检查的指标和成对比较中系统地得到了较小的p值，许多情况下在大约0.001到0.01之间。因此，这些结果支持了研究的核心前提，即将决策明确地分解为较慢的补货周期和更快的履行调整，使政策能够更紧密地与全渠道运营的自然节奏对齐。在这个意义上，分层结构不仅在技术上提高了学习性能，而且还似乎提供了一种更具管理层意义的表示方式，展示了在不确定性下零售网络中库存和服务决策的实际组织方式。

第二个重要发现涉及需求冲击和运营结构在塑造智能控制相对价值中的作用。当所有产品都遵循Merton类型的需求动态时，方法之间的性能差异仍然显著，但HRL-PPO相对于平面PPO的相对优势变得更加依赖于具体情景，特别是在情景1和情景2的较小规模实例中，其中PPO实现了更低的损失销售额率。相比之下，HRL-PPO从12家商店开始在情景2中恢复了优势，并在整个情景3中保持一致地优越。这种模式表明，突然和系统范围的需求激增增加了对能够共同管理稀缺库存、履行能力和网络中重新平衡机会的适应协调机制的需求，同时压缩了相对于平面PPO的服务侧优势。这种解释也与推断结果一致，因为在仅Merton需求设置下，与PPO的成对差异在损失销售额指标上不再始终对HRL-PPO有利，而与两个启发式基准的比较则广泛地得到了积极差异和小p值的支持。同时，与完美信息基准的比较确认了，尽管HRL-PPO在可实现的基准上有了显著改进，但它仍然低于一个强大的信息参考，这在现实随机环境中是预期之中的，因为未来的需求是事先不知道的。这种差距在分析上是有用的，因为它表明所提出的方法捕捉到了可实现的操作价值的相当大份额，特别是在较小网络规模下，而且通过更丰富的预测、更强的状态表示或更先进的分层协调机制，进一步改进仍然是可能的。总体而言，这些发现表明HRL对于应对需求冲击与绑定容量约束同时发生的环境中的弹性全渠道控制特别有前景，在这些环境中，决策同步不良的成本会在多个渠道和层级中传播。同时，这些发现仍然依赖于模拟器中采用的共同基于预测的界面，而不是完全独立于预测假设。

容量分配在塑造网络韧性方面的结构作用也是一个重要发现。特别是，结果表明，韧性不仅取决于网络中可用容量的绝对数量，还取决于这种容量如何在商店、横向转移和中央履行节点之间分配。由于这三个业务场景被定义为受控的运营配置，而不是特定于案例的设置，它们的比较解释主要是政策导向的。从这个角度来看，情景1可以被视为一个相对平衡的全渠道结构，情景2是一个更依赖中央库存可用性的更上游支持的配置，而情景3是一个更下游响应的设置，其中更大的自主性和服务响应能力更接近需求点。这种关系通过之前介绍的Transfer–Storage-to-Central-Replenishment (TSCR)指数进行了描述性总结。实证证据表明，更有利的TSCR配置与更低的损失销售额水平相关，尽管这种关系在三个场景中并不严格单调，并且随着需求转变和渠道的不同而有所变化。特别是，结果表明，当本地缓冲能力和横向库存移动性相对于对配送中心到商店的补货依赖性足够强时，韧性得到改善，其中情景2在混合需求情况下成为最强的整体设置，而在仅Merton设置下的情景差异变小。因此，HRL框架的优势不仅应被解释为学习架构的结果，还应被视为适应控制政策能够更好地利用支持及时补货传播和库存重新定位的容量结构的指示。尽管如此，TSCR在这里应该被视为一个紧凑的解释性指标，而不是一个经过统计验证的解释性构建。

所提出的框架补充并扩展了几种与全渠道零售相关的最近的基于强化学习（RL）的方法，解决了与运营集成、网络结构和决策时间动态相关的局限性。现有研究展示了RL在各种全渠道环境中的潜力。例如，RL已被用于集成补货和履行控制[23]、在需求不确定性下的联合定价-库存优化[22]，以及诸如拣选员路由[32]之类的运营商店级别决策。其他贡献在更广泛的行为或分析导向的框架内探讨了RL，包括结合量子启发式顾客决策动态的模型[24]、用于忠诚度预测的混合架构[33]、在行为不确定性下的多目标全渠道优化[25]，以及RL驱动的市场分析[34]。虽然这些研究展示了RL在零售环境中的灵活性，但它们中的许多都集中在简化的零售设置、行为和定价决策或局部运营任务上。因此，这些模型往往无法充分反映多层库存互动、不同地点之间的横向库存再平衡、容量耦合的配送过程以及不同运营时间尺度上决策的明确协调。本研究提出的框架通过引入一种HRL架构，对此类文献做出了贡献，该架构能够明确捕捉全渠道决策的时间结构，同时模拟具有横向转运和需求敏感性动态的容量限制多层网络。从这个意义上说，所提出的方法更倾向于实现对全渠道供应链的运营整合，并展示了层次化学习如何支持复杂零售网络中协调的库存定位和配送控制。

**6.1 管理意义**
从管理角度来看，研究结果表明，全渠道绩效不仅取决于网络中可用的库存数量，还取决于做出决策的时间安排。零售管理者经常面临一个实际挑战，即如何将较慢的战术决策（如补货和库存定位）与较快的运营决策（如每日配送路线规划和本地库存再平衡）结合起来。研究结果表明，在一个统一但具有层次结构的控制框架内处理这些决策，可以显著提高服务可靠性和成本效率，尤其是在面临需求激增和容量瓶颈的网络中。实际上，这意味着企业可以通过围绕差异化的决策周期来设计其数字控制塔、计划流程和人工智能支持的视频系统，而不是依赖单一的、统一的计划频率。这种做法对于同时运营从商店发货（ship-from-store）、线上下单到家（BOPIS）和送货上门（home-delivery）模式的零售商尤其重要，因为在这些模式下，补货时机与配送响应速度的不匹配可能会迅速转化为销售损失和不必要的库存移动。

研究结果还对网络设计和韧性规划具有启示意义。具体来说，HRL框架在易受需求冲击的条件下表现更为出色，这表明零售商应将基于自适应学习的控制视为一种韧性能力，而不仅仅是自动化工具。当需求冲击与库存或转运能力限制同时发生时，静态规则越来越无法在各个渠道和地点之间高效分配稀缺资源。因此，管理者应更加重视构建支持实时库存可见性、节点间协调和动态再平衡决策的数据基础设施。同时，与完美信息模型相比存在的差距表明，运营卓越仍依赖于在预测质量、流程标准化和基于情景的压力测试方面的额外投资。因此，主要的管理启示是，人工智能并不能消除不确定性，但结构合理的层次化决策系统可以帮助组织更有效地吸收不确定性，并将网络灵活性转化为可衡量的经济和服务收益。

所提出的HRL框架的一个重要方面是，其决策结果可以以熟悉的运营控制方式来解释，而不仅仅是黑箱计算结果。层次结构自然地映射到零售实践中观察到的决策层。特别是，管理者层面的政策可以解释为设定战术指导方针，例如店铺的目标库存位置、补货流量的强度以及跨地点的转运能力分配。实际上，这些信号定义了在计划周期内库存应在网络中如何分布。而工人层面的政策则可以解释为将这些指导方针转化为日常配送行动的运营执行机制，包括在线订单路由和通过转运进行本地库存再平衡。从管理角度来看，这种分离使决策者能够理解系统的“设定目标”（规划层）和“如何实现这些目标”（执行层）。因此，通过随时间监控这些信号，管理者还可以洞察系统如何动态地优先处理本地与中心配送、如何应对需求冲击，以及如何利用可用容量来维持服务水平。

**6.2 限制与未来研究方向**
本研究的局限性在于一些为保持分析重点和实施可行性而有意做出的建模和架构选择。首先，所提出的HRL-PPO框架依赖于前馈多层感知器（MLPs）来处理所有参与者和评估者。尽管这种选择适合于验证层次化控制逻辑的可行性和性能，但它并没有涵盖所有可能与该问题概念结构相匹配的求解器架构。特别是，由于该方案与封建强化学习的逻辑密切相关，未来的研究可以探讨最近提出的封建神经网络（NN）架构是否能在大规模全渠道环境中提供更好的层次化表示、信用分配和可扩展性。其次，当前的模型假设产品和渠道之间的货币单位是相同的，因此分析主要集中在网络的物流和配送复杂性上，而非内生定价的差异性。虽然这一假设有助于隔离层次化控制的运营价值，但它忽略了现实中利润率、降价政策、渠道特定价格和促销干预措施可能因产品而异的重要因素。因此，将模型扩展到包含动态定价和异质收入结构将是一个有价值的方向，以评估定价政策如何与抗冲击能力和库存韧性相互作用。

第三，尽管该研究通过统一和Merton类型的流程考虑了混合型和完全由冲击驱动的需求情况，但这些规范仍然是对需求行为的简化近似；在现实中，某些产品可能会表现出比当前实验中更强烈、不对称或持续时间更长的需求峰值。同样，模拟器中嵌入的预测层被刻意简化并通过指数平滑进行校准，因此报告的韧性收益应被视为基于所采用的预测模型的条件，而不是完全独立于预测假设的。第四，当前模型采用了未满足需求的销售损失设定，没有考虑订单积压的情况。虽然这种假设在最近的全渠道库存研究中很常见，并且支持一个可行且易于实施的决策环境，但它忽略了延迟配送或基于积压的服务在零售环境中的可能性。放宽这一假设将需要一个明确的机制来跟踪、优先处理和满足跨期和渠道的待处理需求，从而增加状态转换的复杂性和有效的决策空间。因此，未来的研究可以探讨在现有框架基础上扩展以支持订单积压的能力，以及损失销售、积压和需求替代之间的权衡，以评估其对服务水平、库存效率和配送性能的影响。

另一个限制涉及数值评估的实证基础。尽管实验设计是有意围绕受控的全渠道场景构建的，以便在不同的容量和需求条件下进行对比性政策分析，但报告的发现仍然基于模拟环境，而非针对特定零售企业的案例研究。虽然这种设计适合于隔离所提出框架的行为效应，但它并不能提供与实际应用相同的实证精确度。因此，未来的研究应通过基于实际零售数据的案例研究来进一步专门化和验证所提出的框架。

关于为解释目的引入的TSCR指标，应将其视为一个简洁的描述性指标，而不是经过统计验证的解释性构建。尽管它有助于总结实验中观察到的某些容量方面的关系，但它并未包含分析中变化的所有结构驱动因素，也没有与替代的综合指标进行对比。最后，建模框架采用集中式决策架构，这是合理的，因为所研究的全渠道环境是在零售商集中控制下制定的，具有较高的透明度和FC（配送中心）与店铺之间的信息共享。虽然这一假设适合于检验在共同网络可见性下的层次化协调的运营价值，但它忽略了局部节点可能在信息部分透明、权力分散或激励冲突的情况下运作的情形。在这种情况下，所提出的控制逻辑的有效性还将取决于信息共享、沟通和协调机制的设计。因此，在集中训练、分散执行（CTDE）范式下，多智能体框架是一个重要的研究方向，特别是在局部自治性、组织分散或计算分解更为突出的全渠道环境中。

**7. 结论性评论**
本研究开发并评估了一个适用于在随机需求和冲击条件下的全渠道供应链（SCs）的集中式HRL框架。通过明确区分每周的补货和分配决策与日常配送和横向再平衡决策，所提出的HRL-PPO方案捕捉到了全渠道运营的自然多时间尺度特性。实验结果表明，这种层次化时间结构在不同网络规模、业务场景和需求配置下，相对于平坦的PPO和基于规则的启发式方法具有持续的优势，尤其是在需求冲击与库存和配送能力限制同时发生时。同时，与完美信息模型的比较也确认了所提出的方法在现实中仍然是次优的，但在不确定性情况下仍能回收相当大的可获取价值。总体而言，这项研究通过表明层次化学习不仅是一个计算上可行的解决方案，而且是一种有助于提高复杂全渠道供应链中韧性、服务绩效和成本效率的管理上有意义的控制范式，为不断发展的AI驱动零售运营研究做出了贡献。

热点排行