面向融合毫米波-无源光网络开放无线接入网的切片感知与计算高效资源编排：一种用于联合动态带宽分配和物理资源块分配的奖励塑形近端策略优化方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Telecom》：Slice-Aware and Computationally Efficient Resource Orchestration for Converged mmWave–PON O-RAN: A Reward-Shaped PPO Approach for Joint DBA and PRB Allocation

【字体：大中小】 时间：2026年06月10日 来源：Telecom 2.4

编辑推荐：

　　在开放无线接入网（O-RAN）架构下，融合毫米波（mmWave）无线接入与无源光网络（PON）前传为超5G和6G系统带来了前所未有的容量。然而，当前PON中的动态带宽分配（DBA）和mmWave RAN中的物理资源块（PRB）调度独立运行，这是一个关键的设计缺

在开放无线接入网（O-RAN）架构下，融合毫米波（mmWave）无线接入与无源光网络（PON）前传为超5G和6G系统带来了前所未有的容量。然而，当前PON中的动态带宽分配（DBA）和mmWave RAN中的物理资源块（PRB）调度独立运行，这是一个关键的设计缺陷，导致严重的延迟累积、资源碎片化，并持续无法满足网络切片的差异化服务质量要求。本文打破了这一僵局，提出了首个切片感知、计算高效的编排框架，在融合的mmWave-PON O-RAN中联合优化DBA和PRB分配。研究人员将问题表述为一个受约束的马尔可夫决策过程（CMDP），并针对超可靠低延迟通信（URLLC）、增强移动宽带（eMBB）和大规模机器类通信（mMTC）切片设定了明确的延迟、可靠性和吞吐量约束。核心技术进展是一种奖励塑形近端策略优化（RS-PPO）算法，其基于势能的塑形函数直接惩罚DBA-PRB错配，并在队列积压时提供密集反馈，从而在不牺牲最优性的前提下加速学习。为了在O-RAN RIC上实现近实时运行，研究人员嵌入了三种互补的效率增强机制：图卷积网络（GCN）状态抽象、动作掩码和优先化N步回放。符合3GPP标准的广泛仿真表明，RS-PPO将URLLC端到端延迟降低了37%（从1.38 ms降至0.87 ms），将PRB利用率提高了28%（从68%提升至87%），实现了99.999%的可靠性，同时收敛速度加快45%，推理时间缩短45%（仅需2.3 ms）。最终实现了低于5 ms的控制周期，兼容O-RAN规范，并可部署为近实时RIC上的xApp。该框架弥补了先前工作中长期存在的协调缺口，实现了光域与无线域之间真正的切片感知融合。

### 论文解读：面向融合毫米波-无源光网络开放无线接入网的切片感知与计算高效资源编排

#### 研究背景与问题

随着5G演进至6G，超可靠低延迟通信（URLLC）、增强移动宽带（eMBB）和大规模机器类通信（mMTC）等多样化业务对网络容量、延迟和可靠性提出了严苛要求。毫米波（mmWave）频段（24–100 GHz）提供大带宽，但存在路径损耗大、易受阻挡等问题，需密集部署小基站。无源光网络（PON）因其高带宽、低功耗和点对多点拓扑成为前传的优选方案。开放无线接入网（O-RAN）架构通过接口标准化和智能控制器（RIC）实现灵活编排。然而，在融合mmWave-PON的O-RAN系统中，PON中的动态带宽分配（DBA）与mmWave RAN中的物理资源块（PRB）调度独立运行，导致三个关键问题：延迟累积（DBA调度延迟叠加无线传输延迟）、资源碎片化（PRB分配给ONU上行授权不足的RU）以及授权利用率不足（DBA授权的ONU在后续传输时间间隔内无业务）。网络切片进一步放大这些问题：URLLC要求亚毫秒延迟和99.999%可靠性，eMBB要求高速率，mMTC要求海量连接。现有研究要么忽略PON约束（如DORA框架、PandORA系统），要么依赖启发式协调（如合作传输接口CTI方案），缺乏统一、切片感知、计算高效的联合优化框架。因此，需要一种能够在近实时控制周期（<5 ms）内联合协调DBA和PRB分配的强化学习方案。

#### 研究内容与结论

本文提出了一种切片感知、计算高效的资源编排框架，将联合DBA-PRB分配问题建模为受约束的马尔可夫决策过程（CMDP），并设计奖励塑形近端策略优化（RS-PPO）算法。通过潜在奖励塑形函数显式惩罚DBA-PRB错配和队列积压，加速收敛。结合图卷积网络（GCN）状态抽象、动作掩码和优先化N步回放三种效率增强技术，实现近实时推理。在符合3GPP标准的仿真中，RS-PPO将URLLC端到端延迟降低37%（从1.38 ms降至0.87 ms），PRB利用率提升28%（从68%提升至87%），实现99.999%可靠性，且收敛速度加快45%，推理时间减少45%（至2.3 ms），满足亚5 ms控制周期要求。该框架发表于《Telecom》。

#### 主要关键技术方法

研究采用了以下关键技术方法：1）受约束马尔可夫决策过程（CMDP）建模，显式定义URLLC、eMBB、mMTC切片的延迟、可靠性和吞吐量约束。2）奖励塑形近端策略优化（RS-PPO）算法，基于势能函数设计惩罚项，包括队列长度惩罚和DBA-PRB错配惩罚，在不改变最优策略的前提下提供密集反馈。3）图卷积网络（GCN）进行状态抽象，将RU图结构（邻接矩阵）与特征（信噪比SINR、ONU队列长度）压缩为低维潜在表示。4）动作掩码：推理时禁用不可行动作（如重复分配PRB、超限授权），减小搜索空间。5）优先化N步回放（Prioritised N-step Replay）：基于时序差分（TD）误差对经验采样，结合N步返回降低偏差。仿真基于OMNeT++ 6.3.0与Simu5G框架，采用3GPP TR 38.901城市微蜂窝（UMi）信道模型，GPON前传（2.488 Gbps上行速率，125 μs DBA周期），含5个URLLC UE、20个eMBB UE、100个mMTC UE。离线训练后在近实时RIC上执行推理。

#### 研究结果

**URLLC延迟性能**：通过仿真对比归一化业务负载下的平均端到端延迟，RS-PPO在所有负载水平下延迟最低。标称负载下延迟为0.87 ms，相比解耦基线（1.38 ms）降低37%，且满足99.999%可靠性（仅0.001%包超1 ms）。结果证明联合DBA-PRB优化显著降低URLLC延迟。

**eMBB切片的PRB利用率**：标称负载下RS-PPO达到87%的PRB利用率，相比解耦基线（68%）提升28%。在高负载（1.8）下仍维持95%。提升源于联合优化避免了将PRB分配给ONU上行授权不足的RU，减少资源碎片。

**训练收敛速度**：累积奖励随训练回合变化，RS-PPO在3200回合达到90%最终奖励，而标准PPO需5800回合，训练时间减少45%。奖励塑形项提供密集反馈，引导智能体高效满足服务质量（QoS）要求，且最终奖励值相近，表明未影响最优策略。

**多指标性能对比**：雷达图显示RS-PPO在延迟、利用率、收敛速度、可靠性四项指标最优，推理时间仅次于启发式方法（本身体量小），综合性能全面超越解耦基线、合作DBA和标准PPO。

**计算开销**：推理时间从标准PPO的4.2 ms逐步降至完整RS-PPO的2.3 ms（降低45%），得益于GCN状态抽象、动作掩码和优先化回放的叠加效果，完全满足10 ms控制周期要求，安全裕度充足。

**对移动性和动态阻挡的鲁棒性**：在未重新训练的情况下，静态策略迁移至UE移动（0–30 km/h随机路点）和动态阻挡场景。UE移动下URLLC延迟升至0.94 ms（仍<1 ms），可靠性保持99.998%；动态阻挡下延迟0.91 ms，可靠性99.999%。eMBB吞吐量分别下降8%和4%，PRB利用率小幅降低。表明策略泛化能力强，可适应环境变化。

#### 总结讨论与结论

讨论部分：研究通过仿真验证了RS-PPO框架在融合mmWave-PON O-RAN中协调DBA和PRB分配的有效性，填补了光域与无线域缺少统一切片感知协调的空白。与传统解耦或启发式方法相比，该方案同时改善延迟、资源利用率和可靠性，且保持低推理开销，适合近实时RIC部署。鲁棒性测试进一步证实策略对移动性和动态阻挡具有良好泛化性。

结论翻译：本文提出了一种面向融合毫米波-无源光网络开放无线接入网（mmWave-PON O-RAN）系统的切片感知、计算高效资源编排框架。联合动态带宽分配（DBA）和物理资源块（PRB）分配问题被建模为受约束的马尔可夫决策过程（CMDP），并开发了奖励塑形近端策略优化（RS-PPO）算法。基于势能的奖励塑形函数惩罚DBA-PRB错配和队列积压以加速收敛。通过图卷积状态抽象、动作掩码和优先化N步回放提升了计算效率。仿真表明，RS-PPO将URLLC延迟降低37%，PRB利用率提升28%，训练收敛速度加快45%，推理时间减少45%，同时维持99.999%可靠性并满足严格的URLLC延迟（1 ms）、可靠性（99.999%）和eMBB吞吐量（100 Mbps）约束。该框架兼容O-RAN标准，可部署为近实时RIC上的xApp。未来工作将扩展至多PON拓扑、探索元学习以适应非平稳切片混合，并实现基于FPGA的亚毫秒推理。

联系信箱：

粤ICP备09063491号

热点排行