《Sensors》:A Perceptual Rate Control Algorithm Based on JND for Screen Content Video
编辑推荐:
现有视频编码标准中的码率控制算法默认定向于自然视频。然而,计算机生成的屏幕内容视频(Screen Content Video, SCV)与摄像机采集的自然视频存在显著差异,具有锐利的边缘、纤细的线条和平坦区域等多种不同的统计特性,这将导致人类视觉系统(Huma
现有视频编码标准中的码率控制算法默认定向于自然视频。然而,计算机生成的屏幕内容视频(Screen Content Video, SCV)与摄像机采集的自然视频存在显著差异,具有锐利的边缘、纤细的线条和平坦区域等多种不同的统计特性,这将导致人类视觉系统(Human Visual System, HVS)在观看屏幕内容视频时的关注点有所不同。特别是在智能显示终端、工业监控和人机交互界面等各类传感器数据可视化应用中,屏幕内容视频承载着由图像传感器、视觉传感器和多模态传感器采集并重构的关键信息,其边缘结构和局部细节直接影响传感器信息的解读精度与应用可靠性。因此,研究融合视频内容特性与人类视觉感知属性的感知码率控制方法具有重大的理论意义与实践价值。本文提出了一种面向屏幕内容视频、基于最小可觉差(Just-Noticeable Distortion, JND)的感知码率控制算法,该算法建立在边缘轮廓可容忍变化重构的基础之上。首先,帧级与CTU(Coding Tree Unit)级的目标码率分配基于由JND因子和重构边缘特征计算所得的感知权重。其次,在JND模型的约束下,建立帧内率失真(Rate-Distortion, RD)模型,并将参考帧与重构帧之间的相似性作为反馈纳入该模型。最后,将所提出的码率控制算法(JND–感知码率控制,JND–perceptual rate control, JND-PRC)集成至高效率视讯编码–屏幕内容编码(High-Efficiency Video Coding–Screen Content Coding, HEVC-SCC)现有的码率控制框架中,以提升编码效率。实验结果表明,与平台相比,所提算法实现了更优的码率控制精度,同时改善了屏幕内容视频的R-D(Rate-Distortion)性能。特别地,与HEVC-SCC参考软件相比,编码性能平均提升3.09 dB,码率平均节省26.51%,平均码率失配控制在1.159%以内。
**研究背景与问题提出**
随着多媒体通信与计算机技术的快速发展,计算机生成的屏幕内容视频(Screen Content Video, SCV)日益普及。尤其在智能传感技术大规模普及的背景下,屏幕内容视频已成为图像传感器、视觉传感器网络及工业监控传感器采集、传输与可视化数据的核心载体。近年来,屏幕内容视频应用逐渐渗透日常生活及各类基于传感器的场景,如依赖视觉传感器进行图像采集的视频会议、涉及教学内容屏幕共享与传感设备传输的在线教育、通过传感器网络实时截屏推送的游戏直播,以及由图像传感器将现场数据转换为屏幕内容视频进行实时传输的工业监控等。
与传统摄像机采集的视频不同,屏幕内容视频具有众多独特属性:在空间域上,屏幕内容视频包含大量平坦区域、重复模式、锐利边缘和有限的颜色种类;在时间域上,由于不受摄像机物理限制,相邻帧可能完全不同,即存在突变帧和静止帧。这一特性导致屏幕内容视频在传感器网络传输过程中出现码率波动,增加了低功耗传感器节点的能耗负担。然而,传统视频编码标准默认定向于自然视频特性设计。针对这些特征,视频编码标准已从高效率视讯编码(High-Efficiency Video Coding, HEVC)扩展出HEVC-SCC标准,增加了帧内块复制(Intra Block Copy, IBC)、调色板模式(Palette Mode, PLT)、自适应颜色变换(Adaptive Color Transform, ACT)和自适应运动矢量分辨率(Adaptive Motion Vector Resolution, AMVR)四种先进编码工具以提升屏幕内容视频编码效率。但上述改进均集中于编码层面,码率控制方面仍有待进一步优化。
码率控制(Rate Control, RC)是编码器的重要组成部分,有利于高效利用带宽资源并提升传输效率。码率控制主要建立码率R与量化参数(Quantization Parameter, QP)之间的数学模型,确保编码码率与目标码率匹配。一般而言,码率控制包含两个核心步骤:首先是比特分配,采用分层编码结构分别为图像组(Group of Pictures, GOP)、帧和编码树单元(Coding Tree Unit, CTU)分配合适的码率;其次是比特控制,通过建立率失真(Rate-Distortion, RD)模型调整编码参数,使实际码率接近预分配码率。随着HEVC编码结构日益灵活、编码工具日趋多样化,RD模型的精度要求更高。R-模型(R-λ model)已取代R-Q模型(R-Q model)成为编码标准中的默认RD模型,但该模型仍存在忽视视频内容特性和人类视觉系统特性等不足。
针对上述问题,众多学者提出了改进算法。有研究以绝对变换差之和(Sum of Absolute Transform Differences, SATD)替代平均绝对差(Mean Absolute Difference, MAD)指导CTU级比特分配;有学者提出高阶率失真模型及相应量化参数决策方案;也有研究利用自适应Canny边缘检测器和双阈值方案提取视频序列的空时内容复杂度,提出帧级目标比特分配方法。然而,上述码率控制方法均未充分考虑视频编码的主观感知性能。部分研究基于结构相似性heer.取性,探讨了联合运动补偿模块等等均与速率失真的新策略的设计及实现流程、由具体而言,虽然存在基于结构相似性指数(Structural Similarity Index, SSIM)、感兴趣区域(Region of Interest, ROI)、视觉显著性等感知码率控制方法,但这些方法均针对传统自然内容视频。另有学者针对屏幕内容视频特性改进码率控制算法,如采用预分析程序获取表征屏幕内容视频复杂度的内容信息以指导帧级目标比特分配,或根据运动和纹理特性依次分配帧级和CTU级比特,或建立考虑屏幕内容编码独特帧内预测模式的基于视频内容的帧内R-D模型等。但现有屏幕内容编码码率控制方法均未考虑视频的感知特性。
基于此,研究人员结合传感器应用场景的实际需求,考虑到人类视觉系统对屏幕内容视频边缘特征(如文本和图形)的关注,以及亮度、对比度和结构信息对视频编码视觉质量的影响,提出了一种面向屏幕内容视频、基于最小可觉差(Just-Noticeable Distortion, JND)的感知码率控制算法。
**关键技术方法**
研究人员所用的主要关键技术方法包括:基于像素域JND模型的边缘参数建模与重构技术,用于提取屏幕内容视频的边缘特征并计算可见性阈值;基于边缘特征因子和JND因子的感知权重分配技术,用于帧级和CTU级的目标比特分配;基于结构相似性指数(Structural Similarity Index, SSIM)反馈的感知R-λ模型参数估计与更新技术,用于在JND约束条件下构建和优化感知率失真模型。实验采用JCT-VC会议推荐的屏幕内容视频测试序列,包括文本图形运动类(Text and Graphics with仍有T)、混合内容类(Mixed content, M)和动画类(Animation, A),格式为YUV444,统一选取160帧作为测试序列,编码结构为低延迟B帧(Low Delay B, LDB),初始QP分别设为22、27、32和37以获取四个目标码率。
**研究结果**
**JND模型构建与感知特征提取**
研究人员首先构建了面向屏幕内容视频的JND模型。最小可觉差指低于HVS最小可见阈值、无法被人类视觉系统感知的像素级变化。边缘是人类眼睛能够感知的重要特征,屏幕内容视频包含大量比自然视频更纤细的边缘特征(如文本、图表边框等)。研究人员采用像素域JND模型,通过高斯函数平滑单位阶跃边缘模型,将任意边缘轮廓分解为由参数b、c和w控制的亮度、对比度和结构三个维度,分别对应亮度适应、对比度掩蔽和边缘结构。为检测二维边缘,研究人员使用二维高斯函数在x和y方向的偏导数,通过平滑梯度方向等于边缘方向的性质计算边缘参数。
在掩蔽效应方面,研究人员针对屏幕内容视频特性进行专门设计。亮度适应方面,由于屏幕内容视频区域包含较大均匀平坦区域和锐利边缘,需将边缘像素与图像区域像素分离,采用不同方式测量亮度掩蔽:非边缘像素集在5×5窗口内计算背景亮度(边缘像素除外),边缘像素集则沿边缘轮廓计算平均亮度。边缘对比度方面,采用经实验验证有效的对比度掩蔽效应函数,考量HVS对正负对比度增量变化的非对称敏感性。边缘结构失真敏感性方面,研究边缘宽度w反映的边缘轮廓结构与图像锐度/模糊度,探讨相对变化的可见性阈值JND_S。
最终JND模型涵盖像素分类、多维掩蔽效应计算和最终阈值融合。模型将像素分为边缘像素集和非边缘像素集:非边缘像素仅考虑亮度适应掩蔽阈值;边缘像素则融合亮度适应、边缘对比度和结构敏感性三个可见性阈值,通过非线性可加性掩蔽模式(Nonlinear Additivity Masking Model, NAMM)融合非结构失真敏感性阈值和结构失真敏感性阈值,得到边缘像素JND因子。该多因素、边缘感知模型使其适用于兼具平坦区域和锐利边缘的屏幕内容视频。
**基于JND的感知码率控制算法**
研究人员提出的JND-PRC算法框架包含五个顺序处理步骤:预分析阶段计算全帧JND图和边缘特征系数;基于JND加权感知重要性实现GOP和帧级目标比特分配;引入块级JND权重进行CTU级目标比特分配;以SSIM为反馈迭代估计R-λ模型参数;由感知拉格朗日乘子λ
p导出最终量化参数QP。
在感知比特分配方面,帧级通过考虑边缘特征因子计算当前编码帧在GOP中的感知权重进行码率分配;CTU级除考虑边缘特征因子外,还纳入块间JND因子差异,通过边缘特征感知因子定义当前块复杂度权重,将CTU分为复杂、连续和简单块并赋予不同权重因子,最终结合JND权重计算CTU目标比特——JND阈值越大,表示当前CTU可容忍的失真程度越大,分配目标比特越小。
在参数估计与更新方面,研究人员提出基于JND感知码率控制模型的参数估计方法。感知码率控制模型参数α
p和量化参数λ
p的计算引入当前编码帧的平均可见性阈值因子β
p,该因子基于人眼可感知的失真相似性(以SSIM度量参考帧与重构帧的相似度)进行计算,进而通过拉格朗日参数获得量化参数。
**实验结果分析**
**码率精度比较**:比特是评估视频编码码率控制算法的重要指标,其值越小表示目标码率达成越精确。研究人员将所提算法与HEVC-SCC原始码率控制在不同分层比特分配条件下(分层比特分配设为0、1、2,分别命名为SCM-8.0-NH、SCM-8.0-H、SCM-8.0-A)进行比较。结果表明,所提算法在大多数测试视频中平均BRM均小于SCM-8.0,分层比特分配为0、1、2时平均码率误差分别为1.528%、2.370%和1.159%,整体实现了更优的码率控制精度。
**率失真性能**:采用Bj?ntegaard-Delta比特(BD-BR)和Bj?ntegaard-Delta峰值信噪比(BD-PSNR)指标评估。与SCM-8.0-NH相比,JND-PRC-NH平均BD-PSNR为4.07 dB;与SCM-8.0-H相比,JND-PRC-H平均BD-PSNR为3.05 dB;与SCM-8.0-A相比,JND-PRC-A平均BD-PSNR为3.09 dB。不同类型屏幕内容视频中,文本图形运动类(TGM)在相同比特率下平均质量提升最高,达4.42 dB。对应BD-BR分别为-34.45%、-28.18%和-26.51%。R-D曲线进一步验证了JND-PRC优于SCM-8.0的编码性能。
与Yang等人和Lin等人的方法对比显示,以SCM-8.0-H为参考锚点时,JND-PRC平均BD-PSNR分别超出文献方法2.18 dB和1.15 dB,平均BD-BR降低21.53%。但在Console、MissionControl2和Robot等特定序列上,JND-PRC的BD-YPSNR增益低于文献方法,表明边缘感知方法与时域统计方法在屏幕内容码率控制中具有互补优势。
**视觉质量性能**:在QP=32条件下对"BasketballScreen"和"Desktop"的首帧重构图像进行视觉质量比较,结果表明所提JND-PRC算法在图像区域和文本区域的主观质量均优于SCM 8.0。
**讨论与局限性分析**
研究人员分析了JND-PRC与VVC/VTM的兼容性及特定测试序列的性能局限。JND-PRC的核心设计与VVC兼容:基于像素级边缘特征和人类视觉特性的JND模型无需修改即可迁移;帧级和CTU级比特分配遵循VVC采用的GOP-帧-CTU分层结构,感知权重可直接集成;VVC保留的HEVC R-λ模型使基于D
p反馈的λ
p和QP优化可在该框架下工作。
与Lin等人方法相比,JND-PRC在特定序列上BD-YPSNR增益较低的原因在于:Console序列运动缓慢、帧变化微弱,边缘特征因子变化小,削弱了感知权重判别力;MissionControl2中平坦区域与纹理区域JND阈值差异不显著,影响CTU级比特分配;Robot具有大面积平坦区域和简单边缘,有效边缘信息不足导致自适应比特分配性能下降。这些结果揭示了当前JND-PRC模型在处理低运动、低纹理、简单内容屏幕视频时的局限性。相比之下,Lin等人提出的时空特征模型利用多帧时域相关性分析,在处理此类屏幕视频时具有优势。未来计划引入该时空特征模型作为预处理阶段,与JND模型在感知优化阶段融合,并迁移至VVC标准进行性能验证与泛化增强。
**结论**
本文面向视觉传感器和图像传感器网络采集的屏幕内容视频应用场景,提出了一种基于人类视觉系统最小可觉差(JND)的屏幕内容视频感知码率控制模型。利用边缘模型提取传感器采集的屏幕内容视频边缘,根据边缘亮度适应、对比度掩蔽效应和边缘结构敏感性进行边缘重构,提取视频感知特征;将提取的边缘因子和最终JND模型用于感知复杂度分类,在帧级和CTU级进行目标比特分配;然后基于参考帧与其重构视频帧的边缘相似性,在JND约束条件下构建感知码率控制模型。大量实验结果表明,所提算法在屏幕内容视频编码中实现了优异的率失真性能。
未来工作将聚焦于四个方面:引入帧间感知权重以专门处理屏幕滚动、窗口滑动等场景,抑制编码闪烁伪影;开展计算复杂度定量分析以验证其在低功耗传感终端的部署可行性;优化JND模型在低运动、低纹理和简单内容场景下的局限性;将所提算法迁移至新VVC编码框架以验证其通用性。