基于带集成媒体转码加速器(Media Transcode Accelerator)的服务器CPU进行UHD(超高清)视频编码——一项基于实测的率失真(Rate–Distortion, RD)与吞吐量(Throughput)研究

《Digital Signal Processing》:UHD Video Encoding on a Server CPU with an Integrated Media Transcode Accelerator: A Measurement-Based Rate-Distortion and Throughput Study

【字体: 时间:2026年04月03日 来源:Digital Signal Processing 3

编辑推荐:

  研究人员在搭载Intel Xeon 6(Granite Rapids-D)SoC、片上集成Media Transcode Accelerator并通过VAAPI(Video Acceleration API)暴露接口的服务器平台上,采用统一FFmpeg工作流对

  
研究人员在搭载Intel Xeon 6(Granite Rapids-D)SoC、片上集成Media Transcode Accelerator并通过VAAPI(Video Acceleration API)暴露接口的服务器平台上,采用统一FFmpeg工作流对比CPU端软件编码器(libx264、libx265、libaom-av1)与VAAPI硬件卸载编码器(h264_vaapi、hevc_vaapi、av1_vaapi)在4K(UHD, 3840×2160)UVG数据集、共同码率阶梯(CBR, 3–40 Mb/s)及对齐编码配置下的表现。研究人员通过PSNR-Y、MS-SSIM及VMAF三项全参考质量指标计算Bj?ntegaard Delta Rate(BD-Rate),并结合单路逐帧延迟(ms/frame)、高并发多路吞吐量(fps)、Intel RAPL测得的每帧能耗(J/frame)、单位功率吞吐量(fps/W)及每路实时等效4K50流功耗(W/RT-stream)进行系统级量化。结果表明:H.264/AVC的集成媒体引擎与libx264率失真接近(平均BD-Rate(PSNR-Y)≈+11.9%),单流延迟相当,主要价值在于释放通用CPU核;H.265/HEVC媒体引擎较libx265平均BD-Rate(PSNR-Y)≈+33.8%,但单流编码时间缩短约3.1倍,100路并发4K HEVC编码时吞吐量提升约5.4倍、每帧能耗减半、每路实时流功耗由32.2 W降至15.7 W;AV1媒体引擎较libaom-av1平均BD-Rate(PSNR-Y)≈+149.8%,但单流延迟由约857 ms/frame降至约15 ms/frame(提速约56倍),20路并发时吞吐量提升约52倍、单位帧能耗及每路实时流功耗均大幅优于CPU基线。研究证明服务器级CPU片内集成媒体转码加速器在高密度UHD监控与归档场景中,以可接受码率开销换取显著通道密度与能效提升,填补了CPU纯软编与离散加速器之外架构点的实测空白。
论文解读:《基于带集成媒体转码加速器(Media Transcode Accelerator)的服务器CPU进行UHD视频编码——一项基于实测的率失真与吞吐量研究》
该论文发表于《Digital Signal Processing》。
研究背景与问题提出
UHD(Ultra High Definition, 3840×2160)视频已在监控、云存储及边缘分析中普及,HD向4K升级使编码像素率增大约4倍,显著放大通用CPU上编码器计算需求(运动估计、模式决策、码率控制)及下游存储与传输成本。传统UHD编码部署分三类:通用CPU运行x264/x265/libaom-av1等成熟软编码器(可配性强、率失真(Rate–Distortion, RD)优但占核多);离散GPU/VPU卸载(吞吐量高但存PCIe开销与设备管维负担);专用编码ASIC(广播领域)。近期服务器级CPU SoC(如Intel Xeon 6/Granite Rapids-D)开始在片内集成Media Transcode Accelerator(媒体转码加速器),经VAAPI(Video Acceleration API)暴露,相较外部加速器可减少PCIe流量并简化部署,形成"CPU纯软编—片内固定功能加速—外挂离散加速器"间独特架构设计点。硬件编码器通常通过VAAPI暴露较少调优参数、编码工具子集受限,优化目标为吞吐量与确定性而非绝对RD性能,UHD下量化其目标质量下的码率溢价(BD-Rate)、高并发扩展及能耗特性十分必要。监控与归档后端常需单机柜数十至上百路4K通道,软编码器竞争缓存/内存带宽且尾延迟受排队效应主导,片内媒体引擎专为高并发设计但其在真实4K负载下的质量、码率控制行为、能效及与同Socket上CPU负载的交互仍缺乏公开实测。本文即以Xeon 6 SoC为对象,实测对比软硬路径RD、延迟、多流吞吐与能耗,服务高密度UHD场景容量规划。
研究人员选用Intel Xeon 6(Granite Rapids-D)单路2U服务器(36物理核/72线程,双片内媒体加速核,64 GB DDR5,1 TB NVMe SSD,Ubuntu 24.04 LTS,FFmpeg 7.0.1),以UVG 4K数据集16条序列(3840×2160,50/120 fps,未压缩YUV 4:2:0)为输入,对三编组编码器——libx264 vs h264_vaapi(H.264/AVC)、libx265 vs hevc_vaapi(H.265/HEVC)、libaom-av1 vs av1_vaapi(AV1)——实施统一CBR码率阶梯(3, 6, 8, 10, 12, 16, 20, 28, 40 Mb/s)、GOP≤120、2个B帧、匹配VBV缓冲,CPU单流绑定36个逻辑CPU、媒体引擎单流用单加速核(多流实验启用双核)。质量评价采用PSNR-Y(亮度分量峰值信噪比)、MS-SSIM(多尺度结构相似性)与VMAF(Video Multi-Method Assessment Fusion,Netflix模型),BD-Rate基于Akima分段三次插值于log10(码率)–质量域计算(有界指标VMAF先做logit变换),单流记录墙上时间得ms/frame,多流(RaceNight序列,4K@50 fps,600帧)并行N路测总完成时间得聚合吞吐量(fps)及等效4K50实时通道数,通过Intel RAPL(Running Average Power Limit)读取Package域起止能耗得平均封装功率、每帧能量(J/frame)、吞吐量每瓦(fps/W)及每路实时4K50流功耗(W/RT-stream)。
主要关键的技术方法简述
研究人员搭建Xeon 6(Granite Rapids-D)单Socket测试平台,采用UVG 4K十六段未压缩YUV 4:2:0序列为样本队列;对H.264/AVC、H.265/HEVC、AV1分别选取libx264(libx264 medium)、libx265(libx265 medium)、libaom-av1(cpu-used=4)为CPU软编基线,对应VAAPI路径为h264_vaapi、hevc_vaapi(compression_level=3)、av1_vaapi(compression_level=2);所有编码器统一8 bit 4:2:0输入、Random Access配置(GOP max 120帧,2 B帧)、CBR率控与相同码率阶梯(3–40 Mb/s)及VBV参数;单流CPU进程绑36逻辑CPU、媒体引擎单流启单加速核(多流启双核),主机侧进程隔离绑核防干扰;逐序列解码校验帧数与格式后算PSNR-Y、MS-SSIM、VMAF均值,以Akima插值算BD-Rate(含VMAF logit预处理);单流测墙上时间得ms/frame,多流(N=100路HEVC,N=20路AV1)测总makespan得聚合吞吐与实时等效通道数;通过RAPL Package域采样始末能耗得平均功率并衍生J/frame、fps/W、W/RT-stream。
研究结果
4.1 Quality Evaluation and BD Methodology
研究人员定义RD比较框架:以(log10R, Q)域Akima分段三次插值算BD-Rate,VMAF经QVMAF=10log10(v/(100?v+ε))映射后参与插值,限定锚点与待测编码器共有质量重叠区间积分,正值代表待测编码器需更多码率达同等质量。
4.2 H.264/AVC Encoders: libx264 vs. h264_vaapi
对UVG十六序列,h264_vaapi相对libx264平均BD-Rate(PSNR-Y)≈+11.89%、BD-Rate(MS-SSIM)≈+16.35%、BD-Rate(VMAF)≈+16.38%;低运动/中纹理内容(如Twilight、CityAlley)可出现负BD-Rate(节省码率),高动/细纹理(ReadySteadyGo、Jockey)最高BD-Rate(PSNR-Y)逾+79%。结论:片内H.264媒体引擎RD接近软编,平均多耗10–20%码率但部分场景持平或更优,主要收益为释放CPU核供分析或存储任务,适合接受适度码率溢价换并发与系统资源优化的UHD监控归档。
4.3 H.265/HEVC Encoders: libx265 vs. hevc_vaapi
hevc_vaapi相对libx265平均BD-Rate(PSNR-Y)≈+33.80%、BD-Rate(MS-SSIM)≈+36.51%、BD-Rate(VMAF)≈+53.12%;HoneyBee等极复杂内容BD-Rate(PSNR-Y)可达+123%,Beauty/Lips近零或略负(PSNR-Y/MS-SSIM)。结论:HEVC硬件编码有内容依赖的码率溢价(典型1/3至1/2额外码率),但仍显著省存于AVC同主观质量,且换得大幅延迟缩减与并发增益,适合密度优先场景。
4.4 AV1 Encoders: libaom-av1 vs. av1_vaapi
av1_vaapi相对libaom-av1平均BD-Rate(PSNR-Y)≈+149.79%、BD-Rate(MS-SSIM)≈+186.77%、BD-Rate(VMAF)≈+166.55%;中等运动内容(RiverBank等)BD-Rate(PSNR-Y)+13%~+45%,极细/快动内容可超+400%。结论:AV1硬件加速RD差距大,但将单流延迟从≈857 ms/frame压至≈15 ms/frame(≈56倍加速),使4K AV1实时编码可行;码率敏感离线场景仍选libaom-av1,高密度实时场景倾向媒体引擎。
4.5 Single-Stream Encoding Time
H.264:libx264≈15.27 ms/frame,h264_vaapi≈15.18 ms/frame,因子≈1.01×,均低于50 fps实时预算(20 ms/frame),120 fps(8.33 ms/frame)未达标——媒体引擎主供CPU卸载。H.265:libx265≈44.35 ms/frame,hevc_vaapi≈14.18 ms/frame,因子≈3.1×,硬件满足50 fps实时而软编超预算。AV1:libaom-av1≈856.66 ms/frame,av1_vaapi≈15.22 ms/frame,因子≈56×;即便libaom-av1调快(cpu-used=6)仍≈168 ms/frame(≈11×慢于硬件)。结论:H.264近延迟持平但核释放;HEVC明显加速助实时;AV1加速幅度最大使UHD AV1实时编码成为现实。
4.6 Multi-Stream Throughput and Capacity
HEVC百路并发:libx265聚合≈46.8 fps(≈0.47 fps/流,0.94路实时等效),耗时1265 s;hevc_vaapi聚合≈254.2 fps(≈2.54 fps/流,5.08路实时等效),耗时242 s——吞吐提升≈5.4×。AV1二十路并发:libaom-av1聚合≈2.56 fps(≈0.13 fps/流),耗时4279 s;av1_vaapi聚合≈133.3 fps(≈6.67 fps/流,2.67路实时等效),耗时88 s——吞吐提升≈52.1×。能效上HEVC媒体引擎fps/W由1.55升至3.19、J/frame由0.64降至0.31、W/RT-stream由32.23 W降至15.67 W;AV1由libaom-av1之0.09 fps/W与11.45 J/frame、572.3 W/RT-stream变为av1_vaapi之1.75 fps/W、0.57 J/frame、28.62 W/RT-stream。结论:片内媒体引擎在高并发UHD编码中以可量化码率溢价换取数倍通道密度与约2倍(HEVC)至约20倍(AV1)帧级与实时流级能效改善。
4.7 Comparison with the Closest Public UHD CPU–Accelerator Study
区别于已有CPU vs 离散GPU(NVENC)UHD基准,本文靶点为同Socket内CPU核与片内媒体引擎对照,增补高并发多流通道密度与RAPL能效归一化分析,填补服务器级SoC内置媒体加速架构点实测空白。
讨论与结论翻译
研究人员得出结论:Xeon 6 SoC片内集成Media Transcode Accelerator经VAAPI卸载在UHD编码中呈现明确实用工作区——H.264/AVC率失真接近libx264,单流延迟相当,主益于CPU核释放;H.265/HEVC与AV1以可量化BD-Rate代价换取显著吞吐与能效增益,HEVC多流耗时缩约5.4倍、每帧能耗与每实时4K50流功耗约减半,AV1单流延迟降约56倍、20路并发快约52倍、能效优约20倍每帧每实时流;高密度监控与归档部署常以服务器数/机架/功耗为硬约束,此时代价可控的码率溢价换取通道密度与能效具吸引力,反之带宽严限或离线高保真优选CPU软编。本研究补充CPU vs 离散GPU基准之外架构点实测,并将统一BD-Rate+多流吞吐+RAPL能效框架扩展至片内媒体引擎评估,可为UHD服务编解码器选型与机房容量规划提供实证依据。未来工作拟纳入自研PCIe VPU做三方对照、增测VBR/CQP等率控模式、延伸至解码–处理–重编码流水线与含下游视频分析(YOLO类)端到端影响评估。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号