基于带集成媒体转码加速器(Media Transcode Accelerator)的服务器CPU进行UHD(超高清)视频编码——一项基于实测的率失真(Rate–Distortion, RD)与吞吐量(Throughput)研究

《Digital Signal Processing》：UHD Video Encoding on a Server CPU with an Integrated Media Transcode Accelerator: A Measurement-Based Rate-Distortion and Throughput Study

【字体：大中小】 时间：2026年04月03日 来源：Digital Signal Processing 3

编辑推荐：

　　研究人员在搭载Intel Xeon 6(Granite Rapids-D)SoC、片上集成Media Transcode Accelerator并通过VAAPI(Video Acceleration API)暴露接口的服务器平台上，采用统一FFmpeg工作流对

研究人员在搭载Intel Xeon 6(Granite Rapids-D)SoC、片上集成Media Transcode Accelerator并通过VAAPI(Video Acceleration API)暴露接口的服务器平台上，采用统一FFmpeg工作流对比CPU端软件编码器(libx264、libx265、libaom-av1)与VAAPI硬件卸载编码器(h264_vaapi、hevc_vaapi、av1_vaapi)在4K(UHD, 3840×2160)UVG数据集、共同码率阶梯(CBR, 3–40 Mb/s)及对齐编码配置下的表现。研究人员通过PSNR-Y、MS-SSIM及VMAF三项全参考质量指标计算Bj?ntegaard Delta Rate(BD-Rate)，并结合单路逐帧延迟(ms/frame)、高并发多路吞吐量(fps)、Intel RAPL测得的每帧能耗(J/frame)、单位功率吞吐量(fps/W)及每路实时等效4K50流功耗(W/RT-stream)进行系统级量化。结果表明：H.264/AVC的集成媒体引擎与libx264率失真接近(平均BD-Rate(PSNR-Y)≈+11.9%)，单流延迟相当，主要价值在于释放通用CPU核；H.265/HEVC媒体引擎较libx265平均BD-Rate(PSNR-Y)≈+33.8%，但单流编码时间缩短约3.1倍，100路并发4K HEVC编码时吞吐量提升约5.4倍、每帧能耗减半、每路实时流功耗由32.2 W降至15.7 W；AV1媒体引擎较libaom-av1平均BD-Rate(PSNR-Y)≈+149.8%，但单流延迟由约857 ms/frame降至约15 ms/frame(提速约56倍)，20路并发时吞吐量提升约52倍、单位帧能耗及每路实时流功耗均大幅优于CPU基线。研究证明服务器级CPU片内集成媒体转码加速器在高密度UHD监控与归档场景中，以可接受码率开销换取显著通道密度与能效提升，填补了CPU纯软编与离散加速器之外架构点的实测空白。

论文解读：《基于带集成媒体转码加速器(Media Transcode Accelerator)的服务器CPU进行UHD视频编码——一项基于实测的率失真与吞吐量研究》

该论文发表于《Digital Signal Processing》。

研究背景与问题提出

UHD(Ultra High Definition, 3840×2160)视频已在监控、云存储及边缘分析中普及，HD向4K升级使编码像素率增大约4倍，显著放大通用CPU上编码器计算需求(运动估计、模式决策、码率控制)及下游存储与传输成本。传统UHD编码部署分三类：通用CPU运行x264/x265/libaom-av1等成熟软编码器(可配性强、率失真(Rate–Distortion, RD)优但占核多)；离散GPU/VPU卸载(吞吐量高但存PCIe开销与设备管维负担)；专用编码ASIC(广播领域)。近期服务器级CPU SoC(如Intel Xeon 6/Granite Rapids-D)开始在片内集成Media Transcode Accelerator(媒体转码加速器)，经VAAPI(Video Acceleration API)暴露，相较外部加速器可减少PCIe流量并简化部署，形成"CPU纯软编—片内固定功能加速—外挂离散加速器"间独特架构设计点。硬件编码器通常通过VAAPI暴露较少调优参数、编码工具子集受限，优化目标为吞吐量与确定性而非绝对RD性能，UHD下量化其目标质量下的码率溢价(BD-Rate)、高并发扩展及能耗特性十分必要。监控与归档后端常需单机柜数十至上百路4K通道，软编码器竞争缓存/内存带宽且尾延迟受排队效应主导，片内媒体引擎专为高并发设计但其在真实4K负载下的质量、码率控制行为、能效及与同Socket上CPU负载的交互仍缺乏公开实测。本文即以Xeon 6 SoC为对象，实测对比软硬路径RD、延迟、多流吞吐与能耗，服务高密度UHD场景容量规划。

研究人员选用Intel Xeon 6(Granite Rapids-D)单路2U服务器(36物理核/72线程，双片内媒体加速核，64 GB DDR5，1 TB NVMe SSD，Ubuntu 24.04 LTS，FFmpeg 7.0.1)，以UVG 4K数据集16条序列(3840×2160，50/120 fps，未压缩YUV 4:2:0)为输入，对三编组编码器——libx264 vs h264_vaapi(H.264/AVC)、libx265 vs hevc_vaapi(H.265/HEVC)、libaom-av1 vs av1_vaapi(AV1)——实施统一CBR码率阶梯(3, 6, 8, 10, 12, 16, 20, 28, 40 Mb/s)、GOP≤120、2个B帧、匹配VBV缓冲，CPU单流绑定36个逻辑CPU、媒体引擎单流用单加速核(多流实验启用双核)。质量评价采用PSNR-Y(亮度分量峰值信噪比)、MS-SSIM(多尺度结构相似性)与VMAF(Video Multi-Method Assessment Fusion，Netflix模型)，BD-Rate基于Akima分段三次插值于log₁₀(码率)–质量域计算(有界指标VMAF先做logit变换)，单流记录墙上时间得ms/frame，多流(RaceNight序列，4K@50 fps，600帧)并行N路测总完成时间得聚合吞吐量(fps)及等效4K50实时通道数，通过Intel RAPL(Running Average Power Limit)读取Package域起止能耗得平均封装功率、每帧能量(J/frame)、吞吐量每瓦(fps/W)及每路实时4K50流功耗(W/RT-stream)。

主要关键的技术方法简述

研究人员搭建Xeon 6(Granite Rapids-D)单Socket测试平台，采用UVG 4K十六段未压缩YUV 4:2:0序列为样本队列；对H.264/AVC、H.265/HEVC、AV1分别选取libx264(libx264 medium)、libx265(libx265 medium)、libaom-av1(cpu-used=4)为CPU软编基线，对应VAAPI路径为h264_vaapi、hevc_vaapi(compression_level=3)、av1_vaapi(compression_level=2)；所有编码器统一8 bit 4:2:0输入、Random Access配置(GOP max 120帧，2 B帧)、CBR率控与相同码率阶梯(3–40 Mb/s)及VBV参数；单流CPU进程绑36逻辑CPU、媒体引擎单流启单加速核(多流启双核)，主机侧进程隔离绑核防干扰；逐序列解码校验帧数与格式后算PSNR-Y、MS-SSIM、VMAF均值，以Akima插值算BD-Rate(含VMAF logit预处理)；单流测墙上时间得ms/frame，多流(N=100路HEVC，N=20路AV1)测总makespan得聚合吞吐与实时等效通道数；通过RAPL Package域采样始末能耗得平均功率并衍生J/frame、fps/W、W/RT-stream。

研究结果

4.1 Quality Evaluation and BD Methodology

研究人员定义RD比较框架：以(log₁₀R, Q)域Akima分段三次插值算BD-Rate，VMAF经Q_VMAF=10log₁₀(v/(100?v+ε))映射后参与插值，限定锚点与待测编码器共有质量重叠区间积分，正值代表待测编码器需更多码率达同等质量。

4.2 H.264/AVC Encoders: libx264 vs. h264_vaapi

对UVG十六序列，h264_vaapi相对libx264平均BD-Rate(PSNR-Y)≈+11.89%、BD-Rate(MS-SSIM)≈+16.35%、BD-Rate(VMAF)≈+16.38%；低运动/中纹理内容(如Twilight、CityAlley)可出现负BD-Rate(节省码率)，高动/细纹理(ReadySteadyGo、Jockey)最高BD-Rate(PSNR-Y)逾+79%。结论：片内H.264媒体引擎RD接近软编，平均多耗10–20%码率但部分场景持平或更优，主要收益为释放CPU核供分析或存储任务，适合接受适度码率溢价换并发与系统资源优化的UHD监控归档。

4.3 H.265/HEVC Encoders: libx265 vs. hevc_vaapi

hevc_vaapi相对libx265平均BD-Rate(PSNR-Y)≈+33.80%、BD-Rate(MS-SSIM)≈+36.51%、BD-Rate(VMAF)≈+53.12%；HoneyBee等极复杂内容BD-Rate(PSNR-Y)可达+123%，Beauty/Lips近零或略负(PSNR-Y/MS-SSIM)。结论：HEVC硬件编码有内容依赖的码率溢价(典型1/3至1/2额外码率)，但仍显著省存于AVC同主观质量，且换得大幅延迟缩减与并发增益，适合密度优先场景。

4.4 AV1 Encoders: libaom-av1 vs. av1_vaapi

av1_vaapi相对libaom-av1平均BD-Rate(PSNR-Y)≈+149.79%、BD-Rate(MS-SSIM)≈+186.77%、BD-Rate(VMAF)≈+166.55%；中等运动内容(RiverBank等)BD-Rate(PSNR-Y)+13%~+45%，极细/快动内容可超+400%。结论：AV1硬件加速RD差距大，但将单流延迟从≈857 ms/frame压至≈15 ms/frame(≈56倍加速)，使4K AV1实时编码可行；码率敏感离线场景仍选libaom-av1，高密度实时场景倾向媒体引擎。

4.5 Single-Stream Encoding Time

H.264：libx264≈15.27 ms/frame，h264_vaapi≈15.18 ms/frame，因子≈1.01×，均低于50 fps实时预算(20 ms/frame)，120 fps(8.33 ms/frame)未达标——媒体引擎主供CPU卸载。H.265：libx265≈44.35 ms/frame，hevc_vaapi≈14.18 ms/frame，因子≈3.1×，硬件满足50 fps实时而软编超预算。AV1：libaom-av1≈856.66 ms/frame，av1_vaapi≈15.22 ms/frame，因子≈56×；即便libaom-av1调快(cpu-used=6)仍≈168 ms/frame(≈11×慢于硬件)。结论：H.264近延迟持平但核释放；HEVC明显加速助实时；AV1加速幅度最大使UHD AV1实时编码成为现实。

4.6 Multi-Stream Throughput and Capacity

HEVC百路并发：libx265聚合≈46.8 fps(≈0.47 fps/流，0.94路实时等效)，耗时1265 s；hevc_vaapi聚合≈254.2 fps(≈2.54 fps/流，5.08路实时等效)，耗时242 s——吞吐提升≈5.4×。AV1二十路并发：libaom-av1聚合≈2.56 fps(≈0.13 fps/流)，耗时4279 s；av1_vaapi聚合≈133.3 fps(≈6.67 fps/流，2.67路实时等效)，耗时88 s——吞吐提升≈52.1×。能效上HEVC媒体引擎fps/W由1.55升至3.19、J/frame由0.64降至0.31、W/RT-stream由32.23 W降至15.67 W；AV1由libaom-av1之0.09 fps/W与11.45 J/frame、572.3 W/RT-stream变为av1_vaapi之1.75 fps/W、0.57 J/frame、28.62 W/RT-stream。结论：片内媒体引擎在高并发UHD编码中以可量化码率溢价换取数倍通道密度与约2倍(HEVC)至约20倍(AV1)帧级与实时流级能效改善。

4.7 Comparison with the Closest Public UHD CPU–Accelerator Study

区别于已有CPU vs 离散GPU(NVENC)UHD基准，本文靶点为同Socket内CPU核与片内媒体引擎对照，增补高并发多流通道密度与RAPL能效归一化分析，填补服务器级SoC内置媒体加速架构点实测空白。

讨论与结论翻译

研究人员得出结论：Xeon 6 SoC片内集成Media Transcode Accelerator经VAAPI卸载在UHD编码中呈现明确实用工作区——H.264/AVC率失真接近libx264，单流延迟相当，主益于CPU核释放；H.265/HEVC与AV1以可量化BD-Rate代价换取显著吞吐与能效增益，HEVC多流耗时缩约5.4倍、每帧能耗与每实时4K50流功耗约减半，AV1单流延迟降约56倍、20路并发快约52倍、能效优约20倍每帧每实时流；高密度监控与归档部署常以服务器数/机架/功耗为硬约束，此时代价可控的码率溢价换取通道密度与能效具吸引力，反之带宽严限或离线高保真优选CPU软编。本研究补充CPU vs 离散GPU基准之外架构点实测，并将统一BD-Rate+多流吞吐+RAPL能效框架扩展至片内媒体引擎评估，可为UHD服务编解码器选型与机房容量规划提供实证依据。未来工作拟纳入自研PCIe VPU做三方对照、增测VBR/CQP等率控模式、延伸至解码–处理–重编码流水线与含下游视频分析(YOLO类)端到端影响评估。

热点排行