基于ARM平台的FAEST签名加速：NEON SIMD AES与并行VOLE优化

《Applied Sciences》：Accelerating FAEST Signatures on ARM: NEON SIMD AES and Parallel VOLE Optimization Seung-Won Lee, Ha-Gyeong Kim, Min-Ho Song, Si-Woo Eum and Hwa-Jeong Seo

【字体：大中小】 时间：2026年04月14日 来源：Applied Sciences 2.5

编辑推荐：

　　FAEST是一种后量子数字签名候选方案，其性能主要受限于VOLE-in-the-Head（VOLEitH）阶段中大量重复的基于AES-CTR的伪随机数发生器（PRG）调用，然而其参考实现并未提供专门针对FAEST的ARM NEON加速路径。研究人员提出了一种面

FAEST是一种后量子数字签名候选方案，其性能主要受限于VOLE-in-the-Head（VOLEitH）阶段中大量重复的基于AES-CTR的伪随机数发生器（PRG）调用，然而其参考实现并未提供专门针对FAEST的ARM NEON加速路径。研究人员提出了一种面向ARM的优化方案，利用通用NEON SIMD（Single Instruction, Multiple Data，单指令多数据）指令而不依赖ARMv8加密扩展（Crypto Extensions）来加速这一瓶颈。所提出的实现结合了常驻寄存器的256字节S盒（S-box）、基于TBL/TBX的四级SubBytes（字节替换）、4路和8路并行AES块处理、针对FAEST树结构定制的固定大小PRG路径，以及基于pthread的批处理级独立VOLE任务并行化。在Raspberry Pi 4和Apple M2上针对FAEST v2的所有12个参数集进行评估，组合优化相比纯C参考实现分别实现了高达136.9倍和330.1倍的加速。在RPi4上，单线程NEON实现优于OpenSSL的软件AES；在M2上，完整的NEON加pthread配置在所有测试参数下均优于包括硬件加速OpenSSL在内的最佳可用参考配置。

论文解读：基于ARM平台的FAEST签名加速研究

研究背景与问题提出

随着量子计算技术的发展，传统基于数论问题的公钥密码体制面临潜在的量子攻击威胁，后量子密码（Post-Quantum Cryptography, PQC）成为当前密码学研究的重要方向。数字签名作为保障数据完整性、认证和不可否认性的核心密码原语，其后量子替代方案的标准化正在积极推进。FAEST（FAst auEtching Signature from the Stone）是一种基于对称密码原语（AES和SHA3）的后量子数字签名候选算法，其安全性不依赖于困难的数论问题，因而被认为对量子攻击者具有潜在抗性。FAEST的核心证明框架采用VOLE-in-the-Head（VOLEitH）范式，该范式在签名生成过程中需要大量调用基于AES-CTR的伪随机数发生器（Pseudo-Random Generator, PRG）来生成VOLE相关性。然而，FAEST的参考实现主要面向通用纯C环境，未针对ARM架构下的NEON SIMD（Single Instruction, Multiple Data）指令集进行专门优化。ARM架构广泛应用于移动设备、嵌入式系统及部分桌面平台（如Apple M系列芯片），在这些平台上FAEST的性能瓶颈尤为突出，限制了其实用化部署。因此，开展面向ARM平台的FAEST专用优化研究，对于提升后量子签名在广泛使用的ARM生态中的执行效率具有重要意义。该论文发表在《Applied Sciences》期刊。

关键技术方法

研究人员主要采用以下关键技术方法开展优化与评估：首先，利用ARM NEON SIMD通用指令（不依赖ARMv8 Crypto Extensions硬件加密扩展）重构AES关键部件，具体包括将完整的256字节S盒（Substitution-box, S-box）常驻于16个128位向量寄存器（v16-v31）中，并采用TBL（Table Lookup）和TBX（Table Lookup with conditional extension）指令实现四级流水式SubBytes操作，以消除内存访问开销；其次，实现4路和8路并行AES块加密处理，以匹配SIMD寄存器位宽并提升数据级并行度；第三，针对FAEST的PRG调用模式（基于GGM树的种子扩展结构），设计固定大小的PRG路径以减少动态分支和参数调度开销；第四，基于pthread多线程库对相互独立的VOLE任务进行批处理级并行化。实验评估选取Raspberry Pi 4（ARM Cortex-A72）和Apple M2（ARMv8.6-A）作为测试平台，覆盖FAEST v2的12个全部参数集（包括不同安全等级和签名长度变体），并以纯C参考实现及OpenSSL相关实现作为基线进行性能对比。

研究结果

引言（Introduction）

研究人员介绍了后量子数字签名的背景及FAEST方案的基本情况，指出FAEST的性能热点集中在VOLEitH阶段的AES-CTR PRG调用，而现有实现缺乏ARM NEON定向优化。同时综述了相关领域工作，包括通用SIMD AES优化、VOLE协议层优化（如GGM树PRG调用削减）以及其他后量子签名算法的平台优化，明确了本文工作的切入点：针对FALEST特有的短输出、频繁换种子PRG调用模式，在ARM平台利用NEON SIMD与任务并行进行联合优化。

预备知识（Preliminaries）

研究人员简要阐述了FAEST签名的基本流程、VOLEitH的证明结构，以及AES算法在FAEST中的核心作用（作为单向函数和PRG基础）。同时介绍了ARM NEON SIMD的寄存器结构与TBL/TBX指令特性，为后续优化设计提供基础。

优化实现（Optimized Implementation）

研究人员详细描述了三项核心优化技术：1）基于常驻寄存器S盒与四级TBL/TBX SubBytes的NEON AES加速，通过将S盒完全放入向量寄存器并分段的查表策略，在数个周期内完成16字节块的字节替换；2）4路/8路并行AES块加密，将多个AES块打包至NEON寄存器中进行并行轮函数操作；3）针对FAEST GGM树结构的固定大小PRG路径，避免通用PRG接口中的额外判断与循环开销；4）基于pthread的VOLE批处理并行，将相互独立的VOLE实例分配到不同线程执行。研究人员指出，上述优化均不依赖ARMv8 Crypto Extensions，因而可适用于更广泛ARMv7/AArch32及无加密扩展的ARMv8设备。

性能评估（Performance Evaluation）

研究人员在Raspberry Pi 4和Apple M2上测试了FAEST v2全部12个参数集的签名与验证运行时间。结果显示，相比纯C参考实现，组合优化（NEON + pthread）在RPi4上最高达到136.9倍加速，在M2上最高达到330.1倍加速。在RPi4上，单线程NEON实现已优于OpenSSL的纯软件AES实现；在M2上，NEON加pthread的完整配置在所有测试参数下均优于包含硬件加速OpenSSL的最佳参考配置。研究人员还通过不同参数集的细分对比，说明了优化收益随安全等级和签名模式的变化趋势，并指出PRG路径专门化与VOLE并行化在总体加速中均有显著贡献。

讨论与结论

研究人员总结认为，FAEST在ARM平台上的性能瓶颈可被NEON SIMD指令级并行与VOLE任务级并行显著缓解，且在不依赖专用AES硬件指令的前提下仍能超越基于硬件加速的通用密码库表现。该优化对FAEST在移动设备、物联网节点及其他ARM主导场景中的实用化具有推动作用。同时研究人员指出，未来可进一步探索与硬件加密扩展的结合、对其他ARM SIMD扩展（如SVE/SVE2）的适配，以及在更多ARM设备上的泛化性能分析。

结论（Conclusions）

FAEST作为一种后量子数字签名候选方案，其在ARM平台上的执行效率受限于VOLEitH阶段大量AES-CTR PRG调用。研究人员提出了一种不依赖ARMv8 Crypto Extensions的ARM定向优化，通过常驻寄存器S盒与TBL/TBX四级SubBytes、4路/8路并行AES块处理、FAEST树结构定制PRG路径，以及pthread批处理VOLE并行，实现了显著加速。在Raspberry Pi 4和Apple M2上针对FAEST v2全部12个参数集的评估表明，相比纯C参考实现最高分别达到136.9倍和330.1倍加速，且在测试平台上优于OpenSSL相关实现。该研究表明，面向特定后量子密码工作负载的ARM NEON SIMD与任务并行优化可有效提升实用性能，为后量子签名在ARM生态中的部署提供支持。

需要我帮你把这篇论文解读提炼成一份可直接用于汇报的简版摘要吗？

热点排行