基于推理时长的自动扩展技术：Kubernetes中不同延迟模型的对比研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Technologies》：Inference-Time-Driven Autoscaling for Inference Workloads: A Comparative Study of Latency-Variant Models in Kubernetes

【字体：大中小】 时间：2026年06月11日 来源：Technologies 3.6

编辑推荐：

　　摘要 Kubernetes 水平 Pod 自动扩展器（HPA）主要依赖于基于资源的指标，如 CPU 使用率，但这些指标并不适合捕捉 AI 推理工作负载的延迟变化。在本文中，我们提出了一种基于自定义指标的自动扩展方法，该方

摘要

Kubernetes 水平 Pod 自动扩展器（HPA）主要依赖于基于资源的指标，如 CPU 使用率，但这些指标并不适合捕捉 AI 推理工作负载的延迟变化。在本文中，我们提出了一种基于自定义指标的自动扩展方法，该方法利用推理延迟直方图作为 Kubernetes HPA 的一级扩展信号。所提出的框架将基于 Prometheus Operator（PO）的可观测性堆栈与 Prometheus 适配器集成在一起，以暴露和汇总每个 Pod 的推理延迟指标，从而实现基于工作负载的扩展决策。我们使用四个中等规模的基于 Transformer 的推理服务对这种方法进行了评估，这些服务包括两个类似推理的工作负载和两个延迟稳定的工作负载，并在高并发条件下进行了测试。实验分析了多种自动扩展策略下的延迟变化、尾部行为和副本动态，包括扩展激进程度的变化（3 个 Pod/30 秒、3 个 Pod/60 秒、6 个 Pod/60 秒）、推理时间阈值和稳定窗口。与基于 CPU 的自动扩展相比，基于推理的策略将类似推理的工作负载的平均响应时间减少了 18–27%，将稳定工作负载的平均响应时间减少了 12–20%。结果表明，延迟变化较大的工作负载具有更宽的延迟分布和更高的方差，这表明需要采用适度激进的扩展策略来避免长时间的延迟峰值。总体而言，研究结果表明，基于推理延迟的自定义指标显著提高了云原生环境中基于 Transformer 的推理工作负载的自动扩展效率和稳定性。

联系信箱：

粤ICP备09063491号

摘要

热点排行