基于推理时长的自动扩展技术:Kubernetes中不同延迟模型的对比研究

《Technologies》:Inference-Time-Driven Autoscaling for Inference Workloads: A Comparative Study of Latency-Variant Models in Kubernetes

【字体: 时间:2026年06月11日 来源:Technologies 3.6

编辑推荐:

   摘要 Kubernetes 水平 Pod 自动扩展器(HPA)主要依赖于基于资源的指标,如 CPU 使用率,但这些指标并不适合捕捉 AI 推理工作负载的延迟变化。在本文中,我们提出了一种基于自定义指标的自动扩展方法,该方

  

摘要

Kubernetes 水平 Pod 自动扩展器(HPA)主要依赖于基于资源的指标,如 CPU 使用率,但这些指标并不适合捕捉 AI 推理工作负载的延迟变化。在本文中,我们提出了一种基于自定义指标的自动扩展方法,该方法利用推理延迟直方图作为 Kubernetes HPA 的一级扩展信号。所提出的框架将基于 Prometheus Operator(PO)的可观测性堆栈与 Prometheus 适配器集成在一起,以暴露和汇总每个 Pod 的推理延迟指标,从而实现基于工作负载的扩展决策。我们使用四个中等规模的基于 Transformer 的推理服务对这种方法进行了评估,这些服务包括两个类似推理的工作负载和两个延迟稳定的工作负载,并在高并发条件下进行了测试。实验分析了多种自动扩展策略下的延迟变化、尾部行为和副本动态,包括扩展激进程度的变化(3 个 Pod/30 秒、3 个 Pod/60 秒、6 个 Pod/60 秒)、推理时间阈值和稳定窗口。与基于 CPU 的自动扩展相比,基于推理的策略将类似推理的工作负载的平均响应时间减少了 18–27%,将稳定工作负载的平均响应时间减少了 12–20%。结果表明,延迟变化较大的工作负载具有更宽的延迟分布和更高的方差,这表明需要采用适度激进的扩展策略来避免长时间的延迟峰值。总体而言,研究结果表明,基于推理延迟的自定义指标显著提高了云原生环境中基于 Transformer 的推理工作负载的自动扩展效率和稳定性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号