为何使用Kubernetes进行AI推理成了绝佳选择？

原文标题：5 Reasons To Use Kubernetes for AI Inference

Kubernetes成为AI推理领域的首选，归功于其与AI推理需求高度匹配的多项核心功能。

Kubernetes的主要特性与AI推理任务的需求高度契合，无论是AI驱动的微服务还是机器学习模型，这些功能都显得格外适宜。让我们深入了解这些特性，以及它们如何为AI推理工作负载带来益处。

一、可扩展性

AI应用程序和机器学习（ML）模型的扩展能力保证了它们可以应对所需的工作量，例如同时发生的用户请求。Kubernetes提供了三种内置的自动扩展工具，每个工具都有助于提升系统的可扩展性：水平Pod自动扩展（HPA）、垂直Pod自动扩展（VPA）以及集群自动扩展（CA）。

水平Pod自动扩展功能：会基于多种性能指标（如CPU、GPU和内存使用率）来增减执行应用程序或机器学习模型的Pod数量。用户请求量上升时，HPA会增加资源分配；请求量下降时，则减少资源分配。

垂直Pod自动扩展功能：依据Pod内容器的实际资源消耗来调整其CPU、GPU和内存的配置和限制。通过修改Pod规格中的资源限制，可以精确控制Pod获取的资源量，这有助于提升节点资源的使用效率。

集群自动扩展功能：会根据Pod的资源需求来调整整个集群的计算资源总量。它能够根据需要动态地增减集群中的工作节点，对于支持大规模用户群体的大型机器学习模型的推理任务来说，CA的作用至关重要。

以下是Kubernetes的可扩展性为AI推理带来的主要优势：

能够自动增减Pod副本以满足需求，保障AI任务的持续可用性。允许根据需求自动改变集群规模，以适应产品的扩展。允许根据应用的实际资源需求进行优化，确保只支付实际使用的资源费用。

二、资源优化

通过全面提高推理工作负载的资源使用效率，确保为这些工作负载分配恰当的资源量。这种做法有助于成本节约，尤其是在使用成本较高的GPU时显得尤为重要。Kubernetes的关键功能，包括高效的资源配置、对资源限制和请求的精细管理，以及自动扩展，使得资源使用的优化成为可能。

资源分配的高效率：通过在Pod的配置文件中设定，您可以为Pod指派一定量的GPU、CPU和RAM。然而，目前仅有NVIDIA加速器实现了GPU的时间分割和多实例共享功能。对于使用Intel或AMD加速器的情况，Pod通常需要申请完整的GPU资源。

资源“限制”与“请求”的精细管理：请求（requests）指明了容器运行所需的最低资源量，而限制（limits）确保容器不会消耗超过设定量的资源。这种机制实现了对计算资源的精确控制。

自动扩展机制：HPA、VPA和CA通过智能调整资源分配，有效避免了资源的闲置浪费。只要这些工具得到恰当设置，就能确保资源得到充分利用，不会有未被使用的资源存在。

利用Kubernetes的这些特性，工作负载能够获得恰到好处的计算资源。考虑到在云平台上租赁中等性能GPU的费用大约为每小时1到2美元，所以在一定程度上可以带来显著的成本节约。

三、性能优化

尽管AI推理在资源需求上通常低于训练过程，但它仍旧依赖于GPU和其他计算资源以保持高效。Kubernetes的HPA、VPA和CA是提升推理效率的关键因素，它们保障了AI应用即便在负载波动时也能得到合适的资源分配。此外，可以利用如StormForge或Magalix Agent这类工具来进一步管理和预测AI工作负载的性能。

总而言之，Kubernetes的灵活性和资源使用优化功能，确保了AI应用无论规模大小或负载变化，都能达到最佳运行状态。

四、可移植性

对于AI工作负载，如机器学习模型，可移植性极为重要。这样就可以在各种环境用同一方式部署，无需顾虑底层基础设施的差异，进而节约时间和成本。Kubernetes主要通过两个核心功能来实现这种可移植性：容器化技术以及对各种环境的广泛适应性。

容器化技术：Kubernetes利用如containerd和Docker等工具，将机器学习模型和AI应用连同其依赖项封装进易于携带的容器。这样，可以在任何云平台或环境中，甚至配合其他容器管理系统，部署这些容器。多云与混合云支持：Kubernetes的集群能够跨越不同的云环境，包括公共云、私有云以及本地设施。这种能力赋予了用户更大的操作灵活性，并减少了对特定供应商的依赖。

以下是Kubernetes在可移植性方面的主要优势：

确保机器学习模型在多样化的环境下实现一致性部署。简化了AI工作负载的迁移和升级流程。提供了在选择云服务商或本地基础设施时的灵活性。

五、容错机制

执行AI推理任务时，基础设施的故障或中断可能导致精度显著降低、模型行为变得不稳定或服务完全停止。这种情况对于多数AI应用来说是不可容忍的，尤其是对于那些安全性至关重要的应用，如机器人技术、无人驾驶汽车和医疗诊断。Kubernetes的自愈能力和容错机制有助于避免这些问题的发生。

Pod和节点的容错机制：Kubernetes能够识别并自动重启失去响应的Pod，保障应用的持续可用性和响应性。若Pod所在的节点发生故障，Kubernetes将自动将Pod迁移至健康的节点。滚动更新：Kubernetes允许进行滚动更新，允许在最小化停机时间的情况下更新容器镜像。这样就可以迅速实施错误修正或模型更新，同时确保推理服务的连续性。健康检查：通过就绪性和存活性探测，Kubernetes执行健康检查，以确定容器是否能够接收流量或是否处于健康状态，并在需要时触发容器的重启或替换。集群自愈：Kubernetes具备自动修复功能，能够处理控制层面和工作节点的问题，比如替换故障节点或重启异常组件，从而保持AI推理集群的健康和可用性。

以下是Kubernetes容错功能的主要好处：

确保AI应用的高可用性和快速响应，增强了应用的弹性。将问题出现时的停机时间和服务中断降至最低。提升应用程序和模型的可用性，使其更能承受突发的基础设施故障，从而提高用户满意度。

结论

随着企业不断将人工智能集成到它们的应用之中，部署大规模机器学习模型并应对变化的负载，选择Kubernetes作为核心技术变得非常关键。作为Kubernetes的托管服务提供者，我们观察到市场对具备可扩展性、容错能力和成本效益的基础设施的需求日益上升，这样的基础设施能够满足AI推理的需求。Kubernetes正是一个内建这些功能的平台。

作者丨Zulyar Ilakhunov 编译丨Rio

来源丨https://thenewstack.io/5-reasons-to-use-kubernetes-for-ai-inference/?utm_referrer=https%3A%2F%2Fwww.google.com%2F

*本文为dbaplus社群编译整理，如需转载请取得授权并标明出处！欢迎广大技术人员投稿，投稿邮箱：editor@dbaplus.cn

玩酷网

为何使用Kubernetes进行AI推理成了绝佳选择？

指尖上的架构