跨混合云开发、训练、测试和部署 ML 模型
红帽® OpenShift® AI 是一个可让您跨混合云环境大规模开发、训练和部署人工智能(AI)模型和应用的 AI 平台。
产品概述
借助 OpenShift AI,企业组织可以高效部署构建人工智能/机器学习(AI/ML)模型所需的一系列可集成的常用开源工具和第三方工具。采用者可以获得协作式开源工具集和一个用于构建实验性模型的平台,无需担心基础架构。然后,采用者可以使用合作伙伴工具扩展该基础平台,从而获得更多功能。可以跨云、本地和边缘环境,以一致的方式将模型以容器就绪型格式部署到生产环境中。
OpenShift AI 是红帽 AI 的一部分。它在经过验证、可扩展且安全至上的平台上提供简单明了的配置,为 IT 运维人员提供了一个易于管理的环境。
OpenShift AI 以传统软件产品或托管式云服务的形式提供,支持热门的生成式 AI(gen AI)基础模型,您可以根据自己的独特用例及数据进行微调以及提供预训练模型。您甚至可以使工作负载分布于多个红帽 OpenShift 集群上,不受集群所在位置的限制。该平台叠加在 OpenShift 上,使 AI 硬件加速变得更简单,支持基于中央处理器(CPU)和图形处理器(GPU)的硬件基础架构,其中包括英伟达、AMD 和英特尔加速器。
对于刚开始使用生成式 AI 模型的用户,OpenShift AI 包含红帽企业 Linux® AI 的组件——这是一个用于开发、测试和运行 Granite 系列大语言模型(LLM)的基础模型平台,可支持企业级应用。除了红帽 OpenShift AI 提供的 Granite 模型外,该框架还支持来自 HuggingFace、Stability AI 和其他模型库的模型。
表 1. 红帽 OpenShift AI 的功能和优势
要点
通过扩展基础架构并实现其自动化,降低从实验阶段到生产阶段的成本。
为数据科学家、数据工程师、应用开发人员和 DevOps 团队提供一致的用户体验,全面提高各个团队的 AI/ML 运维效率。
通过在本地、云端或边缘环境中构建、训练、部署和监控 AI/ML 工作负载,尽享混合云带来的灵活性优势。
功能 | 优势 |
模型开发工具 | 提供基于 JupyterLab 的交互式协作界面,用于开展探索性数据科学工作以及模型训练、调优和部署。数据科学家能够持续访问核心 AI/ML 库、广泛使用的框架以及大量预定义和客户提供的镜像与工作台,加快模型实验速度。 |
模型训练项目 | 可让用户整理特定项目所需的模型开发文件、数据连接和其他工件,简化实验流程并增强协作。 |
模型训练分布式工作负载 | 同时利用多个集群节点来更高效地训练和调整预测性和生成式 AI 模型,提供可扩展性来处理原本因算力限制而无法实现的任务。 |
GPU 和加速器
| 为 ITOps 人员提供自助式 GPU 访问权限,无论是本地还是云端,他们都可以预定义 GPU 资源环境,从而为数据科学家和应用开发人员提供便利,简化其项目任务的配置选择工作。 |
数据科学管道 | 为数据科学家和 AI 工程师提供便利,在开发和生产环境中自动执行模型的交付和测试步骤。管道可以进行版本控制、跟踪和管理,从而减少用户错误,简化实验和生产工作流。 |
模型服务 | 提供来自 Hugging Face、ONNX、PyTorch、TensorFlow 等提供商和框架的模型,以及 vLLM 等热门运行时服务。集群资源(如 CPU 和 GPU)可以根据工作负载的需求扩展到多个节点。 |
模型监控 | 跟踪多项指标,如成功与失败的推理请求数量、平均推理响应时间以及计算资源利用率等,以便在需要时主动调整资源。 |
偏差检测 | 监控已部署 ML 模型的输入数据分布的变化情况,以识别模型推理所用的实时数据是否与模型训练所用的数据发生了显著偏离。 |
偏见检测 | 提供一套监控工具,不仅可以基于训练数据评估模型是否公平无偏,还能在实际部署环境中持续监控模型的公平性。 |
AI 护栏 | 过滤仇恨、侮辱或亵渎言论,个人身份信息,竞争性信息或其他特定领域的敏感内容。 |
模型评估 | 提供有关 LLM 模型质量的重要信息,并在多种任务场景中对 LLM 模型进行性能基准测试。 |
模型注册表 | 让数据科学家能够在一个位置集中查看和管理所有已注册的模型。在这里,他们可以对预测性和生成式 AI 模型进行版本管理、共享、部署和跟踪,还能管理模型的元数据和工件。 |
非联网环境和边缘环境 | 简化在受限网络(通常受防火墙保护)上部署非联网集群的流程,为那些因安全性和监管合规性要求而需要进行隔离部署的行业提供支持。 |
除了 OpenShift AI 提供的功能外,许多技术合作伙伴产品也已集成到用户界面(UI)中。其中包括 Starburst(用于跨各种数据集实现分布式数据访问)、HPE(提供数据沿袭和版本控制功能)、英伟达(提供 GPU 性能管理功能)、英特尔(用于在英特尔硬件上进行高性能推理)以及 Elastic(提供向量数据库和检索增强生成(RAG)应用)。
后续步骤:
进一步了解红帽 OpenShift AI 并观看信息丰富的视频。