生成式 AI(gen AI)的蜜月期已经过去。大多数企业不再纠结是否要采用大语言模型(LLM),而是开始关注具体如何使用以及使用哪些模型。但面对各种浮夸的演示和出色的排行榜成绩,究竟怎样的 AI 模型才真正适合企业采用?
本文将探讨企业级生成式 AI 堆栈中“经过验证”的具体含义,以及红帽的方法如何助力团队选择符合其需求的 AI 模型。
问题:AI 验证体系存在缺陷
目前,大多数企业组织通过一系列零散的方法来“验证”其 AI 模型:
- 检查开源排行榜(如 Chatbot Arena、Artificial Analysis)
- 使用临时脚本,根据少量精选提示运行内部测试
- 通过粗略计算来估算使用量和成本/硬件要求
上述方法虽能提供部分信息,却无法呈现完整图景。若孤立使用这些方法,往往会导致团队误判模型已具备生产环境适用性。
这会带来怎样的后果呢?AI 应用在大规模应用时会崩溃或变得难以管理,企业组织则会永远困在概念验证(POC)阶段。这会导致推理成本直线上升、负载增加时延迟增加,或者出现意外的模型调整问题,而所有这些问题原本可以提前发现。
真正的 AI 模型验证并非一次性的基准测试。而是基于现实约束的结构化流程。
在企业 AI 背景下定义“验证”
AI 模型验证是指数据科学家在真实运维负载下测试模型准确性的过程。对于企业而言,更全面的方法应包括针对关键企业用例,在各种硬件上基于真实数据和任务评估 AI 模型。为了帮助企业组织充满信心地从 POC 过渡到生产环境,需要围绕两个核心支柱重新定义 AI 模型验证:
- 可扩展的性能:经过验证的模型必须在并发用户流量下保持稳定的低延迟,并始终满足服务级别目标(SLO)。验证过程应包括在各种工作负载场景和硬件配置下进行严格测试。它还应提供一种简单的方法来了解性能、准确性和成本之间的权衡,使团队能够做出明智的、上下文感知的部署决策。
- 可重复的准确性:真正的验证需要透明且可重复的准确性测试。AI 模型应使用多个精选的对抗性数据集进行评估,并采用明确的记录方法,使结果能够在随着时间的推移在不同团队中一致地重现。
只有当模型基于这些衡量指标成功运行时,才会被视为真正的企业就绪型模型。
红帽的模型验证方法
红帽很自豪地推出经过验证的第三方 AI 模型,这些模型将为用户在红帽 AI 平台上部署时提供信心、可预测性和灵活性。
随着可供选择的基础模型、推理服务器配置和硬件加速器的数量不断增加,为特定用例确定正确的组合绝非易事。借助红帽 AI,企业组织可获得计算容量指导和以经验为依据的测试结果,从而帮助客户根据真实性能数据做出明智的决策。
解决两个关键痛点
- 权衡明晰化:在现代 AI 模型的性能、准确性和成本之间进行权衡,就如同尝试破解复杂谜题。红帽通过运行特定于工作负载的基准测试并以透明、可重现的形式呈现结果,使整个过程变得更加轻松。
- 业务背景:将这些权衡取舍映射到真实的企业用例至关重要。红帽可帮助客户了解 AI 模型和基础架构决策将如何影响生产环境中的应用行为。
红帽 AI 团队对一组精选的第三方模型进行严格的性能测试和精度评估,覆盖多种硬件及配置场景。这不仅使我们能够验证模型的高性能表现,还能确保模型可以跨红帽 AI 推理服务器、红帽企业 Linux AI 和红帽 OpenShift AI 进行部署。
通过验证的模型标有“经红帽 AI 验证的模型”徽章,并显示在 Hugging Face 上的红帽 AI 页面、红帽 AI 生态系统目录和红帽 OpenShift AI 模型目录。
红帽会定期验证和测试新发布的 AI 模型,以确保它们在红帽 AI 平台各款产品的 vLLM 中高效运行,帮助企业组织快速访问最前沿的模型。
客户还可以与红帽 AI 专家互动,查看模型验证结果,并获得量身定制的容量规划指导。这些见解有助于团队超越排行榜炒作,自信地在他们选择的基础架构上部署最合适的第三方模型,并全面了解预期的性能、准确性和成本。
详细了解经红帽 AI 验证的模型,并立即将它们用于您的 AI 部署。
关于作者
Roy is a seasoned AI and HPC leader with more than a decade of experience delivering state-of-the-art AI solutions. Roy has directed large-scale AI projects working in the defense sector, and led the mass adoption of GenAI in its organization, building end-to-end on-premise AI capabilities including LLM serving, multimodal semantic search, RAG, fine-tuning, and evaluation pipelines. Roy has joined Red Hat in 2025 through the Jounce acquisition, where he was the CEO.
My name is Rob Greenberg, Senior Product Manager for Red Hat AI, and I came over to Red Hat with the Neural Magic acquisition in January 2025. Prior to joining Red Hat, I spent 3 years at Neural Magic building and delivering tools that accelerate AI inference with optimized, open-source models. I've also had stints as a Digital Product Manager at Rocketbook and as a Technology Consultant at Accenture.