Red Hat lanza la comunidad llm-d, que impulsa la inferencia de IA generativa distribuida a gran escala

Creado en conjunto por los colaboradores fundadores CoreWeave, Google Cloud, IBM Research y NVIDIA, a los que se unieron los líderes del sector AMD, Cisco, Hugging Face, Intel, Lambda y Mistral AI, además de la Universidad de California, Berkeley y la Universidad de Chicago, como colaboradores del ámbito académico, el proyecto tiene como meta que la IA generativa de producción sea tan omnipresente como Linux.

BOSTON - RED HAT SUMMIT -

Red Hat, el proveedor líder mundial de soluciones open source, anunció hoy el lanzamiento de llm-d, un nuevo proyecto open source que responde a la necesidad más crítica del futuro de la IA generativa (gen AI): la inferencia a gran escala. Al aprovechar tecnologías de inferencia innovadoras para la IA generativa a gran escala, a llm-d lo impulsa una arquitectura nativa de Kubernetes, una inferencia distribuida basada en vLLM y un enrutamiento de red inteligente con reconocimiento de IA, lo cual permite que grandes nubes de inferencia de modelos de lenguaje de gran tamaño (LLM) cumplan con los objetivos de nivel de servicio (SLO) en producción más exigentes.

Icon-Red_Hat-Media_and_documents-Quotemark_Open-B-Red-RGB

Al aprovechar la innovación de vLLM y las capacidades probadas de Kubernetes, llm-d sienta las bases para una inferencia de IA distribuida, escalable y de alto rendimiento en la nube híbrida ampliada, al admitir cualquier modelo y acelerador en cualquier entorno de nube y ayudar a hacer realidad la visión del potencial ilimitado de la IA.

Brian Stevens

senior vice president and AI CTO, Red Hat

Si bien el entrenamiento sigue siendo un elemento fundamental, el verdadero impacto de la IA generativa depende de una inferencia más eficiente y escalable, ya que es el motor que transforma los modelos de IA en información práctica y experiencias de los usuarios. Según Gartner1, “Para 2028, a medida que el mercado madure, más del 80 % de los aceleradores de cargas de trabajo de los centros de datos se implementarán específicamente para la inferencia, en lugar de para su uso en entrenamiento”. Esto pone de relieve que el futuro de la IA generativa reside en su capacidad de ejecución. La creciente demanda de recursos de modelos de razonamiento cada vez más grandes y sofisticados limita la viabilidad de la inferencia centralizada y amenaza con obstaculizar la innovación en IA mediante costos prohibitivos y una latencia paralizante.

llm-d responde a la necesidad de una inferencia de IA generativa escalable 

Red Hat y sus partners del sector afrontan este desafío directamente con llm-d, un proyecto visionario que potencia el poder de vLLM para trascender las limitaciones de un solo servidor y posibilitar la producción a gran escala para la inferencia de IA. llm-d integra funciones de inferencia avanzadas en las actuales infraestructuras de TI empresariales gracias a la probada capacidad de orquestación de Kubernetes. Esta plataforma unificada permite a los equipos de TI satisfacer las diversas demandas de servicio de las cargas de trabajo críticas para el negocio y, al mismo tiempo, implementa técnicas innovadoras para maximizar la eficiencia y minimizar radicalmente el costo total de propiedad (TCO) asociado a los aceleradores de IA de alto rendimiento.

llm-d ofrece un poderoso conjunto de innovaciones, entre las cuales se destacan las siguientes:

  • vLLM, que rápidamente se ha convertido en el servidor de inferencia open source estándar de facto, que brinda soporte desde el Día 0 a modelos de frontera emergentes y a una amplia lista de aceleradores, que ahora incluyen unidades de procesamiento de tensor (TPU) de Google Cloud.
  • Desagregación de prellenado y decodificación, para separar las fases de contexto de entrada y generación de tokens de la IA en operaciones discretas, donde luego pueden distribuirse entre múltiples servidores.
  • Descarga de caché KV (clave-valor), basada en LMCache, mueve la carga de la memoria caché KV de la memoria de la GPU a un almacenamiento estándar de mayor volumen y menor costo, como la memoria de la CPU o el almacenamiento de red.
  • Clústeres y controladores con tecnología Kubernetes, para una programación más eficiente de los recursos informáticos y el almacenamiento en función de la variación en la exigencia de las cargas de trabajo, al mismo tiempo que mantienen el rendimiento y una latencia más baja.
  • Enrutamiento de red con reconocimiento de IA, para programar solicitudes entrantes a los servidores y aceleradores con más probabilidades de tener memorias caché activas con resultados de inferencias anteriores.
  • API de comunicación de alto rendimiento, para una transferencia de datos más rápida y eficiente entre servidores, con soporte para NVIDIA Inference Xfer Library (NIXL).

llm-d: con el respaldo de los líderes del sector

Este nuevo proyecto open source ya cuenta con el apoyo de una gran alianza de proveedores líderes de modelos de IA generativa, pioneros en aceleradores de IA y plataformas en la nube para IA de primer nivel. CoreWeave, Google Cloud, IBM Research y NVIDIA son colaboradores fundadores, junto con AMD, Cisco, Intel, Lambda y Mistral AI en calidad de partners, lo que destaca la estrecha colaboración de la industria para definir el futuro de la implementación de LLM a gran escala. A la comunidad llm-d se le suman también los patrocinadores fundadores Sky Computing Lab de la Universidad de California, creadores de vLLM, y el Laboratorio de LMCache de la Universidad de Chicago, creadores de LMCache.

Red Hat, afianzado en su inquebrantable compromiso con la colaboración abierta, reconoce la importancia fundamental de contar con comunidades dinámicas y accesibles en el cambiante panorama de la inferencia de IA generativa. Red Hat promoverá activamente el crecimiento de la comunidad de llm-d, fomentando un entorno inclusivo para los nuevos miembros y propiciando su continua evolución.

La visión de Red Hat: cualquier modelo, acelerador o nube

El futuro de la IA debe definirse por oportunidades ilimitadas, sin silos de infraestructura que la restrinjan. Red Hat visualiza un horizonte en el que las empresas puedan implementar cualquier modelo, en cualquier acelerador y en cualquier nube, al mismo tiempo que ofrecen una experiencia de usuario excepcional y más uniforme sin costos exorbitantes. Para aprovechar al máximo el verdadero potencial de las inversiones en IA generativa, las empresas necesitan una plataforma de inferencia universal, un estándar para lograr una innovación en IA más fluida y de alto rendimiento, tanto hoy como en el futuro.

Así como Red Hat fue precursora de la empresa abierta al transformar Linux en el cimiento de la TI moderna, hoy la compañía está en condiciones de moldear el futuro de la inferencia de IA. El potencial de los vLLM radica en ser una pieza clave de la inferencia de la IA generativa estandarizada y Red Hat tiene el compromiso de construir un ecosistema próspero no solo en torno a la comunidad de vLLM, sino también de llm-d para la inferencia distribuida a gran escala. La visión es clara: independientemente del modelo de IA, el acelerador subyacente o el entorno de implementación, Red Hat tiene como meta convertir a vLLM en el estándar abierto por excelencia para la inferencia en la nueva nube híbrida. 

Red Hat Summit

Participe de las presentaciones del Red Hat Summit para escuchar las últimas novedades de los ejecutivos, clientes y partners de Red Hat:

Citas de apoyo

Brian Stevens, vicepresidente sénior y director de tecnología de IA, Red Hat

“El lanzamiento de la comunidad de llm-d, respaldada por una generación de líderes en IA, marca un momento clave para abordar la necesidad de una inferencia de IA generativa escalable, que constituye un importante obstáculo que debe superarse para dar pie a una adopción más amplia de la IA en la empresa. Al aprovechar la innovación de vLLM y las capacidades probadas de Kubernetes, llm-d sienta las bases para una inferencia de IA distribuida, escalable y de alto rendimiento en la nube híbrida ampliada, al admitir cualquier modelo y acelerador en cualquier entorno de nube y ayudar a hacer realidad la visión del potencial ilimitado de la IA”.

Ramine Roane, vicepresidente corporativo, Gestión de Productos de IA, AMD

“AMD se enorgullece de ser miembro fundador de la comunidad de llm-d a la cual aportamos nuestros conocimientos de GPU de alto rendimiento para promover la inferencia de IA y responder a las cambiantes necesidades de IA en la empresa. A medida que las organizaciones se enfrentan a la creciente complejidad que plantea la IA generativa para lograr mayor escalabilidad y eficiencia, AMD espera poder satisfacer esta demanda del sector a través del proyecto llm-d”.

Shannon McFarland, vicepresidente, Oficina de Programas de Código Abierto de Cisco y Director de Cisco DevNet

“El proyecto llm-d representa un gran avance para la IA generativa práctica. llm-d permite a los desarrolladores integrar y escalar la inferencia de IA generativa en forma programática, lo cual abre nuevos niveles de innovación y eficiencia en el moderno panorama de la IA. Cisco se enorgullece de formar parte de la comunidad de llm-d, en la cual colaboramos para explorar casos de uso reales que ayudan a las empresas a aplicar la IA de forma más eficaz y eficiente”.

Chen Goldberg, vicepresidenta sénior, Ingeniería, CoreWeave

“Es un orgullo para CoreWeave ser colaborador fundador del proyecto llm-d y profundizar nuestro compromiso permanente de tantos años con la IA de código abierto. Desde nuestra colaboración inicial con EleutherAI hasta nuestra labor continua para promover la inferencia a gran escala, hemos apostado constantemente a hacer más accesible una potente infraestructura de IA. Estamos muy entusiasmados de colaborar con un grupo excepcional de socios y la amplia comunidad de desarrolladores para construir un motor de inferencia flexible y de alto rendimiento que agilice la innovación y siente las bases para una IA abierta e interoperable”.

Mark Lohmeyer, vicepresidente y gerente general, Infraestructura de IA y Computación, Google Cloud

“A medida que las empresas avanzan hacia la implementación de la IA a gran escala y la generación de valor para sus usuarios, una inferencia de IA eficiente es fundamental. Al adentrarnos en esta nueva era de la inferencia, Google Cloud se enorgullece de consolidar su legado de aportes al código abierto como colaborador fundador del proyecto llm-d. Esta nueva comunidad servirá de catalizador decisivo para la inferencia de IA distribuida a gran escala, que ayudará a los usuarios a lograr cargas de trabajo más eficientes y tener más libertad para elegir sus recursos de infraestructura".

Jeff Boudier, Jefe de Producto, Hugging Face

“Creemos que cada empresa debería poder construir y ejecutar sus propios modelos. Con vLLM utilizando la biblioteca de transformadores de Hugging Face como fuente de verdad para las definiciones de modelos; una amplia diversidad de modelos grandes y pequeños está disponible para impulsar aplicaciones de IA de texto, audio, imagen y video. Ocho millones de creadores de IA utilizan Hugging Face para colaborar en más de dos millones de modelos y conjuntos de datos de IA compartidos abiertamente con la comunidad global. Estamos emocionados de apoyar el proyecto llm-d para permitir que los desarrolladores lleven estas aplicaciones a escala.”

Priya Nagpurkar, vicepresidenta, Nube Híbrida y Plataforma de IA, IBM Research

“En IBM, creemos que la siguiente fase de la IA tiene que ver con la eficiencia y la escalabilidad. Nos enfocamos en generar valor para las empresas por medio de soluciones de IA que puedan implementar eficazmente. Como colaborador fundador de llm-d, IBM se enorgullece de ser un componente clave en la creación de una plataforma de inferencia de IA distribuida, diferenciada e independiente del hardware. Esperamos seguir contribuyendo al crecimiento y al éxito de esta comunidad para transformar el futuro de la inferencia de IA”.

Bill Pearson, vicepresidente, Soluciones de Software y Ecosistema de Centros de Datos e IA, Intel

“El lanzamiento de llm-d será un punto de inflexión clave para la industria para promover la transformación de la IA a gran escala e Intel se complace en ser partícipe como patrocinador fundador. La participación de Intel en llm-d es el último hito en su colaboración de décadas con Red Hat para dotar a las empresas de soluciones de código abierto que puedan implementar en cualquier lugar y en la plataforma que prefieran. Esperamos que, a través de la comunidad de llm-d, sigamos ampliando y desarrollando la innovación en IA”.  

Eve Callicoat, ingeniera principal sénior, Plataforma de ML, Lambda

“La inferencia es donde se ve reflejado el verdadero valor de la IA y llm-d representa un gran avance. Lambda se enorgullece de apoyar un proyecto que hace de la inferencia de vanguardia algo accesible, eficiente y abierto".

Ujval Kapasi, vicepresidente, Ingeniería de Marcos de IA, NVIDIA

“El proyecto llm-d es una importante incorporación al ecosistema de IA de código abierto y refleja el apoyo de NVIDIA a la colaboración para impulsar la innovación en IA generativa. La inferencia escalable y de alto rendimiento es un factor clave para la próxima generación de IA generativa y agéntica. Junto con Red Hat y otros socios, trabajamos para fomentar la participación de la comunidad de llm-d y la adopción por parte del sector, ayudando a agilizar llm-d mediante innovaciones de NVIDIA Dynamo, como NIXL”.

Ion Stoica, profesor y director de Sky Computing Lab, Universidad de California, Berkeley 

“Nos complace ver que Red Hat aprovecha el éxito consolidado de vLLM, que nació en nuestro laboratorio en respuesta a los desafíos que plantea la ejecución de grandes modelos de IA en términos de velocidad y memoria. Los proyectos de código abierto como vLLM, y ahora llm-d que lo toma como base, están a la vanguardia de la innovación en IA, atendiendo los requisitos de inferencia de IA más exigentes y marcando una diferencia en toda la industria”. 

Junchen Jiang, profesor de Ciencias de la Computación, Laboratorio LMCache, Universidad de Chicago 

“Las optimizaciones de la caché KV distribuida, como la descarga, la compresión y la combinación, han sido uno de los principales objetivos de nuestro laboratorio y estamos encantados de que llm-d aproveche LMCache como componente central para reducir el tiempo hasta el primer token y mejorar el rendimiento, en especial en la inferencia basada en contextos extensos”.

 1"Análisis de pronósticos: Semiconductores de IA a nivel mundial”, Alan Priestley, Gartner, 2 de agosto de 2024. ID G00818912 GARTNER es una marca registrada y una marca de servicio de Gartner, Inc. o sus filiales en EE. UU. e internacionalmente y se utiliza aquí con autorización. Todos los derechos reservados.

Additional Resources

Connect with Red Hat

  • ACERCA RED HAT
  • Red Hat Red Hat es la compañía líder en tecnología de nube híbrida abierta que proporciona una base confiable, consistente y completa para una innovación transformadora de la TI y las aplicaciones de IA. Su portfolio de tecnologías de nube, desarrollo, IA, Linux, automatización y plataforma de aplicaciones hace posible la implementación de cualquier aplicación en cualquier lugar, desde el centro de datos hasta el edge.  Como proveedor líder mundial de soluciones de software de código abierto empresarial, Red Hat invierte en ecosistemas y comunidades abiertos para resolver los desafíos de TI del mañana. Por medio de la colaboración, Red Hat ayuda a clientes y partners a construir, conectar, automatizar, proteger y gestionar sus entornos de TI, con el respaldo de servicios de consultoría, capacitación y certificación reconocidos mundialmente.



  • DECLARACIONES DE PROYECCIÓN FUTURA
  • Con excepción de la información histórica y de los análisis que se contemplan en el presente, las declaraciones incluidas en este comunicado de prensa pueden constituir declaraciones de proyección futura según el significado que le confiere la Private Securities Litigation Reform Act de 1995. Las declaraciones de proyección futura se basan en las actuales presunciones de la compañía en relación con su desempeño comercial y financiero. Estas declaraciones contemplan ciertos riesgos, incertidumbres y otros factores que podrían hacer que los resultados reales difieran sustancialmente. Las declaraciones de proyección futura incluidas en este comunicado de prensa tienen validez únicamente en la fecha en la que se realizan. Salvo lo exigido por ley, la compañía no asume ninguna obligación de actualizar o modificar estas declaraciones de proyección futura.

    ###

    Red Hat y el logo de Red Hat son marcas comerciales o marcas comerciales registradas de Red Hat, Inc. o sus subsidiarias en los EE. UU. y en otros países. Linux® es la marca comercial registrada de Linus Torvalds en los EE. UU. y en otros países.