Si bien la promesa de la IA generativa domina gran parte del panorama tecnológico actual, los grandes modelos lingüísticos (LLM) que sustentan estos sistemas continúan aumentando de tamaño. Como resultado, construir servicios LLM rentables y confiables requiere una potencia de cálculo, recursos energéticos y habilidades operativas especializadas significativas. Estos desafíos, en la práctica, ponen los beneficios de una IA personalizada, lista para implementar y más consciente de la seguridad fuera del alcance de la mayoría de las organizaciones.

Red Hat pretende abordar estos desafíos haciendo que la IA generativa sea más accesible para más organizaciones a través de la innovación abierta de vLLM. Desarrollado por la Universidad de California, Berkeley, vLLM es un proyecto de código abierto impulsado por la comunidad para open model serving (cómo los modelos de IA generativa infieren y resuelven problemas), con soporte para todas las familias de modelos clave, investigación avanzada en aceleración de inferencia y diversos backends de hardware, incluyendo GPUs AMD, AWS Neuron, TPUs de Google, Intel Gaudi, GPUs NVIDIA y CPUs x86. El liderazgo de Neural Magic en el proyecto vLLM, combinado con la sólida cartera de tecnologías de IA para nube híbrida de Red Hat, ofrecerá a las organizaciones una vía abierta para construir estrategias de IA que satisfagan sus necesidades únicas, dondequiera que estén sus datos.