Lors du lancement de llm-d en mai 2025, notre objectif était de combler l'immense fossé entre l'expérimentation en IA et l'inférence de production à grande échelle et critique. En intégrant llm-d à la CNCF, nous élargissons l'ambition d'une coalition multi-fournisseurs – comprenant CoreWeave, IBM, Google et NVIDIA – d'établir la norme ouverte pour l'inférence distribuée.
L'inférence est le moteur de l'ère de l'agentivité
À l'aube d'un avenir où les agents humains sont omniprésents, l'inférence IA, qui alimente les agents d'entreprise dans divers secteurs, est sur le point de se généraliser. Il est crucial que le coût et la complexité de l'inférence ne dépassent pas la valeur ajoutée des agents eux-mêmes. Or, l'inférence peut s'avérer extrêmement coûteuse, consommant d'importantes quantités d'accélérateurs spécialisés, et ces coûts peuvent exploser à grande échelle. Les fonctionnalités avancées de llm-d répondent précisément à ce besoin, en respectant les objectifs de niveau de service (SLO) des entreprises tout en optimisant l'efficacité de l'infrastructure. De plus, les organisations ont besoin de flexibilité pour déployer l'inférence là où cela est pertinent (centre de données, cloud ou périphérie) et sur le matériel de leur choix. Cette flexibilité n'est possible que si l'écosystème sous-jacent repose sur des logiciels libres et des standards ouverts.
Combler le fossé dans l'environnement natif du cloud
Bien que Kubernetes soit la norme du secteur en matière d'orchestration, il n'a pas été conçu initialement pour répondre aux exigences spécifiques et dynamiques de l'inférence de grands modèles de langage (LLM). Dans un microservice classique, une requête est une requête : chaque réplique peut la traiter avec la même efficacité. En IA générative, le coût d'une requête varie considérablement en fonction de la longueur des jetons d'entrée et de sortie, de la taille et de l'architecture du modèle, de la localité du cache et de la phase dans laquelle se trouve le modèle : préchargement (limité par le calcul) ou décodage (limité par la mémoire).
Le routage de services standard ne tient pas compte de ces dynamiques, ce qui entraîne une allocation inefficace et une latence imprévisible. C'est là qu'intervient llm-d. Il fonctionne comme une couche d'orchestration de plan de données spécialisée, faisant le lien entre les plans de contrôle de haut niveau tels que KServe et les moteurs de bas niveau comme vLLM. En tirant parti des composants natifs de Kubernetes, comme l'API Gateway et LeaderWorkerSet (LWS), il transforme l'inférence distribuée complexe en une charge de travail cloud-native gérable et observable.
Renforcer l'écosystème par la contribution
En mettant llm-d à la disposition de la CNCF, nous établissons des parcours bien définis : des conceptions éprouvées et reproductibles qui transforment des composants d’IA fragmentés en microservices modulaires et interopérables. Cette contribution dépasse le cadre d’un simple projet ; elle vise à enrichir l’ensemble de l’écosystème cloud-native afin que l’inférence devienne partie intégrante du même environnement que les applications conteneurisées traditionnelles.
Un élément central de ce travail est le sélecteur de point de terminaison (EPP). llm-d constitue une implémentation clé de l'API d'extension d'inférence (GAIE), et l'EPP permet un routage programmable prenant en compte l'inférence. Ainsi, le système prend des décisions de routage en fonction de l'état réel du moteur, optimisant les taux d'accès au cache KV et les fonctionnalités d'accélération matérielle. Il s'agit d'une condition essentielle pour garantir des performances constantes tout en respectant des objectifs de niveau de service stricts.
llm-d complète et étend l'ensemble de solutions existantes au sein de la CNCF :
● Kubernetes : Fournit l’infrastructure essentielle aux charges de travail d’IA.
● API Gateway : Assure l’alignement en amont du routage spécifique à l’IA, garantissant ainsi que la gestion du trafic reste un composant central ouvert.
● KServe : Sert de plan de contrôle de haut niveau et s’intègre à llm-d pour prendre en charge des fonctionnalités avancées telles que la désagrégation des services et la mise en cache des préfixes.
● LeaderWorkerSet : Exploite les composants natifs de Kubernetes pour orchestrer la réplication multi-nœuds complexe et le parallélisme expert, transformant des moteurs comme vLLM en charges de travail cloud-native gérables.
● Prometheus et Grafana : Exportent des métriques spécialisées telles que le temps d’obtention du premier jeton (TTFT) pour apporter une observabilité d’entreprise à l’IA générative.
Ensemble, gravissons l'avenir de l'inférence
La collaboration est au cœur de llm-d depuis sa création. Lors de l'annonce de llm-d l'année dernière au Red Hat Summit, les efforts conjugués des contributeurs fondateurs, des leaders de l'industrie et des universitaires ont été une source de fierté pour Red Hat, non seulement pour le lancement de llm-d, mais aussi pour la mise en place d'une base collaborative et pérenne. Au cours des dix mois suivants, llm-d a été adopté aussi bien pour les solutions MaaS (Model-as-a-Service) d'IA en entreprise que pour des initiatives d'IA à grande échelle. Plus important encore, l'esprit ouvert du projet se renforce grâce à un écosystème croissant de contributeurs et de partenaires. Développeurs et entreprises font confiance à llm-d, et son intégration à la CNCF contribuera à pérenniser un avenir ouvert. Le chemin vers une innovation réussie en IA open source est long, mais ensemble, nous construisons l'infrastructure nécessaire pour y parvenir.
Auteur : Brian Stevens, vice-président senior et directeur technique (CTO) de l’IA chez Red Hat
