Aujourd'hui, nous mettons le projet llm-d à la disposition de la Cloud Native Computing Foundation (CNCF) en tant que projet Sandbox.

Il ne s'agit pas simplement d'une nouvelle version de code. C'est un engagement à faire de la fourniture de services d'IA haute performance une capacité essentielle et portable de la pile cloud-native.

Par Brian Stevens, vice-président senior et directeur technique (CTO) de l'IA chez Red Hat

Lors du lancement de llm-d en mai 2025, notre objectif était de combler l'immense fossé entre l'expérimentation en IA et l'inférence de production à grande échelle et critique. En intégrant llm-d à la CNCF, nous élargissons l'ambition d'une coalition multi-fournisseurs – comprenant CoreWeave, IBM, Google et NVIDIA – d'établir la norme ouverte pour l'inférence distribuée.

L'inférence est le moteur de l'ère de l'agentivité

À l'aube d'un avenir où les agents humains sont omniprésents, l'inférence IA, qui alimente les agents d'entreprise dans divers secteurs, est sur le point de se généraliser. Il est crucial que le coût et la complexité de l'inférence ne dépassent pas la valeur ajoutée des agents eux-mêmes. Or, l'inférence peut s'avérer extrêmement coûteuse, consommant d'importantes quantités d'accélérateurs spécialisés, et ces coûts peuvent exploser à grande échelle. Les fonctionnalités avancées de llm-d répondent précisément à ce besoin, en respectant les objectifs de niveau de service (SLO) des entreprises tout en optimisant l'efficacité de l'infrastructure. De plus, les organisations ont besoin de flexibilité pour déployer l'inférence là où cela est pertinent (centre de données, cloud ou périphérie) et sur le matériel de leur choix. Cette flexibilité n'est possible que si l'écosystème sous-jacent repose sur des logiciels libres et des standards ouverts.

Combler le fossé dans l'environnement natif du cloud

Bien que Kubernetes soit la norme du secteur en matière d'orchestration, il n'a pas été conçu initialement pour répondre aux exigences spécifiques et dynamiques de l'inférence de grands modèles de langage (LLM). Dans un microservice classique, une requête est une requête : chaque réplique peut la traiter avec la même efficacité. En IA générative, le coût d'une requête varie considérablement en fonction de la longueur des jetons d'entrée et de sortie, de la taille et de l'architecture du modèle, de la localité du cache et de la phase dans laquelle se trouve le modèle : préchargement (limité par le calcul) ou décodage (limité par la mémoire).

Le routage de services standard ne tient pas compte de ces dynamiques, ce qui entraîne une allocation inefficace et une latence imprévisible. C'est là qu'intervient llm-d. Il fonctionne comme une couche d'orchestration de plan de données spécialisée, faisant le lien entre les plans de contrôle de haut niveau tels que KServe et les moteurs de bas niveau comme vLLM. En tirant parti des composants natifs de Kubernetes, comme l'API Gateway et LeaderWorkerSet (LWS), il transforme l'inférence distribuée complexe en une charge de travail cloud-native gérable et observable.

Renforcer l'écosystème par la contribution

En mettant llm-d à la disposition de la CNCF, nous établissons des parcours bien définis : des conceptions éprouvées et reproductibles qui transforment des composants d’IA fragmentés en microservices modulaires et interopérables. Cette contribution dépasse le cadre d’un simple projet ; elle vise à enrichir l’ensemble de l’écosystème cloud-native afin que l’inférence devienne partie intégrante du même environnement que les applications conteneurisées traditionnelles.

Un élément central de ce travail est le sélecteur de point de terminaison (EPP). llm-d constitue une implémentation clé de l'API d'extension d'inférence (GAIE), et l'EPP permet un routage programmable prenant en compte l'inférence. Ainsi, le système prend des décisions de routage en fonction de l'état réel du moteur, optimisant les taux d'accès au cache KV et les fonctionnalités d'accélération matérielle. Il s'agit d'une condition essentielle pour garantir des performances constantes tout en respectant des objectifs de niveau de service stricts.

llm-d complète et étend l'ensemble de solutions existantes au sein de la CNCF :

● Kubernetes : Fournit l’infrastructure essentielle aux charges de travail d’IA.
● API Gateway : Assure l’alignement en amont du routage spécifique à l’IA, garantissant ainsi que la gestion du trafic reste un composant central ouvert.
● KServe : Sert de plan de contrôle de haut niveau et s’intègre à llm-d pour prendre en charge des fonctionnalités avancées telles que la désagrégation des services et la mise en cache des préfixes.
● LeaderWorkerSet : Exploite les composants natifs de Kubernetes pour orchestrer la réplication multi-nœuds complexe et le parallélisme expert, transformant des moteurs comme vLLM en charges de travail cloud-native gérables.
● Prometheus et Grafana : Exportent des métriques spécialisées telles que le temps d’obtention du premier jeton (TTFT) pour apporter une observabilité d’entreprise à l’IA générative.

Ensemble, gravissons l'avenir de l'inférence

La collaboration est au cœur de llm-d depuis sa création. Lors de l'annonce de llm-d l'année dernière au Red Hat Summit, les efforts conjugués des contributeurs fondateurs, des leaders de l'industrie et des universitaires ont été une source de fierté pour Red Hat, non seulement pour le lancement de llm-d, mais aussi pour la mise en place d'une base collaborative et pérenne. Au cours des dix mois suivants, llm-d a été adopté aussi bien pour les solutions MaaS (Model-as-a-Service) d'IA en entreprise que pour des initiatives d'IA à grande échelle. Plus important encore, l'esprit ouvert du projet se renforce grâce à un écosystème croissant de contributeurs et de partenaires. Développeurs et entreprises font confiance à llm-d, et son intégration à la CNCF contribuera à pérenniser un avenir ouvert. Le chemin vers une innovation réussie en IA open source est long, mais ensemble, nous construisons l'infrastructure nécessaire pour y parvenir.

Auteur : Brian Stevens, vice-président senior et directeur technique (CTO) de l’IA chez Red Hat

Non étiqueté

Check Point élargit sa gamme d'appliances 21000 avec une nouvelle solution de sécurité pour centres de données.
Check Point® Software Technologies Ltd. annonce le lancement de son nouveau dispositif Check Point 21600, qui offre un débit allant jusqu'à 110 Gbit/s, une augmentation de 30 % des unités SecurityPower™ (SPU)¹ et une latence ultra-faible pour les environnements exigeants…
Extreme Networks lance les nouveaux modules BlackDiamond 8900 pour centres de données

Extreme Networks présente les nouveaux modules BlackDiamond 8900 pour le commutateur BlackDiamond 8800. Cette nouvelle architecture pour les datacenters de nouvelle génération est la seule à combiner l'évolutivité de jusqu'à 582 ports Ethernet 10 Gb dans une seule baie, avec une efficacité énergétique maximale et…
Fujitsu ETERNUS DX8900 S4 optimisé pour Flash

Fujitsu présente la solution ETERNUS DX8900 S4, offrant un stockage flash optimisé à l'échelle du pétaoctet pour les centres de données. Ce système réduit la complexité en éliminant la nécessité de varier les niveaux de stockage selon les charges de travail et consolide les silos de stockage.
Bloc d'alimentation puissant avec 8 prises IEC-C13 et protection générale contre les surcharges

PDU-Rack présente son unité de distribution d'alimentation (PDU) Powerfull, dotée de 8 prises IEC-C13 et d'une protection générale contre les surcharges. Disponible en versions monophasées de 16 A à 64 A.
Raritan intègre JouleX Energy Manager à ses unités de distribution d'énergie intelligentes.
Raritan annonce l'extension des fonctionnalités de ses unités de distribution d'énergie intelligentes (IPDU). Son nouveau partenariat avec JouleX, spécialiste de la gestion de l'énergie, a permis l'intégration du logiciel de gestion de l'énergie JouleX Manager.
Le refroidissement liquide va-t-il dominer la gestion thermique des centres de données ?

Au cours des 16 dernières années, l'enveloppe thermique (TDP) des GPU a quadruplé. Face à la demande croissante en intelligence artificielle, en cloud computing et en minage de cryptomonnaies, IDTechEx prévoit que la consommation énergétique des cartes mères pour serveurs et centres de données continuera d'augmenter. Avec une durée de vie…

Bulletin

Dernières nouvelles

D'après une étude de FRITZ!, les Espagnols font davantage confiance aux routeurs européens et moins aux routeurs chinois

Samedi 13 juin 2026

FRITZ!, fabricant européen de solutions haut débit et de domotique, a annoncé….

Nokia intègre une IA basée sur des agents dans les fournisseurs de services réseau (NSP) afin d'accélérer l'automatisation des réseaux IP

Samedi 13 juin 2026

Nokia a annoncé une mise à jour de sa plateforme de services réseau (NSP), la plateforme complète pour...

Zelenza renouvelle son contrat d'ingénierie de réseau d'accès mobile avec MasOrange pour la période 2026-2027

Jeudi 11 juin 2026

Zelenza a annoncé le renouvellement du contrat de services d'ingénierie relatif aux travaux opérationnels...

Rapport « Avantage durable de l’IA » : les clés du déploiement à grande échelle de l’intelligence artificielle en entreprise

Mardi 9 juin 2026

La thèse centrale du rapport est que le principal défi pour les entreprises n'est plus l'adoption de l'IA, mais...

NeoCortec et Endrich proposent des solutions IoT industrielles grâce au réseau maillé NeoMesh

Lundi 8 juin 2026

En plus d'être l'un des principaux partenaires de distribution de NeoCortec, NeoCortec...

réseaux sociaux

Abonnez-vous au magazine CONECtrónica

Vous pouvez vous abonner au magazine Conectrónica en 2 formats.

Format numérique : 5 éditions PDF téléchargeables pour un coût annuel de 60 euros (TVA incluse)

Format papier : 5 numéros à recevoir par courrier pour un coût annuel de 180 euros (TVA incluse).

Contactez notre service des abonnements à l'adresse subscriptions@conectronica.com

Paiement via Bizum ou virement bancaire

Cours et séminaires techniques

Keenetic présente son écosystème de connectivité avec KeeneticOS lors d'un webinaire technique sur le Wi-Fi 7, la 4G et la 5G

Avec Keenetic et KeeneticOS, les fournisseurs d'accès Internet, les intégrateurs et les petites entreprises peuvent couvrir des scénarios tels que….

DataCom : Guide technique pour les réseaux, la fibre optique et le câblage structuré

La transformation numérique a fait des réseaux de données une infrastructure essentielle pour...

Taoglas lance The Antenna Podcast, un nouvel espace technique consacré à la conception et à l'innovation en matière d'antennes

Les antennes demeurent l'un des éléments les plus critiques et, en même temps, les plus mal compris...

ISE 2026 Barcelone : Sommets, mégatendances et le programme de contenu le plus ambitieux du secteur audiovisuel

De retour à Barcelone en février 2026, Integrated Systems Europe (ISE) présentera son programme de….

Livre électronique : l'avenir des communications par satellite

Mouser Electronics, Inc., en collaboration avec Qorvo et d'autres innovateurs technologiques...

Connecteurs. FTTH Magazine. Électronique industrielle. Cours sur la fibre optique, séminaires en ligne, actualités technologiques et salons professionnels, câbles et connecteurs à fibre optique industriels, actualités de l'entreprise, oscilloscopes et outils, centres de données.

Tél. : +34 91 706 56 69

Poème symphonique, 27. Esc B. Étage 1 Pta 5

28054 (Madrid - ESPAGNE)

Courriel : gm2@gm2publicacionestecnicas.com ou consultations@conectronica.com

Parmi les autres publications de GM2 figurent Convertronic Magazine et la chaîne Gasogeno98.

politique de confidentialité

Avis juridique

Pourquoi nous mettons llm-d à la disposition de la CNCF : définir la norme pour l’avenir de l’IA

Non étiqueté

Check Point élargit sa gamme d'appliances 21000 avec une nouvelle solution de sécurité pour centres de données.

Extreme Networks lance les nouveaux modules BlackDiamond 8900 pour centres de données

Fujitsu ETERNUS DX8900 S4 optimisé pour Flash

Bloc d'alimentation puissant avec 8 prises IEC-C13 et protection générale contre les surcharges

Raritan intègre JouleX Energy Manager à ses unités de distribution d'énergie intelligentes.

Le refroidissement liquide va-t-il dominer la gestion thermique des centres de données ?

Bulletin

Dernières nouvelles

D'après une étude de FRITZ!, les Espagnols font davantage confiance aux routeurs européens et moins aux routeurs chinois

Nokia intègre une IA basée sur des agents dans les fournisseurs de services réseau (NSP) afin d'accélérer l'automatisation des réseaux IP

Zelenza renouvelle son contrat d'ingénierie de réseau d'accès mobile avec MasOrange pour la période 2026-2027

Rapport « Avantage durable de l’IA » : les clés du déploiement à grande échelle de l’intelligence artificielle en entreprise

NeoCortec et Endrich proposent des solutions IoT industrielles grâce au réseau maillé NeoMesh

Abonnez-vous au magazine CONECtrónica

Cours et séminaires techniques

Keenetic présente son écosystème de connectivité avec KeeneticOS lors d'un webinaire technique sur le Wi-Fi 7, la 4G et la 5G

DataCom : Guide technique pour les réseaux, la fibre optique et le câblage structuré

Taoglas lance The Antenna Podcast, un nouvel espace technique consacré à la conception et à l'innovation en matière d'antennes

ISE 2026 Barcelone : Sommets, mégatendances et le programme de contenu le plus ambitieux du secteur audiovisuel

Livre électronique : l'avenir des communications par satellite

Réseaux optiques

Televés renouvelle Overlight avec des émetteurs optiques plus performants et un récepteur Quattro 60 % plus compact

VIAVI lance AI Experts : l’intelligence artificielle pour accélérer la validation et le diagnostic des réseaux

L'impératif de la boîte de verre : gouvernance de l'automatisation basée sur l'intention dans les réseaux natifs de l'IA

Multiplexeur optique multidimensionnel reconfigurable d'ajout/suppression pour systèmes WDM-MDM

LAN 2026 : Normes, tendances et nouveautés dans les réseaux locaux

Évolution des réseaux optiques : ROADM, OpenROADM et OpenZR+ à l’ère des 400G et 800G

Legrand lance Chroma Link, la solution fibre optique pour les réseaux d'IA haute densité

Connecteurs. FTTH Magazine. Électronique industrielle. Cours sur la fibre optique, séminaires en ligne, actualités technologiques et salons professionnels, câbles et connecteurs à fibre optique industriels, actualités de l'entreprise, oscilloscopes et outils, centres de données.

Nom
E-mail