L'apprentissage distribué, et en particulier l'apprentissage fédéré (FL), s'impose comme un paradigme majeur dans le domaine de l'apprentissage automatique, répondant à deux exigences fondamentales. L'apprentissage fédéré s'est développé parallèlement à l'expansion du cloud vers la périphérie (CloudEdge), mais, fait intéressant, les deux se sont développés de manière largement indépendante, malgré leur parallélisme naturel. Dans le cadre du projet MLEDGE (Machine Learning in the Cloud and at the Edge), IMDEA Networks, sous la direction du Dr Nikolaos Laoutaris, s'attachera à inverser cette tendance en implémentant le FL comme une couche intersectorielle indépendante mais optimisée, s'appuyant sur CloudEdge. Des applications et des données réelles permettront de démontrer que cette synergie peut générer des avantages significatifs pour tous.
L’économie des données devrait générer un impact de 827 milliards d’euros pour les 27 pays de l’UE d’ici 2025 (1) . L’objectif est donc de permettre la mise en place d’un écosystème performant de services Edge FL sécurisés et efficaces, capables de faciliter l’utilisation de données personnelles et B2B sensibles pour l’entraînement de modèles d’apprentissage automatique (pour des utilisateurs finaux individuels ou des organisations administrativement indépendantes collaborant selon différents niveaux de confiance – de totale à nulle, et tout niveau intermédiaire).
Efficacité, durabilité et sécurité.
Comme le souligne Elisa Cabana, chercheuse postdoctorale chez IMDEA Networks : « Ce projet contribue à la recherche dans des domaines tels que les services d’apprentissage fédéré (FLaaS), le traitement en périphérie du cloud, l’utilisation efficace du FLaaS dans les clouds hybrides, la protection contre les attaques, la protection des données sensibles ou confidentielles échangées, la gestion des enjeux de portabilité des données en périphérie, etc. » Dans ce contexte, l’équipe concevra un cadre de développement et des composants pour faciliter la démocratisation de ces services, ainsi que des solutions contre les attaques par empoisonnement ou inférence lancées depuis des serveurs périphériques malveillants et/ou des nœuds d’agrégation « honnêtes mais curieux ». Cela inclut la création d’un filigrane pour empêcher la redistribution des données ou des métadonnées échangées entre les serveurs périphériques au sein du cadre FLaaS.
D'autres aspects clés, comme le résume Cabana, incluent : « La création d'une couche de logique économique et commerciale assurant une répartition équitable des coûts et des revenus entre les parties collaborant à l'entraînement des modèles d'apprentissage automatique, et le soutien du DevOps (un ensemble de pratiques combinant développement logiciel et opérations informatiques, visant à accélérer le cycle de vie du développement logiciel et à garantir une livraison continue et de haute qualité) et du développement continu de services d'apprentissage automatique dans le cloud, en optimisant les coûts grâce à la surveillance, la prédiction et une allocation intelligente et écoénergétique des tâches de calcul . » La recherche contribuera également à la conception, à la mise en œuvre et au déploiement public de démonstrateurs fonctionnant avec des données personnelles sensibles et alimentant des modèles utiles dans des secteurs des économies traditionnelles et numériques tels que la FinTech, l'identité, la santé, les transports, le contrôle d'accès, etc.
Transfert de technologie à la société :
L'innovation du projet favorisera des conditions de marché propices à l'utilisation de l'apprentissage fédéré dans le cloud et au sein d'architectures de données fédérées, telles que celles définies par des institutions comme l'IDSA ou Gaia-X, dans un contexte international. Ceci permettra de développer des innovations majeures pour relever les défis économiques, commerciaux et sociaux importants liés aux silos de données dans l'économie. « MLEDGE rendra la technologie d'apprentissage fédéré avancée accessible à un plus grand nombre d'organisations et de particuliers, notamment les PME et les administrations publiques, et favorisera la création d'entreprises durables pour tous les acteurs de la chaîne de valeur (experts/fournisseurs en apprentissage automatique, fournisseurs de services cloud et de données, industries traditionnelles et numériques, secteur public, monde universitaire, etc.) », explique Nikolaos Laoutaris, professeur de recherche à IMDEA Networks et responsable du projet au sein de l'institut.
Ce projet sera fondamental pour le développement des infrastructures cloud et d'apprentissage automatique/fédéré en Espagne et pour la promotion de la R&D&I nationale. Il contribuera aux objectifs de développement durable fixés par les Nations Unies pour 2030 et promouvra le développement durable de réseaux efficaces et de solutions FL grâce à des travaux pratiques susceptibles d'avoir un impact substantiel et positif sur l'environnement.
Concernant les solutions technologiques, les suivantes se distinguent :
1. Économie traditionnelle (construction, finance, santé, etc.). Le cas d’usage sera développé par une entreprise afin d’améliorer ses processus ou sa prise de décision (par exemple, en temps réel) à partir de données ou de modèles issus de l’apprentissage fédéré.
2. Économie numérique. On peut citer comme exemple le domaine de la santé numérique, notamment l’exploitation des informations provenant d’appareils mobiles ou de technologies portables. Un autre exemple serait l’entraînement de modèles publicitaires numériques.
3. Optimisation des infrastructures CloudEdge. Fonctionnalité clé de MLEDGE, qui utilisera des algorithmes d’apprentissage automatique fédérés.
MLEDGE (Machine Learning in the Cloud and at the Edge) est financé (janvier 2023-juin 2025) par le ministère des Affaires économiques et de la Transformation numérique, dans le cadre du programme NextGeneration-EU de l’Union européenne.
(1) Stratégie européenne en matière de données pour la période 2025-2030
