Les nouvelles applications mobiles demandent régulièrement l'accès à vos données de géolocalisation, à votre carnet d'adresses ou à d'autres applications. De plus, des sites web comme Amazon ou Netflix suivent votre historique de navigation pour vous proposer des recommandations personnalisées.
Parallèlement, plusieurs études récentes ont démontré qu'il est étonnamment facile d'identifier des personnes non identifiées dans des bases de données censées être anonymes, même celles contenant des millions d'enregistrements. Dès lors, si nous voulons profiter des avantages de l'exploration de données – tels que les recommandations personnalisées ou les services de géolocalisation – comment protéger notre vie privée ?
Dans le dernier numéro de PLoS ONE, des chercheurs du MIT proposent une solution possible. Leur système prototype, openPDS (pour le stockage de données personnelles), conserve les données de vos appareils numériques dans un emplacement unique que vous spécifiez : il peut s’agir d’un serveur chiffré dans le cloud, mais aussi d’un ordinateur placé dans un boîtier sécurisé sous votre bureau.
Toute application mobile, tout service en ligne ou toute équipe de recherche sur les mégadonnées qui souhaite utiliser vos données doit interroger l'entrepôt de données, qui ne renvoie que la quantité d'informations nécessaires.
Du code partagé, pas les données.
« L’exemple que j’aime utiliser est celui de la musique personnalisée », explique Yves-Alexandre de Montjoye, doctorant en arts et sciences et premier auteur de l’article. « Pandora, par exemple, repose sur ce qu’ils appellent le génome musical, qui contient un résumé de vos goûts musicaux. Pour recommander une chanson, il lui suffit des dix dernières chansons que vous avez écoutées – histoire d’éviter de recommander la même plusieurs fois – et ce génome musical n’a pas besoin de la liste de toutes les chansons que j’ai écoutées. »
Avec openPDS, explique Montjoye, « on partage du code, pas des données. Au lieu d'envoyer des données à Pandora pour définir vos préférences musicales, Pandora vous envoie un fragment de code pour définir ces préférences, puis vous le renvoie. »
Montjoye a collaboré à cette étude avec son directeur de thèse, Alex « Sandy » Pentland, professeur Toshiba d'arts et de sciences des médias ; Erez Shmueli, chercheur postdoctoral au sein de l'équipe de Pentland ; et Samuel Wang, ingénieur logiciel chez Foursquare, qui était étudiant en génie électrique et informatique au moment des travaux.
Après une phase de déploiement initiale auprès de 21 personnes ayant utilisé openPDS pour gérer l'accès à leurs dossiers médicaux, les chercheurs testent actuellement le système avec plusieurs opérateurs de télécommunications en Italie et au Danemark. Bien qu'openPDS puisse, en principe, fonctionner sur n'importe quel ordinateur choisi par l'utilisateur, les données sont stockées dans le cloud lors de ces essais.
Des autorisations pertinentes.
L'un des avantages d'openPDS, explique Montjoye, est qu'il oblige les applications à préciser les informations dont elles ont besoin et comment elles seront utilisées. Aujourd'hui, dit-il, « lorsqu'on installe une application, on nous indique “cette application a accès à votre position GPS” ou “a accès à la carte SD”. En tant qu'utilisateur, on n'a absolument aucun moyen de savoir ce que cela signifie. Les autorisations ne nous disent absolument rien. »
En réalité, les applications collectent souvent bien plus de données qu'il n'en faut. Les fournisseurs de services et les développeurs d'applications ne savent pas toujours à l'avance quelles données seront les plus utiles ; ils en stockent donc le maximum au cas où ils en auraient besoin plus tard. Il se pourrait, par exemple, que pour certains mélomanes, la pochette d'un album soit un meilleur indicateur de leurs goûts musicaux que les données enregistrées par le système de Pandora.
OpenPDS stocke toutes les données potentiellement utiles, mais dans un référentiel contrôlé par l'utilisateur final, et non par le développeur de l'application ou le fournisseur de services. Un développeur qui découvre l'utilité d'une information jusque-là sous-utilisée doit en demander l'accès à l'utilisateur. Si cette demande lui paraît intrusive, l'utilisateur peut simplement la refuser.
Bien sûr, un développeur malveillant pourrait tenter de manipuler le système en créant des requêtes qui permettent de recueillir plus d'informations que l'utilisateur ne souhaite en divulguer. Une application de navigation pourrait, par exemple, être autorisée à identifier la station de métro ou le parking le plus proche de l'utilisateur. Mais elle ne devrait pas avoir besoin de ces deux informations simultanément, et en les demandant, elle pourrait déduire des informations de localisation plus précises que celles que l'utilisateur souhaite communiquer.
Montjoye reconnaît que la mise en place de mesures de protection contre de telles fuites de données devra se faire au cas par cas, application par application, et qu'au moins dans un premier temps, toutes les implications de certaines combinaisons de requêtes pourraient ne pas être évidentes. Mais « même si la sécurité n'est pas garantie à 100 %, cela représente tout de même une amélioration considérable par rapport à la situation actuelle », affirme-t-il. « Si nous parvenons à donner aux utilisateurs l'accès à la plupart de leurs données et si nous disposons de technologies de pointe permettant d'interagir anonymement avec les systèmes, ce serait une victoire majeure. »
Article rédigé par Larry Hardesty, MIT News Office
