Avec la multiplication des données personnelles en ligne, le risque d'utilisation abusive accidentelle par des personnes autorisées à y accéder devient une préoccupation majeure. Chaque mois semble apporter son lot de nouvelles fuites accidentelles d'informations privées par des organismes gouvernementaux ou des fournisseurs de produits et services numériques.

Dans le même temps, des restrictions d'accès plus strictes pourraient nuire au partage des données. La coordination entre les organismes et les prestataires de soins pourrait être essentielle à la qualité des soins ; vous pourriez souhaiter que votre famille puisse partager les photos que vous publiez sur les réseaux sociaux.
Les chercheurs du Groupe d'information décentralisée (DIG) du Laboratoire d'informatique et d'intelligence artificielle (CSAIL) du MIT estiment que la solution réside peut-être dans la transparence plutôt que dans le secret. À cette fin, ils développent un protocole qu'ils appellent « HTTP avec responsabilité », ou HTTPA, qui suivra automatiquement la transmission des données privées et permettra au propriétaire des données d'examiner comment elles sont utilisées.

Lors de la conférence IEEE sur la confidentialité, la sécurité et la confiance en juillet, Oshani Seneviratne, étudiante diplômée du MIT en génie électrique et informatique, et Lalana Kagal, chercheuse principale au CSAIL, présenteront un article qui donne un aperçu du protocole HTTPA et présente un exemple d'application, impliquant un système de dossiers médicaux que Seneviratne a mis en œuvre sur le réseau expérimental PlanetLab.

Le DIG est dirigé par Tim Berners-Lee, inventeur du Web et professeur fondateur d'ingénierie au MIT, et partage ses bureaux avec le World Wide Web Consortium (W3C), l'organisation, également dirigée par Berners-Lee, qui supervise le développement des protocoles Internet tels que HTTP, XML et CSS. Le rôle du DIG est de développer de nouvelles technologies exploitant ces protocoles.

Avec HTTPA, chaque donnée privée se voit attribuer un identifiant de ressource uniforme (URI), un élément clé du Web sémantique, un ensemble de technologies novatrices promues par le W3C qui transformerait le Web, actuellement constitué de fichiers texte interrogeables, en une immense base de données.
L'accès distant à un serveur Web serait bien plus strictement contrôlé qu'actuellement, grâce aux mots de passe et au chiffrement. À chaque transmission de données sensibles, le serveur enverrait également une description des restrictions d'utilisation. La transaction serait initiée, à l'aide du seul URI, sur un serveur dédié et chiffré d'un réseau. L'adoption
de HTTPA serait facultative : il appartiendrait aux développeurs de logiciels de respecter ses spécifications lors de la conception de leurs systèmes. La conformité à HTTPA pourrait toutefois devenir un argument de vente pour les entreprises proposant des services de traitement de données privées.
« Transformer un site Web existant en un site compatible HTTPA n'est pas si compliqué », explique Seneviratne. « Pour chaque requête HTTP, le serveur doit indiquer les restrictions d'utilisation de cette ressource et consigner les transactions sur le réseau de serveurs dédiés. »

Un programme conforme à la loi HTTPA est également soumis à certaines responsabilités en cas de réutilisation de données provenant d'une autre source conforme à cette même loi. Supposons, par exemple, qu'un consultant au sein d'un réseau de médecins souhaite accéder aux données créées par le médecin traitant d'un patient et les compléter avec ses propres notes. Son système créerait alors son propre enregistrement, doté de sa propre URI. Toutefois, en utilisant les techniques standard du Web sémantique, il marquerait cet enregistrement comme « dérivé » de l'enregistrement du médecin traitant et lui appliquerait les mêmes limites d'utilisation.
C'est au niveau du réseau de serveurs que s'effectue le traitement des données. Lorsqu'un audit est demandé par le propriétaire des données, les serveurs parcourent la chaîne des dérivations, identifiant ainsi toutes les personnes ayant accédé aux données et leurs actions.

Seneviratne utilise une technologie appelée tables de hachage distribuées — la technologie au cœur des réseaux peer-to-peer comme BitTorrent — pour répartir les journaux de transactions entre les serveurs. Le stockage redondant des mêmes données sur plusieurs serveurs remplit deux objectifs : premièrement, il garantit l’accessibilité des données même en cas de panne de certains serveurs ; deuxièmement, il permet de déterminer si quelqu’un a tenté de manipuler les journaux de transactions d’une donnée particulière — par exemple, en supprimant un enregistrement d’utilisation illicite. Un serveur dont les journaux diffèrent de ceux de ses pairs serait facile à repérer.
Pour tester le système, Seneviratne a créé de toutes pièces un système rudimentaire de dossiers médicaux et l’a alimenté avec les données fournies par 25 volontaires. Il a ensuite simulé un ensemble de transactions — consultations en pharmacie, orientations vers des spécialistes, utilisation de données anonymisées à des fins de recherche, etc. — que les volontaires ont déclaré avoir effectuées au cours d’une année.
Seneviratne utilise 300 serveurs chez PlanetLab pour stocker les journaux de transactions. Lors d'expérimentations, le système a suivi efficacement les données stockées sur le réseau et géré les chaînes d'inférence nécessaires à l'audit de la propagation des données entre plusieurs fournisseurs. En pratique, les serveurs d'audit pourraient être gérés par une infrastructure réseau, à l'instar des serveurs hébergeant les fichiers BitTorrent ou enregistrant les transactions Bitcoin.
# # #
Article rédigé par Larry Hardesty, MIT News Office