Les téléphones intelligents génèrent un nombre ahurissant de données, lesquelles intéressent de plus en plus les chercheurs. On peut utiliser ce type de données pour modéliser les déplacements de population après de grands désastres, par exemple, ou pour mieux comprendre la propagation des maladies infectieuses. «L’enjeu majeur demeure toutefois l’anonymisation de ces données pour qu’on ne puisse pas les relier aux individus», souligne le professeur du Département d’informatique Sébastien Gambs, qui travaille sur le sujet depuis quelques années. En collaboration avec des collègues américains et européens, ainsi que des représentants de l’industrie des télécommunications et d’organisations gouvernementales et non gouvernementales, il vient de publier les résultats de ses recherches dans Scientific Data, hébergé par la prestigieuse revue scientifique Nature.
Le professeur et ses collègues sont convaincus de l’utilité des données mobiles pour la communauté scientifique, mais ils reconnaissent du même souffle que le modèle actuel de partage des données et de protection de la vie privée comporte trop de failles. Les lacunes à cet égard exposent les utilisateurs à des risques inacceptables et, advenant une fuite, pourraient compromettre l’utilisation ultérieure de ce type de données par les scientifiques. «Notre étude présente quatre modèles d’utilisation des données qui respecteraient le droit à la vie privée des utilisateurs», précise Sébastien Gambs.
Le premier modèle propose d’utiliser une version des données modifiée afin de restreindre la quantité d’information divulguée. «On peut, par exemple, généraliser les balises géographiques ou temporelles – en les rendant moins précises – de manière à ce que l’on ne puisse pas ré-identifier les individus desquels proviennent les données», explique le chercheur.
Le second modèle mise sur la divulgation d’indicateurs qui représentent une version agrégée du comportement de plusieurs individus ou de groupes de la population visée. «La portée des analyses sera restreinte à cause de la nature plus grossière de l’information révélée, souligne Sébastien Gambs, mais les risques pour la vie privée seront significativement réduits.»
Le troisième modèle cherche à protéger les données en les gardant sous le contrôle du possesseur originel ou d’une entité de confiance habilitée à jouer le rôle de curateur de données. «L’interaction avec les données se fait à distance par un mécanisme d’accès sécurisé, explique le professeur. On contrôle ainsi qui accède aux données et on s’assure qu’aucune information sensible ne soit divulguée dans le processus. L’infrastructure devant être mise en place pour cette approche est cependant relativement lourde et coûteuse, ce qui limite son applicabilité à large échelle, contrairement aux deux approches précédentes.»
Enfin, le quatrième et dernier modèle adopte la philosophie de la troisième approche, mais les interactions sont possibles seulement à travers un système de questions-réponses. «Selon cette approche, celui qui souhaite se servir des données ne les voit pas directement. Il soumet des requêtes ou du code devant être exécutés sur les données et reçoit uniquement le résultat. L’avantage, c’est que l’infrastructure devant être mise en place est moins complexe. En revanche, les analyses sont plus limitées à cause de l’accès partiel aux données pour l’analyste», conclut Sébastien Gambs.