Voir plus
Voir moins

Un projet avec le CHUM sur la confidentialité des données générées par IA

Les informations personnelles qui alimentent les profils synthétiques utilisés en recherche médicale sont-elles suffisamment protégées?

Par Pierre-Etienne Caza

19 juin 2025 à 8 h 33

Dans le domaine financier comme dans le domaine médical, il peut être intéressant d’utiliser les données provenant de cas réels – et impliquant des clients, des investisseurs ou des patients – pour réaliser des projets de recherche qui feront avancer les connaissances. «Pour préserver l’anonymat des personnes, il ne suffit pas de retirer leur nom et leur prénom des jeux de données, observe le doctorant en informatique Hadrien Lautraite. Ces dossiers comportent presque toujours d’autres informations sensibles – âge, code postal, date de naissance, genre – et en les croisant avec d’autres jeux de données publiques, on peut parvenir à identifier les personnes.»

Plutôt que de tenter d’anonymiser ces données personnelles, on se tourne depuis peu vers l’intelligence artificielle générative pour créer des données synthétiques. «On entraîne un modèle d’IA pour qu’il apprenne les caractéristiques d’une population donnée, puis on lui demande de générer de nouveaux profils, complètement inventés, qui respectent la distribution desdites caractéristiques», explique Hadrien Lautraite.

Si le modèle d’IA a bien fait son «travail», une analyse effectuée en se basant sur ces données synthétiques devrait donner des résultats similaires à ceux qui auraient été obtenus en utilisant les données réelles.

Dans le cadre de sa thèse, Hadrien Lautraite se concentre sur l’aspect sécuritaire du processus. «Je vérifie s’il est possible, à partir des données synthétiques, de retrouver les informations réelles – y compris celles qui sont confidentielles – ayant servi à générer ces faux profils, explique-t-il. En d’autres mots, j’analyse si des informations privées filtrent à travers les mécanismes qui génèrent des données synthétiques.»

Une compétition internationale

Une des façons pour tester cela est de lancer une attaque par inférence d’appartenance. L’hiver dernier, Hadrien Lautraite a participé à une compétition de ce type organisée par le Vector Institute for Artificial Intelligence. «Les données utilisées provenaient de transactions bancaires et un modèle d’IA avait été entraîné pour générer de nouvelles transactions artificielles. Le défi consistait à évaluer si le modèle avait accidentellement “retenu” des informations sensibles parmi les données originales», précise le doctorant, qui faisait équipe avec les professeurs du Département d’informatique Sébastien Gambs (son directeur de thèse) et Jean-François Rajotte ainsi que Lorrie Herbault et Yue Qi, spécialistes des données au Centre d’intégration et d’analyse en données médicales (CITADEL) du Centre hospitalier de l’Université de Montréal (CHUM).

Dans ce type de compétition, les équipes ont parfois accès au code, à la structure interne et donc au fonctionnement du modèle génératif – ce sont les compétitions «cadre boîte blanche» – ou à rien de tout cela – ce sont les compétition «cadre boîte noire». «Nous avons participé à la compétition cadre boîte noire et nous avons terminé en deuxième position», souligne le doctorant.

Les résultats de la compétition ont été annoncés au début du mois d’avril dernier, lors d’une conférence sur les enjeux de sécurité de l’apprentissage machine, à Copenhague au Danemark. L’équipe de l’UQAM et du CHUM a été en mesure d’identifier 22 % des personnes qui faisaient partie de l’échantillon d’entraînement du modèle d’IA, avec un taux de fausses alertes de 10 %. L’équipe qui a terminé au premier rang a identifié 25 % des personnes avec le même taux de fausses alertes.

«Les données synthétiques sont souvent proposées pour protéger la vie privée tout en facilitant le partage d’informations, note Jean-François Rajotte. Mais cette compétition a montré que, si certaines précautions ne sont pas prises, il est possible de deviner des choses sur les données réelles à partir des données synthétiques.»

Collaboration avec le CHUM

Si Hadrien Lautraite et les deux professeurs faisaient équipe avec des spécialistes de données du CHUM, c’est que ceux-ci développent un générateur de données synthétiques. «Pour évaluer la sécurité de leur modèle en matière de protection de la vie privée, ils sont venus cogner à la porte de Sébastien Gambs, raconte le doctorant. Comme nous travaillions avec eux, nous avons décidé de participer ensemble à la compétition pour tester notre module d’évaluation.»

Un enjeu grand public

Les spécialistes en informatique tirent la sonnette d’alarme depuis longtemps au sujet des enjeux de vie privée et des données personnelles, remarque Hadrien Lautraite. En 2018, Actualités UQAM avait publié un article à propos des recherches menées par Sébastien Gambs sur l’anonymisation des données mobiles. «Auparavant, c’était un sujet de préoccupation strictement académique, mais depuis l’avènement de ChatGPT, le grand public se soucie davantage des enjeux de vie privée. Mine de rien, l’IA générative crée de l’emploi dans notre domaine!»