Vous travaillez au Centre de compétences en science des données (DSCC) de l'Office fédéral de la statistique (OFS). La réutilisation des données est un thème actuel. Quels sont les défis à relever dans ce domaine?

Les défis principaux liés à la réutilisation des données consistent à simplifier la gestion des données détenues par l’administration fédérale et à mieux exploiter leur potentiel, tout en respectant la vie privée des individus. Une meilleure utilisation des données issues de la formation peut, par exemple, aider à identifier les profils d’apprentissage individuels et optimiser l’orientation et les conseils de carrière. Par extension, une identification précise des besoins de formation peut contribuer à une meilleure allocation des ressources éducatives.

L'OFS développe la plateforme Lomas pour la réutilisation des données. Pouvez-vous expliquer brièvement ce qu'est Lomas et quels sont ses objectifs?

Lomas est une nouvelle plateforme en source ouverte mise au point par le Centre de compétences en science des données (DSCC) de l’OFS et conçue pour exploiter le potentiel des données détenues par les administrations publiques tout en offrant les garanties les plus élevées en termes de protection de la confidentialité. A terme, nous espérons que Lomas puisse renforcer les collaborations avec le monde de la recherche, aider à fournir des indicateurs objectifs pour l’élaboration des politiques publiques et stimuler l’innovation dans tous les secteurs, tout en appliquant les normes les plus strictes en matière de confidentialité des données. Les utilisatrices et utilisateurs autorisés peuvent exécuter les algorithmes à distance sur des jeux de données, sans avoir accès aux données elles-mêmes. Les résultats obtenus sont protégés par la confidentialité différentielle (differential privacy). Il s’agit d’une méthodologie visant à empêcher qu’un tiers mal intentionné puisse extraire avec fiabilité des informations identifiables. La confidentialité différentielle, en ajoutant un bruit contrôlé aux résultats, quantifie et contrôle mathématiquement le risque de divulgation, tout en assurant une transparence totale sur la façon dont les données sont protégées et utilisées. Il s’agit d’une application concrète des techniques d’amélioration de la vie privée (Privacy-Enhancing Technologies, PET).

«  La confidentialité différentielle (…) quantifie et contrôle (…) le risque de divulgation, tout en assurant une transparence totale sur la façon dont les données sont protégées et utilisées.  »

Comment et par qui Lomas peut-il être utilisé?

Lomas est disponible en source ouverte sur le GitHub du DSCC. La plateforme se trouve encore au stade de la démonstration de faisabilité (proof-of-concept, POC) au sein de l’OFS. Afin de promouvoir le projet, le DSCC s’est associé avec l’INSEE (Institut national de la statistique et des études économiques) en France pour effectuer des essais sur des données publiques et a déployé Lomas sur le datalab Onyxia. Grâce à Lomas, les utilisatrices et utilisateurs autorisés, tels que les chercheuses et chercheurs agréés et les analystes dans le milieu éducatif, pourront obtenir des connaissances à partir des données précédemment inaccessibles. A terme, la plateforme pourrait aussi faciliter l’appariement des données pour des tiers dans le respect des prescriptions légales et à des fins non personnelles, notamment de recherche, de planification et de statistique.

«  A terme, la plateforme pourrait aussi faciliter l’appariement des données pour des tiers dans le respect des prescriptions légales et à des fins non personnelles, notamment de recherche, de planification et de statistique.  »

Quelles autres solutions techniques contribuent à faciliter la réutilisation des données?

De nombreuses solutions techniques contribuent aussi à faciliter la réutilisation des données. La plateforme Open Gouvernment Data (OGD) de l’OFS vise à renforcer la transparence et la participation en rendant accessibles les données des administrations publiques conformément à la loi fédérale sur l’utilisation des moyens électroniques pour l’exécution des tâches des autorités (LMETA). La plateforme d’interopérabilité I14Y dresse le catalogue de données national suisse. Les administrations publiques peuvent publier leurs données sous forme de graphe de connaissances et les rendre accessibles via la plateforme LINDAS. Rendre possible la réutilisation des données détenues par l’administration reste un sujet des plus complexes. Il est essentiel de garantir le droit à la vie privée des individus lors de cette utilisation dite secondaire des données et de veiller à ce que les avantages de celle-ci ne se fassent pas au détriment des citoyennes et citoyens, des ménages et des entreprises. Ces considérations revêtent une importance primordiale pour assurer son acceptation politique et sociale.

Interlocutrice

Christine Choirat, Bundesamt für Statistik
Prof. Dr. Christine Choirat
Cheffe de la section Science des données et intelligence artificielle
Office fédéral de la statistique

Articles associés

Compétences des élèves en IA

Selon la décision de l'Assemblée plénière de la CDIP, la Suisse participera à l'étude internationale PISA 2029 et s’associera en outre au domaine novateur intitulé «Media and AI Literacy». Ce nouveau module testera les compétences des élèves en matière de culture médiatique et d’intelligence artificielle.

Utilisation éthique par la transparence et l'éducation

Dans notre entretien avec Andrea Cavallaro, directeur de l’Idiap et professeur à l'EPFL, nous mettons en lumière les solutions sur lesquelles travaille la recherche pour permettre la confiance et le respect de la sphère privée dans le contexte de l'apprentissage automatique. Il en ressort qu'il faut commencer par les données et les personnes.

SELFIE

SELFIE est un outil gratuit de la Commission européenne qui aide les écoles à intégrer les technologies numériques dans l'enseignement, l'apprentissage et l'évaluation. Il permet d'auto-évaluer l'efficacité de l'apprentissage en raison de l'utilisation accrue de technologies éducatives innovantes dans les écoles.
Dossier Informationssicherheit, Kapitel «Orientierungshilfe für Schulen»

Analyse juridique de la réutilisation des données

Un rapport que nous avons commandé analyse les possibilités de réutilisation des données personnelles dans le système éducatif. Le rapport montre que d'un point de vue juridique, le cas d'une «réutilisation» est plus rare que prévu. Si un tel cas se présente, il convient toutefois de clarifier certaines questions relatives à la protection des données.