Vous travaillez au Centre de compétences en science des données (DSCC) de l'Office fédéral de la statistique (OFS). La réutilisation des données est un thème actuel. Quels sont les défis à relever dans ce domaine?

Les défis principaux liés à la réutilisation des données consistent à simplifier la gestion des données détenues par l’administration fédérale et à mieux exploiter leur potentiel, tout en respectant la vie privée des individus. Une meilleure utilisation des données issues de la formation peut, par exemple, aider à identifier les profils d’apprentissage individuels et optimiser l’orientation et les conseils de carrière. Par extension, une identification précise des besoins de formation peut contribuer à une meilleure allocation des ressources éducatives.

L'OFS développe la plateforme Lomas pour la réutilisation des données. Pouvez-vous expliquer brièvement ce qu'est Lomas et quels sont ses objectifs?

Lomas est une nouvelle plateforme en source ouverte mise au point par le Centre de compétences en science des données (DSCC) de l’OFS et conçue pour exploiter le potentiel des données détenues par les administrations publiques tout en offrant les garanties les plus élevées en termes de protection de la confidentialité. A terme, nous espérons que Lomas puisse renforcer les collaborations avec le monde de la recherche, aider à fournir des indicateurs objectifs pour l’élaboration des politiques publiques et stimuler l’innovation dans tous les secteurs, tout en appliquant les normes les plus strictes en matière de confidentialité des données. Les utilisatrices et utilisateurs autorisés peuvent exécuter les algorithmes à distance sur des jeux de données, sans avoir accès aux données elles-mêmes. Les résultats obtenus sont protégés par la confidentialité différentielle (differential privacy). Il s’agit d’une méthodologie visant à empêcher qu’un tiers mal intentionné puisse extraire avec fiabilité des informations identifiables. La confidentialité différentielle, en ajoutant un bruit contrôlé aux résultats, quantifie et contrôle mathématiquement le risque de divulgation, tout en assurant une transparence totale sur la façon dont les données sont protégées et utilisées. Il s’agit d’une application concrète des techniques d’amélioration de la vie privée (Privacy-Enhancing Technologies, PET).

«  La confidentialité différentielle (…) quantifie et contrôle (…) le risque de divulgation, tout en assurant une transparence totale sur la façon dont les données sont protégées et utilisées.  »

Comment et par qui Lomas peut-il être utilisé?

Lomas est disponible en source ouverte sur le GitHub du DSCC. La plateforme se trouve encore au stade de la démonstration de faisabilité (proof-of-concept, POC) au sein de l’OFS. Afin de promouvoir le projet, le DSCC s’est associé avec l’INSEE (Institut national de la statistique et des études économiques) en France pour effectuer des essais sur des données publiques et a déployé Lomas sur le datalab Onyxia. Grâce à Lomas, les utilisatrices et utilisateurs autorisés, tels que les chercheuses et chercheurs agréés et les analystes dans le milieu éducatif, pourront obtenir des connaissances à partir des données précédemment inaccessibles. A terme, la plateforme pourrait aussi faciliter l’appariement des données pour des tiers dans le respect des prescriptions légales et à des fins non personnelles, notamment de recherche, de planification et de statistique.

«  A terme, la plateforme pourrait aussi faciliter l’appariement des données pour des tiers dans le respect des prescriptions légales et à des fins non personnelles, notamment de recherche, de planification et de statistique.  »

Quelles autres solutions techniques contribuent à faciliter la réutilisation des données?

De nombreuses solutions techniques contribuent aussi à faciliter la réutilisation des données. La plateforme Open Gouvernment Data (OGD) de l’OFS vise à renforcer la transparence et la participation en rendant accessibles les données des administrations publiques conformément à la loi fédérale sur l’utilisation des moyens électroniques pour l’exécution des tâches des autorités (LMETA). La plateforme d’interopérabilité I14Y dresse le catalogue de données national suisse. Les administrations publiques peuvent publier leurs données sous forme de graphe de connaissances et les rendre accessibles via la plateforme LINDAS. Rendre possible la réutilisation des données détenues par l’administration reste un sujet des plus complexes. Il est essentiel de garantir le droit à la vie privée des individus lors de cette utilisation dite secondaire des données et de veiller à ce que les avantages de celle-ci ne se fassent pas au détriment des citoyennes et citoyens, des ménages et des entreprises. Ces considérations revêtent une importance primordiale pour assurer son acceptation politique et sociale.

Interlocutrice

Christine Choirat, Bundesamt für Statistik
Prof. Dr. Christine Choirat
Cheffe de la section Science des données et intelligence artificielle
Office fédéral de la statistique

Articles associés

Réutilisation des données: exigences légales et approches conformes à la loi

Dans le cinquième épisode de la série de podcasts «Les données dans l'espace numérique de formation», nous abordons le thème de la réutilisation des données. La publication d'un rapport mandaté par Educa sur le potentiel de la réutilisation des données dans le système éducatif suisse en est l'occasion.

Prolongation de l'accord-cadre avec Microsoft et clarification de la conformité avec le droit des marchés publics

L'accord existant avec Microsoft (auparavant nommé «contrat-cadre») a été prolongé jusqu'à fin juillet 2025. Un avis de droit externe constate que les accords-cadres ne constituent pas une base valable pour le droit des marchés publics.

Comment l'administration de l'éducation est-elle confrontée à l'IA?

Le deuxième épisode de notre série de podcasts «Données dans l'espace numérique de formation» se penche sur l'intelligence artificielle (IA) dans l'administration de l'éducation. L'IA est-elle déjà utilisée? Quelles sont les questions les plus urgentes? Et quelles sont les réponses qui existent déjà?

Enquête sur la numérisation: motivations et conclusions

Le quatrième épisode de la série de podcasts «Données dans l'espace numérique de formation» aborde l'enquête sur la «numérisation dans l'éducation en Suisse». A l'aide d'exemples concrets, on comprend comment combler les lacunes des données peut contribuer à des décisions politiques basées sur des preuves.