
Vous travaillez au Centre de compétences en science des données (DSCC) de l'Office fédéral de la statistique (OFS). La réutilisation des données est un thème actuel. Quels sont les défis à relever dans ce domaine?
Les défis principaux liés à la réutilisation des données consistent à simplifier la gestion des données détenues par l’administration fédérale et à mieux exploiter leur potentiel, tout en respectant la vie privée des individus. Une meilleure utilisation des données issues de la formation peut, par exemple, aider à identifier les profils d’apprentissage individuels et optimiser l’orientation et les conseils de carrière. Par extension, une identification précise des besoins de formation peut contribuer à une meilleure allocation des ressources éducatives.
L'OFS développe la plateforme Lomas pour la réutilisation des données. Pouvez-vous expliquer brièvement ce qu'est Lomas et quels sont ses objectifs?
Lomas est une nouvelle plateforme en source ouverte mise au point par le Centre de compétences en science des données (DSCC) de l’OFS et conçue pour exploiter le potentiel des données détenues par les administrations publiques tout en offrant les garanties les plus élevées en termes de protection de la confidentialité. A terme, nous espérons que Lomas puisse renforcer les collaborations avec le monde de la recherche, aider à fournir des indicateurs objectifs pour l’élaboration des politiques publiques et stimuler l’innovation dans tous les secteurs, tout en appliquant les normes les plus strictes en matière de confidentialité des données. Les utilisatrices et utilisateurs autorisés peuvent exécuter les algorithmes à distance sur des jeux de données, sans avoir accès aux données elles-mêmes. Les résultats obtenus sont protégés par la confidentialité différentielle (differential privacy). Il s’agit d’une méthodologie visant à empêcher qu’un tiers mal intentionné puisse extraire avec fiabilité des informations identifiables. La confidentialité différentielle, en ajoutant un bruit contrôlé aux résultats, quantifie et contrôle mathématiquement le risque de divulgation, tout en assurant une transparence totale sur la façon dont les données sont protégées et utilisées. Il s’agit d’une application concrète des techniques d’amélioration de la vie privée (Privacy-Enhancing Technologies, PET).
« La confidentialité différentielle (…) quantifie et contrôle (…) le risque de divulgation, tout en assurant une transparence totale sur la façon dont les données sont protégées et utilisées. »
Comment et par qui Lomas peut-il être utilisé?
Lomas est disponible en source ouverte sur le GitHub du DSCC. La plateforme se trouve encore au stade de la démonstration de faisabilité (proof-of-concept, POC) au sein de l’OFS. Afin de promouvoir le projet, le DSCC s’est associé avec l’INSEE (Institut national de la statistique et des études économiques) en France pour effectuer des essais sur des données publiques et a déployé Lomas sur le datalab Onyxia. Grâce à Lomas, les utilisatrices et utilisateurs autorisés, tels que les chercheuses et chercheurs agréés et les analystes dans le milieu éducatif, pourront obtenir des connaissances à partir des données précédemment inaccessibles. A terme, la plateforme pourrait aussi faciliter l’appariement des données pour des tiers dans le respect des prescriptions légales et à des fins non personnelles, notamment de recherche, de planification et de statistique.
« A terme, la plateforme pourrait aussi faciliter l’appariement des données pour des tiers dans le respect des prescriptions légales et à des fins non personnelles, notamment de recherche, de planification et de statistique. »
Quelles autres solutions techniques contribuent à faciliter la réutilisation des données?
De nombreuses solutions techniques contribuent aussi à faciliter la réutilisation des données. La plateforme Open Gouvernment Data (OGD) de l’OFS vise à renforcer la transparence et la participation en rendant accessibles les données des administrations publiques conformément à la loi fédérale sur l’utilisation des moyens électroniques pour l’exécution des tâches des autorités (LMETA). La plateforme d’interopérabilité I14Y dresse le catalogue de données national suisse. Les administrations publiques peuvent publier leurs données sous forme de graphe de connaissances et les rendre accessibles via la plateforme LINDAS. Rendre possible la réutilisation des données détenues par l’administration reste un sujet des plus complexes. Il est essentiel de garantir le droit à la vie privée des individus lors de cette utilisation dite secondaire des données et de veiller à ce que les avantages de celle-ci ne se fassent pas au détriment des citoyennes et citoyens, des ménages et des entreprises. Ces considérations revêtent une importance primordiale pour assurer son acceptation politique et sociale.
Interlocutrice
