Contenu

Les données sont la base indispensable des systèmes d'IA. Ces systèmes fonctionnent essentiellement de la manière suivante: ils apprennent à reconnaître des modèles dans les données avec lesquels ils sont entraînés. Ces modèles sont consignés sous forme de règles. La taille de l'ensemble de données est en corrélation avec la complexité des règles à apprendre. Une règle générale veut que l'ensemble de données d'entraînement – en particulier pour les petits modèles – soit environ dix fois plus grand que le nombre de paramètres à apprendre. Le modèle de langage GPT-3 d'OpenAI utilisé par ChatGPT en 2020 disposait de 175 milliards de paramètres. Avec les versions actuelles du modèle, on peut supposer que le nombre de paramètres a encore augmenté d'un multiple. Si l'on applique la règle générale au modèle GPT-3, l'ensemble de données comprendra au moins 20 téraoctets de texte. Cela correspond à environ 30 millions de livres. La disponibilité d'une grande quantité de données est donc une condition centrale pour le développement de systèmes d'IA fonctionnels.

La quantité de données à elle seule n'est pas déterminante. Leur qualité est tout aussi importante. Le processus de nettoyage des données vise à améliorer et à garantir la qualité d'un ensemble de données. Il peut représenter jusqu'à 80% de la charge de travail totale lors du développement d'un système d'IA.

Effets des ensembles de données de mauvaise qualité

Si les ensembles de données ne répondent pas aux normes de qualité, divers problèmes peuvent survenir. Une faible qualité des données peut conduire le système d'IA à fournir des résultats imprécis. Cela entraîne des décisions erronées ou peu fiables de la part du système d'IA. Des problèmes similaires surviennent lorsque l'ensemble de données n'est pas suffisamment diversifié. Le système d'IA peut alors réagir de manière inappropriée à de nouvelles entrées et situations, et tirer des conclusions incorrectes. Une répartition déséquilibrée des données peut conduire à des décisions discriminatoires ou biaisées, en particulier si certains groupes sont sous-représentés dans les données. Il pourrait en résulter des résultats injustes ou éthiquement discutables, avec des conséquences potentiellement négatives pour les groupes de population sous-représentés dans les données. Des données de qualité ou de pertinence médiocres peuvent nuire aux performances et à l'efficacité du système d'IA, ce qui pourrait ralentir le fonctionnement du modèle ou le rendre moins précis, et donc ne pas produire les résultats escomptés.

Effets possibles dans la formation

L'apprentissage personnalisé révèle(rait) un grand potentiel pour les systèmes d'IA dans la formation. Le développement d'un tel système sur une base de données insuffisante peut avoir les effets négatifs suivants. Si un ensemble de données n'est pas suffisamment diversifié, un tel système aura des difficultés à s'adapter aux différents styles et rythmes d'apprentissage. De même, le manque de diversité pourrait rendre les recommandations personnalisées imprécises, voire trompeuses. Dans les deux cas, les résultats de l'apprentissage ne seront pas optimaux et les élèves se sentiront trop ou pas assez sollicités.

Un autre exemple est l'utilisation d'un système d'IA basé sur des données actuelles concernant les métiers de formation. Ce système propose des professions appropriées en fonction des compétences et des données biographiques, comme le sexe. Dans de tels cas, les systèmes d'IA ont tendance à suggérer aux femmes des professions sociales ou médicales, tandis que les hommes se voient surtout recommander des professions dans le secteur de la construction ou des machines. De tels systèmes risquent de négliger des compétences et des intérêts importants sur la base de modèles historiques et de renforcer les stéréotypes existants.

Exigences relatives à une bonne base de données

Afin d'éviter les problèmes mentionnés ci-dessus et de développer un système d'IA efficace et précis, les ensembles de données doivent répondre aux exigences suivantes:

  • Pertinence: les données nécessaires à l'entraînement du système d'IA doivent être directement liées à la problématique. Des données pertinentes garantissent l'adéquation entre le problème et la solution.
  • Diversité: la base de données doit contenir une variété d'informations afin de garantir que le système d'IA puisse prendre en compte différents aspects du problème ou de la situation.
  • Équilibre: il est important que les données soient équilibrées et qu'elles représentent de manière égale différents groupes, catégories ou classes.
  • Actualité: les données doivent être aussi récentes que possible afin de garantir que le système d'IA est à jour et tient compte des changements actuels.

L'utilisation d'ensembles de données qui répondent à ces exigences est essentielle pour la performance et l'acceptation des systèmes d'IA.

Solutions possibles

Dans le cas d'ensembles de données très importants et complets, comme ceux utilisés par exemple pour l'entraînement de modèles de langage, il n'est pas toujours possible de garantir et de vérifier avec un effort raisonnable si les exigences posées à l'ensemble de données sont remplies. Des données de test appropriées peuvent y remédier. Les ensembles de données de test sont nettement plus petits que les ensembles de données d'entraînement et servent à garantir la qualité du système d'IA. Un ensemble de données de test qui répond aux exigences mentionnées en matière de diversité, d'équilibre, de pertinence et d'actualité permet de vérifier la réaction de l'IA à ces données. Il est ainsi possible de détecter à un stade précoce les distorsions dans le modèle, qui peuvent potentiellement conduire à des discriminations.

Le développement d'ensembles de données de test appropriés pour des cas d'application spécifiques serait également une option réaliste pour le système éducatif suisse. Ces ensembles de données de test ne doivent pas servir à tester de modèles de langage tels que ChatGPT, mais peuvent être utilisés pour des outils pédagogiques basés sur l'IA et servant un objectif spécifique.

Liens complémentaires