Utilisation des données dans les systèmes d'IA

Contenu

Pour mieux comprendre et structurer des processus complexes, on a souvent recours à ce que l'on appelle des «modèles de cycle de vie». Ces modèles divisent un processus en étapes compréhensibles et organisent ces étapes dans une séquence temporelle logique. Dans le contexte du développement de logiciels, on voit alors apparaître des concepts aussi imagés que le «modèle en cascade» ou le «modèle en spirale».

Étant donné que le développement d'un système d'IA – dans le cas concret, nous faisons surtout référence à de grands modèles de langage – présente finalement quelques parallèles avec le développement d'un logiciel, la vie d'un système d'IA suit également des voies prédéfinies. Celles-ci vont de la définition du problème à la mise à disposition et au système d'IA fini, en passant par la conception, l'entraînement et le réglage fin du système d'IA (voir également la colonne du milieu dans la deuxième illustration).

Nombre de ces étapes dépendent toutefois de la disponibilité des données. Celles-ci suivent à leur tour leur propre cycle de vie. L'illustration ci-dessous montre une forme simplifiée d'un cycle de vie générique des données. Le défi consiste donc à faire coïncider ces différents cycles de vie ou à traiter les étapes nécessaires dans les deux sphères en temps voulu. L'harmonisation des cycles de vie de l'IA et des données est rendue difficile par le fait que les données les plus diverses sont intégrées dans le système d'IA à différentes phases du cycle de vie de l'IA. Or, toutes ces données nécessaires suivent leur propre cycle de vie.

Daten-Lebenszyklus

L'utilisation de l'IA repose également sur des données

L'interaction entre le cycle de vie de l'IA et celui des données va au-delà de la création du système d'IA. En effet, même lors de l'utilisation de systèmes d'IA, des données entrent dans le système et en sortent. Avec les données d'input, les utilisatrices et utilisateurs saisissent d'une part l'ordre («prompt»). Celui-ci contient la tâche que l'on demande au système d'IA. D'autre part, des informations supplémentaires peuvent être mises à disposition du système d'IA avec les données d'input, par ex. un texte que le système d'IA doit résumer ou un extrait de code pour lequel le système d'IA doit donner un conseil utile.

Le système d'IA traite ces données d'input et répond à son tour avec des données d'output, par ex. sous forme de texte ou de lignes de code, selon la demande. Ces données doivent également être traitées conformément au cycle de vie des données lors de l'utilisation productive du système d'IA.

Depuis la diffusion rapide et la disponibilité aisée des modèles linguistiques dans le cadre de la publication de ChatGPT, une méthode s'est également établie du côté des utilisatrices et utilisateurs pour affiner les modèles linguistiques: la contextualisation. Lors de la contextualisation, les modèles linguistiques existants sont adaptés aux besoins propres en tenant compte de grandes quantités de données, sans qu'il soit nécessaire d'entraîner à nouveau le système d'IA.

Pour traiter une demande, le système d'IA utilise alors les «compétences linguistiques» du modèle d'IA entraîné et recourt aux données de la contextualisation pour la partie du contenu de la réponse. Cela permet de s'assurer que la réponse est par exemple adaptée à un domaine de connaissances restreint ou que des données plus récentes que les données d'entraînement sont incluses dans la réponse.

Alors que les exemples ci-dessus d'un résumé de texte ou d'un retour d'information sur un extrait de code constituent déjà un type de contextualisation très simple, des types de contextualisation beaucoup plus systématiques ont été développés entre-temps. Celles-ci vont des GPT individuels, qui peuvent être créés sans grandes connaissances techniques de base, à l'implémentation techniquement plus exigeante d'une RAG («Retrieval Augmented Generation»). Celles-ci posent toutefois des exigences plus élevées aux données utilisées pour la contextualisation et à leur cycle de vie. Celui qui souhaite utiliser de telles stratégies de contextualisation systématiques doit donc, dans un premier temps, investir des ressources dans la collecte et la préparation des données.

Contextualisation: un grand potentiel dans la formation

La contextualisation de modèles linguistiques existants devrait être une forme d'utilisation de l'IA à fort potentiel pour le système éducatif. La contextualisation nécessite nettement moins de ressources que l'entraînement d'un nouveau système d'IA, mais permet néanmoins de l'adapter à ses propres besoins. Ainsi, des systèmes d'IA existants pourraient se transformer relativement facilement en assistants d'apprentissage à l'aide de matériel pédagogique, les jeunes pourraient utiliser un chatbot pour découvrir différents métiers dans le cadre du processus de choix professionnel ou l'administration de l'éducation pourrait faire rechercher sa base de connaissances interne à l'aide d'un chatbot. Pour une utilisation productive de la contextualisation, il est essentiel que les données nécessaires soient mises à disposition.

Interaction entre le cycle de vie de l'IA et celui des données

Le graphique interactif ci-dessous montre l'interaction entre le cycle de vie de l'IA et celui des données pour trois scénarios différents, des scénarios caractérisés par une intensité croissante des données:

l'utilisation d'un système d'IA existant;
la contextualisation d'un système d'IA existant;
l'entraînement et l'utilisation d'un système d'IA.

KI-Lebenszyklus

Wählen Sie eines der Szenarien

Le scénario «utilisation d'un système d'IA existant» est la manière la plus courante pour les utilisatrices et utilisateurs finaux d'utiliser un système d'IA. Des exemples de ce scénario seraient les demandes susmentionnées pour un résumé de texte ou la vérification d'un fragment de code. Dans ce scénario, le cycle de vie de l'IA est réduit en conséquence, puisqu'il suffit en fin de compte de définir à quelle fin un système d'IA doit être utilisé et quel système d'IA existant peut être utilisé à cette fin. Les données ne sont produites qu'au moment de l'utilisation. Les données d'input nécessaires doivent être collectées, préparées et ensuite traitées par le système d'IA. Les données d'output générées par le système d'IA doivent à leur tour parcourir le cycle de vie des données jusqu'à leur stockage.

La contextualisation – un scénario qui devrait devenir important à l'avenir dans l'éducation – fait également appel à un système d'IA existant et présente un cycle de vie d'IA simple. De plus, dans la phase d'utilisation, des données doivent être mises à disposition pour la contextualisation. La quantité et la qualité de ces données ont ensuite une influence considérable sur la qualité des données de sortie générées. Le cycle de vie des données pour la contextualisation doit donc être au centre de ce scénario.

Droit d'auteur et systèmes d'IA

L'utilisation de données comme données d'entraînement, de réglage fin, de contextualisation ou comme données d'entrée dans un système d'IA soulève toujours des questions de droits d'auteur. Notre guichet pour l'utilisation et la protection des données a répondu à certaines de ces questions.

Le troisième scénario – l'entraînement et l'utilisation d'un système d'IA – est plutôt rare dans le contexte de la formation. En effet, l'ensemble du cycle de vie de l'IA nécessite énormément de ressources et surtout de données. Comme le montre l'illustration ci-dessus, des données sont intégrées dans le système d'IA aussi bien lors de l'entraînement que lors du réglage fin. Les exigences en matière de quantité et de qualité de ces données d'entraînement devraient être à la fois trop lourdes et peu rentables pour le système éducatif – les systèmes d'IA existants constituent pourtant une bonne base de départ pour la contextualisation ultérieure.

La disponibilité des données, facteur clé de succès de l'utilisation de l'IA

L'interaction discutée entre le cycle de vie des données et celui de l'IA doit mettre en évidence un point important: même si le système éducatif peut recourir à des systèmes d'IA existants, il ne sera pas libéré dans un avenir proche de la nécessité de rendre disponibles de grandes quantités de données pour l'utilisation des systèmes d'IA. Afin que la contextualisation pour le système éducatif en particulier puisse devenir une stratégie réussie pour l'adaptation des systèmes d'IA à ses propres besoins, les travaux correspondants sur le cycle de vie des données doivent être entrepris rapidement. Selon le problème à résoudre avec le système d'IA visé, l'administration de l'éducation, les éditeurs de matériel pédagogique mais aussi les Edtechs sont sollicités.

Liens complémentaires

De Silva, D., Alahakoon, D. (2022). «An artificial intelligence life cycle: From conception to production»
Stobierski, T. (2021). «Eight steps in the data life cycle»
Honroth, T., Siebert, J., Kelbert, P. (2024): «Retrieval Augmented Generation (RAG): Chatten mit den eigenen Daten»