Um komplexe Prozesse besser verstehen und strukturieren zu können, wird oft auf sogenannte «Lebenszyklusmodelle» zurückgegriffen. Diese Modelle gliedern einen Prozess in nachvollziehbare Schritte und ordnen diese Schritte in eine logische zeitliche Abfolge. Im Kontext der Software-Entwicklung entstehen dann so bildhaft benannte Konzepte wie das «Wasserfall-» oder das «Spiralmodell».
Da die Entwicklung eines KI-Systems – im konkreten Fall meinen wir damit vor allem grosse Sprachmodelle – letztlich einige Parallelen zur Entwicklung einer Software hat, verläuft auch das Leben eines KI-Systems in vordefinierten Bahnen: von der Problemdefinition über das Design, das Training und die Feinabstimmung des KI-Systems bis hin zu dessen Bereitstellung und dem fertigen KI-System (vgl. auch mittlere Spalte in der zweiten Abbildung).
Viele dieser Schritte sind jedoch von der Verfügbarkeit von Daten abhängig. Diese folgen wiederum ihrem eigenen Lebenszyklus. Die nachstehende Abbildung zeigt eine vereinfachte Form eines generischen Datenlebenszyklus. Die Herausforderung besteht also darin, diese unterschiedlichen Lebenszyklen aufeinander abzustimmen bzw. in beiden Sphären die notwendigen Schritte rechtzeitig abzuarbeiten. Die Abstimmung von KI- und Daten-Lebenszyklus wird dadurch erschwert, dass in unterschiedlichen Phasen des KI-Lebenszyklus unterschiedlichste Daten in das KI-System einfliessen. Dabei folgen all diese notwendigen Daten ihrem eigenen Lebenszyklus.
Auch die Nutzung von KI basiert auf Daten
Das Zusammenspiel von KI- und Daten-Lebenszyklus geht über die Erstellung des KI-Systems hinaus. Denn auch bei der Nutzung von KI-Systemen fliessen Daten in das System hinein und wieder heraus. Mit den Inputdaten geben Nutzerinnen und Nutzer zum einen den Befehl («Prompt») ein. Darin enthalten ist die Aufgabe, die man dem KI-System stellt. Zum anderen können dem KI-System mit den Inputdaten zusätzliche Informationen zur Verfügung gestellt werden, z.B. ein Text, den das KI-System zusammenfassen soll, oder ein Code-Schnipsel, zu dem das KI-System einen hilfreichen Tipp geben soll.
Das KI-System verarbeitet diese Inputdaten und antwortet wiederum mit Outputdaten, je nach Anfrage z.B. in Form von Text oder Codezeilen. Auch diese Daten müssen bei der produktiven Nutzung des KI-Systems entsprechend dem Datenlebenszyklus behandelt werden.
Seit der raschen Verbreitung und einfachen Verfügbarkeit von Sprachmodellen im Zuge der Veröffentlichung von ChatGPT hat sich auch aufseiten der Nutzerinnen und Nutzer eine Methode etabliert, um Sprachmodelle weiter zu verfeinern: die Kontextualisierung. Bei der Kontextualisierung werden bestehende Sprachmodelle unter Einbezug grösserer Datenmengen an die eigenen Bedürfnisse angepasst, ohne dass ein erneutes Training des KI-Systems notwendig wäre.
Für die Bearbeitung einer Anfrage nutzt das KI-System dann die «Sprachkompetenzen» aus dem trainierten KI-Modell und greift für den inhaltlichen Teil der Antwort auf die Daten der Kontextualisierung zurück. Dadurch kann sichergestellt werden, dass die Antwort beispielsweise auf ein eingeschränktes Wissensgebiet zugeschnitten ist oder dass aktuellere Daten als die Trainingsdaten in die Antwort einbezogen werden.
Während die obigen Beispiele einer Textzusammenfassung oder eines Feedbacks zu einem Code-Schnipsel bereits eine sehr einfache Art der Kontextualisierung darstellen, wurden in der Zwischenzeit sehr viel systematischere Arten der Kontextualisierung entwickelt. Diese reichen von individuellen GPTs, die ohne grosses technisches Grundwissen erstellt werden können, bis hin zur technisch anspruchsvolleren Implementierung einer RAG («Retrieval Augmented Generation»). Diese stellen aber entsprechend höhere Anforderungen an die zur Kontextualisierung verwendeten Daten und deren Lebenszyklus. Wer solche systematischen Kontextualisierungsstrategien nutzen will, muss daher in einem ersten Schritt Ressourcen in die Datensammlung und -aufbereitung investieren.
Die Kontextualisierung von bestehenden Sprachmodellen dürfte für das Bildungssystem eine KI-Nutzungsform mit grossem Potenzial sein. Die Kontextualisierung ist deutlich weniger ressourcenintensiv als das Training eines neuen KI-Systems, erlaubt aber dennoch die Anpassung auf die eigenen Bedürfnisse. So könnten bestehende KI-Systeme mithilfe von Unterrichtsmaterialien relativ einfach zu Lernassistenten werden, Jugendliche könnten einen Chatbot nutzen, um im Berufswahlprozess verschiedene Berufe kennenzulernen, oder Bildungsverwaltungen lassen ihre interne Wissensbasis mithilfe eines Chatbots durchsuchen. Zentral für die produktive Nutzung der Kontextualisierung ist, dass die notwendigen Daten verfügbar gemacht werden.
Zusammenspiel von KI- und Daten-Lebenszyklus
Die nachstehende interaktive Abbildung zeigt das Zusammenspiel von KI- und Daten-Lebenszyklus für drei unterschiedliche Szenarien, Szenarien die von zunehmender Datenintensität geprägt sind:
- die Nutzung eines bestehenden KI-Systems;
- die Kontextualisierung eines bestehenden KI-Systems;
- das Training und die Nutzung eines KI-Systems.
Wählen Sie eines der Szenarien
Das Szenario «Nutzung eines bestehenden KI-Systems» ist dabei die häufigste Art, wie Endbenutzerinnen und Endbenutzer ein KI-System nutzen. Beispiele für dieses Szenario wären wiederum die oben erwähnten Anfragen für eine Textzusammenfassung oder die Überprüfung eines Code-Schnipsels. Der KI-Lebenszyklus ist in diesem Szenario entsprechend reduziert, da letztlich nur noch definiert werden muss, für welchen Zweck ein KI-System genutzt werden soll und welches bestehende KI-System für diesen Zweck verwendet werden kann. Daten fallen hier erst bei der Nutzung an. Die notwendigen Inputdaten müssen gesammelt, aufbereitet und dann vom KI-System verarbeitet werden. Die Outputdaten, die das KI-System generiert, müssen wiederum den Datenlebenszyklus bis hin zur Speicherung durchleben.
Die Kontextualisierung – ein Szenario, das in der Bildung künftig wichtig werden dürfte – greift ebenfalls auf ein bestehendes KI-System zurück, und weist einen entsprechend einfachen KI-Lebenszyklus auf. Zusätzlich müssen hier in der Phase der Nutzung aber Daten für die Kontextualisierung verfügbar gemacht werden. Die Menge und Qualität dieser Daten hat später einen wesentlichen Einfluss auf die Qualität der generierten Outputdaten. Der Lebenszyklus der Daten für die Kontextualisierung muss in diesem Szenario also im Fokus sein.
Bei der Nutzung von Daten als Trainingsdaten, zur Feinabstimmung, zur Kontextualisierung oder als Inputdaten in einem KI-System, stellen sich immer wieder Fragen des Urheberrechts. Antworten auf einige dieser Fragen hat unsere Anlaufstelle für Datennutzung und Datenschutz beantwortet.
Das dritte Szenario – das Training und die Nutzung eines KI-Systems – wird im Bildungskontext wohl eher selten vorkommen. Dies im Wesentlichen darum, weil das Durchlaufen des gesamten KI-Lebenszyklus enorm ressourcen- und vor allem datenintensiv ist. Wie obige Abbildung zeigt, fliessen sowohl beim Training als auch bei der Feinabstimmung Daten in das KI-System ein. Die Anforderungen an die Menge und Qualität dieser Trainingsdaten dürfte für das Bildungssystem gleichermassen überfordernd und nicht lohnenswert sein – bilden bestehende KI-Systeme doch eine gute Ausgangslage für die weitere Kontextualisierung.
Datenverfügbarkeit als zentraler Erfolgsfaktor der KI-Nutzung
Das diskutierte Zusammenspiel von Daten- und KI-Lebenszyklus soll einen wichtigen Punkt verdeutlichen: Selbst wenn das Bildungssystem auf bestehende KI-Systeme zurückgreifen kann, wird es in naher Zukunft nicht von der Notwendigkeit befreit sein, grosse Mengen an Daten für die Nutzung von KI-Systemen verfügbar zu machen. Damit insbesondere die Kontextualisierung für das Bildungssystem zu einer erfolgreichen Strategie für die Anpassung von KI-Systemen an die eigenen Bedürfnisse werden kann, müssen die entsprechenden Arbeiten zum Datenlebenszyklus zügig in Angriff genommen werden. Je nach Problem das mit dem anvisierten KI-System gelöst werden soll, sind hierbei die Bildungsverwaltungen, die Lehrmittelverlage aber auch die Ed-Techs gefordert.
Weiterführende Links
- De Silva, D., Alahakoon, D. (2022). «An artificial intelligence life cycle: From conception to production»
- Stobierski, T. (2021). «Eight steps in the data life cycle»
- Honroth, T., Siebert, J., Kelbert, P. (2024): «Retrieval Augmented Generation (RAG): Chatten mit den eigenen Daten»