Inhalt

Daten sind die unverzichtbare Grundlage von KI-Systemen. Diese Systeme funktionieren im Wesentlichen so, dass sie lernen Muster in den Daten zu erkennen mit welchen sie trainiert werden. Diese Muster werden im Modell als Regeln festgehalten. Die Grösse des Datensatzes korreliert dabei mit der Komplexität der zu erlernenden Regeln. Eine Faustregel besagt, dass der Trainingsdatensatz – insbesondere bei kleineren Modellen – ungefähr zehnmal grösser sein soll, als die Anzahl lernbarer Parameter. Das im Jahr 2020 von ChatGPT verwendete grosse Sprachmodell GPT-3 von OpenAI verfügte über 175 Milliarden Parameter. Bei den heutigen Modellversionen ist davon auszugehen, dass sich die Anzahl der Parameter nochmals um ein Vielfaches erhöht hat. Wendet man die Faustregel auf das Modell GPT-3 an, wird der Datensatz mindestens 20 Terabyte an Text umfassen. Dies entspricht ungefähr 30 Millionen Büchern. Die Verfügbarkeit einer grossen Menge an Daten ist also eine zentrale Voraussetzung für die Entwicklung funktionierender KI-Systeme.

Die Menge der Daten allein ist nicht entscheidend. Ebenso wichtig ist ihre Qualität. Der Prozess der Datenbereinigung zielt darauf ab, die Qualität eines Datensatzes zu verbessern und sicherzustellen. Der Datenbereinigungsprozess kann bei der Entwicklung eines KI-Systems einen Anteil von bis zu 80 Prozent des gesamten Arbeitsaufwands ausmachen.

Auswirkungen minderwertiger Datensätze

Wenn Datensätze die Qualitätsstandards nicht erfüllen, können diverse Probleme entstehen. Eine niedrige Datenqualität kann dazu führen, dass das KI-System ungenaue Ergebnisse liefert. Dies verursacht fehlerhafte oder wenig verlässliche Entscheidungen des KI-Systems. Ähnliche Probleme ergeben sich, wenn der Datensatz nicht hinreichend vielfältig ist. Das KI-System reagiert dann allenfalls unangemessen auf neue Eingaben und Situationen und zieht entsprechend inkorrekte Schlussfolgerungen. Eine unausgewogene Verteilung der Daten kann zu diskriminierenden oder voreingenommenen Entscheidungen führen, insbesondere wenn bestimmte Gruppen in den Daten unterrepräsentiert sind. Dies hätte möglicherweise ungerechte oder ethisch fragwürdige Ergebnisse zur Folge, mit potenziell negativen Folgen für die in den Daten unterrepräsentierten Bevölkerungsgruppen. Daten von minderer Qualität oder Relevanz können die Leistung und Effizienz des KI-Systems beeinträchtigen, wodurch das Modell möglicherweise langsamer oder weniger präzise arbeitet und somit nicht die gewünschten Resultate liefert.

Mögliche Auswirkungen in der Bildung

Ein Bereich in dem KI-Systemen in der Bildung grosses Potenzial nachgesagt wird ist das personalisierte Lernen. Bei der Entwicklung eines solchen Systems auf einer unzureichenden Datengrundlage können folgende negative Auswirkungen entstehen. Ist ein Datensatz nicht hinreichend vielfältig, wird ein solches System Schwierigkeiten haben, sich an unterschiedliche Lernstile und -geschwindigkeiten anzupassen. Ebenso könnte die fehlende Vielfalt dazu führen, dass die personalisierten Empfehlungen ungenau oder sogar irreführend sind. Beide Szenarien führen dazu, dass das Lernergebnis suboptimal ausfällt und Schülerinnen und Schüler sich über- oder unterfordert fühlen.

Ein weiteres Beispiel ist die Verwendung eines KI-Systems, das auf aktuellen Daten zu Ausbildungsberufen basiert. Dieses System schlägt anhand von Fähigkeiten und biografischen Daten, wie dem Geschlecht, geeignete Berufe vor. In solchen Fällen neigen KI-Systeme dazu, Frauen eher soziale oder medizinische Berufe vorzuschlagen, während Männern vor allem Berufe in der Bau- oder Maschinenbranche empfohlen werden. Bei derartigen Systemen besteht die Gefahr, dass auf Basis historischer Muster wichtige Fähigkeiten und Interessen vernachlässigt werden und bestehende Stereotypen verstärkt werden.

Anforderungen an eine gute Datengrundlage

Um die genannten Probleme zu vermeiden und ein effektives und präzises KI-System zu entwickeln, müssen Datensätze folgende Anforderungen erfüllen:

  • Relevanz: Die Daten für das Training des KI-Systems, müssen direkt mit der Problemstellung zusammenhängen. Relevante Daten garantieren, dass Problemstellung und Lösung aufeinander abgestimmt sind.
  • Vielfalt: Die Datengrundlage sollte eine Vielfalt von Informationen enthalten, um sicherzustellen, dass das KI-System verschiedene Aspekte des Problems oder der Situation berücksichtigen kann.
  • Ausgewogenheit: Es ist wichtig, dass die Daten ausgewogen sind und verschiedene Gruppen, Kategorien oder Klassen gleichermassen repräsentieren.
  • Aktualität: Die Daten sollten so aktuell wie möglich sein, um sicherzustellen, dass das KI-System auf dem neuesten Stand ist und aktuelle Veränderungen berücksichtigt.

Der Einsatz von Datensätzen, die diese Anforderungen erfüllen, ist für die Leistungsfähigkeit und die Akzeptanz von KI-Systemen unerlässlich.

Möglicher Lösungsansatz

Bei sehr grossen und umfassenden Datensätzen, wie sie beispielsweise für das Training von grossen Sprachmodellen verwendet werden, ist es nicht immer möglich mit überschaubarem Aufwand sicherzustellen und zu prüfen, ob die Anforderungen an den Datensatz erfüllt sind. Abhilfe können hier geeignete Testdaten bieten. Testdatensätze sind wesentlich kleiner als die Trainingsdatensätze und dienen dazu, die Qualität des KI-Systems sicherzustellen. Ein Testdatensatz, der die genannten Anforderungen an Vielfalt, Ausgewogenheit, Relevanz und Aktualität erfüllt, ermöglicht es, die Reaktion der KI auf diese Daten zu prüfen. So lassen sich Verzerrungen im Modell, die unter Umständen zu Diskriminierungen führen, frühzeitig erkennen.

Die Entwicklung geeigneter Testdatensätze für spezifische Anwendungsfälle wäre auch für das Schweizer Bildungssystem eine realistische Option. Diese Testdatensätze sollen nicht dazu dienen grosse Sprachmodelle wie ChatGPT zu testen, können aber für KI-basierte Lehrmittel, die einem spezifischen Zweck dienen, verwendet werden.

Weiterführende Links