KI-Projekte und die Rolle der richtigen Datenqualität

Unternehmen sammeln eine enorme Vielzahl und Vielfalt an Daten, wie etwa Geschäftspartnerdaten von Kunden oder Lieferanten. Schlüsseltechnologien wie Künstliche Intelligenz gewinnen dadurch immer mehr an Bedeutung. Denn KI erkennt Muster in Daten besser als Menschen. Dadurch haben Unternehmen die Möglichkeit mehr Einblick in ihre Daten zu erhalten, um diese effizienter zu nutzen. Insbesondere die Qualität von Daten spielt bei KI-Projekten eine entscheidende Rolle. Was im Vorfeld zu bedenken ist, erklärt ein aktueller Artikel aus dem Big Data Insider Magazin. Der Artikel betrachtet ein Forschungsprojekt, das sich damit beschäftigt, unter welchen Voraussetzungen eine Künstliche Intelligenz helfen kann, in großen Mengen Daten zu unterscheiden. Wir haben für Sie die wichtigsten Erkenntnisse für Ihr erstes KI-Projekt zusammengefasst:

KI-Modell und Aufgabenstellung müssen zueinander passen

Ausgangspunkt für jedes KI-Projekt ist die Auswahl des oder der passende(n) KI-Modell(e). Dazu muss die Aufgabenstellung, die die Künstliche Intelligenz lösen soll, zunächst präzise definiert werden. Dabei ist ein exploratives Vorgehen ratsam, in dem zunächst verschiedene KI-Modelle getestet und verglichen werden. Nicht jedes Modell bringt mit dem gleichen Input an Daten dieselben Ergebnisse. Faktoren wie die Konfiguration, die Menge und Verteilung der Trainings- und Testdaten oder wie oft ein Modell trainiert wird (sogenannte „Epochen“), nehmen Einfluss auf das Ergebnis. Entsprechend viel Zeit sollten Unternehmen daher bereits in der Projektkonzeption für diese Auswahlphase einplanen.

Trainingsdaten erfordern große Aufmerksamkeit

Neben dem KI-Modell kommt es auch auf die Daten an, mit denen eine KI für ihre Aufgabe trainiert wird. Bereits zu Beginn eines KI-Projekts wird in den jeweiligen Unternehmen oft festgestellt, dass der vorhandene Datenbestand mangelhaft ist. Eine KI mit qualitativ nicht hochwertigen Daten zu trainieren ist sinnlos, da sie somit falsche Informationen lernen würde. Entsprechen die Trainingsdaten nicht möglichst genau den später zu analysierenden Echtdaten, kommt es also unweigerlich zu Problemen. Daher sollten sich Projektverantwortliche bei der Auswahl der Test- und Trainingsdaten vorab folgende Fragen stellen:

1. Auf welche Quellen kann ich bereits zurückgreifen, um meine Fragestellung zu beantworten?
2. Welche Daten benötige ich eventuell noch zusätzlich?

Muss das KI-System mit echten, personenbezogenen Daten trainiert und getestet werden, müssen die Test- und Trainingsdaten unter Umständen anonymisiert werden. In diesem Fall sollten Projektverantwortliche allerdings genau prüfen, ob solche veränderten Daten zum Anlernen der KI noch ausreichend und aussagekräftig genug sind.

Generierte Daten sind gesondert zu betrachten

Oft kann es für das Anlernen und Testen einer Künstlichen Intelligenz ausreichen, wenn Unternehmen auf generierte Daten zurückgreifen. Entscheidend dafür ist: Die Daten müssen entsprechend der Fragestellung korrekt verteilt sein und einen repräsentativen Querschnitt der im Realbetrieb zu erwartenden Daten abbilden. Denn es macht durchaus einen Unterschied für die KI, ob sie mit echten oder generierten Daten trainiert wird. Eine mit generierten Daten trainierte Künstliche Intelligenz braucht deshalb eine besonders enge Überwachung. Andernfalls besteht das Risiko, dass ein intelligentes System auch aus den Mustern lernt, nach welchen die generierten Daten erzeugt wurden. Im Zweifelsfall sollten Projektverantwortliche deshalb genau prüfen, auf welche Weise die generierten Trainings- und Testdaten erstellt wurden, um so negative Lerneffekte bei der KI zu vermeiden.

Viel hilft nicht viel

Um eine Künstliche Intelligenz richtig zu trainieren, muss neben der Qualität auch die Menge der Trainings- und Testdaten ausreichend sein. Allerdings gilt – „mehr“ bedeutet beim Training von KI-Modellen nicht immer „besser“. Gerade bei großen Datenmengen kann das Problem einer Überanpassung, des sogenannten „Overfitting“, auftreten. Dabei „verlernt“ eine KI das Gelernte wieder oder sie baut aus den Trainingsdaten „falsches“ Wissen auf, das im Produktivbetrieb zu falschen Ergebnissen führt. Erkennen lässt sich eine Überanpassung daran, dass die KI zwar zuverlässig eine kleinere Datenmenge beurteilt, bei einer größeren Datenmenge jedoch keine zuverlässigen Ergebnisse mehr liefert. Unternehmen sollten also unbedingt darauf achten, dass die Menge an Referenzen in den Trainings- und Testdaten ausreicht, damit die KI korrekt lernt. Zudem muss die Verteilung sowie der repräsentative Querschnitt der Daten stimmen und die Realität der jeweiligen Fragestellung abbilden.

Datenqualität als Faktor entscheidend

Es lässt sich also festhalten, dass unabhängig von der Art der Daten, die der KI zum Lernen zur Verfügung gestellt werden, die Qualität hoch sein muss. Eine hohe Qualität steht in diesem Fall für korrekte, vollständige und widerspruchsfreie Daten. Setzen Unternehmen eigene Datensätze für ihr KI-Projekt ein, sollten sie diese vorab prüfen, aufbereiten und deren Qualität sicherstellen. Aus unserer eigenen Erfahrung können wir bestätigen, dass die Bereinigung der Datenbestände zu Beginn der wohl schwierigste und zeitaufwendigste Teil in einem KI-Projekt ist. Dies kann mithilfe von Datenqualitätstools erleichtert werden. Diese helfen außerdem bei der Anonymisierung eigener Echtdaten zu Trainingszwecken. Ein weiterer wichtiger Aspekt ist die Qualitätssicherung: Unternehmen müssen lernen der KI ab einem bestimmten Zeitpunkt im Projektverlauf zu vertrauen. Dies fällt leichter, wenn sie sich sicher sind, dass die KI-Entscheidungen auf Grundlage der richtigen Datenbasis und einer angemessenen Datenqualität getroffen werden. Um all diese Faktoren zu berücksichtigen und die bestmöglichen Ergebnisse im Projekt zu erzielen, ist es empfehlenswert dieses gemeinsam mit einem erfahrenen KI-Partner durchzuführen. Wir achten von Beginn an darauf, die Daten mit unseren mittelständischen Partnern zusammen aufzubereiten und das für den jeweiligen Anwendungsfall passende KI-Modell gemeinsam zu erarbeiten.

Mehr zum gesamten Artikel sowie dem Forschungsprojekt können Sie hier nachlesen.

Wir helfen Ihnen gerne beim Einstieg in Ihr erstes KI-Projekt – nehmen Sie Kontakt zu uns auf!

KI-Projekte und die Rolle der richtigen Datenqualität

KI-Modell und Aufgabenstellung müssen zueinander passen

Trainingsdaten erfordern große Aufmerksamkeit

Generierte Daten sind gesondert zu betrachten

Viel hilft nicht viel

Datenqualität als Faktor entscheidend

Kommentar absenden Antworten abbrechen

Neuste Beiträge

Kategorien

Vielen Dank! Ihre Anmeldung war erfolgreich.