Was ist Datenqualität im KI-Kontext?
Datenqualität beschreibt, wie gut Daten für einen bestimmten Verwendungszweck geeignet sind. Für KI-Systeme ist sie entscheidend: Verzerrt, unvollständig oder veraltet? Das Modell lernt es trotzdem. „Garbage in, garbage out."
DEFINITION
Datenqualität beschreibt den Grad, in dem Daten für einen konkreten Verwendungszweck geeignet sind. Sie ist keine absolute Eigenschaft, sondern immer relativ zum Einsatzzweck: Daten, die für eine Anwendung gut sind, können für eine andere ungeeignet sein.
Warum Datenqualität für KI kritisch ist: KI-Systeme lernen aus Daten. Was in den Daten ist und was fehlt, wird Teil des Modells. Fehler, Verzerrungen und Lücken in den Trainingsdaten werden reproduziert und oft verstärkt. Das Prinzip: „Garbage in, garbage out.”
Die fünf Dimensionen der Datenqualität:
-
Vollständigkeit: Sind alle relevanten Datenpunkte vorhanden? Fehlende Werte können Modelle verzerren.
-
Korrektheit: Sind die Daten faktisch richtig? Fehlerhafte Grunddaten erzeugen fehlerhafte Outputs.
-
Konsistenz: Sind Daten zwischen verschiedenen Quellen konsistent? Widersprüchliche Datenpunkte verwirren Modelle.
-
Aktualität: Sind die Daten aktuell genug für ihren Verwendungszweck? Veraltete Trainingsdaten führen zu veralteten Ergebnissen.
-
Repräsentativität: Decken die Daten alle relevanten Gruppen, Fälle und Szenarien ab? Unterrepräsentation führt zu KI-Bias.
Datenqualität ist keine einmalige Bereinigungsaufgabe, sondern ein kontinuierlicher Prozess: Daten veralten, neue Fehler entstehen, Verwendungszwecke ändern sich.
VERBINDUNGEN ZU ANDEREN THEMEN
Führung
Feedbackkultur in Organisationen verbessert Datenqualität direkt: Mitarbeitende, die Fehler in Systemen melden dürfen, ohne Konsequenzen zu fürchten, helfen, Datenprobleme früh zu erkennen. Datenqualität ist auch eine Frage der psychologischen Sicherheit.
Agilität
Definition of Done für datenverarbeitende KI-Systeme sollte Datenqualitäts-Checks enthalten: Sind die Eingabedaten bereinigt? Wurden Vollständigkeit und Konsistenz geprüft? Qualitätssicherung beginnt bei den Daten, nicht erst beim Output.
Projektmanagement
Schlechte Datenqualität ist eines der häufigsten Risiken bei KI-Projekten. Das Risikoregister für KI-Projekte sollte Datenqualität als eigene Risikodimension führen, mit Bewertung, Maßnahmen und Verantwortlichen.
DAS WICHTIGSTE AUF EINEN BLICK
- „Garbage in, garbage out”: KI kann keine besseren Outputs liefern als ihre Eingabedaten.
- Fünf Dimensionen: Vollständigkeit, Korrektheit, Konsistenz, Aktualität, Repräsentativität.
- Datenqualität ist relativ zum Verwendungszweck, nicht absolut.
- Schlechte Datenqualität ist Hauptursache von KI-Bias.
- Datenqualität ist kontinuierlicher Prozess, keine einmalige Bereinigung.
PRAXISBEISPIEL
Ein Unternehmen trainiert eine KI zur Prüfung von Kreditanträgen. Trainingsdaten: 10 Jahre historische Genehmigungen, gesammelt von menschen, die unbewusst bestimmte Stadtteile und Berufsgruppen häufiger ablehnten. Problem: Schlechte Datenqualität durch Unterrepräsentation und historischen Bias. Die KI lernt das Muster und verstärkt es. Ergebnis: Systeme, die strukturell diskriminieren, nicht weil die KI böse ist, sondern weil die Daten es waren. Lösung: Repräsentativität und Fairness-Checks als Teil der Datenqualitätssicherung.
HÄUFIGE MISSVERSTÄNDNISSE
Mehr Daten kompensieren schlechte Qualität.
Nein. Mehr schlechte Daten erzeugen zuverlässiger schlechte Modelle. Qualität schlägt Quantität. 10.000 saubere, repräsentative Datenpunkte sind wertvoller als 10 Millionen fehlerhafte.
Datenqualität ist ein technisches Problem, das IT lösen muss.
Teilweise. IT schafft die Infrastruktur für Datenqualität. Aber die inhaltliche Qualität (Aktualität, Repräsentativität, Korrektheit) entsteht durch Fachexpertise, Prozesse und organisationale Disziplin. Datenqualität ist eine geteilte Verantwortung.