Garbage In, Garbage Out: Datenqualität und KI

„Garbage in, garbage out" – kaum ein Prinzip aus der frühen Computergeschichte ist heute relevanter. Der Gedanke ist simpel: Die Qualität jeder Analyse, jedes Reportings und jeder Geschäftsentscheidung hängt direkt von der Qualität der zugrunde liegenden Daten ab. In Zeiten von KI-gestützten Dashboards, Vorhersagemodellen und automatisierten Entscheidungsprozessen ist dieses jahrzehntealte Prinzip kein nostalgisches Sprichwort mehr, sondern ein akutes operatives Risiko.

Was Garbage In, Garbage Out eigentlich bedeutet

Das Konzept ist denkbar einfach: Füttert man ein Modell mit fehlerhaften Daten, erhält man fehlerhafte Ergebnisse. „Garbage" bezeichnet dabei Daten, die ungenau, unvollständig, inkonsistent oder anderweitig mangelhaft sind. Die Data Management Association (DAMA) definiert insgesamt 65 verschiedene Dimensionen von Datenqualität – ein Hinweis darauf, wie vielschichtig das Problem tatsächlich ist.

Sechs zentrale Dimensionen der Datenqualität

Genauigkeit – Stimmen die Daten mit der Realität überein? Lässt sich das durch einen Abgleich mit einer verlässlichen Quelle überprüfen?
Vollständigkeit – Sind alle erforderlichen Informationen vorhanden? Eine Adresse ohne Postleitzahl gilt beispielsweise als unvollständig.
Konsistenz – Stimmen die Daten an jedem Ort, an dem sie gespeichert sind, überein? Wird ein Bundesland im CRM als „Bayern", im ERP als „BY" und im HR-System als „Bay." geführt, sind die Daten trotz inhaltlicher Korrektheit inkonsistent.
Aktualität – Liegen die Daten rechtzeitig vor, wenn sie benötigt werden?
Gültigkeit – Entsprechen die Daten den definierten Geschäftsregeln, etwa einem vorgeschriebenen Postleitzahlenformat?
Eindeutigkeit – Ist jeder Datensatz nur einmal vorhanden, oder existieren Dubletten desselben Kunden mit unterschiedlichen Informationen?

Woher schlechte Daten eigentlich kommen

Datensilos werden oft als Hauptursache für mangelhafte Datenqualität genannt – sie sind jedoch eher ein Symptom als die eigentliche Wurzel des Problems. Über Jahrzehnte wurden Geschäftsprozesse isoliert voneinander optimiert und automatisiert, wobei jedes neue Fachsystem seinen eigenen Datensatz mitbrachte. ERP-Systeme konsolidierten zwar logisch zusammengehörige Daten in einer gemeinsamen Datenbank, ohne jedoch durchgängige Qualitäts- und Bedeutungsstandards über alle Geschäftsprozesse hinweg durchzusetzen. Mit dem Aufkommen spezialisierter Anwendungen wie CRM-Systemen entstanden weitere, isolierte Inseln vermeintlich vertrauenswürdiger Daten.

Typische Quellen für fehlerhafte Daten

Fusionen und Übernahmen, bei denen externe Daten importiert werden, die nicht den eigenen Unternehmensstandards entsprechen
Manuelle Eingabefehler
Widersprüchliche oder unterschiedliche Validierungsregeln innerhalb eines Systems oder zwischen mehreren Systemen
Fehlende Integration zwischen Systemen innerhalb komplexer Geschäftsprozesse
Fehlende Data-Governance-Strukturen oder gemeinsame Richtlinien im Unternehmen

Warum KI das Problem nicht löst, sondern verstärkt

Ein klassisches System arbeitet nach dem Prinzip eins zu eins: Ein fehlerhafter Datenpunkt führt zu einem fehlerhaften Ergebnis. Ein KI-Modell dagegen nutzt Daten nicht nur – es lernt aus ihnen. Es analysiert riesige Datenmengen, um Muster, Korrelationen und Zusammenhänge zu erkennen, die einem Menschen entgehen würden.

Sind diese Daten verunreinigt – durchsetzt mit Dubletten, fehlenden Feldern, veralteten Informationen und Widersprüchen –, produziert die KI nicht nur ein paar falsche Antworten. Sie lernt die falschen Lehren und baut ihr gesamtes „Verständnis" des Marktes auf einem fehlerhaften Fundament auf. Das Ergebnis lässt sich mit einem brillanten Studenten vergleichen, der aus einem Lehrbuch voller Fehler lernt: Er wird die falschen Informationen mit absoluter Überzeugung verinnerlichen und sie fehlerfrei, aber inhaltlich falsch, auf jedes neue Problem anwenden – während ein poliertes, überzeugendes Dashboard genau diese fehlerhaften Schlussfolgerungen präsentiert.

Sinkendes Vertrauen trotz wachsender Abhängigkeit

Eine Befragung von Salesforce zeigt das Ausmaß dieses Problems deutlich: 76 % der Führungskräfte sind überzeugt, dass datenbasiertes Arbeiten durch KI wichtiger denn je geworden ist – doch nur 36 % von ihnen vertrauen tatsächlich der Genauigkeit ihrer Unternehmensdaten, ein Rückgang von 27 Prozentpunkten innerhalb eines einzigen Jahres. Diese Kombination aus wachsender Abhängigkeit und sinkendem Vertrauen erzeugt eine gefährliche Illusion von Präzision: automatisierte Ergebnisse, die poliert und intelligent wirken, aber auf brüchigem Fundament stehen.

Vier konkrete Ausfallmuster im Go-to-Market

Schlechte Daten verursachen nicht nur kleinere Unstimmigkeiten – sie sabotieren aktiv zentrale Bausteine moderner Marketing- und Vertriebsstrategien.

Das Phantom-Kundenprofil

Ist ein CRM voller Dubletten, fehlender Mitarbeiterzahlen oder uneinheitlicher Branchenklassifizierungen, erkennt die KI Muster im Rauschen statt im echten Signal. Sie könnte fälschlich ableiten, dass kleine Unternehmen die wertvollste Zielgruppe sind, einfach weil Tausende doppelte KMU-Datensätze existieren. Das Resultat ist ein Phantom-Idealkundenprofil, das die eigentliche Zielgruppe verzerrt abbildet.

Das unzuverlässige Lead-Scoring

Fehlen Engagement-Daten oder Kontaktinformationen, kann eine KI nicht zuverlässig zwischen einem tatsächlich vielversprechenden Lead und einem nur aufgrund von Datenartefakten gut aussehenden Kontakt unterscheiden. Vertriebsteams verschwenden in der Folge wertvolle Zeit mit Sackgassen-Leads, während aussichtsreiche Interessent:innen unbearbeitet bleiben.

Die peinliche Personalisierung

Ist ein Kontakt im System noch als „Marketing Manager" gelistet, obwohl die Person längst zur Geschäftsführung aufgestiegen ist, sendet eine automatisierte Sequenz eine unpassende, veraltete Ansprache. Solche Fehler machen Maßnahmen nicht nur wirkungslos – sie beschädigen aktiv die Glaubwürdigkeit der Marke.

Die irreführende Umsatzprognose

Sind Pipeline-Daten von inkonsistenten Phasen-Definitionen, doppelten Datensätzen und reinen Platzhalter-Abschlussdaten geprägt, baut ein KI-Modell seine Prognose auf instabilem Grund auf. Das Ergebnis sind wild optimistische oder pessimistische Vorhersagen, die zu Fehlentscheidungen bei Personalplanung, Ressourcenverteilung und Budgetierung führen.

Data Governance als erste Verteidigungslinie

Das eigentliche Problem ist nicht die KI selbst, sondern das, was ihr zugeführt wird. Genau hier setzt eine oft unterschätzte Disziplin an: Data Governance. Eine belastbare Data-Governance-Struktur umfasst typischerweise:

Ein gemeinsam gepflegtes Geschäftsglossar mit eindeutigen Begriffsdefinitionen
Vollständige Nachverfolgung der Herkunft zentraler Kennzahlen und Datensätze (Data Lineage)
Transparenz darüber, woher Daten stammen, wie sie verwendet werden und wer für sie verantwortlich ist
Dokumentierte Regeln und Logik hinter zentralen Kennzahlen und Berechnungen

Ergänzend dazu gewinnt KI-Governance an Bedeutung: detaillierte Modell-Dokumentation, systematische Risikobewertungen für KI-Anwendungen und Transparenzmaßnahmen, die KI-Entscheidungen für alle Beteiligten nachvollziehbar machen.

Master Data Management als strukturelle Lösung

Master Data Management (MDM) bietet einen systematischen Ansatz, um Datensilos aufzubrechen und durchgängig vertrauenswürdige Daten zu schaffen. MDM wirkt dabei auf mehreren Ebenen gleichzeitig:

Datenqualität – Bereinigung von Daten gemäß den zentralen Qualitätsdimensionen
Data Governance – Durchsetzung von Richtlinien, die definieren, was als saubere Daten gilt
Datenanreicherung – Ergänzung bereinigter Daten um zusätzliche, wertvolle Informationen
Datenintegration – Auflösung von Silos durch eine zentrale, vertrauenswürdige Datenquelle
Data Stewardship – eine klare Verantwortlichkeit für die Korrektur fehlerhafter Daten
Workflow-Automatisierung – automatisierte Prüf- und Freigabeprozesse für als fehlerhaft markierte Daten

Fünf praktische Schritte zu sauberen Daten

Schritt 1: Eine umfassende Datenprüfung durchführen

Was nicht sichtbar ist, lässt sich nicht reparieren. Der erste Schritt besteht darin, den aktuellen Zustand der eigenen Daten zu bewerten – etwa Füllraten kritischer Felder, die Anzahl doppelter Datensätze und die Konsistenz der Formatierung zu messen, um die größten Problemfelder zu identifizieren.

Schritt 2: Daten standardisieren und normalisieren

Eine einzige Quelle der Wahrheit und ein klares Datenwörterbuch sind entscheidend. Wird ein Feld als „Deutschland", „DE" oder „BRD" geführt? Solche Inkonsistenzen lassen sich durch Dropdown-Menüs und Validierungsregeln direkt bei der Dateneingabe verhindern.

Schritt 3: Bestehende Daten bereinigen und anreichern

Deduplizierungs-Tools helfen, doppelte Kontakte und Konten zusammenzuführen. Externe Datenanreicherungsdienste können fehlende Informationen automatisch ergänzen, Kontaktdaten verifizieren und veraltete Berufsbezeichnungen sowie Unternehmensdaten aktualisieren.

Schritt 4: Klare Data-Governance-Strukturen etablieren

Datenqualität ist Teamarbeit. Eine einfache Governance-Richtlinie sollte festlegen, wer für Datenqualität verantwortlich ist, welche Regeln für die Dateneingabe gelten und wie Fehler korrigiert werden – häufig getragen von einem kleinen Gremium aus Vertrieb, Marketing und IT.

Schritt 5: Automatisieren, überwachen und pflegen

Datenpflege ist kein einmaliges Projekt. Daten verlieren jährlich über 20 % ihrer Aktualität, da Menschen den Job wechseln und sich Unternehmen weiterentwickeln. Automatisierte Tools, die kontinuierlich bereinigen, deduplizieren und anreichern, sowie ein Datenqualitäts-Dashboard zur laufenden Überwachung helfen, Probleme zu erkennen, bevor sie systemisch werden.

Garbage In, Garbage Out: Warum schlechte Datenqualität jede KI-Analyse sabotiert