Die Erfahrung hat gezeigt, dass Daten, die der Eigner (Owner) der Daten, z.B. eine Fachabteilung oder ein Bereich, für sein operatives Geschäft benötigt, meist eine gute Qualität haben als Folge des Eigeninteresses der Abteilung. Daten, die allerdings bei einem Owner anfallen, jedoch von einem anderen Owner benötigt werden, haben diese Qualität oft nicht, weil der Erzeuger keinen Nutzen davon hat und es bei ihm nur zusätzlichen Aufwand bedeutet.
Bezüglich der Herstellung eines gewünschten Datenqualitätsniveaus ist der Zeitpunkt der Optimierung zu betrachten. Grundsätzlich gilt für jede Form von Qualität, dass es am günstigsten ist, wenn sie zum Zeitpunkt der Entstehung bereits vorhanden ist. Alle Maßnahmen, nachträglich Qualität zu verbessern, sind kostenintensiv bis unmöglich.
Dies bringt uns zur nächsten Frage:
Was kostet es denn, Datenqualitätsmanagement nicht zu machen?
An diese Fragestellung geht man meist rein technisch mit dem einfachsten Beispiel heran: Was kosten uns falsche Adressdaten (Duplikate oder Adresse an sich)? Nun bei x zu verschickenden Briefen und y Fehlerwahrscheinlichkeit kann man einen einfachen ROI ausrechnen.
Wieviel kostet es aber im Sinne von „weichen Faktoren“ wie Unzufriedenheit (Name falsch geschrieben, 3mal den Brief erhalten)? Kann man dies beziffern?
Analysiert man notwendige nachträgliche Bereinigungskosten zur Beseitigung von Datenqualitätsproblemen etwas genauer, kann man z.B. nach den Dimensionen
- Zeitaufwand (Erstellung Duplikate, Untersuchung und Beseitigung von Datenproblemen,…),
- Materialkosten (Porto, Lagerung, Erstellung der Broschüre,…)
- IT-Kosten (Rechnerzeit, Datenspeicherung, Datenarchivierung)
genauer analysieren. Damit wird meist die wahre Dimension der Datenqualitätsproblematik deutlich, da sich hierdurch in der Regel durchaus 6- bis 7stellige Beträge auf Jahresbasis ergeben können.
Wieviel kostet eine Entscheidung, die aufgrund falscher Daten getroffen wurde?
Um sich dieser Problematik zu nähern kurz vorab: Daten werden zu Informationen durch einen Empfänger oder Nutzer und einen Zweck, zu dem der Nutzer die Daten verwenden möchte. Die Daten werden durch Zusatzinformationen interpretierbar gemacht, z.B. durch Metadaten oder die Daten beschreibende Bibliotheken bzw. umfangreiche Datendefinitionen. Die Informationsqualität nun beschreibt die Versorgung eines Nutzers mit den Daten, die er zur Erfüllung seines Zwecks benötigt. Eine gute Informationsqualität wird ohne eine gute Datenqualität nicht erreicht werden können. In diesem Zusammenhang spricht man oft von sogenannten RIOT-Daten (Redundant, Inkorrekt, Obsolet, Trivial) als Ausgangspunkt falscher Entscheidungen. Dieser Sachverhalt kann nicht generell quantitativ gewertet und somit berechnet werden.
Somit kann als Fazit gesagt werden:
Die Kosten für mangelnde Datenqualität können nur annährend angegeben werden. Die vorhandenen Vorgehensweisen reichen aber für klare Vorstellungen der Auswirkungen schlechter Datenqualität sicherlich aus.