Repräsentative Testdaten-Samplings

Testdatengenerator
Bevor neue Applikationen in Produktion gehen sind datengetriebene Tests unabdingbar. Für diese Testings haben wir einen Testdatengenerator entwickelt.
Finden Sie diesen Beitrag gut?
Teilen Sie ihn gerne:

Von Marie Padberg

Bevor neue Applikationen in Produktion gehen sind datengetriebene Tests unabdingbar, um die Qualität von Software und Anwendungen sicherzustellen. Dabei bilden personenbezogene Daten in vielen Branchen ein Kernelement der gesamten Geschäftstätigkeit, z.B. bei Versicherungen, Banken und natürlich im Handel.

Die hier abgelegten sensible und hoch-differenzierten Informationen können aus datenschutzrechtlichen Gründen nicht für das Testing genutzt werden. Statt dessen werden oft synthetische Daten genutzt, deren Struktur meist nicht den Originaldatenbestande wiedergeben.

Hierdurch können keine realistischen Testbedingungen geschaffen werden. Die Folge sind deutlich höhere Aufwendungen, weil Fixinings im laufenden Betrieb installiert werden müssen. Im schlimmsten Fall können sogar Akzeptanzprobleme bei Nutzern und Kunden entstehen.

Notwendig sind stattdessen Testdaten, die realistisch und repräsentativ für die den Gesamtdatenbestand sind. Die Erstellung solcher Testdaten bedeutet allerdings in vielen Fällen einen hohen Arbeitsaufwand, da Abhängigkeiten erhalten bleiben müssen, die Datentypen sich nicht ändern dürfen, Outlier Beachtung brauchen, personenbezogene Daten nicht ohne Pseudonomisierung verwendet werden sollten usw.

Deshalb haben wir einen Testdatengenerator entwickelt, der aus einem großen Originaldatenset ein repräsentatives Sample erstellt und dieses anschließend pseudonomisiert.

Dabei kann aus zwei unterschiedlichen Samplingmethoden ausgewählt werden, welche wir vorab mithilfe statistischer Verfahrensweisen evaluiert haben. Außerdem stehen verschiedene Pseudonomisierungen zur Verfügung. Zum Schluss wird ein Download der Testdaten und ein kurzer Bericht, mit einer Gegenüberstellung der Original- und Testdaten, zur Verfügung gestellt.

Aktuell haben wir das gesamte System mittels Azure Functions als on-demand Website bereitgestellt. Das heißt, bei einer hohen Nachfrage werden mehr Ressourcen so lange wie notwendig bereitgehalten. Bei einem Rückgang der Nachfragen, werden die Ressourcen wieder reduziert. Deshalb kann das Laden der Seite manchmal ein paar Sekunden dauern.

Aktuell befinden wir uns noch in der Testphase.

Möchten Sie über neue Magazin-Beiträge informiert werden?

Weitere interessante Artikel:

ddsug-Meeting-2024-in-München
Data Engineering

DDSUG Meeting in München

Seit 18 Jahren stellt IBM DataStage den „Leader“ im Gartner® Magic Quadrant™ for Data Integration Tools. Welche Möglichkeiten CP4D 4.8 bietet, wie eine erfolgreiche Migration aussehen kann und welche neuen Produkt-Features geplant sind, ist Thema des nächsten Treffens der deutschsprachigen DataStage Usergroup.

Weiterlesen »
Nach oben scrollen