Von Marie Padberg
Bevor neue Applikationen in Produktion gehen sind datengetriebene Tests unabdingbar, um die Qualität von Software und Anwendungen sicherzustellen. Dabei bilden personenbezogene Daten in vielen Branchen ein Kernelement der gesamten Geschäftstätigkeit, z.B. bei Versicherungen, Banken und natürlich im Handel.
Die hier abgelegten sensible und hoch-differenzierten Informationen können aus datenschutzrechtlichen Gründen nicht für das Testing genutzt werden. Statt dessen werden oft synthetische Daten genutzt, deren Struktur meist nicht den Originaldatenbestande wiedergeben.
Hierdurch können keine realistischen Testbedingungen geschaffen werden. Die Folge sind deutlich höhere Aufwendungen, weil Fixinings im laufenden Betrieb installiert werden müssen. Im schlimmsten Fall können sogar Akzeptanzprobleme bei Nutzern und Kunden entstehen.
Notwendig sind stattdessen Testdaten, die realistisch und repräsentativ für die den Gesamtdatenbestand sind. Die Erstellung solcher Testdaten bedeutet allerdings in vielen Fällen einen hohen Arbeitsaufwand, da Abhängigkeiten erhalten bleiben müssen, die Datentypen sich nicht ändern dürfen, Outlier Beachtung brauchen, personenbezogene Daten nicht ohne Pseudonomisierung verwendet werden sollten usw.
Deshalb haben wir einen Testdatengenerator entwickelt, der aus einem großen Originaldatenset ein repräsentatives Sample erstellt und dieses anschließend pseudonomisiert.
Dabei kann aus zwei unterschiedlichen Samplingmethoden ausgewählt werden, welche wir vorab mithilfe statistischer Verfahrensweisen evaluiert haben. Außerdem stehen verschiedene Pseudonomisierungen zur Verfügung. Zum Schluss wird ein Download der Testdaten und ein kurzer Bericht, mit einer Gegenüberstellung der Original- und Testdaten, zur Verfügung gestellt.
Aktuell haben wir das gesamte System mittels Azure Functions als on-demand Website bereitgestellt. Das heißt, bei einer hohen Nachfrage werden mehr Ressourcen so lange wie notwendig bereitgehalten. Bei einem Rückgang der Nachfragen, werden die Ressourcen wieder reduziert. Deshalb kann das Laden der Seite manchmal ein paar Sekunden dauern.
Aktuell befinden wir uns noch in der Testphase.