Cloud Native Computing mit Apache Kafka

In vielen Unternehmen sind aktuell relationale Datenbanken als Data Warehouses (DWHs) im Einsatz, die Ende der 1990er oder in den frühen 2000er Jahren konzipiert wurden.
In der Regel erfolgt Datenbewirtschaftung der DWHs durch ETL-Systeme und ein Automatisierungssystem, das die häufig batchweise ablaufenden Prozesse steuert.
Diese Architektur erschwert allerdings die Umsetzung vieler Big Data Konzepte, in denen Granulardaten – zunehmend auch Streaming Data – aus den Fachbereichen genutzt werden sollen.
Sehr häufig entsteht so das Bild eines Gegensatzes. Auf der einen Seite die batchweise (langsame) Verarbeitung im DWH und auf der anderen Seite die schnelle, Ereignis-gesteuerte (event driven) Verarbeitung durch Data-Streaming Systeme, wie z.B. Apache Kafka.
Aufgrund unserer langjährigen Erfahrungen bei Design, Entwicklung und Realisierung von DWH-Architekturen und als Partner der Confluent Inc., sehen wir in Apache Kafka vor allem eine neue, vielseitige Plattform, mit der „klassische“, ETL-basierte Architekturen durch eine flexible und skalierbare Hybrid-Architektur modernisiert und erweitert werden können.
In vielen Unternehmen sind aktuell relationale Datenbanken als Data Warehouses (DWHs) im Einsatz, die Ende der 1990er oder in den frühen 2000er Jahren konzipiert wurden.
In der Regel erfolgt Datenbewirtschaftung der DWHs durch ETL-Systeme und ein Automatisierungssystem, das die häufig batchweise ablaufenden Prozesse steuert.
Diese Architektur erschwert allerdings die Umsetzung vieler Big Data Konzepte, in denen Granulardaten – zunehmend auch Streaming Data – aus den Fachbereichen genutzt werden sollen.
Sehr häufig entsteht so das Bild eines Gegensatzes. Auf der einen Seite die batchweise (langsame) Verarbeitung im DWH und auf der anderen Seite die schnelle, Ereignis-gesteuerte (event driven) Verarbeitung durch Data-Streaming Systeme, wie z.B. Apache Kafka.
Aufgrund unserer langjährigen Erfahrungen bei Design, Entwicklung und Realisierung von DWH-Architekturen und als Partner der Confluent Inc., sehen wir in Apache Kafka vor allem eine neue, vielseitige Plattform, mit der „klassische“, ETL-basierte Architekturen durch eine flexible und skalierbare Hybrid-Architektur modernisiert und erweitert werden können.

Die Vorteile dieses Hybridansatzes liegen vor allem darin, dass es zu keinem radikalen „Bruch“ bei der Datenverarbeitung im Unternehmen kommt. Zudem entsteht durch die parallel laufenden und miteinander verbundenen Systeme kein neues „Silo“, sondern eine übergreifende Plattform, die zu einer hohen Datenverfügbarkeit beiträgt und vielseitig genutzt werden kann:
- Keine / geringe Lizenzgebühren für das neue System (Open Source)
- Anbindung der neuen Anwendungen im laufenden Betrieb (Keine Down-Times, keine Umsatzeinbußen)
- Erweiterung von Datensätzen durch einzelne Code-Zeilen statt Ziehen von ETL-Strecken (deutliche Senkung der Kosten)
- Übernahme der bereits implementierten Businesslogik (100 % Werterhalt der fachlichen Basis)
- Bedarfsgerechte Erweiterung des bestehenden Systems entlang der Geschäftsentwicklung
- Nutzung von Kafka als schnelles und kostengünstiges Instrument für CDC-Prozesse und Datenbank Replikationen
- Kein radikaler Bruch mit dem Bestandssystem sondern Integration und Migration
- Enge Verzahnung zwischen technischer Umsetzung und digitalem Wandel im Unternehmen (Change-Management).
Sie möchten mehr Informationen zum Thema
"Streaming Data"?
Hier gibt es das infologistix Handout “Event-Streaming und ETL – Digitaler Wandel mit Apache Kafka”
zum kostenfreien Download.