Continuous Data Pipelines mit Apache Kafka (Level: Beginner)

Conference Day - 20. Februar
 
17:30
18:15
 
Microservices und Container
 
Raum Ada Lovelace

Apache Kafka ist seit fast zehn Jahren der Industriestandard für das verteilte Speichern und Verarbeiten von Eventdaten. Wurde Kafka anfangs als reiner Message Broker eingesetzt, kann es heute durch Erweiterungen wie Kafka Connect, Kafka Streams und KSQL immer mehr Anwendungsfälle abdecken und als eigenständige Streaming-Plattform betrieben werden.

Kafka garantiert die einmalige Zustellung von Events (Exactly-Once Delivery) und eignet sich dadurch perfekt, um Continuous Data Pipelines (CDP), zu implementieren. Data Pipelines verbinden Datenquellen mit Datensenken. CDP extrahieren Daten aus der Quelle, verarbeiten und verändern sie mithilfe definierter Transformationsschritte und legen anschließend die transformierten Daten in der Senke ab. Im Gegensatz zu klassischen ETL-Jobs werden CDP nicht manuell oder wiederkehrend ausgeführt, sondern sind kontinuierlich aktiv, agieren event-getrieben auf Updates in der Datenquelle und ermöglichen somit, dass die Datensenke stets den aktuellsten Stand der Datenquelle reflektiert.

Der prominenteste Anwendungsfall von CDP ist Data Ingestion: Hier werden zwei Datastores, beispielsweise ein Datenbanksystem wie PostgreSQL und eine Suchengine wie Elasticsearch, durch eine Pipeline verbunden, wodurch das Übertragen der Daten aus der Datenquelle zur Datensenke ermöglicht wird. Darüberhinaus können CDP verwendet werden, um Data Warehousing-Anforderungen umzusetzen, mehrere Datastores in einen gemeinsamen Datastore zu integrieren oder eine Migration zwischen verschiedenen Datastores ohne Downtime zu ermöglichen.

Dieser Vortrag führt zunächst in Apache Kafka ein und bietet einen Überblick über die verschiedenen Einsatzgebiete und Anwendungsfälle von Continuous Data Pipelines. Der Hauptteil des Vortrags demonstriert, wie eine CDP mithilfe des Kafka-Ökosystems in wenigen Schritten implementiert werden kann.

Dr. Stefan Sprenger

DataCater GmbH

Stefan Sprenger hat im Bereich Datenbanksysteme an der Humboldt-Universität zu Berlin promoviert.
Er ist als Geschäftsführer der DataCater GmbH tätig und leitet die Entwicklung einer No-Code Data Pipeline Platform.