Big Data – Buzzword oder doch mehr? (3)
Erfahren Sie im dritten Big Data-Beitrag mehr über die verschiedenen Architekturen, sowie die am häufigsten eingesetzten Plattformen wie Hadoop, Azure, AWS usw.
Architektur & Plattformen
In seiner Artikelserie geht Datenexperte Dieter Rüetschi den Thema «Big Data» aus Praktikersicht nach. Nach der Begriffsanalyse im ersten Teil und der Untersuchung der logischen Weiterentwicklung von Datenbanksystemen und Business Intelligence in Richtung Big Data im zweiten Teil, geht er heute auf die Architektur und mögliche Plattformen in Big Data-Bereich ein.
Grundidee – nicht vergessen, darum geht es
Architektur
Auch wenn Big Data heute in den Fachzeitschriften und verschiedenen Internet Medien oft als eine lose Sammlung von Datenmanagement und Datenanalyse-Funktionen beschrieben wird, sind zwei Architekturmodelle für die Umsetzung und Anwendung von Big Data-Techniken sehr wichtig geworden.
Architekturmodelle sind für mich einerseits eine Strukturierungshilfe bei der Umsetzung und Anwendung von Services und Funktionen. Andererseits sind sie oft eine Vorgabe der Plattform-Hersteller für die optimale, auf die jeweilige Lösung angepasste Struktur für die Umsetzung und Anwendung der eingesetzten Services. Das heisst, wenn ich mich bei der Umsetzung einer Problemlösung an eine unterstützte Architektur halte, habe ich die besseren Chancen, dass meine Lösung stabil und performant läuft.
Mit diesem Fokus möchte ich kurz die zwei am häufigsten verwendeten Architekturen beschreiben:
- Lambda-Architektur
- Kappa-Architektur
Lambda-Architektur
Die Lambda-Architektur besteht aus drei Layern:
- Batch Layer
Der Batch Layer benutzt im allgemeinen «vollständige» und eher statische Daten und errechnet die Ergebnisse mit hoher Genauigkeit. - Speed Layer
Der Speed Layer verarbeitet die Daten in Echtzeit, die Vollständigkeit und Genauigkeit werden im Allgemeinen nicht erreicht, da die Priorität auf einer kleinen Datenlatenz liegt. - Serving Layer
Dieser Layer ist auf die Abfragetechnik, wie von den Reporting-Tools genutzt, ausgerichtet. Schwerpunkt sind dabei die sogenannten Adhoc-Abfragen.
Hier ein konkretes Beispiel dazu:
Kappa-Architektur
Bei der Kappa-Architektur werden alle Daten als Datenstream bearbeitet. Dabei gilt es die Genauigkeit und Vollständigkeit von Daten und deren Auswirkung auf die Datenlatenzzeit zu steuern.
Der Technologiestack
Die verschiedenen Technologieanbieter oder vielleicht besser gesagt, Integratoren, empfehlen für die Umsetzung der gewünschten Architektur verschiedene Techniken und somit auch Tools.
Wenn man etwas hinter die Kulissen schaut, sind die Angebote jeweils gar nicht so unterschiedlich. Grundsätzlich scheinen sich in diesem Bereich die Open Source-Angebote durchzusetzen. Vertreter wie Hadoop, Spark, Kafka, usw. finden wir auf allen Plattformen. Allein die grosse Anzahl und die zum Teil sich überschneidenden Fähigkeiten machen die Auswahl des konkreten Technologiestacks anstrengend. Zum Beispiel bietet die Apache Plattform alleine für Big Data 49 Technologien an.
Dazu kommt, dass Anbieter wie Microsoft (Azure, SQL Server) oder Amazon (AWS) Opensource-Produkte wie Hadoop einsetzen, sie aber dann z.T. kapseln, damit sie von der Konfiguration und dem Quality of Service-Aspekt her in den Technologiestack passen. So ist beispielsweise HDInsight die Kapselung von Hadoop für die Microsoft Cloud Plattform Azure.
Im nächsten Blog werde ich zu diesem Thema einige der am meisten verwendeten Techniken in einer Übersicht beschreiben.
Big-Data-Kurse bei DigicompBig Data ist in aller Munde. Bringen Sie sich mit den Digicomp Kursen auf den neuesten Stand: |
Big Data ist in aller Munde. Bringen Sie sich mit den Digicomp Kursen auf den neuesten Stand: