Big Data Buzzword oder doch mehr? (2)
Big Data ist in aller Munde. Aber ist es mehr als ein Buzzword? Datenexperte Dieter Rüetschi will in dieser Artikelserie dem Thema «Big Data» aus Praktikersicht auf den Grund gehen. Hier nun der zweite Teil der Serie.
Datenexperte Dieter Rüetschi geht in seiner Artikelserie dem Thema «Big Data» aus Praktikersicht auf den Grund. Nachdem er im ersten Teil seiner Serie den Begriff analysiert und entsprechende Schlussfolgerungen gezogen hat, wird nun in diesem zweiten Teil der Aspekt der logischen Weiterentwicklung von Datenbanksystemen und Business Intelligence in Richtung Big Data aus der Praxis heraus untersucht.
Business Intelligence und Big Data – Schritt eins und zwei der Datanalyse
Wenn wir uns die Konzepte von Business Intelligence und Big Data anschauen, entdecken wir doch Einiges an Gemeinsamkeiten. Die Daten werden aus den Quellsystemen zielorientiert herausgefiltert, strukturell sowie inhaltlich aufbereitet und in einem Speicher abgelegt (BI -> Datawarehouse, Big Data -> Storage). Danach werden die Daten analysiert (BI -> Analysis, Big Data -> Machine Learning). Zum Schluss werden die gewonnenen Erkenntnisse Zielpublikumsgerecht aufbereitet, präsentiert und verteilt (Reporting).
Schauen wir uns die verschiedenen Teilprozesse etwas genauer an:
Datenquellen
Business Intelligence
- Oft firmeninterne Quellen, die idealerweise Daten im relationalen Modell abgelegt hat.
- Die Quellen werden in der Praxis häufig durch Daten in Dateiformaten wie XML, JSON, CSV oder sogar im Excel Format ergänzt.
- Die Daten sind hier im Allgemeinen «vollständig».
Big Data
- Die Quellen bestehen sowohl aus firmeneigenem Material als auch frei verfügbaren Informationen.
- Die Formate der Daten sind dabei sehr unterschiedlich formatiert und oft auch dynamischer Natur (z.B. DataFeeds, Streaming Daten, usw.).
- Die Daten sind hier niemals vollständig.
- Die Daten sind hier teilstrukturiert oder unstrukturiert.
Datenaufbereitung
Business Intelligence
- Die Daten werden über relativ statische ETL (Extraction – Transformation – Load) Prozesse von meisten relationalen Datenmodellen in Multidimensionale Star- und Snowflake-Modelle umgewandelt.
- Die Performance spielt dabei oft eine weniger ausgeprägte Rolle.
Big Data
- Die Daten werden im allgemeinen in der Struktur in der sie geliefert werden durch z.T. aufwändige Filtermechanismen oft algorithmischer Natur, sortiert, gefiltert und gespeichert.
- Da hier häufig riesigen Datenmengen verarbeitet werden und z.T. sogar in Realtime geliefert werden, spielt hier die Effizienz oft eine entscheidende Rolle.
Datenablage
Business Intelligence
- Die Ablage der Daten erfolgt auf der ersten Stufe in einem Datawarehouse. Die Daten sind hier im Star- oder Snowflake Modell gespeichert und dies im Allgemeinen mit relationalen Mitteln (Tabellen und Relationen).
- Die Ablage nach der Analyse erfolgt hier im Multidimensionalen Modell (Cube).
Big Data
- Die Daten werden hier in einem Storage abgelegt, dass häufig aus verschienen Formaten besteht (BLOB, NoSQL DB, JSON, usw.)
Datenanalyse
Business Intelligence
- Die Datenanalyse besteht hier in erster Linie aus relativen einfachen Aggregationen in sehr grosser Anzahl.
- Das Ziel der Datenanalyse ist hier auf die Datendarstellung in Reports ausgelegt.
Big Data
- Die Datenanalyse wird hier mit oft sehr komplexen und je nachdem sehr rechenintensiven Algorithmen durchgeführt.
- Das Ziel der Datenanalyse ist im Fall von Big Data auf Vorhersagen, komplexe Gruppierungen und auf neue Erkenntnisse ausgelegt.
Reporting
Das Reporting stellt die Ergebnisse in einer für das Zielpublikum verständlicher Weise dar – so die Hoffnung. Dies gilt sowohl für Business Intelligence als auch für Big Data.
Fazit
Wir sehen hier einiges an Gemeinsamkeiten allerdings möchte ich hier auch einige wesentlichen Unterschiede formulieren.
Business Intelligence
- Hilft die bestehenden Strukturen den Daten zu analysieren und so zu managen damit sie für möglichst alle Beteiligten abrufbar und darstellbar sind.
- Dient als Grundlage für taktische und zum Teil auch strategische Entscheidungen.
Big Data
- Interpretiert nicht die Struktur der Daten sondern deren Inhalt.
- Ermöglicht die Analyse von nicht offensichtlichen Zusammenhängen.
- Dient als Grundlage für Vorhersagen, Entwicklung neuer Produkte also schwergewichtig strategische Fragestellungen.
Die beiden Techniken ergänzen sich nach der Meinung des Autors ausgesprochen gut und sollten auch zusammen angegangen und umgesetzt werden. Nach meiner Erfahrung bringt BI das Verständnis der Daten sowie die Stabilität und Langlebigkeit in dieses Gebiet des Datenmanagement und -analyse. Big Data und Data Science die Gewinnung neuer Erkenntnisse und die Entdeckung neuer Möglichkeiten.