Big Data – Buzzword oder doch mehr? (1)
Big Data ist in aller Munde. Aber ist es mehr als ein Buzzword? Datenexperte Dieter Rüetschi will in dieser Artikelserie dem Thema «Big Data» aus Praktikersicht auf den Grund gehen.
«Ich weiss wir sollten im Bereich Big Data und Data Science was machen, aber …», solche und ähnliche Aussagen höre ich von vielen meiner Kunden. Genau hinter dieser Herausforderung steckt meine Motivation zu dieser neuen Big-Data-Artikelserie. Ich möchte das Thema aus meiner persönlichen Sicht heraus als Praktiker beleuchten.
Big Data – Buzzword oder doch mehr?
Eine halbwegs offizielle Definition des Ausdrucks Big Data findet man unter Wikipedia als:
«Der aus dem englischen Sprachraum stammende Begriff Big Data bezeichnet Datenmengen, welche beispielsweise zu groß, zu komplex, zu schnelllebig oder zu schwach strukturiert sind, um sie mit manuellen und herkömmlichen Methoden der Datenverarbeitung auszuwerten.»
Wenn wir diese Definition noch etwas genauer auseinander nehmen, können wir den Bezug zur Praxis noch einfacher herstellen:
Gerne wird Big Data auch als die technologische Umsetzung für Lösungen der 3 V bezeichnet:
Volume (Grösse)
Dieser Aspekt gibt der Strategie Big Data den Namen. Oft sind die Datenmengen zu gross, als dass sie mit den herkömmlichen Werkzeugen und Mitteln umgesetzt werden können.
Velocity (Geschwindigkeit)
Es müssen immer grössere Mengen von Daten in immer kürzeren Intervallen verarbeitet, analysiert und zum Teil auch gespeichert werden.
Variety (Vielfalt)
Schon früher haben wir viel Zeit damit verbracht, Daten unterschiedlichster Strukturierung in unsere Systeme aufzunehmen und dort zu verarbeiten. Die Vielfalt ist im Laufe der Zeit immer grösser und auch dynamischer geworden. Heute teilen wir Daten in zwei Hauptgruppen auf: strukturierte und unstrukturierte Daten.
Erweiterte Bertrachtung
Bei der Verarbeitung, Filterung und Analyse solcher Daten müssen in der Praxis noch andere ebenfalls sehr wesentliche Faktoren, mitberücksichtigt werden:
Source (Datenquelle)
Die Anzahl der Quellen hat sich von der Anzahl und Art her vervielfacht. Heute unterscheiden wir auf der obersten Abstraktionsebene
- Statische Daten: meist aus Datenbanken oder Dateien heraus
- Dynamische Daten: Streams bzw. Datenströme
Komplexität
Heutige Daten stammen aus verschiedenen Quellen, was es schwierig macht, Daten systemübergreifend zu verknüpfen, abzugleichen, zu bereinigen und zu transformieren.
Anforderungsanalyse
Während wir uns in der Vergangenheit vor allem auf die Analyse bezüglich Datenstrukturen (z.B. Business Intelligence, Reporting, Ad-hoc Reporting) konzentrieren konnten, steht auch hier der nächste Schritt an: Die Auswertung von Dateninhalten und nicht offensichtlichen Abhängigkeiten von Dateninterpretationen (Data Mining, Data Science, künstliche Intelligenz, Machine Learning, usw.).
Datenmanagement
Der oft vergessene Punkt: Wie organisieren wir die bestehenden und die neu erzeugten Daten?
Kommunikation
Die Verbreitung und Erklärung der Daten und der neu gewonnenen Erkenntnisse ist hier von zentraler Bedeutung. Dadurch, dass wir die Daten immer weiter aufbereiten und somit auch abstrahieren müssen, kommt der transparenten Präsentation und Lieferung der Daten eine grosse Bedeutung zu.
Selbstverständlich dürfen auch weitere verwandte Themen wie Datenqualität, Datensicherheit, Zuverlässigkeit nicht ausser Acht gelassen werden.
Schlussfolgerung aus diesen Definitionen
Aus diesen Betrachtungen heraus ist für mich persönlich Big Data und dessen praktische Umsetzung:
- Eine Strategie für das Generieren, Managen und Unterhalten von Daten-Analysesystemen
- Eine Sammlung von Konzepten für Datenmanipulation, Datenanalyse und Datenbeurteilung
- Eine Technologie-Box für die oben beschriebenen Aufgaben, die sowohl auf die Kundenbedürfnisse als auch auf die zu lösenden Fragestellungen angepasst und adaptiert werden muss
- Eine effektive und effiziente Strategie zur Beantwortung eines bunten Strausses von datenbasierten Fragen
- Eine logische Weiterentwicklung und Ergänzung von klassischen Datenbanksystemen und Business-Intelligence-Lösungen
Im zweiten Teil diese Blogs wird der Aspekt der logischen Weiterentwicklung von Datenbanksystemen und Business Intelligence in Richtung Big Data wie immer aus der Praxis heraus untersucht.
Big-Data-Kurse bei DigicompBig Data ist in aller Munde. Bringen Sie sich mit den Digicomp Kursen auf den neuesten Stand: |
Big Data ist in aller Munde. Bringen Sie sich mit den Digicomp Kursen auf den neuesten Stand: