Big Data – Buzzword oder doch mehr? (1)

Big Data ist in aller Munde. Aber ist es mehr als ein Buzzword? Datenexperte Dieter Rüetschi will in dieser Artikelserie dem Thema «Big Data» aus Praktikersicht auf den Grund gehen.

Autor/in Dieter Rüetschi
Datum 26.09.2018
Lesezeit 5 Minuten

«Ich weiss wir sollten im Bereich Big Data und Data Science was machen, aber …», solche und ähnliche Aussagen höre ich von vielen meiner Kunden. Genau hinter dieser Herausforderung steckt meine Motivation zu dieser neuen Big-Data-Artikelserie. Ich möchte das Thema aus meiner persönlichen Sicht heraus als Praktiker beleuchten.

Big Data – Buzzword oder doch mehr?

Eine halbwegs offizielle Definition des Ausdrucks Big Data findet man unter Wikipedia als:

«Der aus dem englischen Sprachraum stammende Begriff Big Data bezeichnet Datenmengen, welche beispielsweise zu groß, zu komplex, zu schnelllebig oder zu schwach strukturiert sind, um sie mit manuellen und herkömmlichen Methoden der Datenverarbeitung auszuwerten.»

Wenn wir diese Definition noch etwas genauer auseinander nehmen, können wir den Bezug zur Praxis noch einfacher herstellen:

Gerne wird Big Data auch als die technologische Umsetzung für Lösungen der 3 V bezeichnet:

Volume (Grösse)

Dieser Aspekt gibt der Strategie Big Data den Namen. Oft sind die Datenmengen zu gross, als dass sie mit den herkömmlichen Werkzeugen und Mitteln umgesetzt werden können.

Velocity (Geschwindigkeit)

Es müssen immer grössere Mengen von Daten in immer kürzeren Intervallen verarbeitet, analysiert und zum Teil auch gespeichert werden.

Variety (Vielfalt)

Schon früher haben wir viel Zeit damit verbracht, Daten unterschiedlichster Strukturierung in unsere Systeme aufzunehmen und dort zu verarbeiten. Die Vielfalt ist im Laufe der Zeit immer grösser und auch dynamischer geworden. Heute teilen wir Daten in zwei Hauptgruppen auf: strukturierte und unstrukturierte Daten.

Erweiterte Bertrachtung

Bei der Verarbeitung, Filterung und Analyse solcher Daten müssen in der Praxis noch andere ebenfalls sehr wesentliche Faktoren, mitberücksichtigt werden:

Source (Datenquelle)

Die Anzahl der Quellen hat sich von der Anzahl und Art her vervielfacht. Heute unterscheiden wir auf der obersten Abstraktionsebene

  • Statische Daten: meist aus Datenbanken oder Dateien heraus
  • Dynamische Daten: Streams bzw. Datenströme

Komplexität

Heutige Daten stammen aus verschiedenen Quellen, was es schwierig macht, Daten systemübergreifend zu verknüpfen, abzugleichen, zu bereinigen und zu transformieren.

Anforderungsanalyse

Während wir uns in der Vergangenheit vor allem auf die Analyse bezüglich Datenstrukturen (z.B. Business Intelligence, Reporting, Ad-hoc Reporting) konzentrieren konnten, steht auch hier der nächste Schritt an: Die Auswertung von Dateninhalten und nicht offensichtlichen Abhängigkeiten von Dateninterpretationen (Data Mining, Data Science, künstliche Intelligenz, Machine Learning, usw.).

Datenmanagement

Der oft vergessene Punkt: Wie organisieren wir die bestehenden und die neu erzeugten Daten?

Kommunikation

Die Verbreitung und Erklärung der Daten und der neu gewonnenen Erkenntnisse ist hier von zentraler Bedeutung. Dadurch, dass wir die Daten immer weiter aufbereiten und somit auch abstrahieren müssen, kommt der transparenten Präsentation und Lieferung der Daten eine grosse Bedeutung zu.

Selbstverständlich dürfen auch weitere verwandte Themen wie Datenqualität, Datensicherheit, Zuverlässigkeit nicht ausser Acht gelassen werden.

Schlussfolgerung aus diesen Definitionen

Aus diesen Betrachtungen heraus ist für mich persönlich Big Data und dessen praktische Umsetzung:

  • Eine Strategie für das Generieren, Managen und Unterhalten von Daten-Analysesystemen
  • Eine Sammlung von Konzepten für Datenmanipulation, Datenanalyse und Datenbeurteilung
  • Eine Technologie-Box für die oben beschriebenen Aufgaben, die sowohl auf die Kundenbedürfnisse als auch auf die zu lösenden Fragestellungen angepasst und adaptiert werden muss
  • Eine effektive und effiziente Strategie zur Beantwortung eines bunten Strausses von datenbasierten Fragen
  • Eine logische Weiterentwicklung und Ergänzung von klassischen Datenbanksystemen und Business-Intelligence-Lösungen

Im zweiten Teil diese Blogs wird der Aspekt der logischen Weiterentwicklung von Datenbanksystemen und Business Intelligence in Richtung Big Data wie immer aus der Praxis heraus untersucht.


Autor/in

Dieter Rüetschi

Dieter Rüetschi ist seit über 25 Jahren in der Softwareentwicklung, Beratung und Schulung tätig. Seit 2000 konzentriert er sich auf die .NET-Plattform mit dem SQL Server als Datenbank. Er hat in dieser Zeit unzählige Projekte begleitet, geleitet und entwickelt. Seit dem SQL Server 2000 erstellte er ausserdem BI-Lösungen für verschiedene Firmen in den unterschiedlichsten Branchen. Herr Rüetschi hat für Digicomp viele Kurse und Lehrgänge konzipiert und entwickelt. Er ist Inhaber der Firma Ability Solutions GmbH.