Big data – Expression à la mode ou plus que ça ? (2)

Le Big Data est sur toutes les lèvres. Mais est-ce plus qu’une expression à la mode ? Dans cette série d’articles, l’expert en données Dieter Rüetschi souhaite analyser en profondeur le thème “Big Data”, du point de vue des praticiens. Voici donc la deuxième partie de cette série.

Autor/in Dieter Rüetschi
Datum 26.11.2018
Lesezeit 6 Minuten

Dans sa série d’articles, l’expert en données Dieter Rüetschi analyse en profondeur le thème “Big Data” d’un point de vue pratique. Après avoir analysé le terme dans la première partie de sa série et tiré les conclusions correspondantes, cette deuxième partie examine l’aspect du développement logique des systèmes de base de données et de la Business Intelligence vers le Big Data à partir de la pratique.

Business Intelligence et Big Data, la première et la deuxième étape de l’analyse des données

Si l’on examine les concepts de Business Intelligence et de Big Data, on découvrira bon nombre de similitudes. Les données sont filtrées des systèmes sources de manière ciblée, préparées en termes de structure et de contenu, puis stockées dans une mémoire (BI -> Datawarehouse, Big Data -> Storage). Les données sont ensuite analysées (BI -> Analyse, Big Data -> Machine learning). Enfin, les connaissances acquises sont préparées, présentées et distribuées au public cible (reporting).

business-intelligence-big-data

Examinons les différents sous-processus plus en détail :

Sources de données

Business Intelligence

  • Souvent des sources internes à l’entreprise, qui ont idéalement stocké les données dans un modèle relationnel
  • Dans la pratique, les sources sont souvent complétées par des données au format XML, JSON, CSV ou même au format Excel
  • Ici, les données sont généralement “complètes”

Big Data

  • Les sources sont constituées à la fois de matériel interne à l’entreprise et d’informations librement accessibles
  • Les données sont formatées très différemment et sont souvent de nature dynamique (p. ex. flux de données, données en streaming, etc.)
  • Ici, les données ne sont jamais complètes
  • Ici, les données sont semi-structurées ou mal structurées

Préparation des données

Business Intelligence

  • Les données sont converties de la plupart des modèles de données relationnels en modèles multidimensionnels Star et Snowflake en utilisant des processus ETL (Extraction – Transformation – Load) relativement statiques
  • La performance y joue souvent un rôle moins étendu

Big Data

  • En général, les données sont triées, filtrées et stockées dans la structure dans laquelle elles sont fournies, souvent par des mécanismes de filtrage complexes de nature algorithmique
  • Etant donné que d’énormes quantités de données sont le plus souvent traitées et parfois même fournies en temps réel, l’efficacité joue un rôle décisif

Conservation des données

Business Intelligence

  • Les données sont stockées dans un entrepôt de données au premier niveau. Les données sont stockées dans le modèle Star ou Snowflake, et ce généralement avec des moyens relationnels (tableaux et relations)
  • Après l’analyse, les données sont stockées dans un modèle multidimensionnel (cube)

Big Data

  • Ici, les données sont stockées dans une mémoire qui se compose souvent de différents formats (BLOB, NoSQL DB, JSON, etc.)

Analyse des données

Business Intelligence

  • Ici, l’analyse des données consiste principalement en des agrégations relativement simples et très nombreuses
  • L’objectif de l’analyse des données est de présenter les données dans des rapports

Big Data

  • Ici, l’analyse des données s’effectue souvent à l’aide d’algorithmes très complexes et, selon les cas, nécessitant des calculs très poussés
  • Dans le cas du Big Data, le but de l’analyse des données est de fournir des prédictions, des regroupements complexes et de nouvelles perspectives

Reporting

Les rapports présentent les résultats d’une manière compréhensible pour le public cible – du moins, c’est le but visé. Ceci s’applique aussi bien à la Business Intelligence qu’au Big Data

Résumé

Nous voyons ici quelques similitudes, mais je voudrais également souligner quelques différences essentielles.

Business Intelligence

  • Permet d’analyser les structures existantes des données et de les gérer de manière à ce qu’elles soient récupérables et représentables pour le plus grand nombre de participants possible
  • Sert de base pour les décisions tactiques et en partie aussi stratégiques

Big Data

  • N’interprète pas la structure des données, mais leur contenu
  • Permet d’analyser des relations non évidentes
  • Sert de base pour les prévisions, le développement de nouveaux produits, donc principalement des questions stratégiques

Selon l’auteur, les deux techniques se complètent très bien et devraient également être abordées et mises en œuvre ensemble. D’après mon expérience, la BI apporte la compréhension, la stabilité et la longévité des données dans ce domaine de la gestion et de l’analyse des données. Le Big Data et la science des données représentent l’acquisition de nouvelles connaissances et la découverte de nouvelles possibilités.


Autor/in

Dieter Rüetschi

Dieter Rüetschi ist seit über 25 Jahren in der Softwareentwicklung, Beratung und Schulung tätig. Seit 2000 konzentriert er sich auf die .NET-Plattform mit dem SQL Server als Datenbank. Er hat in dieser Zeit unzählige Projekte begleitet, geleitet und entwickelt. Seit dem SQL Server 2000 erstellte er ausserdem BI-Lösungen für verschiedene Firmen in den unterschiedlichsten Branchen. Herr Rüetschi hat für Digicomp viele Kurse und Lehrgänge konzipiert und entwickelt. Er ist Inhaber der Firma Ability Solutions GmbH.

Kommentar