Big data – Expression à la mode ou plus que ça ? (2)

Le Big Data est sur toutes les lèvres. Mais est-ce plus qu’une expression à la mode ? Dans cette série d’articles, l’expert en données Dieter Rüetschi souhaite analyser en profondeur le thème “Big Data”, du point de vue des praticiens. Voici donc la deuxième partie de cette série.

Auteur / Autrice Dieter Rüetschi
Date 26.11.2018
Temps de lecture 6 Minutes

Dans sa série d’articles, l’expert en données Dieter Rüetschi analyse en profondeur le thème “Big Data” d’un point de vue pratique. Après avoir analysé le terme dans la première partie de sa série et tiré les conclusions correspondantes, cette deuxième partie examine l’aspect du développement logique des systèmes de base de données et de la Business Intelligence vers le Big Data à partir de la pratique.

Business Intelligence et Big Data, la première et la deuxième étape de l’analyse des données

Si l’on examine les concepts de Business Intelligence et de Big Data, on découvrira bon nombre de similitudes. Les données sont filtrées des systèmes sources de manière ciblée, préparées en termes de structure et de contenu, puis stockées dans une mémoire (BI -> Datawarehouse, Big Data -> Storage). Les données sont ensuite analysées (BI -> Analyse, Big Data -> Machine learning). Enfin, les connaissances acquises sont préparées, présentées et distribuées au public cible (reporting).

business-intelligence-big-data

Examinons les différents sous-processus plus en détail :

Sources de données

Business Intelligence

  • Souvent des sources internes à l’entreprise, qui ont idéalement stocké les données dans un modèle relationnel
  • Dans la pratique, les sources sont souvent complétées par des données au format XML, JSON, CSV ou même au format Excel
  • Ici, les données sont généralement “complètes”

Big Data

  • Les sources sont constituées à la fois de matériel interne à l’entreprise et d’informations librement accessibles
  • Les données sont formatées très différemment et sont souvent de nature dynamique (p. ex. flux de données, données en streaming, etc.)
  • Ici, les données ne sont jamais complètes
  • Ici, les données sont semi-structurées ou mal structurées

Préparation des données

Business Intelligence

  • Les données sont converties de la plupart des modèles de données relationnels en modèles multidimensionnels Star et Snowflake en utilisant des processus ETL (Extraction – Transformation – Load) relativement statiques
  • La performance y joue souvent un rôle moins étendu

Big Data

  • En général, les données sont triées, filtrées et stockées dans la structure dans laquelle elles sont fournies, souvent par des mécanismes de filtrage complexes de nature algorithmique
  • Etant donné que d’énormes quantités de données sont le plus souvent traitées et parfois même fournies en temps réel, l’efficacité joue un rôle décisif

Conservation des données

Business Intelligence

  • Les données sont stockées dans un entrepôt de données au premier niveau. Les données sont stockées dans le modèle Star ou Snowflake, et ce généralement avec des moyens relationnels (tableaux et relations)
  • Après l’analyse, les données sont stockées dans un modèle multidimensionnel (cube)

Big Data

  • Ici, les données sont stockées dans une mémoire qui se compose souvent de différents formats (BLOB, NoSQL DB, JSON, etc.)

Analyse des données

Business Intelligence

  • Ici, l’analyse des données consiste principalement en des agrégations relativement simples et très nombreuses
  • L’objectif de l’analyse des données est de présenter les données dans des rapports

Big Data

  • Ici, l’analyse des données s’effectue souvent à l’aide d’algorithmes très complexes et, selon les cas, nécessitant des calculs très poussés
  • Dans le cas du Big Data, le but de l’analyse des données est de fournir des prédictions, des regroupements complexes et de nouvelles perspectives

Reporting

Les rapports présentent les résultats d’une manière compréhensible pour le public cible – du moins, c’est le but visé. Ceci s’applique aussi bien à la Business Intelligence qu’au Big Data

Résumé

Nous voyons ici quelques similitudes, mais je voudrais également souligner quelques différences essentielles.

Business Intelligence

  • Permet d’analyser les structures existantes des données et de les gérer de manière à ce qu’elles soient récupérables et représentables pour le plus grand nombre de participants possible
  • Sert de base pour les décisions tactiques et en partie aussi stratégiques

Big Data

  • N’interprète pas la structure des données, mais leur contenu
  • Permet d’analyser des relations non évidentes
  • Sert de base pour les prévisions, le développement de nouveaux produits, donc principalement des questions stratégiques

Selon l’auteur, les deux techniques se complètent très bien et devraient également être abordées et mises en œuvre ensemble. D’après mon expérience, la BI apporte la compréhension, la stabilité et la longévité des données dans ce domaine de la gestion et de l’analyse des données. Le Big Data et la science des données représentent l’acquisition de nouvelles connaissances et la découverte de nouvelles possibilités.


Auteur / Autrice

Dieter Rüetschi

Dieter Rüetschi est actif depuis plus de 25 ans dans le développement de logiciels, dans le conseil et la formation. Depuis 2000, il se concentre sur la plate-forme .NET avec le serveur SQL comme base de données. Pendant cette période, il a développé, dirigé et accompagné de très nombreux projets. Depuis le serveur SQL 2000, il a en outre élaboré des solutions de Business intelligence pour différentes sociétés dans une grande variété de branches. M. Rüetschi a développé et conçu de nombreux cours et de nombreuses formations pour Digicomp. Il est propriétaire de la société Ability Solutions Sàrl.