Big data – Expression à la mode ou plus que ça ? (1)

Le Big data est sur toutes les lèvres. Mais est-ce plus qu’une expression à la mode ? Dans cette série d’articles, l’expert en données, Dieter Rüetschi, veut analyser en profondeur le thème “Big data”, du point de vue des praticiens.

Auteur / Autrice Dieter Rüetschi
Date 26.09.2018
Temps de lecture 6 Minutes

“Je sais que nous devons faire quelque chose en matière de Big data et de Data science mais…”, voilà en substance ce que me disent beaucoup de mes clients. C’est justement ce défi qui me donne la motivation pour réaliser cette nouvelle série d’articles sur le Big data. J’aimerais aborder ce thème à partir de mon expérience personnelle en tant que praticien.

Le Big data – juste une expression à la mode ou plus que ça ?

Une définition semi-officielle de l’expression Big data se trouve sur Wikipédia :

“L’expression Big data est un anglicisme qui désigne des quantités de données qui sont par exemple trop volumineuses, trop complexes, trop éphémères ou trop peu structurées pour être exploitées avec les méthodes manuelles et traditionnelles de traitement des données.”

Lorsque nous décomposons encore un peu plus précisément cette définition, nous pouvons faire le lien avec la pratique encore plus facilement :

Le Big data est volontiers décrit comme la transposition technologique pour les solutions 3V :

Volume

Cet aspect donne son nom à la stratégie Big data. Souvent, les quantités de données sont trop importantes pour être transposées avec les outils et les moyens traditionnels.

Vélocité

Des quantités de données toujours plus importantes doivent être traitées, analysées et en partie aussi enregistrées à des intervalles toujours plus rapprochés.

Variété

Auparavant, nous avons déjà passé beaucoup de temps à enregistrer dans nos systèmes des données de structures des plus variées et à les traiter dans ces systèmes. La variété n’a cessé de grandir et de devenir plus dynamique avec le temps. Aujourd’hui, nous répartissons les données en deux groupes principaux : les données structurées et les données non structurées.

Considération élargie

En pratique, d’autres facteurs également très essentiels doivent être pris en considération lors du traitement, de la filtration et de l’analyse de telles données :

Source (origine des données)

Les sources se sont multipliées en termes de nombre et de type. Aujourd’hui, nous faisons la distinction au plus haut niveau d’abstraction

  • Données statiques : la plupart du temps provenant de bases de données ou de fichiers
  • Données dynamiques : streams ou flux de données

Complexité

Les données d’aujourd’hui proviennent de différentes sources, ce qui rend difficile leur association, leur recoupement, leur nettoyage et leur transformation dans différents systèmes.

Analyse des besoins

Alors que nous pouvions par le passé surtout nous concentrer sur l’analyse des structures de données (p. ex. Business intelligence, Reporting, Ad-hoc reporting), nous sommes désormais arrivés à l’étape suivante : l’exploitation des contenus des données et des dépendances non apparentes d’interprétations de données (Data mining, Data science, Intelligence artificielle, Machine learning, etc.).

Gestion des données

Le point souvent oublié : Comment organisons-nous les données existantes et les données nouvelles ?

Communication

La diffusion et l’énonciation des données et des connaissances nouvellement acquises sont ici d’une importance fondamentale. Étant donné que nous devons toujours plus classer les données et aussi les abstraire, la présentation transparente des données et leur livraison sont d’une grande importance.

Évidemment, d’autres thèmes liés tels que la qualité des données, la sécurité des données et la fiabilité ne doivent pas être négligés.

Conclusion tirée de ces définitions

Pour moi, il résulte de ces considérations que le Big data et sa transposition pratique sont :

  • Une stratégie pour la création, la gestion et l’entretien des systèmes d’analyse de données
  • Une compilation de concepts pour la manipulation, l’analyse et l’évaluation de données
  • Une boîte technologique pour les missions décrites ci-dessus, qui doit être adaptée aussi bien aux besoins du client qu’aux questions auxquelles il faut répondre
  • Une stratégie effective et efficace de répondre à un bouquet hétéroclite de questions basées sur des données
  • Un développement logique et un complément des systèmes de base de données classiques et de solutions de Business intelligence

Dans la deuxième partie de ce blog, l’aspect du développement logique des systèmes de base de données et de la Business intelligence dans la voie du Big Data est analysé, comme toujours du point de vue de la pratique.

Formations Big Data chez Digicomp


Auteur / Autrice

Dieter Rüetschi

Dieter Rüetschi est actif depuis plus de 25 ans dans le développement de logiciels, dans le conseil et la formation. Depuis 2000, il se concentre sur la plate-forme .NET avec le serveur SQL comme base de données. Pendant cette période, il a développé, dirigé et accompagné de très nombreux projets. Depuis le serveur SQL 2000, il a en outre élaboré des solutions de Business intelligence pour différentes sociétés dans une grande variété de branches. M. Rüetschi a développé et conçu de nombreux cours et de nombreuses formations pour Digicomp. Il est propriétaire de la société Ability Solutions Sàrl.