Le Big data est sur toutes les lèvres. Mais est-ce plus qu’une expression à la mode ? Dans cette série d’articles, l’expert en données, Dieter Rüetschi, veut analyser en profondeur le thème “Big data”, du point de vue des praticiens.
“Je sais que nous devons faire quelque chose en matière de Big data et de Data science mais…”, voilà en substance ce que me disent beaucoup de mes clients. C’est justement ce défi qui me donne la motivation pour réaliser cette nouvelle série d’articles sur le Big data. J’aimerais aborder ce thème à partir de mon expérience personnelle en tant que praticien.
Une définition semi-officielle de l’expression Big data se trouve sur Wikipédia :
“L’expression Big data est un anglicisme qui désigne des quantités de données qui sont par exemple trop volumineuses, trop complexes, trop éphémères ou trop peu structurées pour être exploitées avec les méthodes manuelles et traditionnelles de traitement des données.”
Lorsque nous décomposons encore un peu plus précisément cette définition, nous pouvons faire le lien avec la pratique encore plus facilement :
Le Big data est volontiers décrit comme la transposition technologique pour les solutions 3V :
Cet aspect donne son nom à la stratégie Big data. Souvent, les quantités de données sont trop importantes pour être transposées avec les outils et les moyens traditionnels.
Des quantités de données toujours plus importantes doivent être traitées, analysées et en partie aussi enregistrées à des intervalles toujours plus rapprochés.
Auparavant, nous avons déjà passé beaucoup de temps à enregistrer dans nos systèmes des données de structures des plus variées et à les traiter dans ces systèmes. La variété n’a cessé de grandir et de devenir plus dynamique avec le temps. Aujourd’hui, nous répartissons les données en deux groupes principaux : les données structurées et les données non structurées.
En pratique, d’autres facteurs également très essentiels doivent être pris en considération lors du traitement, de la filtration et de l’analyse de telles données :
Les sources se sont multipliées en termes de nombre et de type. Aujourd’hui, nous faisons la distinction au plus haut niveau d’abstraction
Les données d’aujourd’hui proviennent de différentes sources, ce qui rend difficile leur association, leur recoupement, leur nettoyage et leur transformation dans différents systèmes.
Alors que nous pouvions par le passé surtout nous concentrer sur l’analyse des structures de données (p. ex. Business intelligence, Reporting, Ad-hoc reporting), nous sommes désormais arrivés à l’étape suivante : l’exploitation des contenus des données et des dépendances non apparentes d’interprétations de données (Data mining, Data science, Intelligence artificielle, Machine learning, etc.).
Le point souvent oublié : Comment organisons-nous les données existantes et les données nouvelles ?
La diffusion et l’énonciation des données et des connaissances nouvellement acquises sont ici d’une importance fondamentale. Étant donné que nous devons toujours plus classer les données et aussi les abstraire, la présentation transparente des données et leur livraison sont d’une grande importance.
Évidemment, d’autres thèmes liés tels que la qualité des données, la sécurité des données et la fiabilité ne doivent pas être négligés.
Pour moi, il résulte de ces considérations que le Big data et sa transposition pratique sont :
Dans la deuxième partie de ce blog, l’aspect du développement logique des systèmes de base de données et de la Business intelligence dans la voie du Big Data est analysé, comme toujours du point de vue de la pratique.
Formations Big Data chez DigicompLe Big Data est sur toutes les lèvres. Mettez-vous à jour avec les formations Digicomp : |
Le Big Data est sur toutes les lèvres. Mettez-vous à jour avec les formations Digicomp :
Kommentar