Big data – Expression à la mode ou plus que ça ? (2)
Le Big Data est sur toutes les lèvres. Mais est-ce plus qu’une expression à la mode ? Dans cette série d’articles, l’expert en données Dieter Rüetschi souhaite analyser en profondeur le thème “Big Data”, du point de vue des praticiens. Voici donc la deuxième partie de cette série.
Dans sa série d’articles, l’expert en données Dieter Rüetschi analyse en profondeur le thème “Big Data” d’un point de vue pratique. Après avoir analysé le terme dans la première partie de sa série et tiré les conclusions correspondantes, cette deuxième partie examine l’aspect du développement logique des systèmes de base de données et de la Business Intelligence vers le Big Data à partir de la pratique.
Business Intelligence et Big Data, la première et la deuxième étape de l’analyse des données
Si l’on examine les concepts de Business Intelligence et de Big Data, on découvrira bon nombre de similitudes. Les données sont filtrées des systèmes sources de manière ciblée, préparées en termes de structure et de contenu, puis stockées dans une mémoire (BI -> Datawarehouse, Big Data -> Storage). Les données sont ensuite analysées (BI -> Analyse, Big Data -> Machine learning). Enfin, les connaissances acquises sont préparées, présentées et distribuées au public cible (reporting).
Examinons les différents sous-processus plus en détail :
Sources de données
Business Intelligence
- Souvent des sources internes à l’entreprise, qui ont idéalement stocké les données dans un modèle relationnel
- Dans la pratique, les sources sont souvent complétées par des données au format XML, JSON, CSV ou même au format Excel
- Ici, les données sont généralement “complètes”
Big Data
- Les sources sont constituées à la fois de matériel interne à l’entreprise et d’informations librement accessibles
- Les données sont formatées très différemment et sont souvent de nature dynamique (p. ex. flux de données, données en streaming, etc.)
- Ici, les données ne sont jamais complètes
- Ici, les données sont semi-structurées ou mal structurées
Préparation des données
Business Intelligence
- Les données sont converties de la plupart des modèles de données relationnels en modèles multidimensionnels Star et Snowflake en utilisant des processus ETL (Extraction – Transformation – Load) relativement statiques
- La performance y joue souvent un rôle moins étendu
Big Data
- En général, les données sont triées, filtrées et stockées dans la structure dans laquelle elles sont fournies, souvent par des mécanismes de filtrage complexes de nature algorithmique
- Etant donné que d’énormes quantités de données sont le plus souvent traitées et parfois même fournies en temps réel, l’efficacité joue un rôle décisif
Conservation des données
Business Intelligence
- Les données sont stockées dans un entrepôt de données au premier niveau. Les données sont stockées dans le modèle Star ou Snowflake, et ce généralement avec des moyens relationnels (tableaux et relations)
- Après l’analyse, les données sont stockées dans un modèle multidimensionnel (cube)
Big Data
- Ici, les données sont stockées dans une mémoire qui se compose souvent de différents formats (BLOB, NoSQL DB, JSON, etc.)
Analyse des données
Business Intelligence
- Ici, l’analyse des données consiste principalement en des agrégations relativement simples et très nombreuses
- L’objectif de l’analyse des données est de présenter les données dans des rapports
Big Data
- Ici, l’analyse des données s’effectue souvent à l’aide d’algorithmes très complexes et, selon les cas, nécessitant des calculs très poussés
- Dans le cas du Big Data, le but de l’analyse des données est de fournir des prédictions, des regroupements complexes et de nouvelles perspectives
Reporting
Les rapports présentent les résultats d’une manière compréhensible pour le public cible – du moins, c’est le but visé. Ceci s’applique aussi bien à la Business Intelligence qu’au Big Data
Résumé
Nous voyons ici quelques similitudes, mais je voudrais également souligner quelques différences essentielles.
Business Intelligence
- Permet d’analyser les structures existantes des données et de les gérer de manière à ce qu’elles soient récupérables et représentables pour le plus grand nombre de participants possible
- Sert de base pour les décisions tactiques et en partie aussi stratégiques
Big Data
- N’interprète pas la structure des données, mais leur contenu
- Permet d’analyser des relations non évidentes
- Sert de base pour les prévisions, le développement de nouveaux produits, donc principalement des questions stratégiques
Selon l’auteur, les deux techniques se complètent très bien et devraient également être abordées et mises en œuvre ensemble. D’après mon expérience, la BI apporte la compréhension, la stabilité et la longévité des données dans ce domaine de la gestion et de l’analyse des données. Le Big Data et la science des données représentent l’acquisition de nouvelles connaissances et la découverte de nouvelles possibilités.