Cours
Code digicomp : GCPDE
Data Engineering on Google Cloud
Description de la formation
- Concevoir et construire des systèmes de traitement des données sur Google Cloud
- Traiter de données par lot et de flux en mettant en œuvre des pipelines de données autoévolutives sur Dataflow
- Tirer de la business intelligence de sets de données extrêmement vastes avec BigQuery
- Exploiter des données non structurées avec des API Spark et les API de ML sur Dataproc
- Activer l’exploitation d’informations instantanées depuis des flux de données
- Comprendre les API de ML et BigQuery ML et apprendre à utiliser AutoML pour créer des modèles puissants sans code
Cette formation comprend des parties théoriques, des démonstrations et des ateliers pratiques pour comprendre la conception de systèmes de traitement des données, la construction de pipelines de données de bout en bout, l’analyse de données et l’implémentation de machine learning. Elle aborde les données structurées, non structurées et les flux de données.
1. Introduction à l’ingénierie des données
- Explorer le rôle d’ingénieur des données
- Analyser les défis liés à l’ingénierie des données
- Introduction à BigQuery
- Lacs de données et entrepôts de données
- Bases de données transactionnelles vs entrepôts de données
- Collaborer efficacement avec d’autres équipes de données
- Gérer l’accès aux données et la gouvernance
- Créer des pipelines prêts à la production
- Étude de cas client Google Cloud
2. Créer un lac de données
- Introduction aux lacs de données
- Stockage des données et options d’ETL sur Google Cloud
- Créer un lac de données avec Cloud Storage
- Sécuriser Cloud Storage
- Stocker différents types de données
- Cloud SQL comme lac de données relationnel
3. Créer un entrepôt de données
- L’entrepôt de données moderne
- Débuter avec BigQuery
- Charger des données
- Explorer les schémas
- Conception des schémas
- Les champs imbriqués et répétés
- Optimisation avec le partitionnement et le regroupement (clustering)
4. Introduction à la création de pipelines de données en lot (Batch Data Pipelines)
- El, ELT, ETL
- Considérations concernant la qualité
- Comment exécuter des opérations dans BigQuery
- Lacunes
- L’ETL pour résoudre des problèmes de qualité des données
5. Exécution de Spark sur Dataproc
- L’écosystème Hadoop
- Exécuter Hadoop sur Dataproc
- Cloud Storage plutôt que HDFS
- Optimiser Dataproc
6 Traitement des données sans serveur avec Dataflow
- Introduction à Dataflow
- Pourquoi les clients apprécient Dataflow
- Les pipelines Dataflow
- Agrégation avec GroupByKey et Combine
- Entrées supplémentaires et fenêtres
- Modèles Dataflow
- Dataflow SQL
7. Gérer les pipelines de données avec Cloud Data Fusion et Cloud Composer
- Construire visuellement des pipelines de données en lot avec Cloud Data Fusion
- Aperçu de l’UI
- Créer un pipeline
- Explorer les données avec Wrangler
- Organiser le travail entre les services Google Cloud avec Cloud Composer
- Environnement Apache Airflow
- DAG et opérateurs
- Planification des flux de travail
- Surveiller et journaliser
8. Introduction au traitement des flux de données
- Traiter les flux de données
- Expliquer le traitement des données par flux
- Décrire les défis posés par les flux de données
- Identifier les produits et outils Google Cloud qui peuvent aider face aux défis des flux de données
9. Messagerie sans serveur avec Pub/Sub
- Introduction à Pub/Sub
- Pub/Sub push vs pull
- Publier avec du code Pub/Sub
- Décrire le service Pub/Sub
- Comprendre comment fonctionne Pub/Sub
- Acquérir de l’expérience pratique avec Pub/Sub grâce à un atelier qui simule un flux de données de capteur en temps réel
10. Fonctionnalités de flux Dataflow
- Les défis des flux de données
- Fenêtrage Dataflow
- Comprendre le service Dataflow
- Construire un pipeline de traitement de flux pour les données de trafic en direct
- Montrer comment traiter les données tardives à l’aide de filigranes, de déclencheurs et d’accumulation
11. Fonctionnalités de flux BigQuery et Bigtable à haut débit
- Diffusion en continu dans BigQuery et visualisation des résultats
- Flux à haut débit avec Cloud Bigtable
- Optimiser les performances de Cloud Bigtable
12. Fonctionnalités et performances avancées de BigQuery
- Fonctions d’analytique
- Utiliser les clauses With
- Fonctions GIS
- Considérations relatives aux performances
13. Introduction à l’analytique et à l’IA
- Qu’est-ce que l’IA ?
- De l’analyse de données ad hoc aux décisions basées sur les données
- Options pour les modèles de ML sur Google Cloud
- Comprendre que le ML ajoute de la valeur à vos données
- Comprendre la relation entre le ML, l’IA et le Deep Learning
- Identifier les options de ML sur Google Cloud
14. API de modèles de ML préconstruits pour les données non structurées
- Les données non structurées sont difficiles
- API de Machine Learning pour l’enrichissement des données
- Discuter des défis lors du travail avec les données non structurées
- Apprendre l’application d’API de ML prêtes à l’usage sur des données non structurées
15. Big Data Analytics avec des notebooks
- Qu’est-ce qu’un notebook ?
- La magie de BigQuery et ses liens avec Pandas
- Introduction des notebookks comme outil pour créer des prototypes de solutions de Machine Learning
- Apprendre à exécuter des commandes BigQuery depuis des notebooks
16. Production de pipelines de ML
- Les manières de faire du ML sur Google Cloud
- Vertex AI Pipelines
- AI Hub
- Décrire les options disponibles pour la création de modèles de ML personnalisés
- Comprendre l’utilisation des outils comme Vertex AI Pipelines
17. Créer des modèles personnalisés avec SQL dans BigQuery ML
- BigQuery ML pour la création rapide de modèles
- Modèles supportés
- Apprendre comment créer des modèles de ML avec la syntaxe SQL dans BigQuery
- Démontrer la création de différents types de modèles de ML à l’aide de BigQuery ML
18. Créer des modèles personnalisés avec AutoML
- Pourquoi AutoML ?
- AutoML Vision
- AutoML NLP
- Tables AutoML
- Explorer les différents produits AutoML utilisés dans le Machine Learning
- Apprendre à utiliser AutoML pour créer des modèles puissants sans avoir à écrire de code
Cette formation s’adresse aux développeuses et développeurs responsables de :
- L’extraction, le chargement, la transformation, le nettoyage et la validation des données
- La conception de pipelines et d’architectures pour le traitement des données
- L’intégration des capacités d’analyse et de machine learning à des pipelines de données
- L’interrogation de sets de données, la visualisation de résultats des requêtes et la création des rapports
Afin de tirer pleinement profit de cette formation, les participants doivent avoir :
- Une maîtrise de base d’un langage de requête courant tel que SQL
- De l’expérience avec la modélisation de données et les activités d’ETL (extract, transform, load)
- De l'expérience avec le développement d’applications en utilisant un langage de programmation commun comme Python
- Des connaissances du machine learning et/ou des statistiques
Nous recommandons de suivre au préalable le cours suivant ou de vous assurer de posséder des connaissances équivalentes : « Google Cloud Big Data and Machine Learning Fundamentals »
Produits
- BigQuery
- Cloud Bigtable
- Cloud Storage
- Cloud SQL
- Cloud Spanner
- Dataproc
- Dataflow
- Cloud Data Fusion
- Cloud Composer
- Pub/Sub
- Vertex AI
- Cloud ML APIs