Cours
Code digicomp : GCBDF
Google Cloud Big Data and Machine Learning Fundamentals
Description de la formation
- Identifier le cycle de vie des données vers l’IA sur Google Cloud et les produits principaux de big data et de machine learning
- Concevoir des pipelines de flux avec Dataflow et Pub/Sub
- Analyser la big data à l’échelle avec BigQuery
- Identifier les différentes options de création de solutions de ML sur Google Cloud
- Décrire les flux de travail de machine learning et les étapes clés avec Vertex AI
- Créer un pipeline de machine learning avec AutoML
Explorez les processus, défis et avantages de la création d’un pipeline de big data et de modèles de machine learning avec Vertex AI sur Google Cloud.
1. Introduction
Cette section permet de découvrir les bases du big data et du machine learning et donne un aperçu de la structure et des objectifs du cours.
- Reconnaître le cycle de vie des données vers l’IA sur Google Cloud
- Identifier les connexions entre l’ingénierie des données et le machine learning
2. Big data et machine learning sur Google Cloud
Cette section explore les composants clés de l’infrastructure de Google Cloud. Vous découvrirez les produits et services de big data et de machine learning qui soutiennent ly cycle de vie des données vers l’IA sur Google Cloud.
- Identifiez comment les éléments de l’infrastructure Google Cloud ont permis le développement des capacités en matière de big data et d’apprentissage automatique.
- Identifiez les produits de big data et de machine learning sur Google Cloud
- Explorez un set de données BigQuery
- Lab : Exploration d’un set de données BigQuery
3. Ingénierie des données pour les flux de données
Cette section introduit la solution de Google Cloud pour la gestion des flux de données. Elle examine un pipeline de bout en bout, y compris l’ingestion de données avec Pub/Sub, le traitement des données avec Dataflow et la visualisation des données avec Looker et Data Studio.
- Décrire un flux de travail de flux de données de bout en bout, de l’ingestion à la visualisation des données.
- Identifier les défis actuels des pipelines de données et comment les surmonter à l’échelle avec Dataflow
- Construire des tableaux de bord en temps réel avec des outils de visualisation des données
- Lab : Créer un pipeline de flux de données pour un tableau de bord en temps réel avec Dataflow
4. Big data avec BigQuery
Ce module introduit BigQuery, l’entrepôt de données sans serveur et entièrement géré de Google. In explore également BigQuery ML et les commandes clés utilisées pour créer des modèles de machine learning personnalisés.
- Décrire les essentiels de BigQuery comme entrepôt de données
- Expliquer comment BigQuery traite les requêtes et stocke les données
- Définir les phases de projet BigQuery ML
- Construire un modèle personnalisé de machine learning avec BigQuery ML
- Lab : Prédire les achats de visiteurs avec BigQuery ML
5. Options de Machine Learning sur Google Cloud
Cette section explore quatre différentes options de création de modèles de Machine Learning sur Google Cloud. Elle introduit également Vertex AI, la plateforme unifiée de Google pour créer et gérer le cycle de vie de projets de machine learning.
- Identifier les différentes options de création de modèles de ML sur Google Cloud
- Définir Vertex AI et ses fonctionnalités principales et avantages
- Décrire les solutions d’IA dans des marchés horizontaux comme verticaux
6. Le flux de travail de machine learning avec Vertex AI
Ce module se concentre sur trois phases clés - la préparation des données, l’entraînement du modèle et la préparation du modèle - des flux de travail de machine learning sur Vertex AI. Vous vous exercerez à créer un modèle de machine learning avec AutoML.
- Décrire un flux de travail de ML et les étapes clés
- Identifier les outils et les produits pour soutenir chaque étape
- Construire un flux de travail de ML de bout en bout avec AutoML
- Lab : Vertex AI : Prévoir le risque lié aux prêts avec AutoML
7. Résumé du cours
Cette section est une révision des thèmes abordés dans la formation et apporte des ressources additionnelles pour aller plus loin.
- Décrire le cycle de vie des données vers l’IA sur Google Cloud et identifier les produits principaux de big data et de machine learning
- Data analysts, data scientists et business analysts qui débutent sur Google Cloud
- Personnes responsables de la conception de pipelines et d’architectures pour le traitement des données, la création et la maintenance de modèles statistiques et de machine learning, la requête de sets de données, la visualisation des résultats de requête et la création de rapports.
- Exécutif et responsables informatiques évaluant l’utilisation de Google Cloud par des data scientists
Compréhension fondamentale d’au moins un des concepts suivants :
- Langage de requête de base de données tel que SQL
- Flux de travail d’ingénierie des données de l’extraction, de la transformation et du chargement à l’analyse, la modélisation et au déploiement
- Modèles de machines learning suppervisés et non supervisés
Produits
- BigQuery
- BigQuery ML
- Dataflow
- Pub/Sub
- Apache Beam
- Looker
- Looker Studio
- Vertex AI
- AutoML
- Vertex Workbench
- Document AI
- Contact Center AI (CCAI)
- TPU (Tensor Processing Unit)
- Google Kubernetes Engine
- Compute Engine