Kurs
Digicomp Code GCPDE
Data Engineering on Google Cloud («GCPDE»)
Kurs-Facts
- Entwerfen und Aufbauen von Datenverarbeitungs-Systemen in der Google Cloud
- Verarbeiten von Batch- und Streaming-Daten durch die Implementierung automatisch skalierender Datenpipelines auf Dataflow
- Ableiten von Geschäftseinblicken aus extrem grossen Datensätzen mit BigQuery
- Nutzen unstrukturierter Daten mit Spark und ML-APIs auf Dataproc
- Ermöglichen sofortiger Einblicke aus Streaming-Daten
- Verstehen von ML-APIs und BigQuery ML und Lernen, AutoML zu verwenden, um leistungsstarke Modelle ohne Programmierung zu erstellen
Dieser Kurs zeigt Ihnen anhand von Vorlesungen, Demos und praktischen Übungen, wie Sie Datenverarbeitungssysteme entwerfen, End-to-End-Datenpipelines aufbauen, Daten analysieren und maschinelles Lernen implementieren. Es werden strukturierte, unstrukturierte und Streaming-Daten behandelt.
1 Einführung in das Data Engineering
- Erkunden der Rolle eines Data Engineers
- Analysieren von Data-Engineering-Herausforderungen
- Einführung in BigQuery
- Data Lakes und Data Warehouses
- Transaktionsdatenbanken im Vergleich zu Data Warehouses
- Effektive Zusammenarbeit mit anderen Datenteams
- Verwalten von Datenzugriff und Governance
- Aufbau produktionsfähiger Pipelines
- Lesen Sie die Fallstudie eines Google Cloud-Kunden
2 Aufbau eines Data Lake
- Einführung in Data Lakes
- Datenspeicherung und ETL-Optionen in Google Cloud
- Aufbau eines Data Lake mit Cloud Storage
- Sichern von Cloud-Speicher
- Speichern aller Arten von Datentypen
- Cloud SQL als relationaler Datenspeicher
3 Aufbau eines Data Warehouse
- Das moderne Data Warehouse
- Erste Schritte mit BigQuery
- Laden von Daten
- Schemata erforschen
- Schema-Entwurf
- Verschachtelte und wiederholte Felder
- Optimieren mit Partitionierung und Clustering
4 Einführung in die Erstellung von Batch-Datenpipelines
- EL, ELT, ETL
- Überlegungen zur Qualität
- Wie man Operationen in BigQuery durchführt
- Unzulänglichkeiten
- ETL zur Lösung von Datenqualitätsproblemen
5 Ausführen von Spark auf Dataproc
- Das Hadoop-Ökosystem
- Hadoop auf Dataproc ausführen
- Cloud-Speicher anstelle von HDFS
- Optimieren Sie Dataproc
6 Serverlose Datenverarbeitung mit Dataflow
- Einführung in Dataflow
- Warum Kunden Dataflow schätzen
- Dataflow-Pipelines
- Aggregieren mit GroupByKey und Kombinieren
- Seiteneingaben und Fenster
- Dataflow-Vorlagen
- Datenfluss-SQL
7 Verwalten von Datenpipelines mit Cloud Data Fusion und Cloud Composer
- Visuelle Erstellung von Batch-Datenpipelines mit Cloud Data Fusion
- UI-Übersicht
- Erstellen einer Pipeline
- Daten mit Wrangler erforschen
- Orchestrieren der Arbeit zwischen Google-Cloud-Diensten mit Cloud Composer
- Apache-Airflow-Umgebung
- DAGs und Operatoren
- Workflow-Planung
- Überwachung und Protokollierung
8 Einführung in die Verarbeitung von Streaming-Daten
- Verarbeitung von Streaming-Daten
- Erklären der Verarbeitung von Streaming-Daten
- Beschreiben der Herausforderungen bei Streaming-Daten
- Identifizieren der Google-Cloud-Produkte und -Tools, die bei der Bewältigung der Herausforderungen von Streaming-Daten helfen können
9 Serverloses Messaging mit Pub/Sub
- Einführung in Pub/Sub
- Pub/Sub Push versus Pull
- Publizieren mit Pub/Sub-Code
- Beschreiben des Pub/Sub-Dienstes
- Verstehen, wie Pub/Sub funktioniert
- Praktische Erfahrung mit Pub/Sub anhand eines Lab, das das Streaming von Sensordaten in Echtzeit simuliert
10 Datenfluss-Streaming-Funktionen
- Herausforderungen beim Daten-Streaming
- Datenfluss-Fensterung
- Verstehen des Dataflow-Dienstes
- Aufbau einer Stream-Verarbeitungspipeline für Live-Verkehrsdaten
- Demonstration des Umgangs mit verspäteten Daten mithilfe von Wasserzeichen, Triggern und Akkumulation
11 BigQuery- und Bigtable-Streaming-Funktionen mit hohem Durchsatz
- Streaming in BigQuery und Visualisierung der Ergebnisse
- Streaming mit hohem Durchsatz mit Cloud Bigtable
- Optimieren der Leistung von Cloud Bigtable
12 Erweiterte BigQuery-Funktionalität und -Leistung
- Analytische Fensterfunktionen
- Use-With-Klauseln
- GIS-Funktionen
- Überlegungen zur Leistung
13 Einführung in Analytik und AI
- Was ist AI?
- Von der Ad-hoc-Datenanalyse zu datengesteuerten Entscheidungen
- Optionen für ML-Modelle in der Google Cloud
- Verstehen der Aussage, dass ML einen Mehrwert für Daten bietet
- Verstehen der Beziehung zwischen ML, KI und Deep Learning
- Identifizieren von ML-Optionen in Google Cloud
14 Vorgefertigte ML-Modell-APIs für unstrukturierte Daten
- Unstrukturierte Daten sind schwierig
- ML-APIs zur Anreicherung von Daten
- Diskutieren der Herausforderungen bei der Arbeit mit unstrukturierten Daten
- Kennenlernen von Anwendungen von gebrauchsfertigen ML-APIs für unstrukturierte Daten
15 Big-Data-Analyse mit Notebooks
- Was ist ein Notebook?
- BigQuery-Magie und Verbindungen zu Pandas
- Einführung in Notebooks als Werkzeug für das Prototyping von ML-Lösungen
- Ausführen von BigQuery-Befehlen in Notebooks
16 ML-Pipelines für die Produktion
- Möglichkeiten für ML in der Google Cloud
- Vertex AI-Pipelines
- AI-Hub
- Beschreiben der verfügbaren Optionen für die Erstellung benutzerdefinierter ML-Modelle
- Verstehen der Verwendung von Tools wie Vertex AI Pipelines
17 Benutzerdefinierte Modellerstellung mit SQL in BigQuery ML
- BigQuery ML für die schnelle Modellerstellung
- Unterstützte Modelle
- Lernen, wie man ML-Modelle mit der SQL-Syntax in BigQuery erstellt
- Demonstration der Erstellung verschiedener Arten von ML-Modellen mit BigQuery ML
18 Benutzerdefinierte Modellerstellung mit AutoML
- Warum AutoML?
- AutoML-Vision
- AutoML-NLP
- AutoML-Tabellen
- Kennenlernen verschiedener AutoML-Produkte für das maschinelle Lernen
- Erstellen leistungsstarker Modelle ohne Programmierung mit AutoML
Dieser Kurs ist für Entwickler gedacht, die für Folgendes verantwortlich sind:
- Extrahieren, Laden, Umwandeln, Bereinigen und Validieren von Daten
- Entwerfen von Pipelines und Architekturen für die Datenverarbeitung
- Integration von Analyse- und maschinellen Lernfunktionen in Datenpipelines
- Abfragen von Datensätzen, Visualisieren von Abfrageergebnissen und Erstellen von Berichten
Um von diesem Kurs zu profitieren, sollten die Teilnehmenden folgende Voraussetzungen erfüllen:
- Grundkenntnisse in einer gängigen Abfragesprache wie SQL
- Erfahrung mit Datenmodellierung und ETL-Aktivitäten (Extrahieren, Transformieren, Laden)
- Erfahrung in der Entwicklung von Anwendungen mit einer gängigen Programmiersprache wie Python
- Vertrautheit mit maschinellem Lernen und/oder Statistik
Wir empfehlen ausserdem den Besuch des folgenden Kurses oder gleichwertige Erfahrungen: «Google Cloud Big Data and Machine Learning Fundamentals»
Produkte
- BigQuery
- Cloud Bigtable
- Cloud Storage
- Cloud SQL
- Cloud Spanner
- Dataproc
- Dataflow
- Cloud Data Fusion
- Cloud Composer
- Pub/Sub
- Vertex AI
- Cloud ML APIs