Kurs
Digicomp Code AWSD06
Data Engineering on AWS – Intensive Training («AWSD06»)
Kurs-Facts
- Verstehen der grundlegenden Rollen und Schlüsselkonzepte des Data Engineering, einschliesslich Daten-Personas, Datenermittlung und relevanter AWS-Services
- Identifizieren und Erläutern der verschiedenen AWS-Tools und -Services, die für das Data Engineering von entscheidender Bedeutung sind, darunter Orchestrierung, Sicherheit, Überwachung, CI/CD, IaC, Netzwerke und Kostenoptimierung
- Entwerfen und Implementieren einer Data-Lake-Lösung auf AWS, einschliesslich Speicherung, Datenaufnahme, Transformation und Bereitstellung von Daten für die Nutzung
- Optimieren und Sichern einer Data-Lake-Lösung durch Implementierung offener Tabellenformate, Sicherheitsmassnahmen und Behebung häufiger Probleme
- Entwerfen und Einrichten eines Data Warehouse mit Amazon Redshift Serverless, Verständnis seiner Architektur, Datenerfassung, Verarbeitung und Bereitstellungsfunktionen
- Anwenden von Techniken zur Leistungsoptimierung auf Data Warehouses in Amazon Redshift, einschliesslich Überwachung, Datenoptimierung, Abfrageoptimierung und Orchestrierung
- Verwalten der Sicherheit und Zugriffskontrolle für Data Warehouses in Amazon Redshift, Verständnis von Authentifizierung, Datensicherheit, Auditing und Compliance
- Entwerfen effektiver Batch-Datenpipelines unter Verwendung geeigneter AWS-Services für die Verarbeitung und Transformation von Daten
- Implementieren umfassender Strategien für Batch-Datenpipelines, die die Datenverarbeitung, -transformation, -integration, -katalogisierung und -bereitstellung für die Nutzung abdecken
- Optimieren, Orchestrieren und Sichern von Batch-Datenpipelines unter Beweisstellung fortgeschrittener Kenntnisse in den Bereichen Datenverarbeitungs-Automatisierung und -Sicherheit
- Entwerfen von Streaming-Datenpipelines, Verständnis verschiedener Anwendungsfälle, Erfassung, Speicherung, Verarbeitung und Analyse unter Verwendung von AWS-Diensten
- Optimieren und Sichern von Streaming-Datenlösungen, einschliesslich Compliance-Aspekten und Zugriffskontrolle
Durch eine ausgewogene Kombination aus Theorie, praktischen Übungen und Aktivitäten lernen die Teilnehmenden, wie sie mithilfe von AWS-Services Data-Engineering-Lösungen entwerfen, erstellen, optimieren und sichern können.
Von grundlegenden Konzepten bis hin zur praktischen Implementierung von Data Lakes, Data Warehouses sowie Batch- und Streaming-Datenpipelines vermittelt dieser Kurs Datenfachleuten die erforderlichen Fähigkeiten, um moderne Datenlösungen in grossem Massstab zu entwerfen und zu verwalten.
Tag 1
1 Aufgaben und Schlüsselkonzepte des Data Engineering
- Die Rolle eines Data Engineers
- Die wichtigsten Funktionen eines Data Engineers
- Daten-Personas
- Datenermittlung
- AWS-Datendienste
2 AWS-Tools und -Services für Data Engineering
- Orchestrierung und Automatisierung
- Sicherheit im Data Engineering
- Überwachung
- Kontinuierliche Integration und kontinuierliche Bereitstellung
- Infrastruktur als Code
- AWS Serverless Application Model
- Überlegungen zum Netzwerk
- Tools zur Kostenoptimierung
3 Entwerfen und Implementieren von Data Lakes
- Einführung in Data Lakes
- Speicherung in Data Lakes
- Importieren von Daten in einen Data Lake
- Katalogisieren von Daten
- Transformieren von Daten
- Bereitstellen von Daten für die Nutzung
- Praktisches Lab: Einrichten eines Data Lake auf AWS
4 Optimierung und Sicherung einer Data-Lake-Lösung
- Offene Tabellenformate
- Sicherheit mit AWS Lake Formation
- Festlegen von Berechtigungen mit Lake Formation
- Sicherheit und Governance
- Fehlerbehebung
- Praktisches Lab: Automatisieren der Data-Lake-Erstellung mit AWS Lake Formation Blueprints
Tag 2
5 Architektur und Designprinzipien von Data Warehouses
- Einführung in Data Warehouses
- Amazon Redshift – Überblick
- Importieren von Daten in Redshift
- Verarbeiten von Daten
- Bereitstellen von Daten für die Nutzung
- Praktisches Lab: Einrichten eines Data Warehouse mit Amazon Redshift Serverless
6 Techniken zur Leistungsoptimierung für Data Warehouses
- Überwachungs- und Optimierungsoptionen
- Datenoptimierung in Amazon Redshift
- Abfrageoptimierung in Amazon Redshift
- Orchestrierungs-Optionen
7 Sicherheit und Zugriffskontrolle für Data Warehouses
- Authentifizierung und Zugriffskontrolle in Amazon Redshift
- Datensicherheit in Amazon Redshift
- Auditierung und Compliance in Amazon Redshift
- Praktisches Lab: Verwalten der Zugriffskontrolle in Redshift
8 Entwerfen von Batch-Datenpipelines
- Einführung in Batch-Datenpipelines
- Entwerfen einer Batch-Datenpipeline
- AWS-Services für die Batch-Datenverarbeitung
9 Implementieren von Strategien für Batch-Datenpipelines
- Elemente einer Batch-Datenpipeline
- Verarbeiten und Transformieren von Daten
- Integrieren und Katalogisieren deiner Daten
- Bereitstellen von Daten für die Nutzung
- Praktisches Lab: Ein Tag im Leben eines Data Engineers
Tag 3
10 Optimieren, Orchestrieren und Sichern von Batch-Datenpipelines
- Optimieren der Batch-Datenpipeline
- Orchestrieren der Batch-Datenpipeline
- Sichern der Batch-Datenpipeline
- Praktisches Lab: Orchestrieren der Datenverarbeitung in Spark mit AWS Step Functions
11 Architekturmuster für Streaming-Daten
- Einführung in Streaming-Datenpipelines
- Aufnehmen von Daten aus Stream-Quellen
- Streaming-Datenaufnahmedienste
- Speichern von Streaming-Daten
- Verarbeiten von Streaming-Daten
- Analysieren von Streaming-Daten mit AWS Services
- Praktisches Lab: Streaming-Analysen mit Amazon Managed Service für Apache Flink
12 Optimieren und Sichern von Streaming-Lösungen
- Optimieren einer Streaming-Datenlösung
- Sichern einer Streaming-Datenpipeline
- Überlegungen zur Compliance
- Praktisches Lab: Zugriffskontrolle mit Amazon Managed Streaming für Apache Kafka
Dieser Kurs umfasst Präsentationen, Demonstrationen, praktische Übungen und Gruppenübungen.
Dieser Kurs richtet sich an Fachleute, die sich für das Entwerfen, Erstellen, Optimieren und Sichern von Data-Engineering-Lösungen unter Verwendung von AWS-Services interessieren.
- Vertrautheit mit grundlegenden Konzepten des maschinellen Lernens, wie überwachtem und unüberwachtem Lernen, Regression, Klassifizierung und Clustering-Algorithmen
- Praktische Kenntnisse der Programmiersprache Python und gängiger Data-Science-Bibliotheken wie NumPy, Pandas und Scikit-learn
- Grundlegendes Verständnis von Cloud-Computing-Konzepten und Vertrautheit mit der AWS-Plattform
- Vertrautheit mit SQL und relationalen Datenbanken ist empfehlenswert, aber nicht zwingend erforderlich
- Erfahrung mit Versions-Kontrollsystemen wie Git ist von Vorteil, aber nicht erforderlich