Kurs
Digicomp Code SDPDF
Serverless Data Processing with Dataflow («SDPDF»)
Kurs-Facts
- Demonstrieren, wie Apache Beam und Dataflow zusammenarbeiten, um die Anforderungen des eigenen Unternehmens an die Datenverarbeitung zu erfüllen
- Zusammenfassen der Vorteile des Beam Portability Frameworks und dessen Aktivierung für die eigene Dataflow-Pipelines
- Aktivieren von Shuffle und Streaming Engine für Batch- bzw. Streaming-Pipelines, um maximale Leistung zu erzielen
- Ermöglichen einer flexiblen Ressourcenplanung für eine kosteneffizientere Leistung
- Auswählen der richtigen Kombination von IAM-Berechtigungen für den eigenen Dataflow-Auftrag
- Implementieren von Best Practices für eine sichere Datenverarbeitungs-Umgebung
- Auswählen und Abstimmen der E/A nach Wahl für die eigene Dataflow-Pipeline
- Verwenden von Schemata zur Vereinfachung des Beam-Codes und zur Verbesserung der Leistung der Pipeline
- Entwickeln einer Beam-Pipeline mit SQL und DataFrames
- Überwachen, Beheben von Fehlern, Testen und CI/CD für Dataflow-Pipelines
Dieses Training beginnt mit den Grundlagen und erklärt, wie Apache Beam und Dataflow zusammenarbeiten, um Ihre Datenverarbeitungs-Anforderungen zu erfüllen, ohne dass Sie sich an einen bestimmten Anbieter binden müssen. Der Abschnitt über die Entwicklung von Pipelines behandelt, wie Sie Ihre Geschäftslogik in Datenverarbeitungsanwendungen umwandeln, die auf Dataflow laufen können.
Die Schulung endet mit einem Schwerpunkt auf dem Betrieb, in dem die wichtigsten Lektionen für den Betrieb einer Datenanwendung auf Dataflow, einschliesslich Überwachung, Fehlerbehebung, Testen und Zuverlässigkeit, behandelt werden.
1 Einführung
- Beam- und Dataflow-Auffrischung
- Aufzeigen, wie Apache Beam und Dataflow zusammenarbeiten, um die Anforderungen Ihrer Organisation an die Datenverarbeitung zu erfüllen
2 Beam-Portabilität
- Runner v2
- Container-Umgebungen
- Sprachübergreifende Transformationen
- Zusammenfassen der Vorteile des Beam Portability Frameworks
- Anpassen der Datenverarbeitungs-Umgebung Ihrer Pipeline mit Hilfe von benutzerdefinierten Containern
- Überprüfen von Anwendungsfällen für sprachübergreifende Transformationen
- Aktivieren des Portability Frameworks für Ihre Dataflow-Pipelines
3 Trennung von Datenverarbeitung und Speicherung mit Dataflow
- Dataflow-Zuführungsdienst
- Dataflow-Streaming-Engine
- Flexible Ressourcenplanung
- Aktivieren von Shuffle und Streaming Engine für Batch- bzw. Streaming-Pipelines, um maximale Leistung zu erzielen
- Aktivieren von Flexible Resource Scheduling für eine kosteneffizientere Leistung
4 IAM, Kontingente und Berechtigungen
- IAM
- Kontingent
- Wählen der richtigen Kombination von IAM-Berechtigungen für Ihren Dataflow-Auftrag
- Bestimmen des Kapazitätsbedarfs, indem Sie die relevanten Quoten für Ihre Dataflow-Jobs überprüfen
5 Sicherheit
- Datenlokalisierung
- Gemeinsam genutzte VPC
- Private IPs
- CMEK
- Wählen einer zonalen Datenverarbeitungs-Strategie mit Dataflow, je nach Anforderungen an die Datenlokalisierung
- Implementieren von Best Practices für eine sichere Datenverarbeitungs-Umgebung
6 Beam-Konzepte Übersicht
- Beam-Grundlagen
- Utility-Transformationen
- DoFn Lifecycle
- Wiederholung der wichtigsten Apache-Beam-Konzepte (Pipeline, PCollections, PTransforms, Runner, Lesen/Schreiben, Utility PTransforms, Side Inputs), Bundles und DoFn Lifecycle
7 Windows, Watermarks, Triggers
- Windows, Watermarks, Triggers
- Implementieren von Logik zur Behandlung Ihrer späten Daten
- Überprüfen verschiedener Arten von Triggern
- Überprüfen der wichtigsten Streaming-Konzepte (unbeschränkte PCollections, Fenster)
8 Quellen und Sinks
- Text IO und Datei IO
- BigQuery IO
- PubSub IO
- Kafka IO
- Bigable IO
- Avro IO
- Aufspaltbare DoFn
- Schreiben der E/A Ihrer Wahl für Ihre Dataflow-Pipeline
- Optimieren einer Source/Sink-Transformation für maximale Leistung
- Erstellen benutzerdefinierter Quellen und Senken mit SDF
9 Schemata
- Beam-Schemata
- Code-Beispiele
- Einführung in Schemata, die Entwicklern eine Möglichkeit bieten, strukturierte Daten in ihren Beam-Pipelines auszudrücken
- Verwenden von Schemata, um Ihren Beam-Code zu vereinfachen und die Leistung Ihrer Pipeline zu verbessern
10 Zustand und Zeitgeber
- Status-API
- Zeitgeber-API
- Zusammenfassung
- Identifizieren von Anwendungsfällen für State- und Timer-API-Implementierungen
- Auswahl des richtigen Typs von State und Timer für eine Pipeline
11 Best Practices
- Schemata
- Umgang mit nicht verarbeitbaren Daten
- Fehlerbehandlung
- AutoValue Code Generator
- Behandlung von JSON-Daten
- DoFn Lifecycle nutzen
- Pipeline-Optimierungen
- Implementieren von Best Practices für Dataflow-Pipelines.
12 Dataflow-SQL und DataFrames
- Dataflow und Beam SQL
- Fensterung in SQL
- Beam DataFrames
- Entwickeln einer Beam-Pipeline mit SQL und DataFrames
13 Beam-Notebooks
- Prototyping einer Pipeline in Python mit dem Beam-Notebook
- Starten eines Auftrags für Dataflow aus einem Notebook
14 Überwachung
- Job-Liste
- Job-Infos
- Job-Grafik
- Job-Metriken
- Metrik-Explorer
- Navigieren in der Benutzeroberfläche der Dataflow Job Details
- Job-Metrics-Diagramme interpretieren, um Regressionen in der Pipeline zu diagnostizieren
- Einstellen von Warnungen für Dataflow Jobs mit Cloud Monitoring
15 Protokollierung und Fehlerberichterstattung
- Protokollieren und Fehlerberichterstattung
- Verwenden von Dataflow-Protokollen und Diagnose-Widgets, um Probleme in der Pipeline zu beheben
16 Fehlersuche und -beseitigung
- Arbeitsablauf bei der Fehlersuche
- Arten von Fehlern
- Verwenden eines strukturierten Ansatzes zum Debuggen Ihrer Dataflow Pipelines
- Untersuchen häufiger Ursachen für Pipeline-Fehler
17 Leistung
- Pipeline-Entwurf
- Form der Daten
- Quelle, Senken und externe Systeme
- Shuffle- und Streaming-Engine
- Verstehen der Leistungsüberlegungen für Pipelines
- Berücksichtigen, wie sich die Form von Daten auf die Leistung der Pipeline auswirken kann
18 Testen und CI/CD
- Unit-Tests
- Integrationstests
- Erstellen von Artefakten
- Bereitstellung
- Testansätze für eine Dataflow Pipeline
- Überprüfen der verfügbaren Frameworks und Funktionen zur Rationalisierung Ihres CI/CD-Workflows für Dataflow Pipelines
19 Verlässlichkeit
- Überwachung
- Geolokalisierung
- Disaster Recovery
- Hochverfügbarkeit
- Implementieren von Best Practices für die Zuverlässigkeit Ihrer Dataflow Pipelines
20 Flex-Vorlagen
- Klassische Vorlagen
- Flex-Vorlagen
- Verwenden von Flex-Vorlagen
- Von Google zur Verfügung gestellte Vorlagen
- Verwenden von Flex-Vorlagen zur Standardisierung und Wiederverwendung von Datenfluss-Pipeline-Code
- Data Engineers
- Data Analysts und Data Scientists, die ihre Fähigkeiten im Bereich Data Engineering ausbauen möchten
- Building Batch Data Pipelines abgeschlossen
- Building Resilient Streaming Analytics Systems abgeschlossen
Produkte
- Dataflow
- Cloud Operations