Kurs
digicode: DICDF
Data Integration with Cloud Data Fusion
Kurs-Facts
- Identifizieren des Bedarfs an Datenintegration
- Verstehen der Funktionen, die Cloud Data Fusion als Datenintegrations-Plattform bietet
- Identifizieren von Anwendungsfällen für eine mögliche Implementierung mit Cloud Data Fusion
- Auflisten der Kernkomponenten von Cloud Data Fusion
- Entwerfen und Ausführen von Batch- und Echtzeit-Datenverarbeitungs-Pipelines
- Arbeiten mit Wrangler zum Erstellen von Datentransformationen
- Verwenden von Konnektoren zum Integrieren von Daten aus verschiedenen Quellen und Formaten
- Konfigurieren der Ausführungsumgebung; Überwachen und Beheben von Problemen bei der Pipeline-Ausführung
- Verstehen der Beziehung zwischen Metadaten und Datenherkunft
In diesem Kurs diskutieren wir Herausforderungen bei der Datenintegration und die Notwendigkeit einer Datenintegrationsplattform (Middleware). Anschliessend erörtern wir, wie Cloud Data Fusion dabei helfen kann, Daten aus einer Vielzahl von Quellen und Formaten effektiv zu integrieren und Erkenntnisse zu gewinnen. Wir werfen einen Blick auf die Hauptkomponenten von Cloud Data Fusion und ihre Funktionsweise, die Verarbeitung von Batch-Daten und Echtzeit-Streaming-Daten mit visuellem Pipeline-Design, die umfassende Verfolgung von Metadaten und Datenherkunft sowie die Bereitstellung von Datenpipelines auf verschiedenen Ausführungs-Engines.
1 Einführung in die Datenintegration und Cloud Data Fusion
- Datenintegration: Was, warum, Herausforderungen
- In der Industrie verwendete Datenintegrationstools
- Benutzerprofile
- Einführung in Cloud Data Fusion
- Wichtige Funktionen der Datenintegration
- Cloud Data Fusion-UI-Komponenten
- Die Notwendigkeit der Datenintegration verstehen
- Situationen/Fälle auflisten, in denen Datenintegration Unternehmen helfen kann
- Verfügbare Datenintegrations-Plattformen und -Tools auflisten
- Herausforderungen bei der Datenintegration identifizieren
- Die Verwendung von Cloud Data Fusion als Datenintegrationsplattform verstehen
- Eine Cloud Data Fusion-Instanz erstellen
- Sich mit dem Kernframework und den wichtigsten Komponenten von Cloud Data Fusion vertraut machen
2 Pipelines erstellen
- Cloud-Data-Fusion-Architektur
- Kernkonzepte
- Datenpipelines und gerichtete azyklische Graphen (DAG)
- Lebenszyklus einer Pipeline
- Pipelines in Pipeline Studio entwerfen
- Die Cloud-Data-Fusion-Architektur verstehen
- Definieren, was eine Datenpipeline ist
- Die DAG-Darstellung einer Datenpipeline verstehen
- Den Umgang mit Pipeline Studio und seinen Komponenten erlernen
- Eine einfache Pipeline mit Pipeline Studio entwerfen
- Eine Pipeline bereitstellen und ausführen
3 Komplexe Pipelines entwerfen
- Verzweigen, Zusammenführen und Verbinden
- Aktionen und Benachrichtigungen
- Fehlerbehandlung und Makros
- Pipeline-Konfigurationen, Zeitplanung, Import und Export
- Durchführen von Verzweigungs-, Zusammenführungs- und Verbindungsvorgängen
- Ausführen einer Pipeline mit Laufzeitargumenten mithilfe von Makros
- Arbeiten mit Fehlerbehandlungsroutinen
- Ausführen von Vor- und Nachbearbeitungen mithilfe von Aktionen und Benachrichtigungen
- Zeitplanung für die Ausführung von Pipelines
- Importieren und Exportieren vorhandener Pipelines
4 Pipeline-Ausführungsumgebung
- Zeitpläne und Trigger
- Ausführungsumgebung: Rechenprofil und Provisioner
- Überwachung von Pipelines
- Verstehe den Aufbau einer Ausführungsumgebung
- Konfiguriere die Ausführungsumgebung, Protokollierung und Metriken Ihrer Pipeline
- Verstehe Konzepte wie Rechenprofil und Provisioner
- Erstellen von Rechenprofilen
- Erstellen von Pipeline-Warnmeldungen
- Überwachen der Pipeline während der Ausführung
5 Erstellen von Transformationen und Vorbereiten von Daten mit Wrangler
- Wrangler
- Direktiven
- Benutzerdefinierte Direktiven
- Verstehen der Verwendung von Wrangler und seiner Hauptkomponenten
- Transformieren von Daten mit der Wrangler-Benutzeroberfläche
- Transformieren von Daten mit Direktiven/CLI-Methoden
- Erstellen und Verwenden von benutzerdefinierten Direktiven
- Benotetes Labor und Quiz
6 Konnektoren und Streaming-Pipelines
- Verstehen der Datenintegrations-Architektur
- Auflisten verschiedener Konnektoren
- Verwenden von Cloud Data Loss Prevention (DLP)-API
- Verstehen der Referenzarchitektur von Streaming-Pipelines
- Erstelle und führe eine Streaming-Pipeline aus
- Konnektoren
- DLP
- Referenzarchitektur für Streaming-Anwendungen
- Erstellen von Streaming-Pipelines
- Benotetes Labor, Quiz, Diskussionsaktivität
7 Metadaten und Datenherkunft
- Metadaten
- Datenherkunft
- Auflisten von Metadatentypen
- Unterscheiden zwischen geschäftlichen, technischen und betrieblichen Metadaten
- Verstehen, was Datenherkunft ist
- Verstehen, wie wichtig es ist, die Datenherkunft zu pflegen
- Unterscheiden zwischen Metadaten und Datenherkunft
- Benotetes Labor und Quiz
8 Zusammenfassung
Data Engineers und Data Analysts