Kurs
digicode: DP750
Implement Data Engineering Solutions Using Azure Databricks – Intensive Training (DP-750)
DP-750
Kurs-Facts
Als PDF herunterladen- Einrichten des Databricks-Workspaces und Aufbauen einer umfassenden Daten-Governance mithilfe von Unity Catalog und Microsoft Purview
- Organisieren von Datenbeständen (Tabellen, Ansichten und Volumes) mithilfe von Katalogen und Schemata in Unity Catalog unter Anwendung effektiver Namenskonventionen
- Implementieren von Zugriffsstrategien, einschliesslich feinkörniger Steuerung (Zeilenfilterung/Spaltenmaskierung), und sicheres Verwalten von Anmeldedaten über Service-Principals und verwaltete Identitäten
- Auswählen und Konfigurieren von Rechentypen, Aktivieren von Leistungsfunktionen wie Photon-Beschleunigung sowie Verwalten der automatischen Skalierung und der Databricks-Runtime-Versionen für verschiedene Workloads
- Entwerfen der Datenaufnahme für Batch- und Streaming-Daten mithilfe von Tools wie Lakeflow Connect, SQL-Befehlen (COPY INTO), Auto Loader oder Spark Structured Streaming
- Profilieren und Transformieren von Daten (Joins, Aggregationen), Verwalten von Datentypen, Durchsetzen von Schemata und Validieren der Datenqualität anhand von Pipeline-Erwartungen
- Erstellen und Planen von Datenpipelines mithilfe von Lakeflow Spark Declarative Pipelines oder Notebooks, verwaltet durch Lakeflow Jobs mit Triggern, Abhängigkeiten und Fehlerbehandlung
- Verwenden von Git zur Versionskontrolle, Automatisieren der Bereitstellung mit Databricks Asset Bundles und Überwachen der Leistung über die Spark-Benutzeroberfläche und zentralisierte Protokollierung (Azure Log Analytics)
1 Azure Databricks kennenlernen
Azure Databricks ist ein Clouddienst, der eine skalierbare Plattform für die Datenanalyse mit Apache Spark bereitstellt.
2 Die Architektur von Azure Databricks verstehen
Dieses Modul beschreibt die hierarchische Architektur von Azure Databricks und behandelt dabei die Trennung von Steuerungs- und Rechenebene, die Kontohierarchie sowie verschiedene Speicheroptionen, einschliesslich des verwalteten Speichers von Unity Catalog.
3 Integrationen von Azure Databricks verstehen
Erfahre, wie Azure Databricks mit verschiedenen Microsoft-Diensten wie Fabric, Power BI und Copilot Studio integriert wird, um durchgängige Lösungen für Data Engineering, Analysen und KI bereitzustellen.
4 Rechenressourcen in Azure Databricks auswählen und konfigurieren
Erfahre, wie du Rechenoptionen in Azure Databricks auswählst und konfigurierst, um diese für unterschiedliche Workloads zu optimieren, Leistungseinstellungen und Zugriffsberechtigungen zu verwalten sowie serverlose und klassische Rechenressourcen zu sichern.
5 Erstellen und Organisieren von Objekten im Unity Catalog
Dieses Modul behandelt die Verwendung des dreistufigen Namespace des Unity Catalog (Kataloge, Schemata und Objekte) zum Organisieren von Datenressourcen, zum Erstellen von Tabellen und Volumes sowie zum Konfigurieren von AI/BI Genie-Anweisungen, um die Auffindbarkeit von Daten zu verbessern.
6 Sicherheit von Unity Catalog-Objekte
Erfahre, wie du Unity Catalog-Objekte mithilfe zentralisierter Governance- und Sicherheitsfunktionen wie Zugriffskontrolle, detaillierten Berechtigungen, Zeilen-/Spaltenfilterung und der Authentifizierung des Datenzugriffs über Dienstprinzipale absichern kannst.
7 Governance von Unity Catalog-Objekte
Hier werden grundlegende Governance-Verfahren in Unity Catalog behandelt, darunter die Implementierung einer detaillierten Zugriffskontrolle, die Nachverfolgung der Datenherkunft, die Konfiguration von Prüfprotokollen und die sichere Freigabe von Daten zur Überwachung und Verwaltung Ihrer Datenbestände.
8 Entwerfen und Implementieren von Datenmodellierung mit Azure Databricks
Dieses Modul befasst sich mit effektiver Datenmodellierung in Azure Databricks mit Unity Catalog und behandelt das Entwerfen von Erfassungslogik, die Auswahl von Tools/Formaten, die Implementierung von Partitionierung und Clustering sowie die Verwaltung sich langsam ändernder Dimensionen.
9 Daten in Unity Catalog einlesen
Entdecke umfassende Dateneinlesetechniken in Azure Databricks zum Laden von Daten in Unity Catalog-Tabellen, einschliesslich verwalteter Konnektoren, benutzerdefinierten Codes, SQL-Batch-Ladung, Streaming-Einlesung, Auto Loader und Orchestrierung mit Lakeflow Spark Declarative Pipelines.
10 Daten bereinigen, transformieren und in Unity Catalog laden
Dieses Modul behandelt grundlegende Data-Engineering-Techniken zur Bereinigung und Transformation von Rohdaten, darunter Datenqualitätsprofilierung, Werteauflösung, Filterung, Aggregation, Kombination/Umgestaltung von Datensätzen sowie das Laden transformierter Daten mithilfe von Strategien zum Anhängen, Überschreiben und Zusammenführen.
11 Implementierung und Verwaltung von Datenqualitäts-Beschränkungen mit Azure Databricks
Es werden Strategien zur Aufrechterhaltung einer hohen Datenqualität in Azure Databricks untersucht, wobei der Schwerpunkt auf der Implementierung von Validierungsprüfungen, der Durchsetzung von Schemata, der Verwaltung von Schema-Drift und der Verwendung von Pipeline-Erwartungen für die Datenintegrität liegt.
12 Entwurf und Implementierung von Datenpipelines mit Azure Databricks
Lerne, wie du mit Notizbüchern und Lakeflow Spark Declarative Pipelines robuste Datenpipelines in Azure Databricks entwirfst und implementierst, wobei Themen wie Orchestrierung, Fehlerbehandlung und Aufgabenlogik behandelt werden.
13 Implementieren von Lakeflow-Jobs mit Azure Databricks
Die Implementierung von Lakeflow-Jobs in Azure Databricks steht im Mittelpunkt dieses Moduls, das dich durch die Erstellung von Jobs, die Konfiguration von Triggern/Zeitplänen, die Einrichtung von Warnmeldungen und die Verwaltung automatischer Neustarts für eine zuverlässige Ausführung von Datenpipelines führt.
14 Implementieren von Entwicklungslebenszyklusprozessen in Azure Databricks
Dieses Modul befasst sich mit der Implementierung von Entwicklungslebenszyklusprozessen in Azure Databricks unter Verwendung von Git-Ordnern für die Versionskontrolle und Databricks Asset Bundles für Infrastructure-as-Code-Bereitstellungen, einschliesslich Verzweigungs-Workflows, Tests und CLI-basierter Bereitstellung.
15 Überwachen, Fehlerbehebung und Optimierung von Workloads in Azure Databricks
Erfahre, wie du Daten-Workloads in Azure Databricks überwachen, Fehler beheben und optimieren kannst, um Zuverlässigkeit und Kosteneffizienz zu gewährleisten. Dazu analysierst ddu den Clusterverbrauch, diagnostizierst Spark-Jobs, optimierst die Leistung und leitest Protokolle an Azure Log Analytics weiter.
Teil von folgenden Kursen / Lehrgängen
- Implement Data Engineering Solutions Using Azure Databricks – Intensive Training
Dieser Kurs richtet sich an Data Engineers, die über grundlegende Kenntnisse der Konzepte der Datenanalyse, ein grundlegendes Verständnis von Cloud-Speicher sowie Vertrautheit mit den Prinzipien der Datenorganisation verfügen.
- Erfahrung in der Arbeit mit SQL und Python, einschliesslich der Verwendung von Notebooks, sowie Vertrautheit mit SQL im Hinblick auf Datenorganisation und Zugriffsmuster
- Gutes Verständnis der Azure Databricks-Arbeitsbereiche und der Konzepte des Unity Catalog
- Grundlegende Kenntnisse der Azure-Sicherheit, einschliesslich Microsoft Entra ID (Entra ID), sowie ein grundlegendes Verständnis von Cloud-Speicherkonzepten
- Grundlegende Kenntnisse der Konzepte der Datenanalyse und des Data Engineering
- Vertrautheit mit den Grundlagen der Versionskontrolle mit Git
Bereite dich mit diesem Kurs auf die Prüfung zum «Microsoft Certified: Azure Databricks Data Engineer Associate (beta)» vor.