Kurs
digicode: DWBQ
Data Warehousing w/ BigQuery: Storage Design, Query Optimization & Admin
Kurs-Facts
- Beschreiben der Grundlagen der BigQuery-Architektur
- Implementieren von Speicher- und Schema-Designmustern zur Leistungsverbesserung
- Verwenden von DML und geplanten Datenübertragungen zur Datenerfassung
- Anwenden von Best Practices zur Verbesserung der Leseeffizienz und Optimierung der Abfrageleistung
- Verwalten der Kapazität und Automatisieren von Workloads
- Verstehen von Mustern und Anti-Mustern zur Optimierung von Abfragen und Verbesserung der Leseleistung
- Verwenden von Protokollierungs- und Überwachungstools zum Verstehen und Optimieren von Nutzungsmustern
- Anwenden von Best Practices für die Sicherheit zur Verwaltung von Daten und Ressourcen
- Erstellen und Bereitstellen verschiedener Kategorien von Machine-Learning-Modellen mit BigQuery ML
In einer Kombination aus Vorträgen, Demos und Übungen lernst du die Architektur von BigQuery kennen und erfährst, wie du optimale Speicher und Schemata für die Datenerfassung und -änderung entwirfst. Anschliessend lernst du Techniken zur Verbesserung der Leseleistung, zur Optimierung von Abfragen, zur Verwaltung von Workloads und zur Verwendung von Protokollierungs- und Überwachungstools kennen. Ausserdem lernst du die verschiedenen Preismodelle kennen. Abschliessend lernst du verschiedene Methoden zur Sicherung von Daten, zur Automatisierung von Workloads und zum Erstellen von Machine-Learning-Modellen mit BigQuery ML kennen.
1 Grundlagen der BigQuery-Architektur
- BigQuery-Kerninfrastruktur
- BigQuery-Speicher
- BigQuery-Abfrageverarbeitung
- BigQuery-Datenmischung
- Erläutern der Vorteile der spaltenorientierten Speicherung.
- Verstehen, wie BigQuery Daten verarbeitet.
- Entdecken der Grundlagen des Shuffling-Dienstes von BigQuery zur Verbesserung der Abfrageeffizienz.
2 Speicher- und Schemaoptimierungen
- BigQuery-Speicher
- Partitionierung und Clustering
- Verschachtelte und wiederholte Felder
- ARRAY- und STRUCT-Syntax
- Bewährte Verfahren
- Vergleichen der Leistung verschiedener Schemata (Snowflake, denormalisierte sowie verschachtelte und wiederholte Felder).
- Partitionieren und clustern von Daten für eine bessere Leistung
- Verbessern des Schema-Designs mithilfe verschachtelter und wiederholter Felder
- Beschreiben zusätzlicher bewährter Verfahren wie das Ablaufen von Tabellen und Partitionen
3 Daten einlesen
- Optionen zum Einlesen von Daten
- Batch-Einlesen
- Streaming-Einlesen
- Legacy-Streaming-API
- BigQuery Storage Write API
- Abfrage-Materialisierung
- Externe Datenquellen abfragen
- Datentransferdienst
- Batch- und Streaming-Daten einlesen
- Externe Datenquellen abfragen
- Datentransfers planen
- Verwendung der Storage Write API verstehen
4 Daten ändern
- Änderungen in Data Warehouses verwalten
- Umgang mit sich langsam ändernden Dimensionen (SCD)
- DML-Anweisungen
- Bewährte Verfahren und häufige Probleme bei DML
- Schreiben von DML-Anweisungen
- Beheben häufiger DML-Leistungsprobleme und Engpässe
- Identifizieren langsam veränderlicher Dimensionen (SCD) in Ihren Daten und Vornehmen von Aktualisierungen
5 Verbessern der Leseleistung
- Cache von BigQuery
- Materialisierte Ansichten
- BI Engine
- Lesen mit hohem Durchsatz
- BigQuery Storage Read API
- Cache von BigQuery erkunden
- Materialisierte Ansichten erstellen
- Mit der BI-Engine arbeiten, um Ihre SQL-Abfragen zu beschleunigen
- Die Storage Read API für schnellen Zugriff auf den von BigQuery verwalteten Speicher verwenden
- Die Vorbehalte bei der Verwendung externer Datenquellen erläutern
6 Optimierung und Fehlerbehebung bei Abfragen
- Einfache Abfrageausführung
- SELECTs und Aggregation
- JOINs und Skewed JOINs
- Filtern und Sortieren
- Best Practices für Funktionen
- Interpretieren von Ausführungsdetails und den Abfrageplan von BigQuery.
- Optimieren der Abfrageleistung mithilfe der empfohlenen Methoden für SQL-Anweisungen und -Klauseln.
- Demonstrieren von Best Practices für Funktionen in geschäftlichen Anwendungsfällen.
7 Workload-Management und Preisgestaltung
- BigQuery-Slots
- Preismodelle und Schätzungen
- Slot-Reservierungen
- Kostenkontrolle
- Definieren eines BigQuery-Slots
- Erläutern von Preismodellen und Preisschätzungen (BigQuery-Benutzeroberfläche, bq dry_run, Jobs-API)
- Verstehen von Slot-Reservierungen, Verpflichtungen und Zuweisungen.
- Identifizieren von Best Practices zur Kostenkontrolle.
8 Protokollierung und Überwachung
- Cloud Monitoring
- BigQuery-Admin-Panel
- Cloud-Audit-Protokolle
- INFORMATION_SCHEMA
- Abfragepfad und häufige Fehler
- Verwenden von Cloud Monitoring, um BigQuery-Metriken anzuzeigen
- Erkunden des BigQuery-Admin-Panel
- Verwenden von Cloud-Audit-Protokollen
- Arbeiten mit INFORMATION_SCHEMA-Tabellen, um Einblicke in Ihre BigQuery-Entitäten zu erhalten
9 Sicherheit in BigQuery
- Sichern von Ressourcen mit IAM
- Autorisierte Ansichten
- Sichern von Daten mit Klassifizierung
- Verschlüsselung
- Datenermittlung und -verwaltung
- Erkunden der Datenermittlung mit Data Catalog
- Besprechen der Datenverwaltung mit DLP API und Data Catalog
- Erstellen von IAM-Richtlinien (z. B. autorisierte Ansichten) zum Sichern von Ressourcen
- Sichern von Daten mit Klassifizierungen (z. B. Richtlinien auf Zeilenebene)
- Verstehen, wie BigQuery Verschlüsselung verwendet
10 Automatisieren von Workloads
- Planen von Abfragen
- Skripting
- Gespeicherte Prozeduren
- Integration mit Big-Data-Produkten
- Planen von Abfragen
- Verwenden von Skripting und gespeicherten Prozeduren zum Erstellen benutzerdefinierter Transformationen
- Beschreiben, wie BigQuery-Workloads mit anderen Google Cloud-Big-Data-Produkten integriert werden können
11 Maschinelles Lernen in BigQuery
- Einführung in BigQuery ML
- Vorhersagen mit BigQuery ML treffen
- Erstellen und Bereitstellen eines Empfehlungssystems mit BigQuery ML
- Erstellen und Bereitstellen einer Lösung zur Nachfrageprognose mit BigQuery ML
- Zeitreihenmodelle mit BigQuery ML
- Erklärbarkeit von BigQuery ML
- Beschreiben einiger der verschiedenen Anwendungsmöglichkeiten von BigQuery ML
- Erstellen und Bereitstellen verschiedener Kategorien von Machine-Learning-Modellen mit BigQuery ML
- Verwenden von AutoML Tables, um hochwertige Geschäftsprobleme zu lösen
Datenanalysten, Datenwissenschaftler, Dateningenieure und Entwickler, die Arbeiten in einem Umfang ausführen, der fortgeschrittene Kenntnisse der BigQuery-Interna erfordert, um die Leistung zu optimieren.
Wir empfehlen die Teilnahme an folgendem Kurs oder gleichwertige Kenntnisse:
Nicht behandelt:
- Einführung in BigQuery, grundlegende Konzepte des Data Warehousing, Konzepte der verteilten Datenverarbeitung, SQL: All dies sind Voraussetzungen/vorausgesetzte Vorkenntnisse.
- Administrative Aufgaben, Data-Warehouse-Migrationen, Datenanalyse mit BigQuery: Diese Themen stehen nicht im Mittelpunkt dieses Kurses und werden in anderen Kursen behandelt.