Kurs
digicode: SRE101
Developing a Google SRE Culture
Kurs-Facts
- Erörtern von Googles Ansichten zur DevOps-Philosophie und der Beziehung zwischen DevOps und SRE
- Erörtern des Wertes, den SRE für den eigenen IT-Betrieb haben kann
- Darlegen der technischen und kulturellen Grundlagen von SRE bei Google
- Bewerten des Reifegrads der eigenen Organisation bei der Einführung von SRE
- Identifizieren der Fähigkeiten, die ein Site Reliability Engineer mitbringen sollte, und wie bestehende Mitarbeitende geschult werden können
- Erörtern der Frage, wie Google helfen kann, SRE im eigenen Unternehmen einzuführen
In vielen IT-Organisationen klafft eine Lücke zwischen Entwickler/innen, die sich auf Flexibilität konzentrieren, und Betreibern, die sich auf Stabilität fokussieren. Mit Site Reliability Engineering (SRE) überbrückt Google diese Kluft zwischen Entwicklung und Betrieb und bietet gleichzeitig geschäftskritischen Produktionssupport.
In diesem Kurs lernst du die Grundlagen und Best Practices von SRE kennen, erfährst, wie wichtig die Einführung einer SRE-Kultur ist und wie SRE die Zusammenarbeit zwischen IT- und Unternehmensleitern verbessern kann – und damit den Erfolg des gesamten Unternehmens fördert.
1. Willkommen bei der Entwicklung einer Google SRE-Kultur
- Definiere Site Reliability Engineering
2. DevOps, SRE und warum es sie gibt
- Unterscheide zwischen DevOps und SRE
- Erkläre die Säulen von DevOps
- Erkläre, wie SRE-Praktiken mit den DevOps-Säulen in Einklang stehen
3. SLOs mit Konsequenzen
- Erkläre den Wert, den SRE für eine Organisation haben kann
- Beschreibe die technischen Grundlagen von SRE (SLOs, Fehlerbudgets, tadellose Postmortems)
- Beschreibe die kulturellen Grundlagen von SRE (psychologische Sicherheit, Schuldlosigkeit, gemeinsame Vision, Zusammenarbeit, Wissensaustausch)
4. Das Morgen besser machen als das Heute
- Beschreibe technische Grundlagen wie CI/CD, Canary-Releases und Toil-Automatisierung
- Beschreibe kulturelle Grundlagen wie Design Thinking, Prototyping, Psychologie des Wandels und Umgang mit Veränderungswiderstand
5. Arbeitslast regulieren
- Beschreibe technische Grundlagen wie Messung von Arbeitsaufwand, Zuverlässigkeit und Überwachung
- Beschreibe kulturelle Grundlagen wie Zielsetzung, Transparenz und datengesteuerte Entscheidungen
6. SRE in deiner Organisation anwenden
- Bewerte den SRE-Reifegrad deiner Organisation
- Erkenne, wo SRE im Unternehmen sinnvoll angewendet werden kann
- Verstehe, welche Fähigkeiten eine SRE-Rolle erfordert
- Stelle die verschiedenen SRE-Teamstrukturen vor
- Setze dich für die Einführung einer SRE-Kultur ein
7. Abschliessende Bewertung
- Teste dein Wissen über die technischen und kulturellen Grundlagen von SRE
- IT-Führungskräfte und Unternehmensleiter, die an der SRE-Philosophie interessiert sind. Zu den Rollen gehören unter anderem: CTO, IT-Direktor/-Manager, technischer Vizepräsident/Direktor/Manager.
- Andere Produkt- und IT-Rollen wie Betriebsleiter oder Ingenieure, Software-Ingenieure, Service-Manager oder Produktmanager können diesen Inhalt ebenfalls als Einführung in SRE nützlich finden.
Empfohlene Lektüre: «Site Reliability Engineering: How Google Runs Production Systems», Kapitel 1 Einführung
Nicht abgedeckt
In diesem Kurs werden keine detaillierten Beispiele für technische SRE-Praktiken behandelt.