Kurs
digicode: MLPERF
ML Performance Engineering: Inferenz-Optimierung & Deployment
Bring Deep Learning Modelle auf High-Performance-Level! Optimiere die Inferenz mit TensorRT und ONNX für maximalen Speed. Lerne professionelles Model Tuning, Live Monitoring und kosteneffizientes Deployment für Cloud- und Edge-Systeme.
Dauer
2 Tage
Preis
1'850.–
zzgl. 8.1% MWST
Kursdokumente
Digitale Kursunterlagen & Code-Repositories
Kurs-Facts
Als PDF herunterladen- Performance Analyse: Profilieren von ML-Pipelines auf systematische Weise und Unterschieden zwischen Compute-bound und Memory-bound Engpässen
- Inferenz-Beschleunigung: Implementieren von Techniken wie Layer-Fusion und Precision-Tuning mit NVIDIA TensorRT und ONNX für maximale Geschwindigkeit
- Effizientes Ressourcenmanagement: Anwenden der Quantisierung (INT8/FP16), um den VRAM-Verbrauch signifikant zu senken, ohne die Modellgenauigkeit zu beeinträchtigen
- Produktionsreife Pipelines: Entwickeln optimierter Daten-Loading-Strategien mit NVIDIA DALI
- Stage-Parallel Execution: Designen von Pipelines für mehrere Modelle in Serie und Verhindern von Latenzspitzen durch effizientes Speichermanagement und asynchrone Verarbeitung
- Automatisierte Performance-Tests: Optimieren robuster CI/CD-Pipelines für ML-Modelle und Abfangen von Varianzen in den Ausführungszeiten, Definieren von Baselines und sicheres Erkennen statistisch signifikanter Performance-Regressionen
- Skalierbares Deployment: Optimieren von Kosten und Hardware-Ressourcen durch Dynamic Batching und Monitoring im Betrieb
Dieser MLOps Kurs bietet einen technischen Deep Dive in die Optimierung von Deep Learning Modellen.
Schwerpunkte:
- Frameworks & Formate: Tieftauchgang in ONNX und das NVIDIA-Ökosystem
- Inference Engines: Integration von NVIDIA TensorRT und Engine-Building
- Data Loading: Beschleunigung von Pipelines mit NVIDIA DALI
- Techniken: Quantisierung, Layer Fusion und Precision-Tuning (Hinweis: Die gelernten Kernkonzepte sind direkt auf LLM-Inferenz übertragbar)
- Infrastruktur & Scheduling: GPU vs. CPU, CUDA-Grundlagen sowie Static vs. Dynamic Batching zur Bewältigung variabler API-Lasten in Produktion
- End-to-End Pipelines: Orchestrierung kaskadierter Modelle (Multi-Model Inference), Optimierung der Vor-/Nachverarbeitung und Vermeidung von CPU-/GPU-Flaschenhälsen
- Deployment & Edge AI: Architektonische Unterschiede zwischen Cloud-GPUs und ressourcenbeschränkten Edge-Geräten, Containerisierung (Docker) und API-Integration (z.B. REST via Flask/FastAPI)
- Testing & CI/CD: Lokale vs. automatisierte Benchmarks. Strategien gegen Hardware-Rauschen, Warm-ups und «flaky» Performance-Tests
- Readiness & Observability: Profiling, Performance-Analyse und Einrichtung von Live Monitoring für die Inferenz im laufenden Betrieb (z.B. mit Metriken via Grafana)
- Praxisorientierter Mix: Der Kurs kombiniert theoretische Konzepte mit intensiven Hands-on-Workshops
- Hands-on Lab: Die Teilnehmenden arbeiten direkt in Python-Umgebungen an realen Optimierungs-Challenges (z.B. Optimierung eines Computer Vision Modells für Edge- oder Cloud-Hardware)
- Case Studies: Diskussion von Best Practices und Fallstricken aus echten Deployment-Szenarien des Trainers
- Interaktives Benchmarking: Live Profiling von Modellen, um die Auswirkungen der gelernten Optimierungsschritte sofort messbar zu machen
ML Engineers, AI Engineers, Software Architects, DevOps Engineers, Backend Developers, Data Scientists mit Fokus auf Deployment.
- Sicherer Umgang mit Python
- Erfahrung mit Deep Learning Frameworks (Fokus PyTorch)
- Grundverständnis von ML Modell-Architekturen
- Grundverständnis von asynchroner Verarbeitung
- Grundlagenkenntnisse Linux
- Grundlegendes Verständnis von REST APIs und Containerisierung (Docker)