-
Dieser praxisorientierte Schulungskurs vermittelt die wichtigsten Konzepte und das Fachwissen, das Entwickler benötigen, um die Leistung ihrer Apache Spark-Anwendungen zu optimieren. Während des Kurses lernen Sie, wie Sie häufige Ursachen für schlechte Leistung in Spark-Anwendungen identifizieren, Techniken zu deren Vermeidung oder Lösung sowie Best Practices für die Überwachung von Spark-Anwendungen.
Der Kurs stellt die Architektur und die Konzepte hinter Apache Spark und der zugrunde liegenden Datenplattform vor und baut dann auf diesem grundlegenden Verständnis auf, indem Ihnen beigebracht wird, wie sie Spark-Anwendungscode optimieren. Das Kursformat konzentriert sich auf von einem Trainer geleitete Demonstrationen, die sowohl Leistungsprobleme als auch die Techniken veranschaulichen, die diese beheben, gefolgt von praktischen Übungen, die Ihnen die Möglichkeit geben, das Gelernte in einer interaktiven Notebook-Umgebung zu üben.
-
Kursinhalt
-
- Spark Architecture
- Data Sources and Formats
- Inferring Schemas
- Dealing With Skewed Data
- Catalyst and Tungsten Overview
- Mitigating Spark Shuffles
- Partitioned and Bucketed Tables
- Improving Join Performance
- Pyspark Overhead and UDFs
- Caching Data for Reuse
- Workload XM (WXM) Introduction
- What's New in Spark 3.0?
Die englischsprachigen Original-Unterlagen von Cloudera erhalten Sie als E-Book (pdf).
-
Zielgruppe
-
Dieser Kurs richtet sich an Softwareentwickler, Ingenieure und Datenwissenschaftler, die Erfahrung mit der Entwicklung von Spark-Anwendungen haben und lernen möchten, wie sie die Leistung ihres Codes verbessern können. Dies ist keine Einführung in Spark.
-
Voraussetzungen
-
Spark-Beispiele und praktische Übungen werden in Python präsentiert und die Fähigkeit, in dieser Sprache zu programmieren, ist erforderlich. Grundlegende Vertrautheit mit der Linux-Befehlszeile wird vorausgesetzt. Grundlegende Kenntnisse von SQL sind hilfreich.
Hierzu empfehlen wir Ihnen auch unsere Trainings im Bereich Programmiersprachen und Softwareentwicklung sowie Linux.
-
Kursziel
-
Wenn Sie diesen Kurs erfolgreich abgeschlossen haben, werden Sie zu folgendem in der Lage sein:
- Verstehen der Architektur und die Auftragsausführung von Apache Spark und wie Techniken wie Lazy Execution und Pipelining die Laufzeitleistung verbessern können
- Bewerten der Leistungsmerkmale von Kerndatenstrukturen wie RDD und DataFrames
- Auswählen der Dateiformate, die die beste Leistung für Ihre Anwendung bieten
- Identifizieren und Beheben von Performance-Problemen, die durch Datenverzerrung verursacht werden
- Verwenden von Partitionierungs-, Bucketing- und Join-Optimierungen, um die SparkSQL-Leistung zu verbessern
- Verstehen des Leistungsaufwands von Python-basierten RDDs, DataFrames und benutzerdefinierten Funktionen
- Nutzen von Vorteilen des Cachings für eine bessere Anwendungsleistung
- Verstehen, wie die Catalyst- und Tungsten-Optimierer funktionieren
- Erfahren, wie Workload XM bei der Fehlerbehebung und proaktiven Überwachung der Leistung von Spark-Anwendungen helfen kann
- Erfahren, wie die Engine für die adaptive Abfrageausführung die Leistung verbessert
-
Classroom Training
- Bevorzugen Sie die klassische Trainingsmethode? Ein Kurs in einem unserer Training Center, mit einem kompetenten Trainer und dem direkten Austausch zwischen allen Teilnehmern? Dann buchen Sie einen der Classroom Training Termine!
-
Online Training
- Möchten Sie einen Kurs online besuchen? Zu diesem Kursthema bieten wir Ihnen Online-Kurstermine an. Als Teilnehmer benötigen Sie dazu einen PC mit Internet-Anschluss (mindestens 1 Mbit/s), ein Headset, falls Sie per VoIP arbeiten möchten und optional eine Kamera. Weitere Informationen und technische Empfehlungen finden Sie hier.
-
Inhouse-Schulung
-
Benötigen Sie einen maßgeschneiderten Kurs für Ihr Team? Neben unserem Standard-Angebot bieten wir Ihnen an, Kurse speziell nach Ihren Anforderungen zu gestalten. Gerne beraten wir Sie hierzu und erstellen Ihnen ein individuelles Angebot.

-
Dieser praxisorientierte Schulungskurs vermittelt die wichtigsten Konzepte und das Fachwissen, das Entwickler benötigen, um die Leistung ihrer Apache Spark-Anwendungen zu optimieren. Während des Kurses lernen Sie, wie Sie häufige Ursachen für schlechte Leistung in Spark-Anwendungen identifizieren, Techniken zu deren Vermeidung oder Lösung sowie Best Practices für die Überwachung von Spark-Anwendungen.
Der Kurs stellt die Architektur und die Konzepte hinter Apache Spark und der zugrunde liegenden Datenplattform vor und baut dann auf diesem grundlegenden Verständnis auf, indem Ihnen beigebracht wird, wie sie Spark-Anwendungscode optimieren. Das Kursformat konzentriert sich auf von einem Trainer geleitete Demonstrationen, die sowohl Leistungsprobleme als auch die Techniken veranschaulichen, die diese beheben, gefolgt von praktischen Übungen, die Ihnen die Möglichkeit geben, das Gelernte in einer interaktiven Notebook-Umgebung zu üben.
-
Kursinhalt
-
- Spark Architecture
- Data Sources and Formats
- Inferring Schemas
- Dealing With Skewed Data
- Catalyst and Tungsten Overview
- Mitigating Spark Shuffles
- Partitioned and Bucketed Tables
- Improving Join Performance
- Pyspark Overhead and UDFs
- Caching Data for Reuse
- Workload XM (WXM) Introduction
- What's New in Spark 3.0?
Die englischsprachigen Original-Unterlagen von Cloudera erhalten Sie als E-Book (pdf).
-
Zielgruppe
-
Dieser Kurs richtet sich an Softwareentwickler, Ingenieure und Datenwissenschaftler, die Erfahrung mit der Entwicklung von Spark-Anwendungen haben und lernen möchten, wie sie die Leistung ihres Codes verbessern können. Dies ist keine Einführung in Spark.
-
Voraussetzungen
-
Spark-Beispiele und praktische Übungen werden in Python präsentiert und die Fähigkeit, in dieser Sprache zu programmieren, ist erforderlich. Grundlegende Vertrautheit mit der Linux-Befehlszeile wird vorausgesetzt. Grundlegende Kenntnisse von SQL sind hilfreich.
Hierzu empfehlen wir Ihnen auch unsere Trainings im Bereich Programmiersprachen und Softwareentwicklung sowie Linux.
-
Kursziel
-
Wenn Sie diesen Kurs erfolgreich abgeschlossen haben, werden Sie zu folgendem in der Lage sein:
- Verstehen der Architektur und die Auftragsausführung von Apache Spark und wie Techniken wie Lazy Execution und Pipelining die Laufzeitleistung verbessern können
- Bewerten der Leistungsmerkmale von Kerndatenstrukturen wie RDD und DataFrames
- Auswählen der Dateiformate, die die beste Leistung für Ihre Anwendung bieten
- Identifizieren und Beheben von Performance-Problemen, die durch Datenverzerrung verursacht werden
- Verwenden von Partitionierungs-, Bucketing- und Join-Optimierungen, um die SparkSQL-Leistung zu verbessern
- Verstehen des Leistungsaufwands von Python-basierten RDDs, DataFrames und benutzerdefinierten Funktionen
- Nutzen von Vorteilen des Cachings für eine bessere Anwendungsleistung
- Verstehen, wie die Catalyst- und Tungsten-Optimierer funktionieren
- Erfahren, wie Workload XM bei der Fehlerbehebung und proaktiven Überwachung der Leistung von Spark-Anwendungen helfen kann
- Erfahren, wie die Engine für die adaptive Abfrageausführung die Leistung verbessert
-
Classroom Training
- Bevorzugen Sie die klassische Trainingsmethode? Ein Kurs in einem unserer Training Center, mit einem kompetenten Trainer und dem direkten Austausch zwischen allen Teilnehmern? Dann buchen Sie einen der Classroom Training Termine!
-
Online Training
- Möchten Sie einen Kurs online besuchen? Zu diesem Kursthema bieten wir Ihnen Online-Kurstermine an. Als Teilnehmer benötigen Sie dazu einen PC mit Internet-Anschluss (mindestens 1 Mbit/s), ein Headset, falls Sie per VoIP arbeiten möchten und optional eine Kamera. Weitere Informationen und technische Empfehlungen finden Sie hier.
-
Inhouse-Schulung
-
Benötigen Sie einen maßgeschneiderten Kurs für Ihr Team? Neben unserem Standard-Angebot bieten wir Ihnen an, Kurse speziell nach Ihren Anforderungen zu gestalten. Gerne beraten wir Sie hierzu und erstellen Ihnen ein individuelles Angebot.
