Optimizing Apache Spark Applications

Dieser praxisorientierte Schulungskurs vermittelt die wichtigsten Konzepte und das Fachwissen, das Entwickler benötigen, um die Leistung ihrer Apache Spark-Anwendungen zu optimieren. Während des Kurses lernen Sie, wie Sie häufige Ursachen für schlechte Leistung in Spark-Anwendungen identifizieren, Techniken zu deren Vermeidung oder Lösung sowie Best Practices für die Überwachung von Spark-Anwendungen.

Der Kurs stellt die Architektur und die Konzepte hinter Apache Spark und der zugrunde liegenden Datenplattform vor und baut dann auf diesem grundlegenden Verständnis auf, indem Ihnen beigebracht wird, wie sie Spark-Anwendungscode optimieren. Das Kursformat konzentriert sich auf von einem Trainer geleitete Demonstrationen, die sowohl Leistungsprobleme als auch die Techniken veranschaulichen, die diese beheben, gefolgt von praktischen Übungen, die Ihnen die Möglichkeit geben, das Gelernte in einer interaktiven Notebook-Umgebung zu üben.

Kursinhalt

Spark Architecture
Data Sources and Formats
Inferring Schemas
Dealing With Skewed Data
Catalyst and Tungsten Overview
Mitigating Spark Shuffles
Partitioned and Bucketed Tables
Improving Join Performance
Pyspark Overhead and UDFs
Caching Data for Reuse
Workload XM (WXM) Introduction
What's New in Spark 3.0?

Die englischsprachigen Original-Unterlagen von Cloudera erhalten Sie als E-Book (pdf).

Zielgruppe

Dieser Kurs richtet sich an Softwareentwickler, Ingenieure und Datenwissenschaftler, die Erfahrung mit der Entwicklung von Spark-Anwendungen haben und lernen möchten, wie sie die Leistung ihres Codes verbessern können. Dies ist keine Einführung in Spark.

Voraussetzungen

Spark-Beispiele und praktische Übungen werden in Python präsentiert und die Fähigkeit, in dieser Sprache zu programmieren, ist erforderlich. Grundlegende Vertrautheit mit der Linux-Befehlszeile wird vorausgesetzt. Grundlegende Kenntnisse von SQL sind hilfreich.

Hierzu empfehlen wir Ihnen auch unsere Trainings im Bereich Programmiersprachen und Softwareentwicklung sowie Linux.

Kursziel

Wenn Sie diesen Kurs erfolgreich abgeschlossen haben, werden Sie zu folgendem in der Lage sein:

Verstehen der Architektur und die Auftragsausführung von Apache Spark und wie Techniken wie Lazy Execution und Pipelining die Laufzeitleistung verbessern können
Bewerten der Leistungsmerkmale von Kerndatenstrukturen wie RDD und DataFrames
Auswählen der Dateiformate, die die beste Leistung für Ihre Anwendung bieten
Identifizieren und Beheben von Performance-Problemen, die durch Datenverzerrung verursacht werden
Verwenden von Partitionierungs-, Bucketing- und Join-Optimierungen, um die SparkSQL-Leistung zu verbessern
Verstehen des Leistungsaufwands von Python-basierten RDDs, DataFrames und benutzerdefinierten Funktionen
Nutzen von Vorteilen des Cachings für eine bessere Anwendungsleistung
Verstehen, wie die Catalyst- und Tungsten-Optimierer funktionieren
Erfahren, wie Workload XM bei der Fehlerbehebung und proaktiven Überwachung der Leistung von Spark-Anwendungen helfen kann
Erfahren, wie die Engine für die adaptive Abfrageausführung die Leistung verbessert

Classroom Training: Bevorzugen Sie die klassische Trainingsmethode? Ein Kurs in einem unserer Training Center, mit einem kompetenten Trainer und dem direkten Austausch zwischen allen Teilnehmern? Dann buchen Sie einen der Classroom Training Termine!
Online Training: Möchten Sie einen Kurs online besuchen? Zu diesem Kursthema bieten wir Ihnen Online-Kurstermine an. Als Teilnehmer benötigen Sie dazu einen PC mit Internet-Anschluss (mindestens 1 Mbit/s), ein Headset, falls Sie per VoIP arbeiten möchten und optional eine Kamera. Weitere Informationen und technische Empfehlungen finden Sie hier.
Inhouse-Schulung: Benötigen Sie einen maßgeschneiderten Kurs für Ihr Team? Neben unserem Standard-Angebot bieten wir Ihnen an, Kurse speziell nach Ihren Anforderungen zu gestalten. Gerne beraten wir Sie hierzu und erstellen Ihnen ein individuelles Angebot.

Die gesamte Beschreibung dieses Kurses mit Terminen und Preisen zum Download als PDF.

Kursinhalt

Spark Architecture
Data Sources and Formats
Inferring Schemas
Dealing With Skewed Data
Catalyst and Tungsten Overview
Mitigating Spark Shuffles
Partitioned and Bucketed Tables
Improving Join Performance
Pyspark Overhead and UDFs
Caching Data for Reuse
Workload XM (WXM) Introduction
What's New in Spark 3.0?

Die englischsprachigen Original-Unterlagen von Cloudera erhalten Sie als E-Book (pdf).

Zielgruppe

Voraussetzungen

Hierzu empfehlen wir Ihnen auch unsere Trainings im Bereich Programmiersprachen und Softwareentwicklung sowie Linux.

Kursziel

Wenn Sie diesen Kurs erfolgreich abgeschlossen haben, werden Sie zu folgendem in der Lage sein:

Verstehen der Architektur und die Auftragsausführung von Apache Spark und wie Techniken wie Lazy Execution und Pipelining die Laufzeitleistung verbessern können
Bewerten der Leistungsmerkmale von Kerndatenstrukturen wie RDD und DataFrames
Auswählen der Dateiformate, die die beste Leistung für Ihre Anwendung bieten
Identifizieren und Beheben von Performance-Problemen, die durch Datenverzerrung verursacht werden
Verwenden von Partitionierungs-, Bucketing- und Join-Optimierungen, um die SparkSQL-Leistung zu verbessern
Verstehen des Leistungsaufwands von Python-basierten RDDs, DataFrames und benutzerdefinierten Funktionen
Nutzen von Vorteilen des Cachings für eine bessere Anwendungsleistung
Verstehen, wie die Catalyst- und Tungsten-Optimierer funktionieren
Erfahren, wie Workload XM bei der Fehlerbehebung und proaktiven Überwachung der Leistung von Spark-Anwendungen helfen kann
Erfahren, wie die Engine für die adaptive Abfrageausführung die Leistung verbessert

Classroom Training: Bevorzugen Sie die klassische Trainingsmethode? Ein Kurs in einem unserer Training Center, mit einem kompetenten Trainer und dem direkten Austausch zwischen allen Teilnehmern? Dann buchen Sie einen der Classroom Training Termine!
Online Training: Möchten Sie einen Kurs online besuchen? Zu diesem Kursthema bieten wir Ihnen Online-Kurstermine an. Als Teilnehmer benötigen Sie dazu einen PC mit Internet-Anschluss (mindestens 1 Mbit/s), ein Headset, falls Sie per VoIP arbeiten möchten und optional eine Kamera. Weitere Informationen und technische Empfehlungen finden Sie hier.
Inhouse-Schulung: Benötigen Sie einen maßgeschneiderten Kurs für Ihr Team? Neben unserem Standard-Angebot bieten wir Ihnen an, Kurse speziell nach Ihren Anforderungen zu gestalten. Gerne beraten wir Sie hierzu und erstellen Ihnen ein individuelles Angebot.

Die gesamte Beschreibung dieses Kurses mit Terminen und Preisen zum Download als PDF.

ExperTeach Kennung: CLTU

Dauer & Preise

Preise zzgl. MwSt.

Termine in Österreich

3 Tage

€ 2.795,-

Online Training

3 Tage

€ 2.795,-

			Datum				Ort
20250922	2	2	22.09.-24.09.25				Live Online
20251208	2	2	08.12.-10.12.25				Live Online

Kein passender Termin dabei?
Bitte fragen Sie uns einfach nach Ihrem Wunschtermin!

Online Training

Optimizing Apache Spark Applications

Überblick

Kursformate

PDF

Kursinhalt

Zielgruppe

Voraussetzungen

Kursziel

Classroom Training

Online Training

Inhouse-Schulung

Kursinhalt

Zielgruppe

Voraussetzungen

Kursziel

Classroom Training

Online Training

Inhouse-Schulung