Cloudera Training Partner Logo

Apache Spark Application Performance Tuning

Cloudera Training Partner Logo

Dieser Kurs vermittelt die wichtigsten Konzepte und Fachkenntnisse, die Entwickler benötigen, um die Leistung ihrer Apache Spark-Anwendungen zu verbessern. Während des Kurses lernen die Teilnehmer, wie sie häufige Ursachen für schlechte Performance in Spark-Anwendungen identifizieren, Techniken zu deren Vermeidung sowie Best Practices für die Überwachung von Spark-Anwendungen finden.

Der Kurs stellt die Architektur und Konzepte von Apache Spark und der zugrunde liegenden Datenplattform vor und baut dann auf diesem grundlegenden Verständnis auf, indem die Schüler lernen, wie der Spark-Anwendungscode optimiert wird.

Der Schwerpunkt des Kurses liegt auf Demonstrationen unter Anleitung des Kursleiters, die sowohl Leistungsprobleme als auch die entsprechenden Techniken veranschaulichen, gefolgt von praktischen Übungen, die den Teilnehmern die Möglichkeit geben, das Gelernte in einer interaktiven Notebook-Umgebung zu üben.

Der Kurs gilt für Spark 2.4, führt aber auch in das Spark 3.0 Adaptive Query Execution Framework ein.

Kursinhalt

  • Spark Architecture
  • Data Sources and Formats
  • Inferring Schemas
  • Dealing With Skewed Data
  • Catalyst and Tungsten Overview
  • Mitigating Spark Shuffles
  • Partitioned and Bucketed Tables
  • Improving Join Performance
  • Pyspark Overhead and UDFs
  • Caching Data for Reuse
  • Workload XM (WXM) Introduction
  • What's New in Spark 3.0?

E-Book Symbol Die englischsprachigen Original-Unterlagen von Cloudera erhalten Sie als E-Book (pdf).

Zielgruppe

Dieser Kurs richtet sich an Softwareentwickler, Ingenieure und Datenwissenschaftler, die Erfahrung mit der Entwicklung von Spark-Anwendungen haben und lernen möchten, wie sie die Leistung ihres Codes verbessern können. Dies ist keine Einführung in Spark.

Voraussetzungen

Spark-Beispiele und praktische Übungen werden in Python präsentiert und die Fähigkeit, in dieser Sprache zu programmieren, ist erforderlich. Grundlegende Vertrautheit mit der Linux-Befehlszeile wird vorausgesetzt. Grundlegende Kenntnisse von SQL sind hilfreich.

Kursziel

Wenn Sie diesen Kurs erfolgreich abgeschlossen haben, werden Sie in der Lage sein:

  • Die Architektur von Apache Spark, die Job-Ausführung und wie Techniken wie Lazy Execution und Pipelining die Laufzeitleistung verbessern können, zu verstehen,
  • Die Leistungsmerkmale von Kerndatenstrukturen wie RDD und DataFrames zu bewerten,
  • Dateiformate auszuwählen, die die beste Leistung für Ihre Anwendung bieten,
  • Leistungsprobleme zu identifizieren und zu lösen, die durch Datenschieflage verursacht werden,
  • Partitionierungs-, Bucketing- und Join-Optimierungen zur Verbesserung der SparkSQL-Leistung zu verwenden,
  • den Leistungs-Overhead von Python-basierten RDDs, DataFrames und benutzerdefinierten Funktionen zu verstehen,
  • Die Vorteile des Caching für eine bessere Anwendungsleistung zu nutzen,
  • zu verstehen, wie die Optimierer Catalyst und Tungsten arbeiten,
  • zu verstehen, wie Workload XM bei der Fehlerbehebung und proaktiven Überwachung der Leistung von Spark-Anwendungen helfen kann,
  • die neuen Funktionen in Spark 3.0 zu kennen und insbesondere, wie die Adaptive Query Execution Engine die Leistung verbessert.

Classroom Training

Bevorzugen Sie die klassische Trainingsmethode? Ein Kurs in einem unserer Training Center, mit einem kompetenten Trainer und dem direkten Austausch zwischen allen Teilnehmern? Dann buchen Sie einen der Classroom Training Termine!

Online Training

Möchten Sie einen Kurs online besuchen? Zu diesem Kursthema bieten wir Ihnen Online-Kurstermine an. Als Teilnehmer benötigen Sie dazu einen PC mit Internet-Anschluss (mindestens 1 Mbit/s), ein Headset, falls Sie per VoIP arbeiten möchten und optional eine Kamera. Weitere Informationen und technische Empfehlungen finden Sie hier.

Inhouse-Schulung

Benötigen Sie einen maßgeschneiderten Kurs für Ihr Team? Neben unserem Standard-Angebot bieten wir Ihnen an, Kurse speziell nach Ihren Anforderungen zu gestalten. Gerne beraten wir Sie hierzu und erstellen Ihnen ein individuelles Angebot.
Inhouse-Schulung jetzt anfragen >>>
PDF SymbolDie gesamte Beschreibung dieses Kurses mit Terminen und Preisen zum Download als PDF.

Dieser Kurs vermittelt die wichtigsten Konzepte und Fachkenntnisse, die Entwickler benötigen, um die Leistung ihrer Apache Spark-Anwendungen zu verbessern. Während des Kurses lernen die Teilnehmer, wie sie häufige Ursachen für schlechte Performance in Spark-Anwendungen identifizieren, Techniken zu deren Vermeidung sowie Best Practices für die Überwachung von Spark-Anwendungen finden.

Der Kurs stellt die Architektur und Konzepte von Apache Spark und der zugrunde liegenden Datenplattform vor und baut dann auf diesem grundlegenden Verständnis auf, indem die Schüler lernen, wie der Spark-Anwendungscode optimiert wird.

Der Schwerpunkt des Kurses liegt auf Demonstrationen unter Anleitung des Kursleiters, die sowohl Leistungsprobleme als auch die entsprechenden Techniken veranschaulichen, gefolgt von praktischen Übungen, die den Teilnehmern die Möglichkeit geben, das Gelernte in einer interaktiven Notebook-Umgebung zu üben.

Der Kurs gilt für Spark 2.4, führt aber auch in das Spark 3.0 Adaptive Query Execution Framework ein.

Kursinhalt

  • Spark Architecture
  • Data Sources and Formats
  • Inferring Schemas
  • Dealing With Skewed Data
  • Catalyst and Tungsten Overview
  • Mitigating Spark Shuffles
  • Partitioned and Bucketed Tables
  • Improving Join Performance
  • Pyspark Overhead and UDFs
  • Caching Data for Reuse
  • Workload XM (WXM) Introduction
  • What's New in Spark 3.0?

E-Book Symbol Die englischsprachigen Original-Unterlagen von Cloudera erhalten Sie als E-Book (pdf).

Zielgruppe

Dieser Kurs richtet sich an Softwareentwickler, Ingenieure und Datenwissenschaftler, die Erfahrung mit der Entwicklung von Spark-Anwendungen haben und lernen möchten, wie sie die Leistung ihres Codes verbessern können. Dies ist keine Einführung in Spark.

Voraussetzungen

Spark-Beispiele und praktische Übungen werden in Python präsentiert und die Fähigkeit, in dieser Sprache zu programmieren, ist erforderlich. Grundlegende Vertrautheit mit der Linux-Befehlszeile wird vorausgesetzt. Grundlegende Kenntnisse von SQL sind hilfreich.

Kursziel

Wenn Sie diesen Kurs erfolgreich abgeschlossen haben, werden Sie in der Lage sein:

  • Die Architektur von Apache Spark, die Job-Ausführung und wie Techniken wie Lazy Execution und Pipelining die Laufzeitleistung verbessern können, zu verstehen,
  • Die Leistungsmerkmale von Kerndatenstrukturen wie RDD und DataFrames zu bewerten,
  • Dateiformate auszuwählen, die die beste Leistung für Ihre Anwendung bieten,
  • Leistungsprobleme zu identifizieren und zu lösen, die durch Datenschieflage verursacht werden,
  • Partitionierungs-, Bucketing- und Join-Optimierungen zur Verbesserung der SparkSQL-Leistung zu verwenden,
  • den Leistungs-Overhead von Python-basierten RDDs, DataFrames und benutzerdefinierten Funktionen zu verstehen,
  • Die Vorteile des Caching für eine bessere Anwendungsleistung zu nutzen,
  • zu verstehen, wie die Optimierer Catalyst und Tungsten arbeiten,
  • zu verstehen, wie Workload XM bei der Fehlerbehebung und proaktiven Überwachung der Leistung von Spark-Anwendungen helfen kann,
  • die neuen Funktionen in Spark 3.0 zu kennen und insbesondere, wie die Adaptive Query Execution Engine die Leistung verbessert.

Classroom Training

Bevorzugen Sie die klassische Trainingsmethode? Ein Kurs in einem unserer Training Center, mit einem kompetenten Trainer und dem direkten Austausch zwischen allen Teilnehmern? Dann buchen Sie einen der Classroom Training Termine!

Online Training

Möchten Sie einen Kurs online besuchen? Zu diesem Kursthema bieten wir Ihnen Online-Kurstermine an. Als Teilnehmer benötigen Sie dazu einen PC mit Internet-Anschluss (mindestens 1 Mbit/s), ein Headset, falls Sie per VoIP arbeiten möchten und optional eine Kamera. Weitere Informationen und technische Empfehlungen finden Sie hier.

Inhouse-Schulung

Benötigen Sie einen maßgeschneiderten Kurs für Ihr Team? Neben unserem Standard-Angebot bieten wir Ihnen an, Kurse speziell nach Ihren Anforderungen zu gestalten. Gerne beraten wir Sie hierzu und erstellen Ihnen ein individuelles Angebot.
Inhouse-Schulung jetzt anfragen >>>

PDF SymbolDie gesamte Beschreibung dieses Kurses mit Terminen und Preisen zum Download als PDF.