-
Dieses Training richtet sich an Big-Data-Experten, die ihr Verständnis von Dataflow vertiefen möchten, um ihre Datenverarbeitungsanwendungen weiterzuentwickeln. Ausgehend von den Grundlagen wird in diesem Training erläutert, wie Apache Beam und Dataflow zusammenarbeiten, um Ihre Anforderungen an die Datenverarbeitung zu erfüllen – ohne das Risiko eines Vendor Lock-in.
Im Abschnitt zur Pipeline-Entwicklung erfahren Sie, wie Sie Ihre Geschäftslogik in Datenverarbeitungsanwendungen umwandeln, die auf Dataflow ausgeführt werden können. Das Training endet mit einem Schwerpunkt auf dem operativen Betrieb, in dem die wichtigsten Erkenntnisse zum Betrieb einer Datenanwendung auf Dataflow behandelt werden, einschließlich Monitoring, Fehlerbehebung, Tests und Zuverlässigkeit.
-
Kursinhalt
-
- Einführung
- Beam-Portabilität
- Trennung von Datenverarbeitung und Speicherung mit Dataflow
- IAM, Kontingente und Berechtigungen
- Sicherheit
- Überblick über Beam-Konzepte
- Windows, Watermarks, Triggers
- Sources and Sinks
- Schemata
- Zustand und Zeitgeber
- Bewährte Praktiken
- Datenfluss-SQL und DataFrames
- Beam Notebooks
- Überwachung
- Protokollierung und Fehlerberichterstattung
- Leistung
- Testen und CI/CD
- Verlässlichkeit
- Flex-Vorlagen
- Zusammenfassung
-
Zielgruppe
-
- Dateningenieure
- Datenanalysten und Datenwissenschaftler, die ihre Fähigkeiten im Bereich Data Engineering ausbauen möchten
-
Kursziel
-
- Zeigen Sie, wie Apache Beam und Dataflow zusammenarbeiten, um die Datenverarbeitungsanforderungen Ihres Unternehmens zu erfüllen.
- Fassen Sie die Vorteile des Beam Portability Frameworks zusammen und aktivieren Sie es für Ihre Dataflow-Pipelines.
- Aktivieren Sie Shuffle und Streaming Engine für Batch- bzw. Streaming-Pipelines, um maximale Leistung zu erzielen.
- Ermöglichen Sie eine flexible Ressourcenplanung für eine kosteneffizientere Leistung.
- Wählen Sie die richtige Kombination von IAM-Berechtigungen für Ihren Dataflow-Auftrag.
- Umsetzung bewährter Verfahren für eine sichere Datenverarbeitungsumgebung.
- Wählen Sie die E/A Ihrer Wahl für Ihre Dataflow-Pipeline aus und stimmen Sie sie ab.
- Verwenden Sie Schemata, um Ihren Beam-Code zu vereinfachen und die Leistung Ihrer Pipeline zu verbessern.
- Entwickeln Sie eine Beam-Pipeline mit SQL und DataFrames.
- Überwachung, Fehlerbehebung, Tests und CI/CD für Dataflow-Pipelines.
| Einführung |
| Stellen Sie die Kursziele vor. |
| Zeigen Sie, wie Apache Beam und Dataflow zusammenarbeiten, um die Datenverarbeitungsanforderungen Ihres Unternehmens zu erfüllen. |
| Beam-Portabilität |
| Fassen Sie die Vorteile des Beam Portability Framework zusammen. |
| Passen Sie die Datenverarbeitungsumgebung Ihrer Pipeline mithilfe benutzerdefinierter Container an. |
| Überprüfung der Anwendungsfälle für sprachübergreifende Transformationen. |
| Aktivieren Sie das Portability Framework für Ihre Dataflow-Pipelines. |
| Trennung von Datenverarbeitung und Speicherung mit Dataflow |
| Aktivieren Sie Shuffle und Streaming Engine für Batch- bzw. Streaming-Pipelines, um maximale Leistung zu erzielen. |
| Ermöglichen Sie eine flexible Ressourcenplanung für eine kosteneffizientere Leistung. |
| IAM, Kontingente und Berechtigungen |
| Wählen Sie die richtige Kombination von IAM-Berechtigungen für Ihren Dataflow-Auftrag. |
| Ermitteln Sie Ihren Kapazitätsbedarf, indem Sie die entsprechenden Quoten für Ihre Dataflow-Jobs überprüfen. |
| Sicherheit |
| Wählen Sie Ihre zonale Datenverarbeitungsstrategie mit Dataflow, je nach Ihren Anforderungen an die Datenlokalisierung. |
| Umsetzung bewährter Verfahren für eine sichere Datenverarbeitungsumgebung. |
| Überblick über Beam-Konzepte |
| Überprüfung der wichtigsten Konzepte von Apache Beam (Pipeline, PCollections, PTransforms, Runner, Lesen/Schreiben, Utility PTransforms, Side Inputs), Bundles und DoFn Lifecycle. |
| Windows, Watermarks, Triggers |
| Implementieren Sie eine Logik zur Verarbeitung Ihrer verspäteten Daten. |
| Überprüfen Sie die verschiedenen Arten von Auslösern. |
| Überprüfung der wichtigsten Streaming-Konzepte (unbeschränkte PCollections, Fenster). |
| Sources and Sinks |
| Schreiben Sie die I/O Ihrer Wahl für Ihre Dataflow-Pipeline. |
| Stimmen Sie Ihre Source/Sink-Transformation für maximale Leistung ab. |
| Benutzerdefinierte Quellen und Senken mit SDF erstellen. |
| Schemata |
| Einführung von Schemata, die Entwicklern eine Möglichkeit bieten, strukturierte Daten in ihren Beam-Pipelines auszudrücken. |
| Verwenden Sie Schemata, um Ihren Beam-Code zu vereinfachen und die Leistung Ihrer Pipeline zu verbessern. |
| Zustand und Zeitgeber |
| Ermittlung von Anwendungsfällen für die Implementierung von Status- und Zeitgeber-APIs. |
| Wählen Sie den richtigen Typ von Status und Zeitgebern für Ihre Pipeline. |
| Bewährte Praktiken |
| Implementierung bewährter Verfahren für Dataflow-Pipelines. |
| Datenfluss-SQL und DataFrames |
| Entwickeln Sie eine Beam-Pipeline mit SQL und DataFrames. |
| Beam Notebooks |
| Prototyping Ihrer Pipeline in Python mit Beam-Notebooks. |
| Verwenden Sie Beam-Magie, um das Verhalten der Quellenaufzeichnung in Ihrem Notebook zu steuern. |
| Starten Sie einen Auftrag in Dataflow von einem Notebook aus. |
| Überwachung |
| Navigieren Sie durch die Benutzeroberfläche der Dataflow-Auftragsdetails. |
| Interpretieren Sie Job-Metrics-Diagramme, um Regressionen in der Pipeline zu diagnostizieren. |
| Setzen Sie Alarme für Dataflow-Aufträge mit Cloud Monitoring. |
| Protokollierung und Fehlerberichterstattung |
| Verwenden Sie die Dataflow-Protokolle und Diagnose-Widgets, um Probleme in der Pipeline zu beheben. |
| Fehlersuche und Fehlerbehebung |
| Verwenden Sie einen strukturierten Ansatz zum Debuggen Ihrer Dataflow-Pipelines. |
| Untersuchen Sie die häufigsten Ursachen für Rohrleitungsausfälle. |
| Leistung |
| Verstehen Sie Leistungsüberlegungen für Pipelines. |
| Überlegen Sie, wie sich die Form Ihrer Daten auf die Leistung der Pipeline auswirken kann. |
| Testen und CI/CD |
| Testansätze für Ihre Dataflow-Pipeline. |
| Prüfen Sie die verfügbaren Frameworks und Funktionen, um Ihren CI/CD-Workflow für Dataflow-Pipelines zu optimieren. |
| Verlässlichkeit |
| Implementieren Sie Best Practices für die Zuverlässigkeit Ihrer Dataflow-Pipelines. |
| Flex-Vorlagen |
| Verwendung von Flex-Vorlagen zur Standardisierung und Wiederverwendung von Dataflow-Pipeline-Code. |
| Zusammenfassung |
| Zusammenfassung. |
-
Classroom Training
- Bevorzugen Sie die klassische Trainingsmethode? Ein Kurs in einem unserer Training Center, mit einem kompetenten Trainer und dem direkten Austausch zwischen allen Teilnehmern? Dann buchen Sie einen der Classroom Training Termine!
-
Online Training
- Möchten Sie einen Kurs online besuchen? Zu diesem Kursthema bieten wir Ihnen Online-Kurstermine an. Als Teilnehmer benötigen Sie dazu einen PC mit Internet-Anschluss (mindestens 1 Mbit/s), ein Headset, falls Sie per VoIP arbeiten möchten und optional eine Kamera. Weitere Informationen und technische Empfehlungen finden Sie hier.
-
Inhouse-Schulung
-
Benötigen Sie einen maßgeschneiderten Kurs für Ihr Team? Neben unserem Standard-Angebot bieten wir Ihnen an, Kurse speziell nach Ihren Anforderungen zu gestalten. Gerne beraten wir Sie hierzu und erstellen Ihnen ein individuelles Angebot.
-
Dieses Training richtet sich an Big-Data-Experten, die ihr Verständnis von Dataflow vertiefen möchten, um ihre Datenverarbeitungsanwendungen weiterzuentwickeln. Ausgehend von den Grundlagen wird in diesem Training erläutert, wie Apache Beam und Dataflow zusammenarbeiten, um Ihre Anforderungen an die Datenverarbeitung zu erfüllen – ohne das Risiko eines Vendor Lock-in.
Im Abschnitt zur Pipeline-Entwicklung erfahren Sie, wie Sie Ihre Geschäftslogik in Datenverarbeitungsanwendungen umwandeln, die auf Dataflow ausgeführt werden können. Das Training endet mit einem Schwerpunkt auf dem operativen Betrieb, in dem die wichtigsten Erkenntnisse zum Betrieb einer Datenanwendung auf Dataflow behandelt werden, einschließlich Monitoring, Fehlerbehebung, Tests und Zuverlässigkeit.
-
Kursinhalt
-
- Einführung
- Beam-Portabilität
- Trennung von Datenverarbeitung und Speicherung mit Dataflow
- IAM, Kontingente und Berechtigungen
- Sicherheit
- Überblick über Beam-Konzepte
- Windows, Watermarks, Triggers
- Sources and Sinks
- Schemata
- Zustand und Zeitgeber
- Bewährte Praktiken
- Datenfluss-SQL und DataFrames
- Beam Notebooks
- Überwachung
- Protokollierung und Fehlerberichterstattung
- Leistung
- Testen und CI/CD
- Verlässlichkeit
- Flex-Vorlagen
- Zusammenfassung
-
Zielgruppe
-
- Dateningenieure
- Datenanalysten und Datenwissenschaftler, die ihre Fähigkeiten im Bereich Data Engineering ausbauen möchten
-
Kursziel
-
- Zeigen Sie, wie Apache Beam und Dataflow zusammenarbeiten, um die Datenverarbeitungsanforderungen Ihres Unternehmens zu erfüllen.
- Fassen Sie die Vorteile des Beam Portability Frameworks zusammen und aktivieren Sie es für Ihre Dataflow-Pipelines.
- Aktivieren Sie Shuffle und Streaming Engine für Batch- bzw. Streaming-Pipelines, um maximale Leistung zu erzielen.
- Ermöglichen Sie eine flexible Ressourcenplanung für eine kosteneffizientere Leistung.
- Wählen Sie die richtige Kombination von IAM-Berechtigungen für Ihren Dataflow-Auftrag.
- Umsetzung bewährter Verfahren für eine sichere Datenverarbeitungsumgebung.
- Wählen Sie die E/A Ihrer Wahl für Ihre Dataflow-Pipeline aus und stimmen Sie sie ab.
- Verwenden Sie Schemata, um Ihren Beam-Code zu vereinfachen und die Leistung Ihrer Pipeline zu verbessern.
- Entwickeln Sie eine Beam-Pipeline mit SQL und DataFrames.
- Überwachung, Fehlerbehebung, Tests und CI/CD für Dataflow-Pipelines.
| Einführung |
| Stellen Sie die Kursziele vor. |
| Zeigen Sie, wie Apache Beam und Dataflow zusammenarbeiten, um die Datenverarbeitungsanforderungen Ihres Unternehmens zu erfüllen. |
| Beam-Portabilität |
| Fassen Sie die Vorteile des Beam Portability Framework zusammen. |
| Passen Sie die Datenverarbeitungsumgebung Ihrer Pipeline mithilfe benutzerdefinierter Container an. |
| Überprüfung der Anwendungsfälle für sprachübergreifende Transformationen. |
| Aktivieren Sie das Portability Framework für Ihre Dataflow-Pipelines. |
| Trennung von Datenverarbeitung und Speicherung mit Dataflow |
| Aktivieren Sie Shuffle und Streaming Engine für Batch- bzw. Streaming-Pipelines, um maximale Leistung zu erzielen. |
| Ermöglichen Sie eine flexible Ressourcenplanung für eine kosteneffizientere Leistung. |
| IAM, Kontingente und Berechtigungen |
| Wählen Sie die richtige Kombination von IAM-Berechtigungen für Ihren Dataflow-Auftrag. |
| Ermitteln Sie Ihren Kapazitätsbedarf, indem Sie die entsprechenden Quoten für Ihre Dataflow-Jobs überprüfen. |
| Sicherheit |
| Wählen Sie Ihre zonale Datenverarbeitungsstrategie mit Dataflow, je nach Ihren Anforderungen an die Datenlokalisierung. |
| Umsetzung bewährter Verfahren für eine sichere Datenverarbeitungsumgebung. |
| Überblick über Beam-Konzepte |
| Überprüfung der wichtigsten Konzepte von Apache Beam (Pipeline, PCollections, PTransforms, Runner, Lesen/Schreiben, Utility PTransforms, Side Inputs), Bundles und DoFn Lifecycle. |
| Windows, Watermarks, Triggers |
| Implementieren Sie eine Logik zur Verarbeitung Ihrer verspäteten Daten. |
| Überprüfen Sie die verschiedenen Arten von Auslösern. |
| Überprüfung der wichtigsten Streaming-Konzepte (unbeschränkte PCollections, Fenster). |
| Sources and Sinks |
| Schreiben Sie die I/O Ihrer Wahl für Ihre Dataflow-Pipeline. |
| Stimmen Sie Ihre Source/Sink-Transformation für maximale Leistung ab. |
| Benutzerdefinierte Quellen und Senken mit SDF erstellen. |
| Schemata |
| Einführung von Schemata, die Entwicklern eine Möglichkeit bieten, strukturierte Daten in ihren Beam-Pipelines auszudrücken. |
| Verwenden Sie Schemata, um Ihren Beam-Code zu vereinfachen und die Leistung Ihrer Pipeline zu verbessern. |
| Zustand und Zeitgeber |
| Ermittlung von Anwendungsfällen für die Implementierung von Status- und Zeitgeber-APIs. |
| Wählen Sie den richtigen Typ von Status und Zeitgebern für Ihre Pipeline. |
| Bewährte Praktiken |
| Implementierung bewährter Verfahren für Dataflow-Pipelines. |
| Datenfluss-SQL und DataFrames |
| Entwickeln Sie eine Beam-Pipeline mit SQL und DataFrames. |
| Beam Notebooks |
| Prototyping Ihrer Pipeline in Python mit Beam-Notebooks. |
| Verwenden Sie Beam-Magie, um das Verhalten der Quellenaufzeichnung in Ihrem Notebook zu steuern. |
| Starten Sie einen Auftrag in Dataflow von einem Notebook aus. |
| Überwachung |
| Navigieren Sie durch die Benutzeroberfläche der Dataflow-Auftragsdetails. |
| Interpretieren Sie Job-Metrics-Diagramme, um Regressionen in der Pipeline zu diagnostizieren. |
| Setzen Sie Alarme für Dataflow-Aufträge mit Cloud Monitoring. |
| Protokollierung und Fehlerberichterstattung |
| Verwenden Sie die Dataflow-Protokolle und Diagnose-Widgets, um Probleme in der Pipeline zu beheben. |
| Fehlersuche und Fehlerbehebung |
| Verwenden Sie einen strukturierten Ansatz zum Debuggen Ihrer Dataflow-Pipelines. |
| Untersuchen Sie die häufigsten Ursachen für Rohrleitungsausfälle. |
| Leistung |
| Verstehen Sie Leistungsüberlegungen für Pipelines. |
| Überlegen Sie, wie sich die Form Ihrer Daten auf die Leistung der Pipeline auswirken kann. |
| Testen und CI/CD |
| Testansätze für Ihre Dataflow-Pipeline. |
| Prüfen Sie die verfügbaren Frameworks und Funktionen, um Ihren CI/CD-Workflow für Dataflow-Pipelines zu optimieren. |
| Verlässlichkeit |
| Implementieren Sie Best Practices für die Zuverlässigkeit Ihrer Dataflow-Pipelines. |
| Flex-Vorlagen |
| Verwendung von Flex-Vorlagen zur Standardisierung und Wiederverwendung von Dataflow-Pipeline-Code. |
| Zusammenfassung |
| Zusammenfassung. |
-
Classroom Training
- Bevorzugen Sie die klassische Trainingsmethode? Ein Kurs in einem unserer Training Center, mit einem kompetenten Trainer und dem direkten Austausch zwischen allen Teilnehmern? Dann buchen Sie einen der Classroom Training Termine!
-
Online Training
- Möchten Sie einen Kurs online besuchen? Zu diesem Kursthema bieten wir Ihnen Online-Kurstermine an. Als Teilnehmer benötigen Sie dazu einen PC mit Internet-Anschluss (mindestens 1 Mbit/s), ein Headset, falls Sie per VoIP arbeiten möchten und optional eine Kamera. Weitere Informationen und technische Empfehlungen finden Sie hier.
-
Inhouse-Schulung
-
Benötigen Sie einen maßgeschneiderten Kurs für Ihr Team? Neben unserem Standard-Angebot bieten wir Ihnen an, Kurse speziell nach Ihren Anforderungen zu gestalten. Gerne beraten wir Sie hierzu und erstellen Ihnen ein individuelles Angebot.
