Inhalt und Ablauf

Immer mehr Projekte setzen zur Implementierung ihrer Daten-Pipelines auf Apache Spark. Dank dessen High-Level-API's und der automatisierten Ausführung der Berechnungen auf Rechen-Clustern hat Spark die Verarbeitung großer Datenmengen stark vereinfacht. Die verteilte Ausführung stellt Entwickler jedoch vor neue Herausforderungen hinsichtlich des Debuggings und Profilings von Spark Jobs.

Dieser Workshop vermittelt das notwendige Hintergrundwissen und bewährte Praktiken, um bei der Implementierung von Daten-Pipelines mit Apache Spark optimale Ergebnisse hinsichtlich der Performance erzielen zu können. Ausgehend von einer Einführung in die interne Arbeitsweise der Spark Engine, lernen die Teilnehmer Performance-Engpässe zu identifizieren und anschließend durch geeignete Gegenmaßnahmen zu beheben.

Das vermittelte Wissen wird innerhalb von Hands-On Sessions vertieft. Dazu wird den Teilnehmern eine interaktive Spark-Umgebung in der Databricks Cloud zur Verfügung gestellt, in welcher die Übungsaufgaben in Kleingruppen bearbeitet werden. Die im Workshop verwendeten Spark-Notebooks werden den Teilnehmern inklusive Musterlösungen anschließend zur Verfügung gestellt. Aufgrund seiner Einsteigerfreundlichkeit setzen wir für Codebeispiele und in den Hands-On Sessions auf die Programmiersprache Python.

Simon-Kaltenbacher

Short Facts

  • Referent: Simon Kaltenbacher
  • Sprache: Englisch
  • 16. April 2018
  • 10:00 – 17:15
  • Data Hub, Sapporobogen 6-8, 80637 München

Lernziele

Arbeitsweise der Anfrageoptimierung und verteilten Ausführung in Apache Spark

Umgang mit Sparks Monitoring Weboberfläche zur Identifikation von Performance-Engpässen

Bewährte Praktiken bei der Implementierung von Daten-Pipelines mit Apache Spark

Referent

Simon Kaltenbacher

ist Head of Technology bei der Alexander Thamm GmbH. Dort berät er Kunden beim Aufbau von Datenplattformen und unterstützt sie bei der Implementierung von Daten-Pipelines. Er verfolgt das Apache-Spark-Projekt intensiv seit Version 0.9 und hat bereits mehrere Schulungen und Vorträge zu dieser Technologie gehalten.

Agenda

federica-galli-449563

10:00 – 11:15: Einführung in die interne Arbeitsweise der Spark Engine

11:15 – 11:30: Kaffeepause

11:30 – 13:00: Hands-On Anfrageoptimierung

13:00 – 14:00: Mittagspause

14:00 – 15:30: Best Practices

15:30 – 15:45: Kaffeepause

15:45 – 17:15: Hands-On Best Practices

Voraussetzungen

Jeder Teilnehmer muss über einen eigenen Rechner verfügen. Jeder Rechner muss über ein zur Verfügung gestelltes W-Lan auf das Internet zugreifen können. Die neueste Version des Firefox oder Chrome Browsers sollte installiert sein.

Sind Sie an diesem Workshop interessiert?