Data Scientist Specialized in Big Data Analytics
Diese Schulung schließt an die Angebote »Data Scientist Basic Level« und »Data Scientist Specialized in Data Analytics« an. Fachkräfte mit Programmiererfahrung und Grundkenntnissen in der Datenanalyse lernen Methoden und Tools zur Analyse von Big Data kennen. Nach der Schulung verstehen Sie, wie Analysealgorithmen für eine skalierbare Big-Data-Architektur implementiert werden und haben Beispiele für Batch- und Streaming-Verarbeitung kennengelernt. Sie lernen den Einsatz von Tools und Methoden zur Analyse von großen Datenmengen am Beispiel von Spark kennen, wobei insbesondere die Algorithmen aus Spark Machine Learning Library sowie Anbindung von Spark an Python (PySpark) vorgestellt und selbst eingeübt wird. Unter dem Thema "Deployment" wird besprochen, wie Modelle, die im Batch auf historischen Daten erstellt worden sind, auf neuen Daten schnell angewendet werden können. Des weiteren wird die Einbindung von Streaming-Systemen und Methoden der Datenanalyse unter Echtzeitanforderungen besprochen.
Die Zertifizierung findet durch die Fraunhofer-Personenzertifizierungsstelle statt. Das Zertifikat bescheinigt den Absolvent*innen relevantes innovatives Praxiswissen und nachgewiesene Kompetenz.
Zielgruppe: Analyst*innen, die ihre Fähigkeiten zur Auswertung von großen Datenbeständen ausweiten möchten. Softwareentwickler*innen/-architekt*innen, die Systeme mit analytischen Fragestellungen entwickeln.
Voraussetzung: Grundkenntnisse in Statistik und Programmierung sowie grundlegender Aufbau von Systemarchitekturen.
Empfehlung: Kombinieren Sie dieses Angebot mit der Schulung »Data Scientist Basic Level« am selben Ort.
Inhalte
Tag 1: Einbettung von Modellerstellung- und Anwendung in eine Big Data Architektur
- Einführung: Herausforderungen von Big Data für die Datenanalyse
- Beispiel: Aufbau eines Empfehlungssystems
- Data Understanding und Feature-Erzeugung für die Analyse großer Datenmengen
- Modellentwicklung und -anwendung in Big-Data-Umgebungen
- Analyse von Datenströmen
Tag 2: Datenanalyse mit Spark
- Einführung von Spark und PySpark
- Lineare Regression mit Spark
- Die Spark Maschine Learning Library
- Übungen zur Datenanalyse mit Spark und Python
- Graphische Workflows zur Datenanalyse mit Spark
- Big Data Algorithmen: Locality Sensitive Hashing und Anwendungen
Tag 3: Fortgeschrittene Methoden, Werkzeuge und Deployment
- Fortgeschrittene Analysetechniken in Spark (Training-Test Dataset, Optimization, Cross-Validation, Grid-Search, Pipelines)
- Betrugserkennung mit Complex Event Processing (CEP)
- Deployment: Abspeichern, Laden von Modellen in PMML und Spark
- Einsatz von Spark Feature-Generation, Spark Pipelines und Spark Streaming
- Massiv Parallele Datenbanken
Tag 4: Praktische Anwendung fortgeschrittener Analysemethoden mit PySpark
- Data verstehen, aufbereiten
- Erzeugen von Features
- Spark Machine Learning Library Pipelines
- Big Data Algorithmen
Tag 5
- Schriftliche Prüfung