Vorlesung „Big Data Analytics“
Beschreibung
In der Vorlesung werden Grundlagen und Techniken zur Auswertung von großen Datenmengen gelehrt die von Menschen oder Computersystemen erzeugt werden. Diese Daten werden typischerweise neben ihrer Größe durch vier weitere Charakteristiken ausgezeichnet: ihrer Variabilität, dem stetigen und massiven Zuwachs an neuen Daten, potenziell schlechter Datenqualität und ihrer Komplexität.
Neue Erkenntnisse können durch die statistische Auswertung dieser Daten gewonnen werden. Global-Players wie Google und Facebook nutzen diese Techniken beispielsweise um Werbung zielgerichtet zu platzieren und somit den Werbeerlös zu maximieren. Die Techniken sind jedoch auch in der Wissenschaft vielseitig einsetzbar.
In den Übungen werden ausgewählte OpenSource-Werkzeuge wie Apache Pig, Hive, Spark oder Neo4j zur Analyse von öffentlich zugänglichen Datensets praktisch erprobt aber auch Grundlagen zur statistischen Auswertung oder die Erstellen von MapReduce Programmen gelehrt. Hierfür werden Grundlagen der Programmiersprachen R, Python und Java benötigt und in den Übungen erlernt.
Zielgruppe
Das Seminar ist als Wahlpflichtmodul/Vertiefung im Masterstudiengang eingetragen eignet sich allerdings auch für Studierende im Bachelorstudiengängen mit Bezug zur Informatik. Kenntnisse einer Programmiersprache sind erforderlich. In den Übungen werden Grundlagen der Programmiersprachen R, Python und Java erlernt, ein tiefergehendes Verständnis von komplexen Sprachkonstrukten ist nicht erforderlich. Kenntnisse von SQL sind nicht erforderlich aber vorteilhaft. Interessierte Zuhörer sind herzlich willkommen.
Daten der Veranstaltung
Dozenten
Zeitplan und Materialien
Der folgende Zeitplan ist vorläufig. Es gibt zwei Gastvorträge. Die Materialien sind typischerweise auf Englisch, die Vorlesung grundsätzlich Deutsch.
- 16.10 - 1. Introduction (Wir tauschen an dem Tag die Übung und Vorlesung um, d.h. Treffen um 10:15 Uhr)
- Big Data Challenges and Characteristics, Analytical Workflows, Use Cases, Programming
- Übung: Cluster-Einführung, Grundlagen für Java, Python & R, Verarbeitung von CSV-Dateien
- 23.10 - 2. Data Models and Statistical Methods
- Übung: Einfache Textverarbeitung, Anwendung der Methoden in R, Datenmodelle
- 30.10 - 3. Traditional databases and Data-Warehouses
- Übung: NetCDF, Datenbanken, SQL, Star-Schema
- 06.11 - 4. Hadoop
- 13.11 - 5. Zeitreihenanalyse und Statistische Modelle, Gastvortrag von Charlotte Jentzsch
- 20.11 - 6. Data Retrieval & Cleaning, Gastvortrag von Reza Heidari
- 27.11 - 7. Hive
- 04.12 - 8. Graphprocessing with Neo4J / machine learning
- Rechnerraumführung in der Übung
- 11.12 - 9. HBase and REST APIs
- 18.12 - 10. Pig Latin and Performance Aspects
- 08.01 - 11. Stream Processing with Storm
- 15.01 - 12. In-Memory Computation with Spark
- 22.01 - 13. Abschlussbesprechung (Da R034 am DKRZ belegt ist, müssen die Termine abgesagt werden. Wir treffen uns für die Abschlussbesprechung (der Ort wird noch bekannt gegeben).)
- 29.01 - 14. Overview of other tools in the Hadoop Ecosystem
Literaturhinweise
- Buch: Data Science for Dummies, Lillian Pierson, Wiley Verlag
- Buch: Big Data - Priciples and best practices of scalable real-time data systems, Nathan Marz und James Warren, Manning Verlag
- Horton Works Platform: http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.2.4/index.html
- Einführung
- Python: Interaktives Tutorial
- Java: Interaktives Tutorial
- Nützliche Tools:
- http://ipython.org/notebook.html Python Notebook, vgl. Laborbuch mit Experimentalbeschreibung und Ergebnissen.
- R Bücher
- Cheat cheats:
- Ressource for data science: https://www.kaggle.com/