Vorlesung „Big Data Analytics“

In der Vorlesung werden Grundlagen und Techniken zur Auswertung von großen Datenmengen gelehrt die von Menschen oder Computersystemen erzeugt werden. Diese Daten werden typischerweise neben ihrer Größe durch vier weitere Charakteristiken ausgezeichnet: ihrer Variabilität, dem stetigen und massiven Zuwachs an neuen Daten, potenziell schlechter Datenqualität und ihrer Komplexität.

Neue Erkenntnisse können durch die statistische Auswertung dieser Daten gewonnen werden. Global-Players wie Google und Facebook nutzen diese Techniken beispielsweise um Werbung zielgerichtet zu platzieren und somit den Werbeerlös zu maximieren. Die Techniken sind jedoch auch in der Wissenschaft vielseitig einsetzbar.

In den Übungen werden ausgewählte OpenSource-Werkzeuge wie Apache Pig, Hive, Spark oder Neo4j zur Analyse von öffentlich zugänglichen Datensets praktisch erprobt aber auch Grundlagen zur statistischen Auswertung oder die Erstellen von MapReduce Programmen gelehrt. Hierfür werden Grundlagen der Programmiersprachen R, Python und Java benötigt und in den Übungen erlernt.

Das Seminar ist als Wahlpflichtmodul/Vertiefung im Masterstudiengang eingetragen eignet sich allerdings auch für Studierende im Bachelorstudiengängen mit Bezug zur Informatik. Kenntnisse einer Programmiersprache sind erforderlich. In den Übungen werden Grundlagen der Programmiersprachen R, Python und Java erlernt, ein tiefergehendes Verständnis von komplexen Sprachkonstrukten ist nicht erforderlich. Kenntnisse von SQL sind nicht erforderlich aber vorteilhaft. Interessierte Zuhörer sind herzlich willkommen.

Ort DKRZ, Raum 034
Zeit Freitag 12:15 - 13:45
Zeit Übung Freitag 10:15 - 11:45
Vorbesprechung Freitag 16.10.2015 10:15
Mailingliste BD-1516

Der folgende Zeitplan ist vorläufig. Es gibt zwei Gastvorträge. Die Materialien sind typischerweise auf Englisch, die Vorlesung grundsätzlich Deutsch.

  • 16.10 - 1. Introduction (Wir tauschen an dem Tag die Übung und Vorlesung um, d.h. Treffen um 10:15 Uhr)
    • Big Data Challenges and Characteristics, Analytical Workflows, Use Cases, Programming
    • Übung: Cluster-Einführung, Grundlagen für Java, Python & R, Verarbeitung von CSV-Dateien
  • 23.10 - 2. Data Models and Statistical Methods
    • Übung: Einfache Textverarbeitung, Anwendung der Methoden in R, Datenmodelle
  • 30.10 - 3. Traditional databases and Data-Warehouses
  • 06.11 - 4. Hadoop
  • 13.11 - 5. Zeitreihenanalyse und Statistische Modelle, Gastvortrag von Charlotte Jentzsch
  • 20.11 - 6. Data Retrieval & Cleaning, Gastvortrag von Reza Heidari
  • 27.11 - 7. Hive
  • 04.12 - 8. Graphprocessing with Neo4J / machine learning
  • 11.12 - 9. HBase and REST APIs
  • 18.12 - 10. Pig Latin and Performance Aspects
  • 08.01 - 11. Stream Processing with Storm
  • 15.01 - 12. In-Memory Computation with Spark
  • 22.01 - 13. Abschlussbesprechung (Da R034 am DKRZ belegt ist, müssen die Termine abgesagt werden. Wir treffen uns für die Abschlussbesprechung (der Ort wird noch bekannt gegeben).)
  • 29.01 - 14. Overview of other tools in the Hadoop Ecosystem
  • Impressum
  • Privacy
  • teaching/hamburg/wintersemester_2015_2016/bigdataanalytics.txt
  • Last modified: 2023-08-28 10:40
  • by 127.0.0.1