Differences

This shows you the differences between two versions of the page.

Link to this comparison view

teaching:hamburg:wintersemester_2015_2016:bigdataanalytics [2019-01-04 18:02] (current)
Line 1: Line 1:
 +====== Vorlesung „Big Data Analytics“ ======
  
 +===== Beschreibung =====
 +In der Vorlesung werden Grundlagen und Techniken zur Auswertung von
 +großen Datenmengen gelehrt die von Menschen oder Computersystemen
 +erzeugt werden. Diese Daten werden typischerweise neben ihrer Größe durch vier weitere
 +Charakteristiken ausgezeichnet:​ ihrer Variabilität,​ dem stetigen und
 +massiven Zuwachs an neuen Daten, potenziell schlechter Datenqualität und ihrer Komplexität.
 +
 +Neue Erkenntnisse können durch die statistische Auswertung dieser Daten gewonnen werden.
 +Global-Players wie Google und Facebook nutzen diese Techniken beispielsweise um Werbung zielgerichtet zu platzieren und somit den Werbeerlös zu maximieren.
 +Die Techniken sind jedoch auch in der Wissenschaft vielseitig einsetzbar.
 +
 +In den Übungen werden ausgewählte OpenSource-Werkzeuge wie Apache Pig, Hive, Spark oder Neo4j zur Analyse von öffentlich zugänglichen Datensets praktisch
 +erprobt aber auch Grundlagen zur statistischen Auswertung oder die Erstellen von MapReduce Programmen gelehrt.
 +Hierfür werden Grundlagen der Programmiersprachen R, Python und Java benötigt und in den Übungen erlernt.
 +===== Zielgruppe =====
 +
 +Das Seminar ist als Wahlpflichtmodul/​Vertiefung im Masterstudiengang eingetragen eignet sich allerdings auch für Studierende im Bachelorstudiengängen mit Bezug zur Informatik.
 +Kenntnisse einer Programmiersprache sind erforderlich.
 +In den Übungen werden Grundlagen der Programmiersprachen R, Python und Java erlernt, ein tiefergehendes Verständnis von komplexen Sprachkonstrukten ist nicht erforderlich.
 +Kenntnisse von SQL sind nicht erforderlich aber vorteilhaft.
 +Interessierte Zuhörer sind herzlich willkommen.
 +
 +===== Daten der Veranstaltung =====
 +|| Ort || [[http://​maps.google.com/​maps?​q=DKRZ,​+Bundesstra%C3%9Fe+45a,​+20146+Hamburg&​hl=de&​cd=2&​ei=BUxYS-GvKIuLOKaotbgJ&​sig2=Kv8CBjHeXm8lAVC3XxRrIQ&​ie=UTF8&​view=map&​cid=262423906154203330&​ved=0CBsQpQY&​hq=DKRZ,​+Bundesstra%C3%9Fe+45a,​+20146+Hamburg&​hnear=&​z=16&​iwloc=A|DKRZ]],​ Raum 034 ||
 +|| Zeit || Freitag 12:15 - 13:45  ||
 +|| Zeit Übung || Freitag 10:15 - 11:45  ||
 +|| Vorbesprechung || Freitag 16.10.2015 10:15 ||
 +|| Mailingliste || [[https://​wr.informatik.uni-hamburg.de/​listinfo/​bd-1516|BD-1516]] ||
 +
 +
 +
 +===== Dozenten =====
 +
 +  * [[about:​people:​julian kunkel]]
 +
 +
 +
 +===== Zeitplan und Materialien =====
 +
 +Der folgende Zeitplan ist vorläufig. ​ Es gibt zwei Gastvorträge. Die Materialien sind typischerweise auf Englisch, die Vorlesung grundsätzlich Deutsch. ​
 +
 +  * 16.10 - 1. **Introduction** **(Wir tauschen an dem Tag die Übung und Vorlesung um, d.h. Treffen um 10:15 Uhr)**
 +    * Big Data Challenges and Characteristics,​ Analytical Workflows, Use Cases, Programming
 +    * Übung: Cluster-Einführung,​ Grundlagen für Java, Python & R, Verarbeitung von CSV-Dateien
 +    * {{:​teaching:​wintersemester_2015_2016:​bd-1516-einfuehrung.pdf|Folien}} -- {{:​teaching:​wintersemester_2015_2016:​bd-1516-uebung1.pdf|Übung 1}}
 +  * 23.10 - 2. **Data Models and Statistical Methods**
 +    * Übung: Einfache Textverarbeitung,​ Anwendung der Methoden in R, Datenmodelle
 +    * {{:​teaching:​wintersemester_2015_2016:​bd-1516-data-statistics.pdf|Folien}} -- {{:​teaching:​wintersemester_2015_2016:​bd-1516-uebung2.pdf|Übung 2}}
 +  * 30.10 - 3. **Traditional databases and Data-Warehouses**
 +    * Übung: NetCDF, Datenbanken,​ SQL, Star-Schema
 +    * {{:​teaching:​wintersemester_2015_2016:​bd-1516-dbs.pdf|Folien}} --  {{:​teaching:​wintersemester_2015_2016:​bd-1516-uebung3.pdf|Übung 3}}
 +  * 06.11 - 4. **Hadoop**
 +    * {{:​teaching:​wintersemester_2015_2016:​bd-1516-hadoop.pdf|Folien}} -- {{:​teaching:​wintersemester_2015_2016:​bd-1516-uebung04.pdf|Übung 4}}
 +  * 13.11 - 5. **Zeitreihenanalyse und Statistische Modelle**, Gastvortrag von Charlotte Jentzsch ​
 +    * {{:​teaching:​wintersemester_2015_2016:​bd-1516-uebung05.pdf|Übung 5}}
 +  * 20.11 - 6. **Data Retrieval & Cleaning**, Gastvortrag von Reza Heidari
 +    * {{:​teaching:​wintersemester_2015_2016:​bd-1516-uebung06.pdf|Übung 6}} 
 +  * 27.11 - 7. **Hive**
 +    * {{:​teaching:​wintersemester_2015_2016:​bd-1516-hive.pdf|Folien}} -- {{:​teaching:​wintersemester_2015_2016:​bd-1516-uebung07.pdf|Übung 7}}
 +  * 04.12 - 8. **Graphprocessing with Neo4J / machine learning**
 +    * {{:​teaching:​wintersemester_2015_2016:​bd-1516-neo4j.pdf|Folien für Neo4J}} -- {{:​teaching:​wintersemester_2015_2016:​bd-1516-machine-learning.pdf|Folien für ML}} -- {{:​teaching:​wintersemester_2015_2016:​bd-1516-uebung08.pdf|Übung 8}}
 +    * Rechnerraumführung in der Übung
 +  * 11.12 - 9. **HBase and REST APIs**
 +    *  {{:​teaching:​wintersemester_2015_2016:​bd-1516-hbase.pdf|Folien für HBase}} -- {{:​teaching:​wintersemester_2015_2016:​bd-1516-rest.pdf|Folien für REST}} -- {{:​teaching:​wintersemester_2015_2016:​bd-1516-uebung09.pdf|Übung 9}}
 +  * 18.12 - 10. **Pig Latin and Performance Aspects** ​   ​
 +    * {{:​teaching:​wintersemester_2015_2016:​bd-1516-pig.pdf|Folien Pig}} -- {{:​teaching:​wintersemester_2015_2016:​bd-1516-performance.pdf|Folien Performance}} -- {{:​teaching:​wintersemester_2015_2016:​bd-1516-uebung10.pdf|Übung 10}}
 +  * 08.01 - 11. **Stream Processing with Storm**
 +    * {{:​teaching:​wintersemester_2015_2016:​bd-1516-storm.pdf|Folien}} -- {{:​teaching:​wintersemester_2015_2016:​bd-1516-uebung11.pdf|Übung 11}}
 +  * 15.01 - 12. **In-Memory Computation with Spark**
 +    * {{:​teaching:​wintersemester_2015_2016:​bd-1516-spark.pdf|Folien}} -- {{:​teaching:​wintersemester_2015_2016:​bd-1516-uebung12.pdf|Übung 12}}
 +  * 22.01 - 13. **Abschlussbesprechung** (Da R034 am DKRZ belegt ist, müssen die Termine abgesagt werden. Wir treffen uns für die Abschlussbesprechung (der Ort wird noch bekannt gegeben).)
 +  * 29.01 - 14. **Overview of other tools in the Hadoop Ecosystem**
 +    * {{:​teaching:​wintersemester_2015_2016:​bd-1516-ecosystem.pdf|Folien}}
 +
 +===== Literaturhinweise =====
 +
 +  * Buch: Data Science for Dummies, Lillian Pierson, Wiley Verlag
 +  * Buch: Big Data - Priciples and best practices of scalable real-time data systems, Nathan Marz und James Warren, Manning Verlag
 +  * Horton Works Platform: http://​docs.hortonworks.com/​HDPDocuments/​HDP2/​HDP-2.2.4/​index.html
 +  * Einführung
 +    * Python: [[http://​www.afterhoursprogramming.com/​tutorial/​Python/​Overview/​|Interaktives Tutorial]]
 +    * R: [[http://​tryr.codeschool.com/​|Interaktives Tutorial]]
 +    * Java: [[http://​www.learnjavaonline.org/​|Interaktives Tutorial]]
 +  * Nützliche Tools: ​
 +    * [[http://​ipython.org/​notebook.html Python Notebook]], vgl. Laborbuch mit Experimentalbeschreibung und Ergebnissen.
 +  * R Bücher
 +    * [[http://​r-pkgs.had.co.nz/​|R Packages]]
 +    * [[http://​adv-r.had.co.nz/​|Advanced R]]
 +    * [[http://​dx.doi.org/​10.1007/​978-0-387-98141-3|ggplot2-Buch]]
 +  * Cheat cheats:
 +    * [[https://​www.rstudio.com/​resources/​cheatsheets/​|Für diverse R Pakete]]
 +  * Ressource for data science: https://​www.kaggle.com/​