#datascience
Datenanalyse mit R
Online-Tutorial für Anfänger
1.1. Vorbemerkung
R ist eine freie Programmiersprache und zugleich Software-Umgebung, die für statistische Analysen und grafische Visualisierung eingesetzt wird. Damit unterscheidet sich R von den meisten klassischen Statistik-Programmen, weil dort nur die Auswahl von fix vorgegebenen statistischen Prozeduren und die Veränderung weniger Parameter möglich ist. Auch die in anderen Programmen nachträglich geschaffenen Möglichkeiten für Programmierung helfen nicht viel, denn es fehlen sog. Sprachelemente. Bei der Nutzung von R erleichtern ebendiese den Umgang mit Daten, die Datenaufbereitung und die statistischen Berechnungen erheblich.
Zudem ist bei proprietärer Software grundsätzlich problematisch, dass die interne Programmierung durch die Nutzer nicht einsehbar ist und damit nicht überprüft werden kann. Hingegen ist der Quellcode von R frei zugänglich [Open Source] und damit prinzipiell überprüfbar.
1.2. Installation von R und RStudio
Schritt 1: Installation von R
R steht für viele Betriebssysteme bereit, u. a. Linux, macOS und Windows. Der Nutzer wird [zumindest unter Windows] schrittweise durch den Installationsprozess geführt. Vorab ist es sinnvoll, wenn ein zentrales Arbeitsverzeichnis angelegt wird, wo alle Dateien gespeichert sind bzw. gespeichert werden sollen.
Für den Download einen Server auswählen:
Schritt 2: Installation von RStudio
Ergänzend zur Installation von R sollte auch die grafische Benutzeroberfläche RStudio [oder eine andere externe Benutzeroberfläche] installiert werden, denn sie erleichtert die Programmierung, u. a. durch Autovervollständigung, automatische Einrückungen, Syntax-Hervorhebungen oder Hilfsfunktionen.
Auch RStudio steht für die gängigen Betriebssysteme bereit und ist frei zugänglich [Open Source]. RStudio setzt eine funktionierende Installation von R [derzeit Version 3.0.1 oder höher] voraus. Die Desktop-Version von RStudio steht hier zum Download bereit:
1.3. Nützliche Zusatzpakete
In der herunterladbaren Distribution von R sind bereits 29 grundlegende Pakete [Basispakete] enthalten, die für den Anfang ausreichend sind. Der Funktionsumfang von R kann jedoch durch zusätzliche Pakete [und vor allem auch selbst programmierte Lösungen] erweitert werden. Ein erster Einblick in die weite Welt der Pakete findet sich bspw. hier:
Die Installation und Aktivierung von zusätzliche Paketen ist ohne größeren Aufwand machbar, wenn man weiß wonach man genau sucht. Es gibt derzeit mehr als 15 Tsd. Pakete, die eine Vielzahl an Themen abdecken, insbesondere:
Statistische Verfahren
Datenzugang
Zugriff auf externe Programme
Ergebnisdokumentation
Grafiken und Animationen
Nützliche Pakete[sammlungen] für Data Science und z. T. spezifische Analysen im Finanzsektor sind:
Tidyverse → Paketsammlung für Data Science, u. a. ggplot2 für Visualisierungen
Xts [und Zoo] → Pakete für Zeitreihenanalyse, welches den Umgang u. a. mit Kursdaten erheblich erleichtert
Quantmod → Paket für Quantitative Financial Modeling und Trading, z. B. zum Testen von Handelsstrategien
Tidyquant → Paketsammlung, die u. a. xts/zoo und Quantmod umfasst und an Tidyverse "anbindet"
Shiny → Paket ermöglicht Menschen ohne tiefergehende Programmierkenntnisse z. B. webbasierte Dashboards für R-Programme zu entwickeln
1.4. Erste Schritte
Schritt 1: Start von RStudio
Nach erfolgreichen Installation [von R und RStudio] ist der Start von RStudio möglich. Ein gesonderter Start von R ist hierfür nicht erforderlich. In Windows findet sich i. d. R. ein Icon auf dem Desktop oder im Startmenü. Bei anderen Betriebssystemen kann man "rstudio" in ein Terminal tippen, um es zu starten.
Die nun geöffnete Arbeitsumgebung von RStudio besteht im Standard-Layout aus vier Bereichen bzw. Fenstern:
links oben: Skript/Editor → Dieser Bereich ist beim ersten Öffnen nicht sichtbar, weil er noch nicht geöffnet wurde, vgl. hierzu Schritt 2 "R-Skript nutzen" [in diesem Kapitel].
rechts oben: Workspace → In diesem Bereich sieht man u. a. geladene Daten und Werte [→ Environment] und bereits ausgeführte Befehle [→ History].
rechts unten: u. a. Hilfebereich → In diesem Fenster finden sich fünf Bereiche:
Dateien/Arbeitsverzeichnis [→ File]
Grafikausgabe [→ Plots]
Zusatzpakete [→ Packages]
Hilfebereich [→ R-Hilfe]
Webspezifische-Ausgabe [→ Viewer]
links unten: Konsole → Hier können Befehle direkt eingetippt bzw. schnell ausprobiert werden. Meistens ist es aber besser, wenn man ein Skript nutzt, vgl. hierzu Schritt 2 "R-Skript nutzen" [in diesem Kapitel].
Hinweis vorab: Das Erscheinungsbild von RStudio kann nach Belieben verändert werden. Im Screenshot sieht man bspw. weiße Schrift auf schwarzem Hintergrund. Eine Anpassung kann oben in der Menüleiste unter "Tools" [ → Global Options → Appearance] vorgenommen werden.
Schritt 2: R-Skript nutzen
Zunächst ist es sinnvoll ein R-Skript zu erstellen, um den eigenen Programmcode zu sichern.
Hierfür öffnet ein neues Skript [Menüleiste oben: File → New File → R Script] und
speichert das Skript im gewünschten Projektordner ab [Menüleiste oben: File → Save].
Neben dem Programmcode können im Skript auch Kommentare hinzugefügt werden, denen das Symbol # vorangestellt werden muss [damit sie als solche erkannt werden]. Es bietet sich an die Kommentare zur Strukturierung und für Erläuterungen zu nutzen. So kann man sich auch nach längerer Auszeit besser zurecht finden und Dritte können die Programmierung leichter nachvollziehen. Zudem helfen Einrückungen längere Befehlszeilen [oder komplexere Programmierungen] übersichtlicher zu strukturieren.
Schritt 3: Beispiel ausprobieren
Das nachfolgende Beispiel kann per Copy & Paste in das neu erstellte R-Skript eingefügt werden, dann lässt man es "laufen". Hier gibt es mehrere Wege, die zum Ziel führen. Mein Vorschlag:
Copy & Paste des nachfolgenden Beispiels in das neu erstellte R-Skript
→ STRG C + STRG V
Beispiel:
# Generiere einen Vektor mit 1000 normalverteilten Zufallszahlen mit Mittelwert = 10 und Standardabweichung = 4
zufallszahlen <- rnorm(1000,
mean=10,
sd=4)
# Erzeuge ein Histogramm der Zufallszahlen
hist(zufallszahlen)
Markierung des gesamten Codes im R-Skript
→ STRG + ADann Lauf starten
→ STRG + ENTERIm RStudio-Fenster unten rechts [→ Plots] sollte jetzt ein [ähnliches] Histogramm angezeigt werden.