#datascience

Datenanalyse mit R
Online-Tutorial für Anfänger

4.1. Vorbemerkung

Im Rahmen von empirischen Forschungsprojekten werden häufig mittels von entsprechend konzipierten Fragebögen eigene Daten erhoben. In diesem Kapitel werden daher zunächst Hinweise zur Erstellung eigener Datensätze gegeben, insbesondere auch zur Konzeption von Fragebögen. 

Bei der Nutzung bereits vorhandener Daten entfällt dieser Schritt naturgemäß. So gibt es eine Vielzahl von Quellen, die unterschiedlichste Daten öffentlich frei verfügbar machen [oder kommerziell anbieten]. In diesem Kapitel werden Quellen für frei verfügbare Daten vorgestellt.

Zum Schluss werden Tipps zum Import von Datensätzen gegeben, die als Excel- oder csv-Datei erstellt wurden bzw. vorliegen.

4.2. Erstellung eigener Datensätze

Bei der Konzeption von Fragebögen ist es wichtig zu verstehen, dass jede Frage [oder Subfrage] letztlich in einer Variable mündet. Ein sogenanntes Kodierungsschema hilft die Antwortmöglichkeiten des Fragebogens in Rohdaten zu übersetzen, die in R ausgewertet werden können.


Grundlegende Tipps zur Kodierung:


Einfaches Beispiel:

Haben Sie bereits ETF* erworben?

Kurzname für Frage/Variable: 

Kodierung der Antworten:


Kurzname für Frage/Variable: 

Kodierung der Antworten:


* Abkürzung für Exchange Traded Funds [= börsengehandelte Fonds]

Exkurs: Umgang mit fehlenden Werten

Wenn eine Person beim Ausfüllen des Fragebogens nicht alle Fragen beantwortet, fehlen Werte.
Wie können wir damit umgehen?

4.3. Nutzung frei verfügbarer Daten

Als frei verfügbare Daten [engl. Open Data] werden Daten bezeichnet, die von jedermann zu jedem Zweck genutzt, weiterverbreitet und -verwendet werden dürfen. Es gibt eine Vielzahl von Quellen, die unterschiedlichste Daten öffentlich frei verfügbar machen. Im Folgendem findet sich eine kleine Auswahl:


The R Datasets Package:

Das Paket "The R Datasets Package" ist in der grundlegenden Installation von R enthalten [vgl. Kapitel 1 zur Installation von R] und beinhaltet eine Sammlung von Datensätzen, die insbesondere zu Lehrzwecken genutzt werden können. Eine Übersicht der enthaltenen Datensätze findet sich hier:

Ein älteres Lehrbeispiel zu den Datensätzen "toothgrowth" und "swiss" findet sich hier:


Regierungen:


Forschungseinrichtungen:


Internationale Organisationen:


Unternehmen:

[teilweise nicht Open Data]

4.4. Import von Datensätzen in R

Die Eingabe von selbst erhobenen Daten ist in R zwar direkt möglich, aber häufig überflüssig, da entsprechende Dateien bereits vorhanden sind. Für eine Direkteingabe steht grundsätzlich der Daten- bzw. Variableneditor zur Verfügung.

Alternativ bietet es sich an, dass bereits erstellte Dateien, bspw. Excel- oder csv-Dateien, in R importiert werden. Insbesondere zur Qualitätssicherung der Daten sollten folgende Tipps beherzigt werden:


Schritt 1: Excel-Dateien als csv-Datei speichern

Es empfiehlt sich die Excel-Datei mit den Daten zunächst als csv-Datei abzuspeichern [unter Windows Datei speichern als ".csv"]. Wenn man die csv-Datei in einem Editor [bspw. Notepad] öffnet, sieht man, welche Daten tatsächlich in R landen ["nackte Daten"]. Hierbei können häufige "Excel-Fehler" noch rechtzeitig erkannt und behoben werden.


Schritt 2: Einlesen von csv- oder Excel-Dateien per R-Befehl

Gebräuchlichster Befehl zum Einlesen von csv-Dateien ist read.csv(). Beispiel: 

read.csv("C:/My Documents/Daten.csv")

Bei der Eingabe des Dateipfads gibt es zwei Besonderheiten zu beachten:

Qualitätsgesicherte Excel-Dateien können auch direkt importiert werden. Hierfür kann bspw. R-Paket readxl installiert und der R-Befehl read_excel() genutzt werden. Beispiel:

install.packages("readxl“)
library (readxl)
Daten_xlsx <- read_excel(„Daten.xlsx“, na=“NA“, sheet=“Blatt1″)


Schritt 3: Abspeichern der Daten in R

Die in R importierten Daten werden als komprimierte R-Datei gespeichert. Beispiel:

save(Daten, file ="Daten.RData")