#datascience
Datenanalyse mit R
Online-Tutorial für Anfänger
4. Erstellung und Import von Datensätzen
4.1. Vorbemerkung
Im Rahmen von empirischen Forschungsprojekten werden häufig mittels von entsprechend konzipierten Fragebögen eigene Daten erhoben. In diesem Kapitel werden daher zunächst Hinweise zur Erstellung eigener Datensätze gegeben, insbesondere auch zur Konzeption von Fragebögen.
Bei der Nutzung bereits vorhandener Daten entfällt dieser Schritt naturgemäß. So gibt es eine Vielzahl von Quellen, die unterschiedlichste Daten öffentlich frei verfügbar machen [oder kommerziell anbieten]. In diesem Kapitel werden Quellen für frei verfügbare Daten vorgestellt.
Zum Schluss werden Tipps zum Import von Datensätzen gegeben, die als Excel- oder csv-Datei erstellt wurden bzw. vorliegen.
4.2. Erstellung eigener Datensätze
Bei der Konzeption von Fragebögen ist es wichtig zu verstehen, dass jede Frage [oder Subfrage] letztlich in einer Variable mündet. Ein sogenanntes Kodierungsschema hilft die Antwortmöglichkeiten des Fragebogens in Rohdaten zu übersetzen, die in R ausgewertet werden können.
Grundlegende Tipps zur Kodierung:
Jeder Frage sollte ein sprechender Kurzname [Variablenname] zugewiesen werden.
Kategoriale Variablen mit mehreren Antwortmöglichkeiten müssen mit Zahlen versehen werden.
Einfaches Beispiel:
Haben Sie bereits ETF* erworben?
Kurzname für Frage/Variable:
etf1
Kodierung der Antworten:
ja → 1
nein → 0
Sind ETF* geeignet um Geld anzulegen?
Kurzname für Frage/Variable:
etf2
Kodierung der Antworten:
trifft sehr zu → 1
trifft eher zu → 2
weder/noch → 3
trifft eher nicht zu → 4
trifft überhaupt nicht zu → 5
* Abkürzung für Exchange Traded Funds [= börsengehandelte Fonds]
Exkurs: Umgang mit fehlenden Werten
Wenn eine Person beim Ausfüllen des Fragebogens nicht alle Fragen beantwortet, fehlen Werte.
Wie können wir damit umgehen?
Möglichkeit: Alle Daten dieser Person werden radikal gelöscht bzw. nicht berücksichtigt. Nachteil: Die Daten dieser Person gehen komplett verloren.
Möglichkeit: Die fehlenden Werte ["NA"] verbleiben im Datensatz. Bei den meisten statistischen Analysen nimmt R automatisch oder per entsprechender Ergänzung des Befehls darauf Rücksicht [vgl. Kapitel 3 zu Rechenoperationen].
4.3. Nutzung frei verfügbarer Daten
Als frei verfügbare Daten [engl. Open Data] werden Daten bezeichnet, die von jedermann zu jedem Zweck genutzt, weiterverbreitet und -verwendet werden dürfen. Es gibt eine Vielzahl von Quellen, die unterschiedlichste Daten öffentlich frei verfügbar machen. Im Folgendem findet sich eine kleine Auswahl:
The R Datasets Package:
Das Paket "The R Datasets Package" ist in der grundlegenden Installation von R enthalten [vgl. Kapitel 1 zur Installation von R] und beinhaltet eine Sammlung von Datensätzen, die insbesondere zu Lehrzwecken genutzt werden können. Eine Übersicht der enthaltenen Datensätze findet sich hier:
Ein älteres Lehrbeispiel zu den Datensätzen "toothgrowth" und "swiss" findet sich hier:
Regierungen:
https://www.govdata.de → GovData ist "das Datenportal für Deutschland" [d.h. von Bund, Ländern und Gemeinden].
https://www.data.gov → Datenportal der US-Regierung ["The home of the U.S. Government’s open data"]
Forschungseinrichtungen:
https://ec.europa.eu/eurostat/data/database → Datenportal des Statistischen Amtes der Europäischen Union [Eurostat] ["The Key to European statistics"]
http://opendata.cern.ch → Datenportal der Europäischen Organisation für Kernforschung [CERN] ["Explore more than two petabytes of open data from particle physics!"]
https://fred.stlouisfed.org → Federal Reserve Bank of St. Louies ["Your trusted data source since 1991. Download, graph, and track 766,000 US and international time series from 101 sources."]
Internationale Organisationen:
http://data.worldbank.org → Datenportal der Weltbank ["Free and open access to global development data"]
http://www.oecd.org/statistics → Organisation für wirtschaftliche Zusammenarbeit und Entwicklung [OECD] ["Find, compare and share the latest OECD data: charts, maps, tables and related publications …"]
Unternehmen:
[teilweise nicht Open Data]http://aws.amazon.com/datasets → Datenportal von Amazon, u. a. NASA-Daten, Klimadaten, Daten aus der Wikipedia oder vom Human Genome Project.
https://trends.google.com → Datenportal von Google ["Hier erfahren Sie, wie Daten von Google verwendet werden können, um eine Geschichte zu erzählen."]
https://www.google.com/finance → Datenportal von Google ["Monitor the market with Google Finance. Get free stock quotes and up-to-date financial news."]
https://finance.yahoo.com → Datenportal von Yahoo ["At Yahoo Finance, you get free stock quotes, up-to-date news ..."]
https://www.quandl.com → Datenportal von Quandl ["The world’s most powerful data lives on Quandl. The premier source for financial, economic, and alternative datasets, serving investment professionals."]
4.4. Import von Datensätzen in R
Die Eingabe von selbst erhobenen Daten ist in R zwar direkt möglich, aber häufig überflüssig, da entsprechende Dateien bereits vorhanden sind. Für eine Direkteingabe steht grundsätzlich der Daten- bzw. Variableneditor zur Verfügung.
Alternativ bietet es sich an, dass bereits erstellte Dateien, bspw. Excel- oder csv-Dateien, in R importiert werden. Insbesondere zur Qualitätssicherung der Daten sollten folgende Tipps beherzigt werden:
Schritt 1: Excel-Dateien als csv-Datei speichern
Es empfiehlt sich die Excel-Datei mit den Daten zunächst als csv-Datei abzuspeichern [unter Windows Datei speichern als ".csv"]. Wenn man die csv-Datei in einem Editor [bspw. Notepad] öffnet, sieht man, welche Daten tatsächlich in R landen ["nackte Daten"]. Hierbei können häufige "Excel-Fehler" noch rechtzeitig erkannt und behoben werden.
Schritt 2: Einlesen von csv- oder Excel-Dateien per R-Befehl
Gebräuchlichster Befehl zum Einlesen von csv-Dateien ist read.csv(). Beispiel:
read.csv("C:/My Documents/Daten.csv")
Bei der Eingabe des Dateipfads gibt es zwei Besonderheiten zu beachten:
Der bei Windows genutzte Backslash ”\" muss durch Forwardslashes ”/” ersetzt werden.
Groß- und Kleinschreibung ist wichtig.
Qualitätsgesicherte Excel-Dateien können auch direkt importiert werden. Hierfür kann bspw. R-Paket readxl installiert und der R-Befehl read_excel() genutzt werden. Beispiel:
install.packages("readxl“)
library (readxl)
Daten_xlsx <- read_excel(„Daten.xlsx“, na=“NA“, sheet=“Blatt1″)
Schritt 3: Abspeichern der Daten in R
Die in R importierten Daten werden als komprimierte R-Datei gespeichert. Beispiel:
save(Daten, file ="Daten.RData")