#datascience
Datenanalyse mit R
Online-Tutorial für Anfänger
2.1. Vorbemerkung
In diesem Kapitel wird eine kurze Zusammenfassung zu den verschiedenen Datenobjekten in R gegeben. Alle Datenobjekte sind Vektoren, die eine gewisse Struktur aufweisen. Ebendiese wird durch
die Länge des Vektors und
den Modus der einzelnen Vektorelemente und des ganzen Vektors charakterisiert.
Neben den beiden grundlegenden Eigenschaften Länge und Modus gibt es spezielle Objekt- und Datentypen.
2.2. Länge und Modus
Die Länge eines Vektors ist nicht-negativ und endlich. Sie heißt n. Erwähnenswerte Spezialfälle sind:
Nullvektoren [n = 0]
Skalare [n = 1]
Die Elemente eines Vektors können die folgenden sieben Modi haben:
logical → boolesche Werte, d. h. TRUE oder FALSE
numeric: integer → ganze Zahlen, bspw. 5 oder -4
numeric: double → Fließkommazahlen, bspw. 2.3 oder 4.5e8
[Achtung: In R fungieren Punkte als Dezimalzeichen]complex → komplexe Zahlen, bspw. -5 + 4i
character → Zeichenketten, bspw. abc123
raw → Byte
list → Falls die Elemente eines Vektors unterschiedliche Modi haben, spricht man von "rekursiven" Vektoren mit dem Modus list [kurz: Listen]. Listen sind gängige und wichtige Datenobjekte in R. Falls alle Elemente eines Vektors den selben Modus 1 bis 6 [wie der ganze Vektor] haben, spricht man von "atomaren" Vektoren.
2.3. Spezielle Objekt- und Datentypen
Objekttypen:
factor → Objekttyp ermöglicht die gemeinsame Speicherung von zwei Informationen [level, label] in nur einer Variable: level hat meistens den Modus numeric [integer], z. B. 1, 2, und Label
arrays → ähneln Vektoren, erlauben zudem die Erzeugung höherdimensionaler Objekte. In der Praxis werden Arrays genutzt, um Matrizen [2-dimensionale Arrays; alle Elemente haben den gleichen Modus] zu erzeugen.
dataframe → eine Liste mit atomaren Vektoren gleicher Länge
xts → Datentyp [bzw. Paket] für Zeitreihenanalysen, z. B. hilfreich bei der Analyse von Aktienkursen
Datentypen:
NA → fehlende Werte
NULL → leere Werte
Inf → zu große Zahl bzw. unendlich [zumindest wenn es nach R geht]
NaN → mathematisch nicht definiert