4.2 Dateiformate

Es gibt eine Vielzahl von Dateiformaten, um nur wenige zu nennen: .xls, .xlsx, .sav, .csv, .txt … Bei Dateien mit der Endung .xlsx von Microsoft oder .sav von SPSS handelt es sich um proprietäre Dateien, welche im Eigentum von Unternehmen stehen. Der Austausch zwischen diesen Formaten ist häufig problematisch, da Formatierungen verloren gehen können und eben nur spezfisch für das Dateiformat ist. Ein offenes und weit verbreitetes Format sind .csv Dateien für comma-separated-values.

🚨 Im deutschsprachigen Raum wird auch ; als Trennzeichen verwendet.

Tidyverse LogosTidyverse LogosTidyverse LogosTidyverse LogosTidyverse LogosTidyverse LogosTidyverse LogosTidyverse Logos

Figure 4.3: Tidyverse Logos

Das Herzstück des tidyverse sind die packages mit dem dazugehörigen Namen im Logo. Es hat sich mit Bezug zum Datenhandling durchgesetzt. Das Designprinzip in den jeweiligen packages baut dabei aufeinander auf.

The tidyverse is an opinionated collection of R packages designed for data science. All packages share an underlying design philosophy, grammar, and data structures.

Package Beschreibung
ggplot2 Erstellen von Abbildungen basierend auf der Grammar of Graphics
dyplr Stellt Funktionen bereit um Daten zu manipulieren, bspw. filter()
tidyr Funktionen um tidy data zu erzeugen, bspw. pivot_longer()
readr Schnelle und effiziente Art Daten einzulesen und zu transformieren
tibble Eine effektivere Darstellung eines dataframe
stringr Vereinfacht das Arbeiten mit Textobjekten
forcats Vereinfacht das Arbeiten mit Faktoren, bspw. relevel()

Alle packages können automatisch heruntergeladen werden mit dem folgenden Befehl:

install.packages("tidyverse") # Muss man nur einmal durchführen
library(tidyverse)            # Muss jedes mal wieder neu "angeschaltet" werden