R: Daten einlesen & kontrollieren

Reading time ~1 minute

Für Anfänger ist es oft ein großes Problem, Daten in R einzulesen ehe diese manipuliert werden können. Im Folgenden stelle ich meine Lieblingsbefehle vor, die ich verwende. Die sind nicht sehr elegant, aber effizient.

Wenn jemand weitere elegante Schritte kennt: Schreibt einen Kommentar!

Im Folgenden wird das Paket foreign , sowie die Funktionen set.wd(), require(), read.table(), read.spss(), names(), str(), summary(), unique(), table(), _und attach()_ verwendet.

1. Vorbereitung:

Der erste Schritt in einem Skript sind bei mir immer das Festlegen eines Verzeichnisses, in dem die Daten zu finden sind und in dem etwaige Outputs gespeichert werden.

>require(foreign) >setwd(“/Users/gerrit/”)

2. Daten einlesen: Folgende Befehle verwende ich zum Einlesen von Daten. Wenn ich diese selbst erstelle, steht in der ersten Zeile immer der Variablenname (also: header=T), ist immer ein Tabulator das Trennzeichen zwischen den Spalten (also sep=”\t”) und der Dezimaltrenner ein Komma (also dec=”,”) .

>data<-read.table("beispiel.txt", header=T, sep=”\t”, dec=”,”)>csv<-read.csv("beispiel.csv", header=T, sep=”\t”, dec=”,”)

Da man es sich nicht immer aussuchen kann, was man bekommt, sollte man auch auf den Fall vorbereitet sein, in dem man SPSS-files bekommt.

>spss<-read.spss("spss_file.sav")

Der Befehl gibt einem auch die Möglichkeit direkt die Labels zu verwenden, die sys-miss. Werte aus SPSS zu übernehmen, sowie die Daten in ein data.frame objekt zu speichern.

3. Kontrollieren: Zuerst sollte man überprüfen, ob das mit den einzelnen Variablen/Spalten geklappt hat. Dazu verwendet man folgende Befehle, die einem die Namen der Spalten angibt, bzw auch zeigt, welche Art von Variable sich dahinter verbirgt.

>names(data) >str(data)

Danach erst schaue ich mir an, ob die Werte passen. Für numerische Variablen reicht oft die Übersicht, die folgender Befehl erzeugt. Oder eine kleine Graphik

>summary(data) >plot(data)

Für kategoriale Variablen kann man mit den folgenden Befehlen checken, ob (1) alle Kategorien vorkommen, die man möchte und (2)  alle mit der richtigen Häufigkeit vorkommen.

>unique(data$VARIABLE1) >table(data$VARIABLE1)

4. Attach Data

Erst, wenn das alles stimmt, sollte man die einzelnen Variablen zugreifbar machen.

>attach(data)

The world is flat F(1,18) = 39.200; p = .335 - or p < .01 or p <.001? - Check your stats!

A reviewers dream has come true. The new __statcheck__-package for [R](r-project.org) automagically checks the accurate __reporting__ of ...… Continue reading

Publication-lists-4-Your-Website

Published on June 19, 2015

Relaunch on Jekyll

Published on June 04, 2015