Have you ever wondered how to keep track of all the effort that went into a certain project? Are you tired of using multiple programms to stay organized and want to have it all under one hood? Then, Taskcoach is a software you might like. It has a nice interface and can manage composite tasks. It is free and open source software and has been translated in several languages. To me the biggest advantage is that it is implemented on and thus can be synced with all major platforms:

  • Linux

  • Mac

  • Windows

  • iOS

Task Coach is a simple open source todo manager to keep track of personal tasks and todo lists. It grew out of a frustration that most task managers do not provide facilities for composite tasks. Often, tasks and other things todo consist of several activities. Task Coach is designed to deal with composite tasks. In addition, it offers effort tracking, categories, and notes. Task Coach is available for Windows, Mac OS X, Linux, and iPhone and iPod Touch.


  • Task coach is quite comprehensive so if you do not need to track a budget there might be easier ways to track that.

  • There is no Android implementation and the iOS-implementation costs although only 1€

A if a picture is worth a thousand words, how much can a thousand pictures tell us? The problem when looking at high-dimensional data, or trying to fit models to them is that our visual system just is not made for “getting” more than two dimensions in static images. There are many approaches to circumvent this problem, most notably interaction plots (wiki), but in the end the most simple solution is to use depth from motion, one of the most powerful 3 cue we have.

While generating an unlimited number of 3D-graphs is a breeze - here you go. The final frontier for me was to combine these graphics into one moving animation.  This is extremly easy to do in Imagemagic, one of my favorite open-source graphics programs. All functions are accessed via a command-line interface. So that that can be used to generate text from images, or combining many different pictures into a single animated gif. That means that you have to make up new tasks for your student assisstant. If you have a bunch of jpgs in your folder the following command combines them into an animated file.

> > convert -delay 10 *.jpg animated.gif > >

The delay argument works as expected to control the offset between pictures.

The website is no looker, but in fact the useage-section gives an great number of extremly useful examples from working with text, to animations, or blurring.

By now, most people should have understood, that R is a extremly powerful programm to calculate all kinds of statistics - though someone still has to implement Bowkers test. What might be less well known is that it has many extremly flexible built-in functions and well supported add-on packages to generate  graphics.

Sheldon might say:

“R uses the worlds most powerful graphics chip - your imagination”

Or put differently the real advantage of R over the drag-and drop approach SPSS uses, is that it let’s you use your brain to develop new graphics.

Excellent introductions can be found here:

  • The basics graphs are well covered on my favorite R-site: Quick-R

  • A library of graphics here

  • Tips for visualizing categorical data and the package of the same name can be found  here

Cons: …so far: We have no idea! ;-)

If you really want to know how much (academic) impact your work has, you can use publish or perish a free little program, that has been around for some time. The software uses google scholar to automatically retrieve publications you have authored and papers that cite you. From this it extracts several citation metrics, most importantly:

  • the number of citations per article and

  • the h-index, i.e. the number of papers (e.g. i) that have at least i citations each.

Once the program is installed it takes seconds to score oneself or one’s arch enemy.

Those of you not only interested in the own performance can use it to assess journals and quickly find most influential works in a particular domain of study.


  • Google scholar is arguably only the second best alternative to ISI web of science. But in addition to beeing free, the author of the program argues here, that it gives a more complete picture than ISI .

  • It is not open source and runs only on windows so there is some room for improvement.

[en]While online-questionnaires are well-established to study differences between individuals, online ratings are rarely employed to asses differences between stimuli. However, online ratings provide an efficient way to collect data about various features of different stimuli. [/en] [de]Obwohl online Fragebögen häufig eingesetzt werden um individuelle Unterschiede zu erfassen, werden diese seltener eingesetzt, um Unterschiede zwischen Stimuli zu untersuchen. Mit der richtigen Software können jedoch auch solche Rating-Untersuchungen effizient online durchgeführt werden. [/de]

[en]Rating Studies vs. Questionnaires

The possibility to conduct questionnaire research via the www has had a profound impact on the way data are collected. There are three main reasons for a departure from paper-pencil based measures. First, online-testing is a more efficient way to collect and process vast amounts of data. A process that is supported by several free software programs (limewire.org). An important side-effect of this is that a broader audience can be addressed. Second, in online-testing tools (scripts) can be used to avoid missing-data or to randomize questions. These tools are extremely powerful in their ability to improve the overall data-quality. Third, and maybe less well known, online-testing automatically generates data on the answering process itself, so-called paradata (Couper, 2000). These advantages have been dealt with in the context of questionnaires or surveys that assess the personality of participants. There are however specific problems when one wants to conduct online rating studies that assess certain aspects / features of stimuli.

The aim of the present paper is to give a practical introduction to conducting online rating studies that are conducted to evaluate the characteristics of different types of stimuli. To that end the existing research on online-rating studies and questionnaires will be discussed. In addition, practical information concerning the conduction of rating-studies will be given. Furthermore, freely available open-source software will be reviewed. After that an example of how paradata can provide information about the processes of generating an answer is provided. Finally, an outlook on how rating-studies can be used not only as a research tool, but in a school setting is given.

Online Rating Studies

For sake of clarity, the term rating studies _will be used to refer to all studies that are aimed at investigating properties of _stimuli, e.g. a list of words, pictures, or sounds. In rating studies a fixed group of questions is presented alongside varying stimuli that are to be rated by participants. Such rating studies are frequently employed in marketing research, but also as a pre-test for reaction-time studies, or as norms for certain stimulus attributes (McRae, Cree, Seidenberg, & McNorgan, 2005). In contrast, the term questionnaire will be used to refer to studies that are aimed at collecting information on individual participants. Questionnaires have been the main focus of previous research, practical tips and software development. As a result most stimulus-norms are collected via paper-pencil methods. Only recently have researchers started to investigate the different issues that are relevant when collecting ratings online. Depending on what is being evaluated, individuals or stimuli, different issues have to be taken into account, when comparing online and paper-pencil methods (Barenboim, Wurm, & Cano, 2010).

Research on Online Rating Studies

There are many studies testing the equivalence of online and paper-pencil questionnaires (see: Buchanan, 2007 for a review). Only a hand full of studies has been conducted that investigate the validity of rating studies conducted online. These either compare online ratings with those collected via paper-pencil (Balota, Pilotti, & Cortese, 2001; Lahl, Göritz, Pietrowsky, & Rosenberg, 2009), or those collected in person in the laboratory (Barenboim et al., 2010; Krantz, Ballard, & Scher, 1997; Parè & Cree, 2009). All of these studies find very high correlations (< .90) between the different rating methods (Balota et al., 2001; Barenboim et al., 2010; Krantz et al., 1997; Lahl et al., 2009; Parè & Cree, 2009). Some of these studies find small but significant mean differences between rating given online and in-person (Lahl et al., 2009; Parè & Cree, 2009). Such mean-differences are irrelevant when the aim of the task is to select items or when the results are used as linear predictors in following experiments. However, they are problematic when directly comparing ratings collected via paper-pencil or online environments, or mixing data from these two ratings methods. Taken together, these studies indicate that online rating studies are equivalent to ratings collected with paper-pencil.

Conducting Online Rating Studies

There are many practical guidelines on best practices in online surveying (Lumsden, 2005; Solomon, 2000). While these are written with online questionnaires in mind, general principles such as usability apply to online rating studies as well. When a researcher wants to conduct an online rating study, she has to decide how to distribute the rating forms.

  1. First, the number of ratings collected for each stimulus, i.e. the number of participants that have to respond to the stimulus, needs to be determined. Collecting ratings from multiple participants is required to account for the variability between participants. This is conceptually similar to the number of items that belong to a specific scale in traditional questionnaires. The number of responses needed to one item, depends on the variance that is expected in the ratings and the required accuracy of the result. Large norming studies for example, usually collect between 20 to 50 ratings for each stimulus (Barenboim et al., 2010; Lahl et al., 2009; McRae et al., 2005). Methods to estimate the agreement are available (Solomon, 2004).

  2. Second, the number of stimuli that each participant is asked to respond to - and depending on this - the number of participants that need to participate - need to be set. If the number of stimuli is small enough every participant can respond to every item. If there are too many stimuli that need to be rated, e.g. when feature production norms for 541concepts have to be collected (McRae et al., 2005), it is necessary to divide the stimulus set in smaller subgroups. In this case, researchers need to specify the number of ratings collected for each stimulus, and the number of stimuli each participant responds to. Mc Rae et al., for example, collected ratings from 30 different participants for each concept. To ask 30 participants to rate all 541 concept would have taken too long. Thus, McRae and colleagues used subsets of 20 to 24 stimuli each participant had to respond to. Responding to such a subset took about 40 minutes. As a result about 725 participants had to be tested over a period of three years, indicating that keeping track of the ratings can become an extremely daunting task with large numbers of stimuli. In comparison, a recent online-study assessed concreteness ratings for over 2,600 nouns, from 3,900 participants within less than five months (Lahl et al., 2009). The Lahl et al. study is an convincing example for the advantages of on-line-ratings when a vast number of items divided into subgroups have to be rated.

It is important to note that different constraints hold when conducting rating studies online or in-person. In paper-pencil rating studies the number of available participants is limited (in a school setting by the number of pupils, or in a university setting by the number of students). So paper-pencil rating forms should be as long as possible. In online studies, the number of participants is of lesser concern but the time it takes to complete the questionnaire is critical. As far as our experience goes it is much easier to find ten participants willing to spend ten minutes than it is to find two participants working on a 50-minute rating study. We and other researchers (Lahl et al., 2009) are using small sets of stimuli that can be rated in about 8 minutes. Research on online questionnaires further suggests that later answers are faster, shorter and more uniform (Galesic & Bosniak, 2009), suggesting satisficing (Krosnik, 1991).

Software for online rating studies

Open-source software for online questionnaires, e.g., limesurvey.org are not designed to meet the requirements of a rating study. First, they do not support automatic sub grouping of stimuli. Different subsets can only be realized by creating different versions of the rating form (each consisting of a different sub-set). Second, only commercial software programs (www.globalpark.com; www.surveypro.com) support item-randomization. Randomization of stimuli is essential for rating studies, because any order effects directly affect the comparison of interest may be as influential as response order effects in polls (Krosnik, 1991). Third, even when sub-grouping is not necessary and order effects are neglected each stimulus and the accompanying question(s) have to be set up as an individual item, making it a very repetitive and time-consuming task.

A software that implements subgrouping and randomization has recently been released as an open-source program (Hirschfeld, Bien, De Vries, Lüttmann, & Schwall, 2010) and Lahl and colleagues also announced to release their software as an open-source project (Lahl et al., 2009). OR-ViS provides an administrative front-end that to specify the stimuli that have to be rated, the questions that should be presented alongside the stimuli, the number of stimuli per participant, and the number of participants for each stimulus. It also offers a simple participant-management features to send participation-mails and avoid multiple participations. Importantly, it also records the response time for each stimulus, enabling the investigation of paradata. A more in depth description of the program and link to a tutorial video can be found at orvis.uni-muenster.de. [/en] [de]

Rating-Studien vs. Fragebögen

Die Möglichkeit, Forschung per Fragebögen im www durchzuführen, hat einen Einfluss auf die Datenerhebung. Es gibt drei Hauptgründe für den Wechsel von paper-pencil auf Online-basierte Methoden. Erstens ist die Online-Erhebung effizienter in der Sammlung und Verarbeitung großer Datenmengen (unterstützt durch diverse freie Softwareprogramme (limewire.org)). Als wichtiger Nebeneffekt ist die Erreichbarkeit einer breiten Adressatengruppe zu beachten. Zweitens können bei Online-Erhebungen Tools (Skripts) benutzt werden, um Missing-Data zu vermeiden oder Fragen zu randomisieren. Dadurch kann die generelle Datenqualität erheblich verbessert werden. Drittens werden bei Online-Erhebungen automatisch Daten über den Beantwortungsprozess generiert, so genannte Paradaten (Couper, 2002). Im Kontext von Fragebögen zur Messung der Persönlichkeit von Teilnehmern sind diese Vorteile offensichtlich. Allerdings gibt es spezifische Probleme, wenn Online-Rating-Studien zur Messung gewisser Merkmale von Stimuli durchgeführt werden möchten.

Das Ziel dieses Beitrags ist eine praktische Einführung in die Durchführung von Online-Rating-Studien, mit welchen die Charakteristiken verschiedener Stimulitypen beurteilt werden können. Außerdem werden praktische Informationen bezüglich der Umsetzung von Rating-Studien gegeben. Zusätzlich wird eine frei verfügbare open-source Software bewertet. Anschließend wird in einem Beispiel gezeigt, wie Paradaten Informationen über den Prozess der Antwortgenerierung geben und  abschließend folgt ein Ausblick, in wie fern Rating-Studien nicht nur als Forschungstool, sondern auch im Unterrichtssetting genutzt werden können.


Der Ausdruck Rating-Studien wird im Folgenden für alle Studien genutzt, welche als Ziel die Untersuchung von Stimulieigenschaften haben, z.B. Wortlisten, Bilder, Geräusche. In Rating-Studien wird eine feste Gruppe von Fragen neben verschiedenen variierenden Stimuli präsentiert, welche von den Teilnehmern geratet werden sollen. Solche Rating-Studien haben sich vor allem im Bereich der Marktforschung aber auch in Form von Pretests in Reaktionszeitstudien implementiert (McRae, Cree, Seidenberg & McNorgan, 2005).

Im Gegensatz hierzu wird der Ausdruck _Fragebogen _für Studien genutzt, welche Informationen von individuellen Teilnehmern sammeln. Fragebögen haben in bisheriger Forschung, bei praktischen Tipps und Softwareentwicklung den Hauptfokus dargestellt. Als Folge dessen werden die meisten Stimulusnormen per paper-pencil-Methode gesammelt. Erst seit Kurzem werden auch die Aspekte untersucht, die zur Sammlung von Online-Ratings relevant sind. Abhängig davon, ob Individuen oder Stimuli beurteilt werden sollen, müssen verschiedene Aspekte bei dem Vergleich von Online- und paper-pencil-Methoden berücksichtig werden (Barenboim, Wurm, & Cano, 2010).

Forschung bezüglich Online-Rating-Studien

Verschiedene Studien haben die Äquivalenz von Online- und paper-pencil-Fragebögen untersucht (see: Buchanan, 2007 für ein Review), aber nur einige wenige Studien haben sich mit der Validität von online durchgeführten Ratingstudien beschäftigt. Diese vergleichen entweder Online-ratings mit Ratings, die per paper-pencil erhoben wurden (Balota, Pilotti, & Cortese, 2001; Lahl, Göritz, Pietrowsky, & Rosenberg, 2009) oder mit Ratings, welche persönlich im Labor erhoben wurden (Barenboim et al., 2010; Krantz, Ballard, & Scher, 1997; Parè & Cree, 2009). In all diesen Studien finden sich hohe Korrelationen (<.90) zwischen den verschieden Rating-Methoden (Balota et al., 2001; Barenboim et al., 2010; Krantz et al., 1997; Lahl et al., 2009; Parè & Cree, 2009). Einige Studien finden kleine, aber signifikante Mittelwertunterschiede zwischen online- und persönlich abgegebenen Ratings (Lahl et al., 2009; Parè & Cree, 2009). Diese Unterschiede sind zwar irrelevant, wenn das Aufgabenziel die Auswahl von Items ist oder die Ergebnisse als lineare Prädiktoren in folgenden Experimenten fungieren sollen. Trotzdem sind die Unterschiede problematisch, wenn die Online und per paper-pencil erhobenen Daten direkt miteinander verglichen werden sollen. Zusammengenommen zeigen die Studien aber dennoch, dass Online Rating-Studien äquivalent zu paper-pencil-Ratings sind.

Durchführung von Online-Rating-Studien

Es gibt verschiedene praktische Richtlinien zur Handhabung von Online-Erhebungen (Lumsden, 2005; Solomon, 2000), welche sich allerdings in der Regel auf Online-Fragebögen beziehen. Grundlegende Prinzipien wie Usability betreffen aber natürlich auch die Rating-Studien. Bei der Online-Umsetzung einer Rating-Studie müssen verschiedene Entscheidungen über die Verteilung der Rating-Formen getroffen werden.

  1. Zum einen muss die Anzahl der erwünschten Ratings pro Stimulus festgelegt werden, also wie viele Teilnehmer auf den Stimulus reagieren sollen. Hierbei muss die Variabilität der Teilnehmer berücksichtig werden (sowie bei Fragebögen die Itemanzahl für die Repräsentation bestimmter Skalen berücksichtigt werden muss). Die Anzahl der benötigten Antworten/Ratings hängt von der erwarteten Varianz in den Ratings und der benötigten Genauigkeit des Ergebnisses ab. So werden für große Normstudien z.B. in der Regel zwischen 20 und 50 Ratings pro Stimulus benötigt (Barenboim et al., 2010; Lahl et al., 2009; McRae et al., 2005).

  2. Zweitens muss die Anzahl der insgesamt von jedem Teilnehmer zu ratenden Stimuli und, abhängig davon, die Anzahl der benötigten Teilnehmer festgelegt werden. Bei kleiner Stimulusanzahl kann jeder Teilnehmer jeden Stimuli raten, bei zu großer Stimulusanzahl müssen das Set in Subgruppen aufgeteilt werden.

Es gibt verschiedene Beschränkungen abhängig davon, ob Rating-Studien online oder persönlich umgesetzt werden. Bei einer paper-pencil-Durchführung ist die Anzahl verfügbarer Teilnehmer begrenzt (z.B. durch die Anzahl der Studenten bei einem Uni-Setting). Deshalb sollten paper-pencil-Ratings so lang wie möglich sein. In Online-Ratings sorgt zwar die Teilnehmerzahl für weniger Besorgnis, dafür allerdings ist die Zeit zur Bearbeitung der Untersuchung entscheiden. Nach unseren Erfahrungen ist es einfacher 10 Teilnehmer für eine 10-Minuten-Erhebung zu finden als zwei für eine 50-Minuten-Rating-Studie. Darum nutzen wir und andere Forscher (Lahl et al., 2009) kleine Stimulisets die innerhalb von acht Minuten geratet werden können. Es hat sich außerdem gezeigt, dass spätere Antworten schneller, kürzer und einheitlicher gegeben werden (Galesic & Bosniak, 2009).

Software für Online-Rating-Studien

Open-Source Software für Onlinefragebögen (z.B. limesurvey.org) entsprechen nicht den Anforderungen von Rating-Studien. Sie unterstützen zum einen weder die automatische Sub-Gruppierung von Stimuli. Verschiedene Subgruppen können nur über das Erstellen verschiedener Versionen, die alle ein anderes Sub-Set enthalten, realisiert werden. Außerdem unterstützen nur kommerzielle Programme (www.globalpark.com, www.surveypro.com) automatische Itemrandomisierung. Diese ist allerdings wichtig für Rating-Studien um verschiedene Positionseffekte auszuschließen. Drittens, auch wenn eine Subgruppierung und eine Randomisierung vernachlässigt werden können, müssen bei der vorhanden Open-Source Software jeder Stimulus mit jeder dazugehörigen Frage einzeln gesetzt werden, was sehr zeitaufwändig ist.

Eine Software, welche sowohl Subgruppierungen als auch Randomisierung zulässt, wurde kürzlich als open-source-Programm freigelassen. (Hirschfeld, Bien, De Vries, Lüttmann, & Schwall, 2010) und Lahl und Kollegen haben ihre Software als Open-Source zur Verfügung gestellt (Lahl et al., 2009). OR-ViS beinhaltet eine administrative Front, auf welcher die zu ratenden Stimuli und die neben den Stimuli zu präsentierenden Fragen spezifiziert werden, außerdem noch die Anzahl der benötigten Stimuli pro Teilnehmer und die Anzahl der benötigten Teilnehmer pro Stimulus. Zusätzlich bietet es eine einfache Teilnehmerverwaltung um Einladungen zu verschicken und Mehrfachteilnahmen zu vermeiden. Wichtig ist auch die Aufzeichnung der Reaktionszeit pro Stimulus, wodurch auch Paradaten untersucht werden können. Eine tiefergehende Beschreibung des Programs und der Link zu einem Anleitungsvideo findet sich auf orvis.uni-muenster.de [/de]

Für Anfänger ist es oft ein großes Problem, Daten in R einzulesen ehe diese manipuliert werden können. Im Folgenden stelle ich meine Lieblingsbefehle vor, die ich verwende. Die sind nicht sehr elegant, aber effizient.

Wenn jemand weitere elegante Schritte kennt: Schreibt einen Kommentar!

Im Folgenden wird das Paket foreign , sowie die Funktionen set.wd(), require(), read.table(), read.spss(), names(), str(), summary(), unique(), table(), _und attach()_ verwendet.

1. Vorbereitung:

Der erste Schritt in einem Skript sind bei mir immer das Festlegen eines Verzeichnisses, in dem die Daten zu finden sind und in dem etwaige Outputs gespeichert werden.

>require(foreign) >setwd(“/Users/gerrit/”)

2. Daten einlesen: Folgende Befehle verwende ich zum Einlesen von Daten. Wenn ich diese selbst erstelle, steht in der ersten Zeile immer der Variablenname (also: header=T), ist immer ein Tabulator das Trennzeichen zwischen den Spalten (also sep=”\t”) und der Dezimaltrenner ein Komma (also dec=”,”) .

>data<-read.table("beispiel.txt", header=T, sep=”\t”, dec=”,”)>csv<-read.csv("beispiel.csv", header=T, sep=”\t”, dec=”,”)

Da man es sich nicht immer aussuchen kann, was man bekommt, sollte man auch auf den Fall vorbereitet sein, in dem man SPSS-files bekommt.


Der Befehl gibt einem auch die Möglichkeit direkt die Labels zu verwenden, die sys-miss. Werte aus SPSS zu übernehmen, sowie die Daten in ein data.frame objekt zu speichern.

3. Kontrollieren: Zuerst sollte man überprüfen, ob das mit den einzelnen Variablen/Spalten geklappt hat. Dazu verwendet man folgende Befehle, die einem die Namen der Spalten angibt, bzw auch zeigt, welche Art von Variable sich dahinter verbirgt.

>names(data) >str(data)

Danach erst schaue ich mir an, ob die Werte passen. Für numerische Variablen reicht oft die Übersicht, die folgender Befehl erzeugt. Oder eine kleine Graphik

>summary(data) >plot(data)

Für kategoriale Variablen kann man mit den folgenden Befehlen checken, ob (1) alle Kategorien vorkommen, die man möchte und (2)  alle mit der richtigen Häufigkeit vorkommen.

>unique(data$VARIABLE1) >table(data$VARIABLE1)

4. Attach Data

Erst, wenn das alles stimmt, sollte man die einzelnen Variablen zugreifbar machen.


Einleitung Linear mixed effects modeling ist eine schöne Sache, gerade wenn man -  wie so oft in psycholinguistischen Experimenten - komplexe Daten analysieren muss. Top beschrieben sind diese in:

Baayen, R. H., Davidson, D. J., & Bates, D. M. (2008). Mixed-effects modeling with crossed random effects for subjects and items. Journal of Memory and Language, 59(4), 390-412.

In der folgenden Einführung werden die Packages languageR und foreign benötigt und die Funktionen read.spss(), lmer(), sowie pvals.fnc() verwendet.

Basics 1. Modell definieren

>mod_1<-lmer(answertime~data_corr$viert+(1|proband)+(1|image), data=data_corr)

In dem Modell mod_1 wird answertime vorhergesagt durch die Variable viert. Proband und image sind crossed-random factors.

  1. Parameter ausgeben

Gibt die  Modellparameter (Schätzer, t-Werte, etc.) aus.

  1. Statistiken berechnen

Führt eine Marcov-Chain-Monte Carlo (MCMC) Simulation für die Parameter durch.

Der Einfluss einzelner Prädiktoren Wenn man wissen will, ob und wie die Hinzunahme eines Prädiktors die Vorhersage durch andere Faktoren beeinflusst, gibt es drei Wege Ihr wollt also zwei Modelle vergleichen, die so ähnlich aussehen.

  1. Modellvergleiche
>mod_0<-lmer(RT~F1+F2+F3+(1|proband)+(1|image))   2. >mod_1<-lmer(RT~F1+F2+F3+Rating+(1|proband)+(1|image)) mod_0 = RTs nur durch drei Haupteffekte vorhergesagt mod_1 = RT durch drei Haupteffekte plus Rating vorhergesagt.

Im Prinzip hat man nach der MCMC-Simulation Mittelwerte und Standardabweichungen für die einzelnen Modellparameter, z.B. das Betagewicht von F3 und man kann testen, ob dieses in den beiden Modellen gleich oder signifikant unterschiedlich ist.

  1. Interaktionstest Evtl. ist man aber auch an Interaktionen zwischen F3 und Rating interessiert, Dann kann man ein Modell mod_2 definieren, das anstelle der Haupteffekte F3+Rating die Interaktion F3*Rating beeinhaltet. Diese sollte dann signifikant werden.

  2. Vergleich der gesamten Modelle Außerdem könnt Ihr auch die Modelle insgesamt miteinander vergleichen und gucken, ob die Hinzunahme eines Faktors den Modellfit signifikant verbessert. Das geht mit

>anova(mod_0, mod_1)
Hier würde ich dann aber ein Modell mod_3<-lmer(RT~F1+F2+Rating+(1 proband)+(1 image), data=SabrinasDaten) mit mod_1 vergleichen (> anova(mod_3, mod_1) ) und erwarten, dass die Hinzunahme von F3 zu keiner signifikanten Verbesserung führt.


#Notwendige Packages laden

#Daten einlesen und bereinigen also falsche Antworten raus etc.

data<-subset(temp2, temp2$question_id==75)

#Model definieren, Parameter ausgeben und Statistiken berechnen
lmer<-lmer(answertime~viert+(1|proband)+(1|image), data=data_corr)
print(lmer, cor=F)
#pvals.fnc(lmer, addPlot=T)$fixed