Eine Einführung in Online Rating Studien

Reading time ~13 minutes

[en]While online-questionnaires are well-established to study differences between individuals, online ratings are rarely employed to asses differences between stimuli. However, online ratings provide an efficient way to collect data about various features of different stimuli. [/en] [de]Obwohl online Fragebögen häufig eingesetzt werden um individuelle Unterschiede zu erfassen, werden diese seltener eingesetzt, um Unterschiede zwischen Stimuli zu untersuchen. Mit der richtigen Software können jedoch auch solche Rating-Untersuchungen effizient online durchgeführt werden. [/de]

[en]Rating Studies vs. Questionnaires

The possibility to conduct questionnaire research via the www has had a profound impact on the way data are collected. There are three main reasons for a departure from paper-pencil based measures. First, online-testing is a more efficient way to collect and process vast amounts of data. A process that is supported by several free software programs (limewire.org). An important side-effect of this is that a broader audience can be addressed. Second, in online-testing tools (scripts) can be used to avoid missing-data or to randomize questions. These tools are extremely powerful in their ability to improve the overall data-quality. Third, and maybe less well known, online-testing automatically generates data on the answering process itself, so-called paradata (Couper, 2000). These advantages have been dealt with in the context of questionnaires or surveys that assess the personality of participants. There are however specific problems when one wants to conduct online rating studies that assess certain aspects / features of stimuli.

The aim of the present paper is to give a practical introduction to conducting online rating studies that are conducted to evaluate the characteristics of different types of stimuli. To that end the existing research on online-rating studies and questionnaires will be discussed. In addition, practical information concerning the conduction of rating-studies will be given. Furthermore, freely available open-source software will be reviewed. After that an example of how paradata can provide information about the processes of generating an answer is provided. Finally, an outlook on how rating-studies can be used not only as a research tool, but in a school setting is given.

Online Rating Studies

For sake of clarity, the term rating studies _will be used to refer to all studies that are aimed at investigating properties of _stimuli, e.g. a list of words, pictures, or sounds. In rating studies a fixed group of questions is presented alongside varying stimuli that are to be rated by participants. Such rating studies are frequently employed in marketing research, but also as a pre-test for reaction-time studies, or as norms for certain stimulus attributes (McRae, Cree, Seidenberg, & McNorgan, 2005). In contrast, the term questionnaire will be used to refer to studies that are aimed at collecting information on individual participants. Questionnaires have been the main focus of previous research, practical tips and software development. As a result most stimulus-norms are collected via paper-pencil methods. Only recently have researchers started to investigate the different issues that are relevant when collecting ratings online. Depending on what is being evaluated, individuals or stimuli, different issues have to be taken into account, when comparing online and paper-pencil methods (Barenboim, Wurm, & Cano, 2010).

Research on Online Rating Studies

There are many studies testing the equivalence of online and paper-pencil questionnaires (see: Buchanan, 2007 for a review). Only a hand full of studies has been conducted that investigate the validity of rating studies conducted online. These either compare online ratings with those collected via paper-pencil (Balota, Pilotti, & Cortese, 2001; Lahl, Göritz, Pietrowsky, & Rosenberg, 2009), or those collected in person in the laboratory (Barenboim et al., 2010; Krantz, Ballard, & Scher, 1997; Parè & Cree, 2009). All of these studies find very high correlations (< .90) between the different rating methods (Balota et al., 2001; Barenboim et al., 2010; Krantz et al., 1997; Lahl et al., 2009; Parè & Cree, 2009). Some of these studies find small but significant mean differences between rating given online and in-person (Lahl et al., 2009; Parè & Cree, 2009). Such mean-differences are irrelevant when the aim of the task is to select items or when the results are used as linear predictors in following experiments. However, they are problematic when directly comparing ratings collected via paper-pencil or online environments, or mixing data from these two ratings methods. Taken together, these studies indicate that online rating studies are equivalent to ratings collected with paper-pencil.

Conducting Online Rating Studies

There are many practical guidelines on best practices in online surveying (Lumsden, 2005; Solomon, 2000). While these are written with online questionnaires in mind, general principles such as usability apply to online rating studies as well. When a researcher wants to conduct an online rating study, she has to decide how to distribute the rating forms.

  1. First, the number of ratings collected for each stimulus, i.e. the number of participants that have to respond to the stimulus, needs to be determined. Collecting ratings from multiple participants is required to account for the variability between participants. This is conceptually similar to the number of items that belong to a specific scale in traditional questionnaires. The number of responses needed to one item, depends on the variance that is expected in the ratings and the required accuracy of the result. Large norming studies for example, usually collect between 20 to 50 ratings for each stimulus (Barenboim et al., 2010; Lahl et al., 2009; McRae et al., 2005). Methods to estimate the agreement are available (Solomon, 2004).

  2. Second, the number of stimuli that each participant is asked to respond to - and depending on this - the number of participants that need to participate - need to be set. If the number of stimuli is small enough every participant can respond to every item. If there are too many stimuli that need to be rated, e.g. when feature production norms for 541concepts have to be collected (McRae et al., 2005), it is necessary to divide the stimulus set in smaller subgroups. In this case, researchers need to specify the number of ratings collected for each stimulus, and the number of stimuli each participant responds to. Mc Rae et al., for example, collected ratings from 30 different participants for each concept. To ask 30 participants to rate all 541 concept would have taken too long. Thus, McRae and colleagues used subsets of 20 to 24 stimuli each participant had to respond to. Responding to such a subset took about 40 minutes. As a result about 725 participants had to be tested over a period of three years, indicating that keeping track of the ratings can become an extremely daunting task with large numbers of stimuli. In comparison, a recent online-study assessed concreteness ratings for over 2,600 nouns, from 3,900 participants within less than five months (Lahl et al., 2009). The Lahl et al. study is an convincing example for the advantages of on-line-ratings when a vast number of items divided into subgroups have to be rated.

It is important to note that different constraints hold when conducting rating studies online or in-person. In paper-pencil rating studies the number of available participants is limited (in a school setting by the number of pupils, or in a university setting by the number of students). So paper-pencil rating forms should be as long as possible. In online studies, the number of participants is of lesser concern but the time it takes to complete the questionnaire is critical. As far as our experience goes it is much easier to find ten participants willing to spend ten minutes than it is to find two participants working on a 50-minute rating study. We and other researchers (Lahl et al., 2009) are using small sets of stimuli that can be rated in about 8 minutes. Research on online questionnaires further suggests that later answers are faster, shorter and more uniform (Galesic & Bosniak, 2009), suggesting satisficing (Krosnik, 1991).

Software for online rating studies

Open-source software for online questionnaires, e.g., limesurvey.org are not designed to meet the requirements of a rating study. First, they do not support automatic sub grouping of stimuli. Different subsets can only be realized by creating different versions of the rating form (each consisting of a different sub-set). Second, only commercial software programs (www.globalpark.com; www.surveypro.com) support item-randomization. Randomization of stimuli is essential for rating studies, because any order effects directly affect the comparison of interest may be as influential as response order effects in polls (Krosnik, 1991). Third, even when sub-grouping is not necessary and order effects are neglected each stimulus and the accompanying question(s) have to be set up as an individual item, making it a very repetitive and time-consuming task.

A software that implements subgrouping and randomization has recently been released as an open-source program (Hirschfeld, Bien, De Vries, Lüttmann, & Schwall, 2010) and Lahl and colleagues also announced to release their software as an open-source project (Lahl et al., 2009). OR-ViS provides an administrative front-end that to specify the stimuli that have to be rated, the questions that should be presented alongside the stimuli, the number of stimuli per participant, and the number of participants for each stimulus. It also offers a simple participant-management features to send participation-mails and avoid multiple participations. Importantly, it also records the response time for each stimulus, enabling the investigation of paradata. A more in depth description of the program and link to a tutorial video can be found at orvis.uni-muenster.de. [/en] [de]

Rating-Studien vs. Fragebögen

Die Möglichkeit, Forschung per Fragebögen im www durchzuführen, hat einen Einfluss auf die Datenerhebung. Es gibt drei Hauptgründe für den Wechsel von paper-pencil auf Online-basierte Methoden. Erstens ist die Online-Erhebung effizienter in der Sammlung und Verarbeitung großer Datenmengen (unterstützt durch diverse freie Softwareprogramme (limewire.org)). Als wichtiger Nebeneffekt ist die Erreichbarkeit einer breiten Adressatengruppe zu beachten. Zweitens können bei Online-Erhebungen Tools (Skripts) benutzt werden, um Missing-Data zu vermeiden oder Fragen zu randomisieren. Dadurch kann die generelle Datenqualität erheblich verbessert werden. Drittens werden bei Online-Erhebungen automatisch Daten über den Beantwortungsprozess generiert, so genannte Paradaten (Couper, 2002). Im Kontext von Fragebögen zur Messung der Persönlichkeit von Teilnehmern sind diese Vorteile offensichtlich. Allerdings gibt es spezifische Probleme, wenn Online-Rating-Studien zur Messung gewisser Merkmale von Stimuli durchgeführt werden möchten.

Das Ziel dieses Beitrags ist eine praktische Einführung in die Durchführung von Online-Rating-Studien, mit welchen die Charakteristiken verschiedener Stimulitypen beurteilt werden können. Außerdem werden praktische Informationen bezüglich der Umsetzung von Rating-Studien gegeben. Zusätzlich wird eine frei verfügbare open-source Software bewertet. Anschließend wird in einem Beispiel gezeigt, wie Paradaten Informationen über den Prozess der Antwortgenerierung geben und  abschließend folgt ein Ausblick, in wie fern Rating-Studien nicht nur als Forschungstool, sondern auch im Unterrichtssetting genutzt werden können.


Der Ausdruck Rating-Studien wird im Folgenden für alle Studien genutzt, welche als Ziel die Untersuchung von Stimulieigenschaften haben, z.B. Wortlisten, Bilder, Geräusche. In Rating-Studien wird eine feste Gruppe von Fragen neben verschiedenen variierenden Stimuli präsentiert, welche von den Teilnehmern geratet werden sollen. Solche Rating-Studien haben sich vor allem im Bereich der Marktforschung aber auch in Form von Pretests in Reaktionszeitstudien implementiert (McRae, Cree, Seidenberg & McNorgan, 2005).

Im Gegensatz hierzu wird der Ausdruck _Fragebogen _für Studien genutzt, welche Informationen von individuellen Teilnehmern sammeln. Fragebögen haben in bisheriger Forschung, bei praktischen Tipps und Softwareentwicklung den Hauptfokus dargestellt. Als Folge dessen werden die meisten Stimulusnormen per paper-pencil-Methode gesammelt. Erst seit Kurzem werden auch die Aspekte untersucht, die zur Sammlung von Online-Ratings relevant sind. Abhängig davon, ob Individuen oder Stimuli beurteilt werden sollen, müssen verschiedene Aspekte bei dem Vergleich von Online- und paper-pencil-Methoden berücksichtig werden (Barenboim, Wurm, & Cano, 2010).

Forschung bezüglich Online-Rating-Studien

Verschiedene Studien haben die Äquivalenz von Online- und paper-pencil-Fragebögen untersucht (see: Buchanan, 2007 für ein Review), aber nur einige wenige Studien haben sich mit der Validität von online durchgeführten Ratingstudien beschäftigt. Diese vergleichen entweder Online-ratings mit Ratings, die per paper-pencil erhoben wurden (Balota, Pilotti, & Cortese, 2001; Lahl, Göritz, Pietrowsky, & Rosenberg, 2009) oder mit Ratings, welche persönlich im Labor erhoben wurden (Barenboim et al., 2010; Krantz, Ballard, & Scher, 1997; Parè & Cree, 2009). In all diesen Studien finden sich hohe Korrelationen (<.90) zwischen den verschieden Rating-Methoden (Balota et al., 2001; Barenboim et al., 2010; Krantz et al., 1997; Lahl et al., 2009; Parè & Cree, 2009). Einige Studien finden kleine, aber signifikante Mittelwertunterschiede zwischen online- und persönlich abgegebenen Ratings (Lahl et al., 2009; Parè & Cree, 2009). Diese Unterschiede sind zwar irrelevant, wenn das Aufgabenziel die Auswahl von Items ist oder die Ergebnisse als lineare Prädiktoren in folgenden Experimenten fungieren sollen. Trotzdem sind die Unterschiede problematisch, wenn die Online und per paper-pencil erhobenen Daten direkt miteinander verglichen werden sollen. Zusammengenommen zeigen die Studien aber dennoch, dass Online Rating-Studien äquivalent zu paper-pencil-Ratings sind.

Durchführung von Online-Rating-Studien

Es gibt verschiedene praktische Richtlinien zur Handhabung von Online-Erhebungen (Lumsden, 2005; Solomon, 2000), welche sich allerdings in der Regel auf Online-Fragebögen beziehen. Grundlegende Prinzipien wie Usability betreffen aber natürlich auch die Rating-Studien. Bei der Online-Umsetzung einer Rating-Studie müssen verschiedene Entscheidungen über die Verteilung der Rating-Formen getroffen werden.

  1. Zum einen muss die Anzahl der erwünschten Ratings pro Stimulus festgelegt werden, also wie viele Teilnehmer auf den Stimulus reagieren sollen. Hierbei muss die Variabilität der Teilnehmer berücksichtig werden (sowie bei Fragebögen die Itemanzahl für die Repräsentation bestimmter Skalen berücksichtigt werden muss). Die Anzahl der benötigten Antworten/Ratings hängt von der erwarteten Varianz in den Ratings und der benötigten Genauigkeit des Ergebnisses ab. So werden für große Normstudien z.B. in der Regel zwischen 20 und 50 Ratings pro Stimulus benötigt (Barenboim et al., 2010; Lahl et al., 2009; McRae et al., 2005).

  2. Zweitens muss die Anzahl der insgesamt von jedem Teilnehmer zu ratenden Stimuli und, abhängig davon, die Anzahl der benötigten Teilnehmer festgelegt werden. Bei kleiner Stimulusanzahl kann jeder Teilnehmer jeden Stimuli raten, bei zu großer Stimulusanzahl müssen das Set in Subgruppen aufgeteilt werden.

Es gibt verschiedene Beschränkungen abhängig davon, ob Rating-Studien online oder persönlich umgesetzt werden. Bei einer paper-pencil-Durchführung ist die Anzahl verfügbarer Teilnehmer begrenzt (z.B. durch die Anzahl der Studenten bei einem Uni-Setting). Deshalb sollten paper-pencil-Ratings so lang wie möglich sein. In Online-Ratings sorgt zwar die Teilnehmerzahl für weniger Besorgnis, dafür allerdings ist die Zeit zur Bearbeitung der Untersuchung entscheiden. Nach unseren Erfahrungen ist es einfacher 10 Teilnehmer für eine 10-Minuten-Erhebung zu finden als zwei für eine 50-Minuten-Rating-Studie. Darum nutzen wir und andere Forscher (Lahl et al., 2009) kleine Stimulisets die innerhalb von acht Minuten geratet werden können. Es hat sich außerdem gezeigt, dass spätere Antworten schneller, kürzer und einheitlicher gegeben werden (Galesic & Bosniak, 2009).

Software für Online-Rating-Studien

Open-Source Software für Onlinefragebögen (z.B. limesurvey.org) entsprechen nicht den Anforderungen von Rating-Studien. Sie unterstützen zum einen weder die automatische Sub-Gruppierung von Stimuli. Verschiedene Subgruppen können nur über das Erstellen verschiedener Versionen, die alle ein anderes Sub-Set enthalten, realisiert werden. Außerdem unterstützen nur kommerzielle Programme (www.globalpark.com, www.surveypro.com) automatische Itemrandomisierung. Diese ist allerdings wichtig für Rating-Studien um verschiedene Positionseffekte auszuschließen. Drittens, auch wenn eine Subgruppierung und eine Randomisierung vernachlässigt werden können, müssen bei der vorhanden Open-Source Software jeder Stimulus mit jeder dazugehörigen Frage einzeln gesetzt werden, was sehr zeitaufwändig ist.

Eine Software, welche sowohl Subgruppierungen als auch Randomisierung zulässt, wurde kürzlich als open-source-Programm freigelassen. (Hirschfeld, Bien, De Vries, Lüttmann, & Schwall, 2010) und Lahl und Kollegen haben ihre Software als Open-Source zur Verfügung gestellt (Lahl et al., 2009). OR-ViS beinhaltet eine administrative Front, auf welcher die zu ratenden Stimuli und die neben den Stimuli zu präsentierenden Fragen spezifiziert werden, außerdem noch die Anzahl der benötigten Stimuli pro Teilnehmer und die Anzahl der benötigten Teilnehmer pro Stimulus. Zusätzlich bietet es eine einfache Teilnehmerverwaltung um Einladungen zu verschicken und Mehrfachteilnahmen zu vermeiden. Wichtig ist auch die Aufzeichnung der Reaktionszeit pro Stimulus, wodurch auch Paradaten untersucht werden können. Eine tiefergehende Beschreibung des Programs und der Link zu einem Anleitungsvideo findet sich auf orvis.uni-muenster.de [/de]

The world is flat F(1,18) = 39.200; p = .335 - or p < .01 or p <.001? - Check your stats!

A reviewers dream has come true. The new __statcheck__-package for [R](r-project.org) automagically checks the accurate __reporting__ of ...… Continue reading


Published on June 19, 2015

Relaunch on Jekyll

Published on June 04, 2015