Design & Instrumente

Die Adaptation eines psychologischen Tests ist eine komplexe und vielschichtige Aufgabe. Sie beinhaltet deutlich mehr als lediglich die Übersetzung der Testitems. Aus diesem Grund hat die International Test Commission mit den „Test Adaptation Guidelines“ (TAG) Richtlinien erlassen, die eine qualitativ hochwertige Adaptation von psychologischen Tests gewährleisten.

Die folgende Darstellung der Vorgehensweise und der Methodik erfolgt in Orientierung an den TAG. Neben der Testadaptation bildet die Entwicklung, Prüfung und Modifikation des Kompetenzmodells den zweiten zentralen Arbeitsbereich. Hierbei erfolgt die Testentwicklung einem iterativen Vorgehen, indem die Testadaptation in enger Anlehnung an das Kompetenzmodell erfolgt und umgekehrt.

Meilensteine:

0. Entwicklung eines Kompetenzmodells:

Das im WiwiKom I Projekt konzipierte theoretische Rahmenmodell zur Erfassung des wirtschaftswissenschaftlichen Fachwissens der Studierenden kann durch eine dreidimensionale Struktur beschrieben werden:

Die erste Dimension umfasst die strukturbezogenen Annahmen bezüglich der kognitiven Anforderungen des Fachwissens (propositionales, fallbezogenes und strategisches Wissen).

Die zweite Dimension bezieht sich auf die niveaubezogenen Annahmen zum Fachwissen in Anlehnung an die Taxonomiestufen von Anderson & Krathwohl (2001) sowie Walstad et al. (2007) in ökonomischen Kontexten.

Die dritte Dimension differenziert zwischen den verschiedenen fachinhaltlichen Subdomänen (wie Mikro- und Makroökonomie, Rechnungswesen, Marketing etc.).

In diesem Rahmen erfolgte somit zum einen die Modellierung der inhaltlichen Anforderungen, welche die Aussagen zur fachinhaltsbezogenen Strukturierung bzw. Dimensionierung des Wissens ermöglichen (wie z. B. Dimensionierung zwischen BWL und VWL). Zum anderen wurden die kognitiven Anforderungen modelliert, welche neben der Modellierung der kognitionsbasierten Wissensstruktur auch erste Aussagen zur Niveaumodellierung erlauben.

1. Übersetzung und Adaption:

In Kooperation mit dem Lehrstuhl von Frau Prof Dr. Silvia Hansen-Schirra des Fachbereichs für Translations-, Sprach- und Kulturwissenschaft der Johannes Gutenberg-Universität Mainz wird eine wissenschaftlich begleitete, professionelle Übersetzung sowie kulturelle Anpassung internationaler Testinstrumente mit insgesamt 403 betriebs- und volkswirtschaftlichen Items gewährleistet.

2. Curricula Analyse, Experten Online-Rating und Experteninterviews:

In Zusammenarbeit mit dem Nationalen Bildungspanel (Etappe 7 des NEPS) wird eine Curriculare Analyse der wesentlichen Inhalte von wirtschaftswissenschaftlichen Studiengängen durchgeführt. Hierbei werden in die Analysen die Curricula der Modulhandbücher und Studienordnungen von 96 Studiengängen an 40 Universitäten und an 24 Fachhochschulen aufgenommen. Es werden die größten Fachhochschul- und Hochschulfakultäten für Wirtschaftswissenschaften berücksichtigt. Im Anschluss werden die Testitems 78 fachlichen Experten (Professoren/Dozenten der Wirtschaftswissenschaften) der Befragungshochschulen zu einer Prüfung der inhaltlichen und curricularen Validität im Rahmen einer Online-Befragung vorgelegt. Die sich hieraus ergebenden kritischen Rückmeldungen zu bestimmten Items sowie die sich aus den anderen Validierungsschritten ergebenen problematischen Items werden noch ein mal mit 32 weiteren Experten (ebenfalls Professoren der Wirtschaftswissenschaften) im Rahmen von Experteninterviews in Einzel- oder Gruppensitzungen erörtert.

3. Kognitive Interviews:

Dieser Validierungsaspekt umfasste die Untersuchung der Itemqualität aus der Perspektive der Studierenden. In diesem Rahmen wurde auch die Verständlichkeit der einzelnen Items bspw. hinsichtlich grafischer Repräsentationen in einzelnen Aufgaben sowie der erforderliche zeitliche Rahmen für die Testbearbeitung analysiert.

Hierzu wurden 120 kognitive Interviews mit 30 Probanden durchgeführt. Die Ergebnisse zeigen, dass für nahezu zwei Drittel der Aufgaben ein (i.d.R. marginaler) Überarbeitungsbedarf identifiziert werden konnte und somit auf Basis der Antwortprozessanalyse Verbesserungen an Aufgaben vorgenommen werden konnten. Die überarbeiteten Aufgaben wurden anschließend in einem Pretest an einer großen Stichprobe empirisch überprüft um umfassende Urteile über die Funktionsweise der Aufgaben zu entwickeln.

4. Pretest:

Im SS 2012 fand an zwei deutschen Universitäten mit insgesamt 962 Studierenden ein Pretest statt. Dieser Pretest hatte insb. zum Ziel, die laut den qualitativen Analysen problembehafteten Items an Hand der Zielpopulation quantitativ zu beurteilen, sodass eine Auswahl von 45 laut dem Adaptationsprozess kritischen Aufgaben in zwei Fragebogenversionen erprobt wurde. Version 1 umfasste Items aus den Bereichen Marketing und Personal, Version 2 Aufgaben aus den Bereichen Finanzierung und Unternehmensführung/Organisation. Hierbei wurde auch betrachtet, ob die Items für die geplante Zielgruppe ggf. deutlich zu leicht oder zu schwer sind.

5. Erste Haupterhebung (WS 2012/13):

Insgesamt sind im Projekt WiWiKom I auf Basis der Validierungsanalysen 144 übersetzte und adaptierte Items aus dem Originaltest des EGEL in die erste Erhebung zur Kalibrierung des Itempools im WS 2012/13 eingegangen. Zudem wurden alle 60 übersetzten und adaptierten Items des TUCE in den zu testenden Itempool aufgenommen, welche mit jeweils 30 Aufgaben die beiden Dimensionen Mikro- und Makroökonomie erfassten. Aufgrund der begrenzten Bearbeitungszeit durch die Studierenden und um Positionseffekte zu kontrollieren, wurde ein Booklet-Design (s. Frey, Hartig & Rupp 2009) verwendet. Hierbei wurden jedem Probanden 30 Items in einem der 43 unterschiedlichen Booklets vorgelegt. Um eine weitgehend unverzerrte Schätzung der Itemparameter zu ermöglichen, wurde auf verschiedene Youden-Square Designs zurückgegriffen. Dabei wurden die Items in 10er Itemcluster gebündelt und jeweils drei Itemcluster in den Fragebogen aufgenommen. Weiterhin wurde ein Youden-Square Design konzipiert, bei dem jeweils ein Itemcluster aus allen sieben Subdomänen aufgenommen wurde. Dies ermöglichte eine erste Schätzung der Zusammenhänge zwischen den einzelnen Subdomänen. In der ersten Haupterhebung konnten 4.050 Studierende erfasst werden. Diese verteilten sich über 23 unterschiedliche Hochschulinstitutionen (Universität und Fachhochschulen) deutschlandweit. Auf dieser Basis wurden mittels verschiedener Itemanalysen problematische Items und Distraktoren identifiziert und nochmals mit Hilfe von Fachexperten überarbeitet.

Auswertung:

Mit Hilfe deskriptiver Statistiken und auf Basis der klassischen Testtheorie (KTT) wurde zunächst eine Itemanalyse und Reliabilitätsmessungen durchgeführt und die gewonnenen Resultate der KTT-Analyse durch Ergebnisse auf Basis der Item-Response-Theorie (IRT) ergänzt. Mit Hilfe der IRT-Modelle sollten zunächst die Itemschwierigkeiten und Trennschärfen des Itempools geschätzt werden, so dass auf Basis dieses Itempools eine geeignete Auswahl der Items für die zweite Erhebung in 2013 erfolgen konnte. Im Zuge der IRT-Analysen konnte geprüft werden, ob sich die theoretisch formulierten Kompetenzstufen in den einzelnen Domänen wiederfanden, ob sich die vorgenommene Zuordnung der Items zu kognitiven Stufen in Form des Assessment-Frames weitestgehend replizieren ließen und wo Differenzen bestanden. Weiterhin ermöglichte das komplexe Booklet-Design eine erste Abschätzung der Korrelation der einzelnen Subdomänen.

6. Kognitive Interviews:

Dieser Validierungsaspekt umfasste die Untersuchung der Antwortprozesse und ihre Passung zu dem Konstrukt der wirtschaftswissenschaftlichen Kompetenzen. Hierzu wurden die individuellen Lösungsstrategien eines Probanden untersucht, welche ggf. zu einer Anpassung oder Entfernung eines Items führten, wenn z. B. mehrfache Fehlinterpretationen eines Items durch die Probanden festgestellt wurden. Zur Validierung war somit zu prüfen, ob die Beantwortung der Items mittels der erwarteten kognitiven Prozesse erfolgte und nicht andere, unerwünschte Test- oder Ratestrategien zur richtigen Beantwortung der Fragen führten (s. AERA et al., 2004). Hierzu wurden die kognitiven Interviews (nach der Methode des lauten Denkens während des Antwortprozesses in Kombination mit anschließenden gezielten, standardisierten retrospektiven Fragen) zu zwei Zwecken durchgeführt: (1) diskriminante Validierung, (2) konvergente Validierung.

Ergebnisse:

Diskriminante Validierung

Zum Zwecke der Validierung wurden drei Studierende der Sozialwissenschaften und drei Studierende der Wirtschaftswissenschaften ausgewählt. Die Ergebnisse von 120 Aufgabenbearbeitungsprozessen zeigen, dass die Lösung der Aufgaben den Studierenden der Sozialwissenschaften deutlich größere Schwierigkeiten bereitet hat als den Studierenden der Wirtschaftswissenschaften. Weiterhin zeigten sich große Zusammenhänge zwischen der Art der Lösungsprozesse und der letztendlichen Lösung der Aufgaben. Die Lösungsprozesse der Studierenden der Sozialwissenschaften waren dabei im Wesentlichen von konstruktirrelevanten (kompensatorischen) Teststrategien (z. B. Ratestrategien, Testerfahrung) geprägt. Zudem zeigten sie in ihrem Testverhalten eine größere Anzahl an affektiven Äußerungen, die emotional auf die Aufgaben gerichtet waren oder sich auf Aspekte außerhalb der Testsituation bezogen.

Konvergente Validierung

Für die anschließende konvergente Validierung wurden Aufgaben aufgrund der Ausprägung der Itemparameter der ersten Feldstudie (N=3.783) zu einem Extremgruppenvergleich eingesetzt. Mit einem absichtsvollen Zufallsstichprobenverfahren wurden 20 Studierende der Wirtschaftswissenschaften auf Basis des zentralen Validierungskriteriums „Studienfortschritt“ ausgewählt. Die Ergebnisse verdeutlichen, dass eine erfolgreiche Bearbeitung der Aufgaben überwiegend mit einer Anwendung konstruktrelevanter mentaler Prozesse (Fachwissen und die darauf aufbauenden Inferenzen) einhergeht und dass eine verstärkte Anwendung von konstruktirrelevanten Teststrategien mit einer größeren Anzahl falscher Aufgabenlösungen in beiden Studierendengruppen korrespondiert. Insgesamt deuten die Befunde der konvergenten Validierung auf eine valide Erfassung wirtschaftswissenschaftlichen Fachwissens hin.

7. Zweite Haupterhebung (SS 2013):

Auf Basis der Ergebnisse der ersten Hauptuntersuchung wurden Testversionen neu zusammengestellt und im Rahmen der zweiten Haupterhebung im Sommer 2013 an 25 deutschen Hochschulen bei 3.713 Studierenden eingesetzt, wobei insbesondere das theoretische WiWiKom-Modell einer empirischen Prüfung unterzogen wurde. Die Auswertung der Daten der zweiten Haupterhebung erfolgte anschließend. Die Veröffentlichungen finden Sie hier . Zusätzlich wurde für die Studierenden ein projekteigenes WIKI eingerichtet.

8. Gesamtauswertung und Veröffentlichungen der Ergebnisse:

Durch die Verwendung international etablierter Tests war es möglich, die Befunde aus dem deutschsprachigen Raum den Befunden der internationalen Kooperationspartner aus anderen Ländern gegenüberzustellen. Gemeinsame Analysen zur Validierung haben neben dem zentralen Validierungskriterium des Studienfortschritts insbesondere bezüglich der Aspekte des Geschlechts, der Muttersprache sowie der kaufmännischen Ausbildung miteinbezogen. So zeigen unsere Ergebnisse hinsichtlich der Unterschiede zwischen den Geschlechtern stärkere Ausprägungen in Deutschland und den USA, als beispielsweise in Japan.

Zu weiteren Details s. Publikationsliste.

9. Dritte Haupterhebung (SS 2015)

In mehr als der Hälfte der bisher befragten Hochschulen konnten noch keine Daten zu Bachelorabsolventen bzw. Masterstudierenden erfasst werden. Dies hatte zur Folge, dass nur eine sehr geringe Fallzahl von tatsächlichen Bachelorabsolventen befragt werden konnte, sodass das Projektziel der „Sicherstellung der prognostischen Validität“ über die Erfassung der Bachelorabschlussnote noch nicht geleistet werden konnte.

Zur Erreichung dieses Ziels wurden deshalb im Rahmen einer dritten Haupterhebung im Sommersemester 2015, weitere 1.492 Studierende mit wirtschaftswissenschaftlichem Schwerpunkt an insgesamt 40 Universitäten und Hochschulen in Deutschland befragt. Dazu wurden sieben unterschiedliche Testhefte mit insgesamt 62 Items aus den Bereichen Finanzwirtschaft, Internes Rechnungswesen und Mikroökonomie eingesetzt. Die Items wurden unverändert aus der zweiten Haupterhebung entnommen. Jedem Probanden wurden aufgrund der begrenzten Bearbeitungszeit lediglich maximal 28 Items vorgelegt.

Erste Auswertungen zeigen, dass Studierende mit einer umfassenderen Ausbildung in Wirtschaftswissenschaften auch bessere Testergebnisse erzielen.

 

Instrumente

„Test of Understanding College Economics“ (TUCE) des Council for Economic Education (CEE) Mit dem “Test of Understanding College Economics” (TUCE) des Council for Economic Education (CEE) wird ein international erprobtes und bewährtes Testinstrument ins Deutsche adaptiert. Der TUCE liegt nun in seiner vierten Auflage vor (Walstad , Watts & Rebeck 2007). Der Test besteht aus zwei Testteilen, die sowohl für den Bereich der „Makroökonomie“ als auch für den Bereich der „Mikroökonomie“ je 30 Testaufgaben umfassen. Die Aufgaben des TUCE entsprechen einem geschlossenen Antwortformat, bei denen eine der vier Antwortalternativen richtig ist. Innerhalb des Tests findet von den Testentwicklern eine Differenzierung in drei Niveaustufen statt (Erkennen und Verstehen, explizite Anwendung und implizite Anwendung).

„Examen General para el Egreso de la Licenciatura en administración“ (EGEL-A) und „Examen General para el Egreso de la Linceciatura en Contaduría“ (EGEL-C) des Centro Nacional de Evaluación para la Educación Superior (CENEVAL)Tests wurden gemeinsam mit Lehrenden der Hochschulen und den Arbeitsgebern entwickelt. Die spanischsprachigen Tests liegen ebenso wie der englischsprachige TUCE im geschlossenen Antwortformat vor, bei dem eine von vier Antwortalternativen richtig ist.