What is a “worthy” test for History?

Was ist ein “angemessener” Geschichtstest?

On October 24, 2015, The White House released (on Facebook!) a short speech[1] by President Obama where he addressed growing concerns over the increase in standardized testing in the U.S. President Obama called for “smart, strategic tests” that help kids learn and don’t take the joy out of learning. Use only worthy tests was the first of three principles he laid out: the second was related to this idea of worthiness—that tests should enhance teaching and learning– and the third advocated moving standardized tests from their privileged place of being the only source of information about a student’s learning to one of multiple measures. None of these ideas are new, but it is significant that the President weighed in on this issue that has attracted great public and professional concern.

Scenario 1

Picture a rural school district where more than 13,000 students attend grades 7-12, many families work in agriculture, and many students are English learners. This district decided to use teacher-developed performance-based assessments [PBAs] three years ago. For each grade-level history course, a group of teacher leaders created two document-based questions [DBQs]. These DBQs demand that students use a set of selected historical sources—mostly primary—to construct an historical interpretation and write an historical argument. These PBAs are intended to replace multiple choice tests and engage students in worthy assessment tasks that challenge them to read and write in disciplinary ways.

The teacher groups soon realized they needed outside help. The first year, they wanted help with defining historical thinking, reading, and writing. The second year, they needed help with developing a progression of focus skills that would work for the grade 7-12 PBAs. And this year, they decided all of the district’s history teachers needed to come together to build a shared understanding of historical thinking and ways to teach for it.

Scenario 2

In a different project, the Common Assignment Study[2], I worked with teachers from two states to build a unit that embedded several performance assessments—tasks where students had to produce responses and essays, rather than merely fill in bubbles. Each of the units that these teachers created included a Literacy Design Collaborative (LDC) module[3] that demanded students write an historical explanation or argument using multiple sources and their background knowledge. After implementing their co-created units, teachers came together to examine students’ work to revise and improve the assessment and think about what that student work revealed regarding instructional gaps and next instructional steps.

In both of these scenarios, teachers were assessment developers in collaborative settings that included external targeted assistance. Assessments were tied closely to the curriculum and instruction for a specific course, and, in both, teachers were using multiple formal measures to assess student learning. Additionally, the multi-year process of designing, implementing, and reflecting on these PBAs provided significant professional development for the participating teachers.

DBQs as Worthy

Document Based Questions were the key assessment tasks in both of these projects and they are also central to international investigations of worthy ways to assess students’ historical thinking. In the U.S., DBQs represent the more complex and worthwhile end of a spectrum of assessment item types currently used on large-scale standardized assessments. In 2010, 26 of 50 states tested students in history. Only 11 of those tests asked students to do any writing, and only two or three states asked students to do a DBQ or extended essay.[4] Most states relied solely on multiple choice.[5]

So, if we ‘re looking to use more worthy tests for history in the U.S., we could look to the best item types that exist in our current scheme: the DBQ and other constructed response items. Worthy tests that enhance teaching and learning assess key disciplinary skills and knowledge in an integrated way. DBQs can test students’ abilities to work with historical sources, construct an evidence-based historical argument, and employ historical knowledge. Practicing and preparing for a worthy test should align with a rich, challenging curriculum. DBQs can encourage quality classroom curriculum focused on source work, investigation, and broad and accurate historical knowledge. And, if the test is really worthy, the time students spend on it should be educative. Can students learn more history while doing a DBQ—yes!

DBQs also have an advantage as a type of assessment where we can build knowledge across borders and tackle shared issues, such as scoring tools and calibration and validity of scoring interpretations. (For an exemplar of this, see the new edited collection New Directions in Assessing Historical Thinking [6])

Beyond DBQs

But can we also broaden our imagination about what can work as worthwhile history standardized test items?

We may not have to look far for help with this—skilled history teachers frequently develop creative assessments. While these assessments may not meet technical standards, they provide points of departure and inspiration for assessment developers. For example, students created digital reports about topics in WWII in one teacher’s classroom, essentially creating multi-media presentations of historical arguments. Other possible student products include an annotated bibliography, a critique of an historian’s argument, an explanation of the antecedents of a contemporary event, or data from a computer game about how students use their historical knowledge to play. These examples push both the boundaries of product format beyond the written essay and can also focus on concepts and skills that are not frequently assessed, but are still integral to historical understanding. (e.g., doing research.)

Obama’s speech may herald a different way of thinking about standardized, large-scale assessment. Rather than being external, separated, and distant from the classroom, it should support and build on quality classroom instruction. It should ask students to do and produce rather than only recall. Even standardized tests can be assessments not only of learning, but also assessments for and as learning — for both students and teachers.



  • Ercikan, Kadriye, and Peter Seixas, eds. New Directions in Assessing Historical Thinking. United Kingdom: Routledge, 2015.
  • Monte-Sano, Chauncey. “What Makes a Good History Essay: Assessing Historical Aspects of Argumentative Writing.” Social Education 76, no. 6 (2012): 294–98 (open access, last accessed at 8.12.15).

External Weblinks


[1] “The White House”, 2015, https://www.facebook.com/WhiteHouse/videos/vb.63811549237/10153858935674238/ (last accessed at 23.11.15).
[2] “Common Assignment Study”, Gallery Video (College Ready, October 29, 2015), http://collegeready.gatesfoundation.org/teacher-supports/teacher-development/quality-educational-tools/common-assignment-study/  (last accessed at 23.11.15).
[3] “Literacy Design Collaborative” (Literacy Design Collaborative), accessed 16 November 2015, https://ldc.org/  (last accessed at 23.11.15).
[4] Daisy Martin, S.I. Maldonaldo, J. Schneider & M. Smith, A Report on the State of History Education: State Policies and National Programs, National History Education Clearinghouse, 2011. http://teachinghistory.org/system/files/teachinghistory_special_report_2011.pdf  (last accessed at 23.11.15).
[5] For the limitations of multiple-choice items, see Gabriel A. Reich, “Testing Historical Knowledge: Standards, Multiple-Choice Questions and Student Reasoning”, Theory & Research in Social Education 37, no. 3 (July 2009): 325–60, DOI: 10.1080/00933104.2009.10473401; Sam Wineburg, “Crazy for History”, Journal of American History 90, no. 4 (March 1, 2004): 1401, DOI: 10.2307/3660360.
[6] Kadriye Ercikan and Peter Seixas, eds., New Directions in Assessing Historical Thinking (United Kingdom: Routledge, 2015).

Image Credits
2007 Cemetery Monument Conservation Workshop, Pensacola, FL. Creative Commons © NCPTT Media, flickr

Recommended Citation
Daisy, Martin: What is a “worthy” test for history? In: Public History Weekly 3 (2015) 39, DOI: dx.doi.org/10.1515/phw-2015-4926.

Copyright (c) 2015 by De Gruyter Oldenbourg and the author, all rights reserved. This work may be copied and redistributed for non-commercial, educational purposes, if permission is granted by the author and usage right holders. For permission please contact: elise.wintz (at) degruyter.com.

Am 24. Oktober 2015 veröffentlichte das Weiße Haus (auf Facebook!) eine kurze Rede Präsident Obamas,[1] in der er die in der USA wachsenden Bedenken bezüglich der Zunahme an standardisierten Prüfungen ansprach. Er rief nach “pfiffigen, strategischen Testverfahren”, die Kindern beim Lernen helfen und ihnen nicht die Freude am Lernen nehmen würden. Angemessene Tests zu verwenden war das erste der drei Prinzipien, die er vorlegte. Das zweite Prinzip war diesem Konzept der Angemessenheit verwandt: Prüfungen sollten Unterrichten und Lernen bereichern, und das dritte plädierte dafür, dass standardisierte Prüfungen ihren privilegierten Stand als die einzige Informationsquelle über Lernfortschritte von SchülerInnen verlieren und nur eine von mehreren Maßnahmen werden sollten. Keine dieser Ideen ist neu, aber es ist bemerkenswert, dass sich der Präsident zu einem Thema äußerte, das so viel öffentliche und pädagogische Aufmerksamkeit auf sich gezogen hat.

Szenario 1

Stellen Sie sich einen ländlichen Schulbezirk vor, in dem mehr als 13.000 SchülerInnen die Klassen 7-12 besuchen, viele Familien in der Landwirtschaft arbeiten und viele SchülerInnen Englisch lernen. Vor 3 Jahren beschloss dieser Bezirk, von Lehrenden entwickelte performance-based assessments [PBAs] zu verwenden. Für jeden Geschichtskurs in der jeweiligen Klassenstufe entwarf eine Gruppe von leitenden Lehrpersonen zwei document-based questions [DBQs]. Diese DBQs verlangen, dass SchülerInnen eine Reihe von ausgewählten Quellen benutzen, um eine historische Interpretation zu konstruieren und ein historisches Argument zu entwickeln. Solche PBAs sollen Multiple-Choice-Prüfungen ersetzen und SchülerInnen ermöglichen, sich mit angemessenen Aufgaben zu beschäftigen, und sie herausfordern, auf disziplinrelevante Art zu lesen und schreiben.

Sehr bald wurde dieser Gruppe von Lehrpersonen klar, dass sie Hilfe von Außen benötigten. Im ersten Jahr wollten sie Hilfe bei der Definition von geschichtlichem Denken, Lesen und Schreiben bekommen. Im zweiten Jahr benötigten sie Hilfe bei der Entwicklung einer Stufung von zentralen Fertigkeiten, die bei den PBAs für die Klassen 7-12 funktionieren würden. Und in diesem Jahr beschlossen sie, dass alle Geschichtslehrpersonen im Schulbezirk zusammenkommen sollen, um ein gemeinsames Verständnis von geschichtlichem Denken (und wie es gelehrt werden soll) aufzubauen.

Szenario 2

In einem anderen Projekt, der Common-Assignment-Studie[2], arbeitete ich mit Lehrpersonen zweier US-Staaten, um eine Prüfungs-Einheit zu erstellen, die mehrere Leistungsbewertungen umfasste: Aufgaben, bei denen die SchülerInnen Antworten und Aufsätze produzieren mussten, statt bloß Blasen auszufüllen. Jede Einheit, die diese Lehrpersonen erstellten, beinhaltete ein Literacy Design Collaborative (LDC)-Modul,[3] das von den SchülerInnen verlangte, unter Verwendung von mehreren Quellen und ihrem eigenen Hintergrundwissen eine geschichtliche Erklärung oder ein geschichtliches Argument darzulegen. Nachdem ihre gemeinsam entwickelten Prüfungs-Einheiten umgesetzt wurden, kamen die Lehrpersonen zusammen, um die Arbeiten der SchülerInnen zu analysieren und, daran anschließend, um die Bewertungen zu überarbeiten und zu verbessern und darüber nachzudenken, was die Arbeiten in Bezug auf mögliche Unterrichtslücken und die nächsten Unterrichtsmaßnahmen aufzeigten.

In beiden Szenarien waren die Lehrpersonen Entwickler von Bewertungen in einer kollaborativen Umgebung, die gezielte Unterstützung von Außen einschloss. Die Bewertungen waren eng verbunden mit dem Curriculum und dem Unterricht in einem spezifischen Kurs und für beide benutzten die Lehrpersonen mehrere formale Maßstäbe, um SchülerInnen-Lernen zu bewerten. Außerdem lieferte der mehrjährige Prozess des Entwerfens, Einsetzens und des Nachdenkens über diese PBAs einen wichtigen Beitrag zur fachlichen Fortbildung für die teilnehmenden Lehrpersonen.

DBQs als angemessene Tests

Document Based Questions waren die zentralen Bewertungsaufgaben in beiden Projekten, und sie spielen auch wesentliche Rolle bei internationalen Überlegungen zu sinnvollen Ansätzen, mit denen das historische Denken von Lernenden gemessen werden kann. In den USA stellen DBQs das komplexere und wertvollere Ende des Spektrums von Bewertungselementen dar, die momentan in großangelegten standardisierten Bewertungen verwendet werden. Im Jahr 2010 testeten 26 von 50 US-Staaten SchülerInnen in Geschichte. Nur elf dieser Tests verlangten von den Prüflingen, dass sie etwas schreiben sollten. Nur zwei oder drei Länder forderten Prüflinge auf, einen DBQ zu absolvieren oder einen ausführlichen Aufsatz abzugeben.[4] Die meisten US-Staaten stützten sich ausschließlich auf Multiple-Choice-Prüfungen.[5]

Wenn wir also nach angemesseneren Geschichts-Tests in der USA suchen, könnten wir den Blick auf die besten Item-Typen im gegenwärtigen System richten: das DBQ und andere konstruierte Response-Items. Angemessene Tests, die Lehren und Lernen bereichern, bewerten zentrale Fähigkeiten und Wissen des Fachs auf eine integrierte Weise. DBQs können prüfen, wie Lernende mit historischen Quellen arbeiten, nachweisbasierte geschichtliche Argumente konstruieren und historisches Wissen anwenden. Übung und Vorbereitung für einen angemessenen Test sollten auf ein reichhaltiges, herausforderndes Curriculum ausgerichtet sein. DBQs können qualitätsvolle Curricula begünstigen, die auf Quellenarbeit, Analyse sowie breites und akkurates historisches Wissen fokussiert sind. Und, falls der Test wirklich angemessen ist, sollte die Zeit, die SchülerInnen dafür aufwenden, auch bildsam sein. Ja, SchülerInnen können mehr Geschichte lernen, während sie sich mit einem DBQ beschäftigen!

DBQs haben auch einen Vorteil als eine Art von Test, mit der wir Wissen grenzüberschreitend aufbauen können und gemeinsame Sachverhalte wie Werkzeuge für Punktebewertung und Kalibrierung und Validierung der Interpretationen von Bewertungen anpacken können. (Ein Beispiel hierfür: der neue Sammelband New Directions in Assessing Historical Thinking [6].)

Jenseits von DBQs

Aber können wir auch unsere Fantasie über das, was als lohnende standardisierte Elemente bei einem Geschichts-Test funktionieren kann, erweitern?

Wir müssen eventuell nicht lange nach geeigneter Hilfe suchen: Häufig entwickeln kundige Geschichtslehrpersonen kreative Tests. Auch wenn solche Tests bestimmte technische Standards nicht erreichen mögen, liefern sie Ausgangspunkte und Inspiration für Testentwickler. In einer Klasse z.B. erzeugten SchülerInnen digitale Berichte zu Themen des Zweiten Weltkriegs, die im Kern multimediale Präsentationen von historischen Argumenten darstellten. Andere mögliche Produkte umfassen eine annotierte Bibliographie, eine kritische Besprechung des Arguments einer/s HistorikerIn, eine Erklärung der Ursachen eines zeitgenössischen Ereignisses oder Daten von einem Computerspiel, die Aufschluss darüber geben, wie Lernende ihr historisches Wissen anwenden, um zu spielen. Diese Beispiele erweitern die Grenzen des Produktformats jenseits der schriftlichen Aufsätze und können darüber hinaus auch den Fokus auf Konzepte und Fertigkeiten lenken, die zwar selten getestet werden, aber trotzdem ein integraler Bestandteil geschichtlichen Verständnisses sind (z.B. das eigene Forschen).

Die Ansprache Obamas könnte ein Vorbote für eine neue Art des Denkens über standardisierte, großangelegte Testverfahren sein. Statt außerhalb, getrennt und entfernt vom Klassenzimmer zu sein, sollten Tests qualitätsvollen Unterricht unterstützen und auf ihn aufbauen. Sie sollten Lernende dazu bringen, zu handeln und zu produzieren, statt nur abzurufen. Selbst standardisierte Testverfahren müssen nicht nur zu Bewertungen des Lernens dienen, vielmehr können sie auch zu Lernprozessen anregen oder gar selber Formen des Lernens darstellen – und dies für Lernende wie für Lehrende gleichermaßen.



  • Ercikan, Kadriye / Seixas, Peter (Hrsg): New Directions in Assessing Historical Thinking, London 2015.
  • Monte-Sano, Chauncey: What Makes a Good History Essay. Assessing Historical Aspects of Argumentative Writing. In: Social Education 76 (2012) 6, S. 294–298 (open access, zuletzt am 8.12.15).

Externe Links


[1] “The White House”, 2015, https://www.facebook.com/WhiteHouse/videos/vb.63811549237/10153858935674238/ (letzter Zugriff am 23.11.15).
[2] “Common Assignment Study”, Gallery Video (College Ready, October 29, 2015), http://collegeready.gatesfoundation.org/teacher-supports/teacher-development/quality-educational-tools/common-assignment-study/ (letzter Zugriff am 23.11.15).
[3] “Literacy Design Collaborative” (Literacy Design Collaborative), https://ldc.org/ (letzter Zugriff am 23.11.15).
[4] Daisy Martin, S.I. Maldonaldo, J. Schneider & M. Smith, A Report on the State of History Education: State Policies and National Programs, National History Education Clearinghouse, 2011. http://teachinghistory.org/system/files/teachinghistory_special_report_2011.pdf (letzter Zugriff am 23.11.15).
[5] Für die Begrenzungen von Multiple-Choice-Items vergleiche Gabriel A. Reich: Testing Historical Knowledge: Standards, Multiple-Choice Questions and Student Reasoning. In: Theory & Research in Social Education 37 (2009), S. 325–360, DOI: 10.1080/00933104.2009.10473401; Sam Wineburg: Crazy for History. In: Journal of American History 90 (2004), S. 1401, DOI: 10.2307/3660360.
[6] Kadriye Ercikan / Peter Seixas (Hrsg.): New Directions in Assessing Historical Thinking, London 2015.

2007 Cemetery Monument Conservation Workshop, Pensacola, FL. Creative Commons © NCPTT Media, flickr

Empfohlene Zitierweise
Daisy, Martin: Was ist ein “angemessener” Geschichtstest? In: Public History Weekly 3 (2015) 39, DOI: dx.doi.org/10.1515/phw-2015-4926.

Übersetzung durch Jana Kaiser: kaiser (at) academic-texts (dot) de

Copyright (c) 2015 by De Gruyter Oldenbourg and the author, all rights reserved. This work may be copied and redistributed for non-commercial, educational purposes, if permission is granted by the author and usage right holders. For permission please contact: elise.wintz (at) degruyter.com.

Categories: 3 (2015) 39
DOI: dx.doi.org/10.1515/phw-2015-4926

Tags: , , ,

3 replies »

  1. [Die deutsche Übersetzung findet sich unter dem englischen Text.]

    There is not only one worthy way of measuring competencies of historical thinking

    Daisy Martin asks for an appropriate test in order to measure historical thinking. Thereby, she raised a very relevant question on the field of history didactics which has to be seen against the background of the testing culture in the US. In this context the “National Assessment for Educational Progress (NAEP)” program has to be mentioned, which also contains testing instruments for history. It deals with questions concerning the US history which mainly but not only test historical knowledge via multiple-choice tests. There is for example the exercise which asks for the similarities between John Brown, Frederick Douglass, William Lloyd Garrison, and Angelina Grimké. The tested persons then have to choose between four possible answers. A. “Confederate leaders”, B. “industrialists”, C. “abolitionists” or D. “slaves who escaped captivity”. For this question C is given as the correct answer.[1] What is tested by such a format is whether the test persons have a certain knowledge, though it has to be added that there is also a twenty-five percent chance to simply guess the right answer.

    Under the circumstances that this is the basis for measuring the performances of learners, such tests lead to a type of history lesson which focuses on teaching such conventional contents and does not bring about lessons which foster the competencies of historical thinking. This also builds the background for the understanding of the projects described by Daisy Martin which are rightly distanced from such ways of testing. Instead she searches for tests which can measure the outcomes of historical thinking which are developed in the context of history lessons. At the same time these projects should partake to a general lesson development.

    Different test formats for different functions of testing
    The question raised by Daisy Martin is relevant but at the same time irritating because there is not only one test for historical thinking, quite the opposite, there are very different testing instruments which measure different things. The question concerning a worthy test can only be answered by looking at the particular functions of the test. There are at least two dimensions which have to be subdivided:[2]

    1) Should the test be designed in accordance with the curricula or not? If the test is designed by looking at the curricula it is only appropriate for those groups which dealt with the same topic. What is tested by this format is how students use a familiar topic to deal with new historical questions and /or material. Such a test is inappropriate for an international comparison because it focuses on the topics dealt with in history lessons but these topics vary according to different historical cultures. If a test is designed without taken the curriculum into consideration, exercises will have to be constructed in such a way that they will measure data by testing a historical topic which is unknown to all persons tested. Thus all necessary information have to be incorporated into the material given to them.
    2) Are the performances of individuals or large groups compared to each other? If the aim is to test the individual performance, a project which is carried out independently can be a worthy test format because the students narrate independently historically. On the other hand, this is not an appropriate format for a comparison of large groups. To achieve this goal, it is necessary to use standardized testing formats which are supposed to focus on historical thinking and not on specific content knowledge. An opportunity for such standardized tests are multiple choice tests, but also standardized evaluations of open tasks are possible.

    The projects described by Daisy Martin are designed in accordance with the curricula and follow the objective that teachers are able to give individual feedbacks. For such a situation the usage of multiple-choice questions, like the ones described above, would be unworthy. This should not lead to the conclusion that this way of testing is the only worthy way of carrying out a test. For instance, an international comparison study concerning historical thinking is of great interest as well. For this we need test instruments which address historical thinking without being bound to the curricula and which are at the same time standardized.

    Are multiple-choice tests worthy to measure historical thinking?
    Neither the examples taken from the NAEP, nor the article brings us to the conclusion that multiple-choice exercises are in general inappropriate to measure historical thinking. On the contrary, the assumption that multiple-choice tests measure the whole area of historical thinking is not true, neither.

    The question concerning the possibilities and limits of quantitative testing rather has to be clarified empirically and theoretically. One can definitely think of better multiple choice tasks than the ones described above. A first step into the right direction has been made.[3]

    [1] https://nces.ed.gov/NationsReportCard/nqt/Search (Last access 17.12.2015)
    [2] Körber, Andreas / Meyer¬Hamme, Johannes (2015): Historical Thinking, Competencies and their Measurement: Theoretical Challenges and Testing Concepts. In: Ercikan, Kadriye; Seixas, Peter: New Directions in Assessing Historical Thinking. New York: Routledge, p. 89–101.
    [3] Trautwein, Ulrich et.al. (forthcoming): Entwicklung und Validierung eines historischen Kompetenztests zum Einsatz in Large¬Scale¬Assessments (HiTCH). In: Bundesministerium für Bildung und Forschung (ed.): Forschung in Ankopplung an Large¬Scale Assessments. Bonn: Bundesministerium für Bildung und Forschung.


    Es gibt nicht nur ein sinnvolles Testformat zur Erfassung von Kompetenzen historischen Denkens

    Daisy Martin fragt nach einem adäquaten Test, um historisches Denken zu erfassen. Damit hat sie eine sehr relevante geschichtsdidaktische Frage aufgegriffen, die vor dem Hintergrund US-amerikanischer Testkultur zu verstehen ist. Hier ist sicherlich das Programm “National Assessment for Educational Progress (NAEP)” zu nennen, bei dem auch Testinstrumente zur Geschichte vorliegen. Dabei handelt es sich um Fragen zur US-Geschichte, die vielfach, aber nicht nur, in Form von Multiple-Choice-Fragen bestimmte Kenntnisse abfragen. So wird beispielsweise nach einer Gemeinsamkeit von John Brown, Frederick Douglass, William Lloyd Garrison, und Angelina Grimké gefragt und die Probanden müssen sich zwischen vier Antwortmöglichkeiten entscheiden: A. “Confederate leaders”, B. “industrialists”, C. “abolitionists” oder D. “slaves who escaped captivity”, wobei die Antwort C als korrekt gewertet wird.[1] Getestet wird damit, ob die Probanden über bestimmte Kenntnisse verfügen, allerdings bei einer Ratewahrscheinlichkeit von 25%.
    Unter der Bedingung, dass auf dieser Basis die Leistungen von Lernenden erhoben werden, führt dies zu einer Form von Unterricht, in dem solche konventionellen Kenntnisse erlernt werden sollen und nicht zu einem Unterricht, in dem die Fähigkeiten historischen Denkens geschult werden. Vor diesem Hintergrund sind auch die von Daisy Martin beschriebenen Projekte zu verstehen, die sich zu Recht von dieser Art des Testens abgrenzen und stattdessen nach Testformaten suchen, mit denen die Ausprägung historischen Denkens erfasst werden kann, die unterrichtsnah entwickelt werden. Zugleich soll diese Entwicklung zu einer Unterrichtsentwicklung beitragen.

    Unterschiedliche Testformate für verschiedene Funktionen des Testens
    Die von Daisy gestellte Frage ist zwar relevant, aber zugleich auch irreführend, denn es gibt nicht den einen Test für historisches Denken, sondern es gibt ganz unterschiedliche Testinstrumente, die Verschiedenes messen. Die Frage nach einem adäquaten Test ist nur vor dem Hintergrund der jeweiligen Funktionen und Fragestellungen zu entscheiden. Zu unterscheiden sind mindestens zwei Dimensionen[2]:

    1) Soll der Test curriculumsnah oder curriculumsfern angelegt sein? Wenn er curriculumsnah angelegt ist, eignet er sich nur für solche Gruppen, die sich mit denselben Themen auseinandergesetzt haben. Getestet wird dann, wie die/der SchülerIn sich am Beispiel eines ihnen bekannten Themas mit neuen historischen Fragen und/oder Materialien auseinandersetzen. Für einen etwaigen internationalen Vergleich ist ein solcher Test unbrauchbar, weil geschichtskulturell bedingt recht verschiedene Themensetzungen im Geschichtsunterricht vorgesehen sind. Wenn ein Test curriculumsfern angelegt wird, dann sind die Aufgaben so zu konstruieren, dass sie an einem für alle beteiligten unbekannten historischen Gegenstand erhoben werden. Deshalb sind alle dafür notwendigen Informationen in unterschiedlichen Materialien mitzuliefern.
    2) Sollen die Leistungen von Individuen oder großen Gruppen miteinander verglichen werden? Wenn es um die individuelle Leistungsmessung geht, kann eine eigenständig zu erstellende Projektarbeit ein sinnvolles Testformat sein, weil die SchülerInnen selbstständig historisch erzählen. Für einen Vergleich großer Gruppen eignet sich ein solches Format aber nicht. Dafür sind sehr standardisierte Testformate notwendig, die aber auf historisches Denken zielen sollen und nicht auf spezifische Inhalte (wie das obige Beispiel). Eine Möglichkeit solcher standardisierter Testformate sind Multiple-Choice-Tests, denkbar sind aber auch standardisierte Auswertungen von offen gestellten Aufgaben.

    Die von Daisy Martin beschriebenen Projekte sind curriculumsnah angelegt und zielen darauf ab, dass LehrerInnen individuelle Rückmeldungen geben können. Dafür ist der Einsatz von Multiple-Choice-Fragen, in der Form des obigen Beispiels, unbrauchbar. Daraus sollte allerdings nicht gefolgert werden, dass dies die einzig sinnvolle Form des Testens ist. So wäre eine international vergleichende Studie zum historischen Denken von großem Interesse. Dafür aber sind Testinstrumente notwendig, die historisches Denken adressieren, curriculumsfern angelegt sind und zugleich standardisiert testen.

    Multiple Choice-Tests zur Erfassung historischen Denkens?
    Weder aus dem obigen Beispiel aus NAEP noch aus dem Artikel ist aber zu folgern, dass Multiple-Choice-Aufgaben grundsätzlich ungeeignet sind, historisches Denken zu erfassen. Umgekehrt wäre aber auch die Behauptung falsch, dass mit Multiple-Choice-Tests historisches Denken insgesamt zu erfassen ist. Vielmehr ist die Frage nach den Möglichkeiten und Grenzen quantitativen Testens theoretisch und empirisch zu klären. Denkbar sind durchaus bessere Multiple-Choice-Aufgaben als die oben beschriebene. Ein erster Schritt in diese Richtung ist gemacht.[3]

    [1] Vgl. https://nces.ed.gov/NationsReportCard/nqt/Search (zuletzt am 21.12.15).
    [2] Körber, Andreas / Meyer-Hamme, Johannes (2015): Historical Thinking, Competencies and their Measurement: Theoretical Challenges and Testing Concepts, in: Ercikan, Kadriye; Seixas, Peter: New Directions in Assessing Historical Thinking. New York: Routledge, S. 89–101.
    [3] Trautwein, Ulrich u.a.: Entwicklung und Validierung eines historischen Kompetenztests zum Einsatz in Large-Scale-Assessments (HiTCH). In: Bundesministerium für Bildung und Forschung (Hrsg): Forschung in Ankopplung an Large-Scale Assessments. Bonn: Bundesministerium für Bildung und Forschung [im Druck].

  2. [Die deutsche Übersetzung findet sich unter dem englischen Text.]

    To diagnose the knowledge and competence level of pupils in order to promote further learning is among the key activities of teachers at any school level. Beside this, summative assessments to determine the efficiency of education systems have been used increasingly since the 70-ies. These “large scale” assessments are either applied in international comparisons or based on national performance standards. Daisy Martins’ proposal builds on the idea to embed assessments in a nationally used curriculum to help guide teaching and learning. It is expected that the construction of “curriulum-embedded tests” has a substantial impact on learning and achievement for large numbers of students; amongst others through the means of transparent performance requirements for all stakeholders involved, such as teachers, students, parents and the public.[1] As a desirable side-effect of this initiative Daisy Martin mentions the improvement of teaching and learning. This process may profit from teachers collaborating with educational experts on requirements of the curriculum, its implementation in the classroom and the revision of the targeted competencies. Communication via learning objectives, teaching arrangements and appropriate problem solving tasks can undoubtedly help to improve the quality of teaching and learning. On the other hand high standardized achievement tests may also benefit from such joint development work. Thus, curriculum-embedded tests seem to be a considerable way. However, it is also a typical American way, which builds on the tradition of Anglo-American test culture and the existence of a national curriculum.

    Broad sections of German history educators estimate standardized achievement tests rather critically. In general, the assessment of more complex historical thinking skills using standardized task formats is considered a great challenge [2] or is even questioned [3]. The required commitment to educational goals and content is associated with a narrowing of education in order to support “the economization of educational policy” and the ”instrumentalization of education” for purely economic purposes.[4] Multiple-choice task formats which mainly demand the reproduction of memorized knowledge or the processing of simple problem solving procedures also support the concerns.[5] But also present experiments to open task formats assessing pupils historical competencies cannot completely eliminate existing skepticism, pointing out the struggling of the pupils with the new task formats and their lack of the required problem-solving strategies.[6] This last point leads back to Daisy Martins proposal to involve teachers as assessment developers in order to link teaching and testing more closely to each other. What speaks against it?

    History teachers are not psychometricians. Their main activities include the didactic reduction, the initiation and support of historical learning processes, their diagnosis as well as other pedagogical tasks. The costs for teachers as assessment developers appear from this perspective as relatively high: The project claims expensive working time or the summoning of an extraordinary commitment of teachers in their leisure time. Probably, their engagement competes with other important school development projects that arise from individual school experiences which must be subsequently postponed. In any case, a substantial coordination effort is required. A broader test development initiative stimulated by education administrations seems to be – at least from a Swiss perspective – as not practicable. Alternatively, intervention projects which give history teachers and didactical experts a platform to collaborate in order to discuss teaching and learning processes to support critical-reflexive historical thinking skills including also questions of diagnosis are proposed; possibly also embedded in practical training in teacher education. The American approach as well as the intervention idea outlined here seem to have the same goal: the development of history teaching and an extended test culture. What is needed in every case and for all stakeholders: to be interested in historical learning processes, to have a watchful eye and the willingness to continuously work in multidisciplinary teams (teachers, educational experts, psychometricians) on issues of diagnosing and testing.

    [1] Shavelson, Richard J. et al.: On the Impact of Curriculum-Embedded Formative Assessment on Learning: A Collaboration between Curriculum and Assessment Developers. In: Applied measurement in education, 21 (2008), pp. 295 – 314. DOI: 10.1080/08957340802347647.
    [2] Körber, Andreas et al.: Sind Kompetenzen historischen Denkens messbar? In: Frederking, Volker (eds.), Schwer messbare Kompetenzen. Herausforderungen für die empirische Fachdidaktik. Baltmannsweiler (2008), pp. 65 – 84.
    [3] „Can central competences of historical thinking be reliably measured and graded in a large scale format?“ vgl. Thünemann, Holger: Historisches Denken. Lernprozessdiagnose statt Leistungsmessung. In: Public History Weekly 2 (2014) 19, DOI: dx.doi.org/10.1515/phw-2014-2058.
    [4] The commitment of the OECD in large scale assessments such as PISA is often seen as an attempt to pass through more “market-oriented educational issues and the competitively regulated distribution of public educational goods to more cost-related and performance-based efficiency. The “economization of educational policy” as well as the instrumentalization of education for purely economic purposes was criticized (e.g. Emmerich, Marcus & Hormel, Ulrike: Equity oder die Individualisierung der Bildungsbenachteiligung. journal für lehrerinnen- und lehrerbildung. Themenheft 1 (2013): Equity and Equality im Bildungssystem, pp. 8 – 15; here p. 8.
    [5] Even though Bruce Sledright is identifying possible challenging multiple-choice tasks, the concerns still exist. VanSledright, Bruce A.: Assessing Historical Thinking and Understanding. Innovative Designs for New Standards, New York/London 2014, S. 58 – 66.
    [6] Waldis Monika, Hodel Jan, Thünemann Holger, Zülstorf-Kersting Meik, Ziegler Beatrice (2015). Material-based and open-ended writing tasks to assess narrative competence among students. In: Seixas, Peter & Ercikan Kadriye (eds.): New Directions in Assessing Historical Thinking, Chapter 8. Routeledge (2015), pp. 119 – 133; here p. 128.


    Den Wissens- bzw. Kompetenzstand von SchülerInnen zu diagnostizieren und Fördermaßnahmen zu ergreifen, gehören zu den zentralen Tätigkeiten von Lehrpersonen jeder Schulstufe. Nebst diesem formativen Assessment werden seit den 70-er Jahren zunehmend summative Assessments zur Feststellung der Effizienz von Bildungssystemen eingesetzt. Diese “large scale” assessments sind entweder international vergleichend angelegt oder orientieren sich an nationalen Leistungsstandards. Daisy Martins Vorschläge knüpfen an die amerikanische Idee an, large scale assessement und curriculum-embedded testing stärker aufeinander zu beziehen mit dem Ziel der Qualitätssteigerung im Bildungswesen, u.a. indem Leistungsanforderungen für alle beteiligten Akteure wie Lehrpersonen, SchülerInnen, Eltern und die Öffentlichkeit transparent gemacht werden.[1] Als erwünschter Nebeneffekt des Engagements der Lehrpersonen bei der Entwicklung der sogenannten curriculum-embedded tests wird hier von Daisy Martin die Unterrichtsentwicklung erwähnt. Dieser Prozess wird dadurch initiiert, dass Lehrpersonen sich gemeinsam mit Bildungsexperten über Vorgaben des Curriculums austauschen, dessen Umsetzung im Unterricht diskutieren und Vorschläge zur Überprüfung der erarbeiteten Kompetenzen entwickeln. Die Kommunikation über Lernziele, Unterrichtsarrangements und geeignete Prüfungsaufgaben kann zweifelsohne zur Qualitätssteigerung von Unterricht und Lernen beitragen. Umgekehrt werden wahrscheinlich auch high standardized achievement tests von solchen gemeinsamen Entwicklungsarbeiten profitieren. Von daher also: Ein erwägenswerter Weg. Allerdings ist es auch ein typisch amerikanischer Weg, der auf die Tradition der anglo-amerikanischen Testkultur und einem nationalen Curriculum aufbaut.

    Die deutschsprachige Geschichtsdidaktik steht standardisierten Schulleistungstests mehr oder weniger kritisch gegenüber. Generell wird die Erfassung komplexerer historischer Denkleistungen mittels standardisierten Testaufgaben als große Herausforderung betrachtet [2] oder gar in Frage gestellt [3]. Die dazu notwendige Festlegung auf Bildungsziele und -inhalte; d.h. eine gewisse Standardisierung wird unter dem Aspekt der Ökonomisierung der Bildung zuweilen äusserst kritisch betrachtet.[4] Multiple-Choice-Aufgaben, die vor allem die Reproduktion auswendig gelernten Wissens bzw. das Abarbeiten einfacher Problemlöseprozeduren einfordern, befördern zudem die Bedenken.[5] Aber auch vorliegende Experimente zu offenen Aufgabenformaten vermögen die vorhandene Skepsis nicht vollends zu beseitigen, wird dort zuweilen die Überforderung der SchülerInnen sichtbar, indem sie Mühe mit der neuartigen Aufgabenstellung bekunden und die erforderlichen Problemlösestrategien vermissen lassen.[6] Dieser letzte Punkt führt zu Daisy Martins Überlegung zurück, Lehrpersonen in die Entwicklung von curriculum-embedded tests einzubinden und auf diesem Weg Curriculum, Unterricht und das Testen enger aneinander zu koppeln. Was spricht dagegen?

    Geschichtslehrpersonen sind keine PsychometrikerInnen. Ihr Berufsfeld umfasst die didaktische Reduktion, die Initiierung und Unterstützung von historischen Lernprozessen, deren Diagnostizierung bei SchülerInnen sowie weitere pädagogische Aufgaben. Die Kosten für den Einbezug von Lehrpersonen in die Testentwicklung erscheinen aus dieser Perspektive als relativ hoch: Das Unternehmen beansprucht teuer bezahlte Arbeitszeit und/oder die Einforderung eines ausserordentlichen Engagements der Lehrpersonen in der Freizeit. Eventuell müssen auch weitere wichtige Schulentwicklungsprojekte, die dem Erleben der eigenen Schulsituation entspringen, zurückgestellt werden. Auf jeden Fall wird ein beträchtlicher Koordinationsaufwand notwendig. Eine von Seiten der Bildungsadministration verordnete Konzentration auf Testentwicklung scheint – zumindest aus Schweizerischer Perspektive – als nicht durchführbar. Als Alternative dazu bieten sich aus meiner Perspektive Interventionsprojekte an, in deren Rahmen Lehrpersonen, GeschichtsdidaktikerInnen und BildungsforscherInnen über kompetenzorientierten Geschichtsunterricht und Lernaufgaben zu diskutieren beginnen mit der Absicht, Lern- und Prüfungsaufgaben zu entwickeln, die kritisch-reflexives historisches Denken bei SchülerInnen herausfordern. Allenfalls könnten solche Ideen auch in der Praxisausbildung in der Lehrerbildung umgesetzt werden. Die amerikanische Herangehensweise als auch die hier skizzierte Variante scheinen das gleiche Ziel zu haben: Unterrichtsentwicklung und eine veränderte Testkultur. Was es in jedem Fall und bei allen beteiligten Akteuren braucht: Den an historischen Lernprozessen interessierten, wachsamen Blick und die Bereitschaft, kontinuierlich und in interdisziplinären Teams (Lehrpersonen, FachdidaktikerInnen, PsychometrikerInnen) an Fragen des Diagnostizierens und Prüfens zu arbeiten.

    [1] Shavelson, Richard J. et al.: On the Impact of Curriculum-Embedded Formative Assessment on Learning: A Collaboration between Curriculum and Assessment Developers. In: Applied measurement in education, 21 (2008), S. 295 – 314. DOI: 10.1080/08957340802347647.
    [2] Körber, Andreas et al.: Sind Kompetenzen historischen Denkens messbar? In: Frederking, Volker (eds.), Schwer messbare Kompetenzen. Herausforderungen für die empirische Fachdidaktik. Baltmannsweiler (2008), S. 65 – 84.
    [3] „Can central competences of historical thinking be reliably measured and graded in a large scale format?“ vgl. Thünemann, Holger: Historisches Denken. Lernprozessdiagnose statt Leistungsmessung. In: Public History Weekly 2 (2014) 19, DOI: dx.doi.org/10.1515/phw-2014-2058.
    [4] Das Engagement der OECD in large scale assessments wie PISA wird häufig auch als Versuch gesehen, durch stärker „marktorientierte Bearbeitung von Bildungsthemen bzw. die markt- und wettbewerbsregulierte Verteilung öffentlicher Bildungsgüter zu mehr kostenbezogener Effizienz und leistungsbezogener Effektivität zu gelangen. Kritisiert werden die „Ökonomisierung der Bildungspolitik“ sowie die Instrumentalisierung der Bildung für ausschliesslich ökonomische Zwecke. Vgl. Emmerich, Marcus & Hormel, U.: Equity oder die Individualisierung der Bildungsbenachteiligung. journal für lehrerinnen- und lehrerbildung. Themenheft 1 (2013): Equity and Equality im Bildungssystem, S. 8-15; hier S. 8.
    [5] Auch wenn Bruce von Sledright in seiner Publikation Möglichkeiten anspruchsvoller multiple-choice-Aufgaben aufzeigt bestehen die Bedenken weiterhin. VanSledright, Bruce A.: Assessing Historical Thinking and Understanding. Innovative Designs for New Standards, New York/London 2014, S. 58 – 66.
    [6] Waldis Monika, Hodel Jan, Thünemann Holger, Zülstorf-Kersting Meik, Ziegler Beatrice (2015). Material-based and open-ended writing tasks to assess narrative competence among students. In: Seixas, Peter & Ercikan Kadriye (eds.): New Directions in Assessing Historical Thinking, Chapter 8. Routeledge (2015), S. 119 – 133; hier S. 128.

  3. Author’s Reply

    Thanks for these thoughtful comments. I believe the first thing that the comments demonstrate is that we agree that assessing historical understanding and thinking is a multi-faceted and complex issue that is engaging many in our field. A short blog cannot address all these, but all three of the writers here point to the volume edited by Professors Ercikan and Seixas to go deeper and broader into this issue.

    First, let me agree with Professor Meyer-Hamme that there are multiple ways to assess historical understanding and that the purposes of a test matter to a judgment of its worthiness. While my original question may “irritate,” it does not suggest there is only ONE worthy kind of test—that is a myopic answer that would irritate me as well. However, can we agree that the impact a test can have on instruction and curriculum and in turn, student learning, should matter to our design and selection of tests? Should tests support quality instruction and an authentic history curriculum? I believe so.

    This may be the question that matters more. The U.S. is just beginning to emerge from a somewhat test-crazed period where a narrowed curriculum, exhausted students, and punitive policy were the norm. History was not central to this test craze but the question of whether to advocate for more history testing as the “what gets tested gets taught” crowd suggested, or to reject standardized tests has been a conundrum in the U.S. Large-scale standardized history testing in the U.S. predominantly focuses on multiple choice questions and yes, while purpose matters, using these as the only item format does not support nor encourage quality history instruction. (Yes, some multiple choice questions are better than others, and yes, I can live with them as one of several item types, but they tell us little, if anything, about what a student actually knows or can do.) And unfortunately, there is not a robust culture of “curriculum-embedded” tests in the U.S as Professor Waldis claims. More likely students take a standardized history test filled with multiple-choice questions that span a curriculum and that is administered at the end of the academic year. There are exceptions to this routine, but they are not common. (See my recent analysis of sample higher quality items on released history tests in the U.S. here.[1])

    And this partly explains why I share the skepticism of large-scale standardized test mentioned by Professor Waldis. However, I have not yet fallen into complete cynicism. In fact, I proposed DBQs as an item type that could be worthy and are being used currently in multiple national contexts which, in turn, increases the likelihood of lessons we can learn from administering them. I also suggested that our practice and vision of how to assess historical thinking could be broader and more creative, suggesting that we may find ideas in teachers’ practice. And while I agree with Professor Waldis’ reminder of the costs in resources of assigning teachers to the role of assessment developers, we also agree that engaging in such activity can be a source for significant professional learning. What might be the balance here? If large-scale standardized tests used more worthy item types such as DBQs, could we tighten connections between teaching, learning, professional development and assessment? I believe so.

    But, I don’t mean to argue for the proliferation and use of large-scale standardized history tests. While they can serve multiple purposes, currently, in the states, these tests often work against quality teaching and learning with their reliance on decontextualized multiple-choice items. However, these tests are not going away anytime soon in the U.S. and, as Professor Meyer-Hamme points out, there is interest in international comparisons concerning students’ historical understanding and thinking. So rather than argue for or against large-scale tests, I support breaking down some conceptual boundaries between the standardized testing approach and classroom-based assessments. Could similar worthy item types be used in both these contexts? Could DBQs be one item type that fits this bill? Are there other item types that that both support quality instruction and learning while also meeting comparison and accountability purposes of large-scale tests? I believe so and we need to ensure the latter set of goals does not trump the former.

    [1] https://scale.stanford.edu/sites/default/files/Evaluating%20Item%20Quality%20in%20Large-Scale%20Assessments_FINAL_0.pdf

Pin It on Pinterest