What is a “worthy” test for History?

Was ist ein “angemessener” Geschichtstest?

On October 24, 2015, The White House released (on Facebook!) a short speech[1] by President Obama where he addressed growing concerns over the increase in standardized testing in the U.S. President Obama called for “smart, strategic tests” that help kids learn and don’t take the joy out of learning. Use only worthy tests was the first of three principles he laid out: the second was related to this idea of worthiness—that tests should enhance teaching and learning– and the third advocated moving standardized tests from their privileged place of being the only source of information about a student’s learning to one of multiple measures. None of these ideas are new, but it is significant that the President weighed in on this issue that has attracted great public and professional concern.

 

Scenario 1

Picture a rural school district where more than 13,000 students attend grades 7-12, many families work in agriculture, and many students are English…


Categories: 3 (2015) 39
DOI: dx.doi.org/10.1515/phw-2015-4926

Tags: , , ,

3 replies »

  1. [Die deutsche Übersetzung findet sich unter dem englischen Text.]

    There is not only one worthy way of measuring competencies of historical thinking

    Daisy Martin asks for an appropriate test in order to measure historical thinking. Thereby, she raised a very relevant question on the field of history didactics which has to be seen against the background of the testing culture in the US. In this context the “National Assessment for Educational Progress (NAEP)” program has to be mentioned, which also contains testing instruments for history. It deals with questions concerning the US history which mainly but not only test historical knowledge via multiple-choice tests. There is for example the exercise which asks for the similarities between John Brown, Frederick Douglass, William Lloyd Garrison, and Angelina Grimké. The tested persons then have to choose between four possible answers. A. “Confederate leaders”, B. “industrialists”, C. “abolitionists” or D. “slaves who escaped captivity”. For this question C is given as the correct answer.[1] What is tested by such a format is whether the test persons have a certain knowledge, though it has to be added that there is also a twenty-five percent chance to simply guess the right answer.

    Under the circumstances that this is the basis for measuring the performances of learners, such tests lead to a type of history lesson which focuses on teaching such conventional contents and does not bring about lessons which foster the competencies of historical thinking. This also builds the background for the understanding of the projects described by Daisy Martin which are rightly distanced from such ways of testing. Instead she searches for tests which can measure the outcomes of historical thinking which are developed in the context of history lessons. At the same time these projects should partake to a general lesson development.

    Different test formats for different functions of testing
    The question raised by Daisy Martin is relevant but at the same time irritating because there is not only one test for historical thinking, quite the opposite, there are very different testing instruments which measure different things. The question concerning a worthy test can only be answered by looking at the particular functions of the test. There are at least two dimensions which have to be subdivided:[2]

    1) Should the test be designed in accordance with the curricula or not? If the test is designed by looking at the curricula it is only appropriate for those groups which dealt with the same topic. What is tested by this format is how students use a familiar topic to deal with new historical questions and /or material. Such a test is inappropriate for an international comparison because it focuses on the topics dealt with in history lessons but these topics vary according to different historical cultures. If a test is designed without taken the curriculum into consideration, exercises will have to be constructed in such a way that they will measure data by testing a historical topic which is unknown to all persons tested. Thus all necessary information have to be incorporated into the material given to them.
    2) Are the performances of individuals or large groups compared to each other? If the aim is to test the individual performance, a project which is carried out independently can be a worthy test format because the students narrate independently historically. On the other hand, this is not an appropriate format for a comparison of large groups. To achieve this goal, it is necessary to use standardized testing formats which are supposed to focus on historical thinking and not on specific content knowledge. An opportunity for such standardized tests are multiple choice tests, but also standardized evaluations of open tasks are possible.

    The projects described by Daisy Martin are designed in accordance with the curricula and follow the objective that teachers are able to give individual feedbacks. For such a situation the usage of multiple-choice questions, like the ones described above, would be unworthy. This should not lead to the conclusion that this way of testing is the only worthy way of carrying out a test. For instance, an international comparison study concerning historical thinking is of great interest as well. For this we need test instruments which address historical thinking without being bound to the curricula and which are at the same time standardized.

    Are multiple-choice tests worthy to measure historical thinking?
    Neither the examples taken from the NAEP, nor the article brings us to the conclusion that multiple-choice exercises are in general inappropriate to measure historical thinking. On the contrary, the assumption that multiple-choice tests measure the whole area of historical thinking is not true, neither.

    The question concerning the possibilities and limits of quantitative testing rather has to be clarified empirically and theoretically. One can definitely think of better multiple choice tasks than the ones described above. A first step into the right direction has been made.[3]

    References
    [1] https://nces.ed.gov/NationsReportCard/nqt/Search (Last access 17.12.2015)
    [2] Körber, Andreas / Meyer¬Hamme, Johannes (2015): Historical Thinking, Competencies and their Measurement: Theoretical Challenges and Testing Concepts. In: Ercikan, Kadriye; Seixas, Peter: New Directions in Assessing Historical Thinking. New York: Routledge, p. 89–101.
    [3] Trautwein, Ulrich et.al. (forthcoming): Entwicklung und Validierung eines historischen Kompetenztests zum Einsatz in Large¬Scale¬Assessments (HiTCH). In: Bundesministerium für Bildung und Forschung (ed.): Forschung in Ankopplung an Large¬Scale Assessments. Bonn: Bundesministerium für Bildung und Forschung.

    ————————————

    Es gibt nicht nur ein sinnvolles Testformat zur Erfassung von Kompetenzen historischen Denkens

    Daisy Martin fragt nach einem adäquaten Test, um historisches Denken zu erfassen. Damit hat sie eine sehr relevante geschichtsdidaktische Frage aufgegriffen, die vor dem Hintergrund US-amerikanischer Testkultur zu verstehen ist. Hier ist sicherlich das Programm “National Assessment for Educational Progress (NAEP)” zu nennen, bei dem auch Testinstrumente zur Geschichte vorliegen. Dabei handelt es sich um Fragen zur US-Geschichte, die vielfach, aber nicht nur, in Form von Multiple-Choice-Fragen bestimmte Kenntnisse abfragen. So wird beispielsweise nach einer Gemeinsamkeit von John Brown, Frederick Douglass, William Lloyd Garrison, und Angelina Grimké gefragt und die Probanden müssen sich zwischen vier Antwortmöglichkeiten entscheiden: A. “Confederate leaders”, B. “industrialists”, C. “abolitionists” oder D. “slaves who escaped captivity”, wobei die Antwort C als korrekt gewertet wird.[1] Getestet wird damit, ob die Probanden über bestimmte Kenntnisse verfügen, allerdings bei einer Ratewahrscheinlichkeit von 25%.
    Unter der Bedingung, dass auf dieser Basis die Leistungen von Lernenden erhoben werden, führt dies zu einer Form von Unterricht, in dem solche konventionellen Kenntnisse erlernt werden sollen und nicht zu einem Unterricht, in dem die Fähigkeiten historischen Denkens geschult werden. Vor diesem Hintergrund sind auch die von Daisy Martin beschriebenen Projekte zu verstehen, die sich zu Recht von dieser Art des Testens abgrenzen und stattdessen nach Testformaten suchen, mit denen die Ausprägung historischen Denkens erfasst werden kann, die unterrichtsnah entwickelt werden. Zugleich soll diese Entwicklung zu einer Unterrichtsentwicklung beitragen.

    Unterschiedliche Testformate für verschiedene Funktionen des Testens
    Die von Daisy gestellte Frage ist zwar relevant, aber zugleich auch irreführend, denn es gibt nicht den einen Test für historisches Denken, sondern es gibt ganz unterschiedliche Testinstrumente, die Verschiedenes messen. Die Frage nach einem adäquaten Test ist nur vor dem Hintergrund der jeweiligen Funktionen und Fragestellungen zu entscheiden. Zu unterscheiden sind mindestens zwei Dimensionen[2]:

    1) Soll der Test curriculumsnah oder curriculumsfern angelegt sein? Wenn er curriculumsnah angelegt ist, eignet er sich nur für solche Gruppen, die sich mit denselben Themen auseinandergesetzt haben. Getestet wird dann, wie die/der SchülerIn sich am Beispiel eines ihnen bekannten Themas mit neuen historischen Fragen und/oder Materialien auseinandersetzen. Für einen etwaigen internationalen Vergleich ist ein solcher Test unbrauchbar, weil geschichtskulturell bedingt recht verschiedene Themensetzungen im Geschichtsunterricht vorgesehen sind. Wenn ein Test curriculumsfern angelegt wird, dann sind die Aufgaben so zu konstruieren, dass sie an einem für alle beteiligten unbekannten historischen Gegenstand erhoben werden. Deshalb sind alle dafür notwendigen Informationen in unterschiedlichen Materialien mitzuliefern.
    2) Sollen die Leistungen von Individuen oder großen Gruppen miteinander verglichen werden? Wenn es um die individuelle Leistungsmessung geht, kann eine eigenständig zu erstellende Projektarbeit ein sinnvolles Testformat sein, weil die SchülerInnen selbstständig historisch erzählen. Für einen Vergleich großer Gruppen eignet sich ein solches Format aber nicht. Dafür sind sehr standardisierte Testformate notwendig, die aber auf historisches Denken zielen sollen und nicht auf spezifische Inhalte (wie das obige Beispiel). Eine Möglichkeit solcher standardisierter Testformate sind Multiple-Choice-Tests, denkbar sind aber auch standardisierte Auswertungen von offen gestellten Aufgaben.

    Die von Daisy Martin beschriebenen Projekte sind curriculumsnah angelegt und zielen darauf ab, dass LehrerInnen individuelle Rückmeldungen geben können. Dafür ist der Einsatz von Multiple-Choice-Fragen, in der Form des obigen Beispiels, unbrauchbar. Daraus sollte allerdings nicht gefolgert werden, dass dies die einzig sinnvolle Form des Testens ist. So wäre eine international vergleichende Studie zum historischen Denken von großem Interesse. Dafür aber sind Testinstrumente notwendig, die historisches Denken adressieren, curriculumsfern angelegt sind und zugleich standardisiert testen.

    Multiple Choice-Tests zur Erfassung historischen Denkens?
    Weder aus dem obigen Beispiel aus NAEP noch aus dem Artikel ist aber zu folgern, dass Multiple-Choice-Aufgaben grundsätzlich ungeeignet sind, historisches Denken zu erfassen. Umgekehrt wäre aber auch die Behauptung falsch, dass mit Multiple-Choice-Tests historisches Denken insgesamt zu erfassen ist. Vielmehr ist die Frage nach den Möglichkeiten und Grenzen quantitativen Testens theoretisch und empirisch zu klären. Denkbar sind durchaus bessere Multiple-Choice-Aufgaben als die oben beschriebene. Ein erster Schritt in diese Richtung ist gemacht.[3]

    Anmerkungen
    [1] Vgl. https://nces.ed.gov/NationsReportCard/nqt/Search (zuletzt am 21.12.15).
    [2] Körber, Andreas / Meyer-Hamme, Johannes (2015): Historical Thinking, Competencies and their Measurement: Theoretical Challenges and Testing Concepts, in: Ercikan, Kadriye; Seixas, Peter: New Directions in Assessing Historical Thinking. New York: Routledge, S. 89–101.
    [3] Trautwein, Ulrich u.a.: Entwicklung und Validierung eines historischen Kompetenztests zum Einsatz in Large-Scale-Assessments (HiTCH). In: Bundesministerium für Bildung und Forschung (Hrsg): Forschung in Ankopplung an Large-Scale Assessments. Bonn: Bundesministerium für Bildung und Forschung [im Druck].

  2. [Die deutsche Übersetzung findet sich unter dem englischen Text.]

    To diagnose the knowledge and competence level of pupils in order to promote further learning is among the key activities of teachers at any school level. Beside this, summative assessments to determine the efficiency of education systems have been used increasingly since the 70-ies. These “large scale” assessments are either applied in international comparisons or based on national performance standards. Daisy Martins’ proposal builds on the idea to embed assessments in a nationally used curriculum to help guide teaching and learning. It is expected that the construction of “curriulum-embedded tests” has a substantial impact on learning and achievement for large numbers of students; amongst others through the means of transparent performance requirements for all stakeholders involved, such as teachers, students, parents and the public.[1] As a desirable side-effect of this initiative Daisy Martin mentions the improvement of teaching and learning. This process may profit from teachers collaborating with educational experts on requirements of the curriculum, its implementation in the classroom and the revision of the targeted competencies. Communication via learning objectives, teaching arrangements and appropriate problem solving tasks can undoubtedly help to improve the quality of teaching and learning. On the other hand high standardized achievement tests may also benefit from such joint development work. Thus, curriculum-embedded tests seem to be a considerable way. However, it is also a typical American way, which builds on the tradition of Anglo-American test culture and the existence of a national curriculum.

    Broad sections of German history educators estimate standardized achievement tests rather critically. In general, the assessment of more complex historical thinking skills using standardized task formats is considered a great challenge [2] or is even questioned [3]. The required commitment to educational goals and content is associated with a narrowing of education in order to support “the economization of educational policy” and the ”instrumentalization of education” for purely economic purposes.[4] Multiple-choice task formats which mainly demand the reproduction of memorized knowledge or the processing of simple problem solving procedures also support the concerns.[5] But also present experiments to open task formats assessing pupils historical competencies cannot completely eliminate existing skepticism, pointing out the struggling of the pupils with the new task formats and their lack of the required problem-solving strategies.[6] This last point leads back to Daisy Martins proposal to involve teachers as assessment developers in order to link teaching and testing more closely to each other. What speaks against it?

    History teachers are not psychometricians. Their main activities include the didactic reduction, the initiation and support of historical learning processes, their diagnosis as well as other pedagogical tasks. The costs for teachers as assessment developers appear from this perspective as relatively high: The project claims expensive working time or the summoning of an extraordinary commitment of teachers in their leisure time. Probably, their engagement competes with other important school development projects that arise from individual school experiences which must be subsequently postponed. In any case, a substantial coordination effort is required. A broader test development initiative stimulated by education administrations seems to be – at least from a Swiss perspective – as not practicable. Alternatively, intervention projects which give history teachers and didactical experts a platform to collaborate in order to discuss teaching and learning processes to support critical-reflexive historical thinking skills including also questions of diagnosis are proposed; possibly also embedded in practical training in teacher education. The American approach as well as the intervention idea outlined here seem to have the same goal: the development of history teaching and an extended test culture. What is needed in every case and for all stakeholders: to be interested in historical learning processes, to have a watchful eye and the willingness to continuously work in multidisciplinary teams (teachers, educational experts, psychometricians) on issues of diagnosing and testing.

    References
    [1] Shavelson, Richard J. et al.: On the Impact of Curriculum-Embedded Formative Assessment on Learning: A Collaboration between Curriculum and Assessment Developers. In: Applied measurement in education, 21 (2008), pp. 295 – 314. DOI: 10.1080/08957340802347647.
    [2] Körber, Andreas et al.: Sind Kompetenzen historischen Denkens messbar? In: Frederking, Volker (eds.), Schwer messbare Kompetenzen. Herausforderungen für die empirische Fachdidaktik. Baltmannsweiler (2008), pp. 65 – 84.
    [3] „Can central competences of historical thinking be reliably measured and graded in a large scale format?“ vgl. Thünemann, Holger: Historisches Denken. Lernprozessdiagnose statt Leistungsmessung. In: Public History Weekly 2 (2014) 19, DOI: dx.doi.org/10.1515/phw-2014-2058.
    [4] The commitment of the OECD in large scale assessments such as PISA is often seen as an attempt to pass through more “market-oriented educational issues and the competitively regulated distribution of public educational goods to more cost-related and performance-based efficiency. The “economization of educational policy” as well as the instrumentalization of education for purely economic purposes was criticized (e.g. Emmerich, Marcus & Hormel, Ulrike: Equity oder die Individualisierung der Bildungsbenachteiligung. journal für lehrerinnen- und lehrerbildung. Themenheft 1 (2013): Equity and Equality im Bildungssystem, pp. 8 – 15; here p. 8.
    [5] Even though Bruce Sledright is identifying possible challenging multiple-choice tasks, the concerns still exist. VanSledright, Bruce A.: Assessing Historical Thinking and Understanding. Innovative Designs for New Standards, New York/London 2014, S. 58 – 66.
    [6] Waldis Monika, Hodel Jan, Thünemann Holger, Zülstorf-Kersting Meik, Ziegler Beatrice (2015). Material-based and open-ended writing tasks to assess narrative competence among students. In: Seixas, Peter & Ercikan Kadriye (eds.): New Directions in Assessing Historical Thinking, Chapter 8. Routeledge (2015), pp. 119 – 133; here p. 128.

    ——

    Den Wissens- bzw. Kompetenzstand von SchülerInnen zu diagnostizieren und Fördermaßnahmen zu ergreifen, gehören zu den zentralen Tätigkeiten von Lehrpersonen jeder Schulstufe. Nebst diesem formativen Assessment werden seit den 70-er Jahren zunehmend summative Assessments zur Feststellung der Effizienz von Bildungssystemen eingesetzt. Diese “large scale” assessments sind entweder international vergleichend angelegt oder orientieren sich an nationalen Leistungsstandards. Daisy Martins Vorschläge knüpfen an die amerikanische Idee an, large scale assessement und curriculum-embedded testing stärker aufeinander zu beziehen mit dem Ziel der Qualitätssteigerung im Bildungswesen, u.a. indem Leistungsanforderungen für alle beteiligten Akteure wie Lehrpersonen, SchülerInnen, Eltern und die Öffentlichkeit transparent gemacht werden.[1] Als erwünschter Nebeneffekt des Engagements der Lehrpersonen bei der Entwicklung der sogenannten curriculum-embedded tests wird hier von Daisy Martin die Unterrichtsentwicklung erwähnt. Dieser Prozess wird dadurch initiiert, dass Lehrpersonen sich gemeinsam mit Bildungsexperten über Vorgaben des Curriculums austauschen, dessen Umsetzung im Unterricht diskutieren und Vorschläge zur Überprüfung der erarbeiteten Kompetenzen entwickeln. Die Kommunikation über Lernziele, Unterrichtsarrangements und geeignete Prüfungsaufgaben kann zweifelsohne zur Qualitätssteigerung von Unterricht und Lernen beitragen. Umgekehrt werden wahrscheinlich auch high standardized achievement tests von solchen gemeinsamen Entwicklungsarbeiten profitieren. Von daher also: Ein erwägenswerter Weg. Allerdings ist es auch ein typisch amerikanischer Weg, der auf die Tradition der anglo-amerikanischen Testkultur und einem nationalen Curriculum aufbaut.

    Die deutschsprachige Geschichtsdidaktik steht standardisierten Schulleistungstests mehr oder weniger kritisch gegenüber. Generell wird die Erfassung komplexerer historischer Denkleistungen mittels standardisierten Testaufgaben als große Herausforderung betrachtet [2] oder gar in Frage gestellt [3]. Die dazu notwendige Festlegung auf Bildungsziele und -inhalte; d.h. eine gewisse Standardisierung wird unter dem Aspekt der Ökonomisierung der Bildung zuweilen äusserst kritisch betrachtet.[4] Multiple-Choice-Aufgaben, die vor allem die Reproduktion auswendig gelernten Wissens bzw. das Abarbeiten einfacher Problemlöseprozeduren einfordern, befördern zudem die Bedenken.[5] Aber auch vorliegende Experimente zu offenen Aufgabenformaten vermögen die vorhandene Skepsis nicht vollends zu beseitigen, wird dort zuweilen die Überforderung der SchülerInnen sichtbar, indem sie Mühe mit der neuartigen Aufgabenstellung bekunden und die erforderlichen Problemlösestrategien vermissen lassen.[6] Dieser letzte Punkt führt zu Daisy Martins Überlegung zurück, Lehrpersonen in die Entwicklung von curriculum-embedded tests einzubinden und auf diesem Weg Curriculum, Unterricht und das Testen enger aneinander zu koppeln. Was spricht dagegen?

    Geschichtslehrpersonen sind keine PsychometrikerInnen. Ihr Berufsfeld umfasst die didaktische Reduktion, die Initiierung und Unterstützung von historischen Lernprozessen, deren Diagnostizierung bei SchülerInnen sowie weitere pädagogische Aufgaben. Die Kosten für den Einbezug von Lehrpersonen in die Testentwicklung erscheinen aus dieser Perspektive als relativ hoch: Das Unternehmen beansprucht teuer bezahlte Arbeitszeit und/oder die Einforderung eines ausserordentlichen Engagements der Lehrpersonen in der Freizeit. Eventuell müssen auch weitere wichtige Schulentwicklungsprojekte, die dem Erleben der eigenen Schulsituation entspringen, zurückgestellt werden. Auf jeden Fall wird ein beträchtlicher Koordinationsaufwand notwendig. Eine von Seiten der Bildungsadministration verordnete Konzentration auf Testentwicklung scheint – zumindest aus Schweizerischer Perspektive – als nicht durchführbar. Als Alternative dazu bieten sich aus meiner Perspektive Interventionsprojekte an, in deren Rahmen Lehrpersonen, GeschichtsdidaktikerInnen und BildungsforscherInnen über kompetenzorientierten Geschichtsunterricht und Lernaufgaben zu diskutieren beginnen mit der Absicht, Lern- und Prüfungsaufgaben zu entwickeln, die kritisch-reflexives historisches Denken bei SchülerInnen herausfordern. Allenfalls könnten solche Ideen auch in der Praxisausbildung in der Lehrerbildung umgesetzt werden. Die amerikanische Herangehensweise als auch die hier skizzierte Variante scheinen das gleiche Ziel zu haben: Unterrichtsentwicklung und eine veränderte Testkultur. Was es in jedem Fall und bei allen beteiligten Akteuren braucht: Den an historischen Lernprozessen interessierten, wachsamen Blick und die Bereitschaft, kontinuierlich und in interdisziplinären Teams (Lehrpersonen, FachdidaktikerInnen, PsychometrikerInnen) an Fragen des Diagnostizierens und Prüfens zu arbeiten.

    Anmerkungen
    [1] Shavelson, Richard J. et al.: On the Impact of Curriculum-Embedded Formative Assessment on Learning: A Collaboration between Curriculum and Assessment Developers. In: Applied measurement in education, 21 (2008), S. 295 – 314. DOI: 10.1080/08957340802347647.
    [2] Körber, Andreas et al.: Sind Kompetenzen historischen Denkens messbar? In: Frederking, Volker (eds.), Schwer messbare Kompetenzen. Herausforderungen für die empirische Fachdidaktik. Baltmannsweiler (2008), S. 65 – 84.
    [3] „Can central competences of historical thinking be reliably measured and graded in a large scale format?“ vgl. Thünemann, Holger: Historisches Denken. Lernprozessdiagnose statt Leistungsmessung. In: Public History Weekly 2 (2014) 19, DOI: dx.doi.org/10.1515/phw-2014-2058.
    [4] Das Engagement der OECD in large scale assessments wie PISA wird häufig auch als Versuch gesehen, durch stärker „marktorientierte Bearbeitung von Bildungsthemen bzw. die markt- und wettbewerbsregulierte Verteilung öffentlicher Bildungsgüter zu mehr kostenbezogener Effizienz und leistungsbezogener Effektivität zu gelangen. Kritisiert werden die „Ökonomisierung der Bildungspolitik“ sowie die Instrumentalisierung der Bildung für ausschliesslich ökonomische Zwecke. Vgl. Emmerich, Marcus & Hormel, U.: Equity oder die Individualisierung der Bildungsbenachteiligung. journal für lehrerinnen- und lehrerbildung. Themenheft 1 (2013): Equity and Equality im Bildungssystem, S. 8-15; hier S. 8.
    [5] Auch wenn Bruce von Sledright in seiner Publikation Möglichkeiten anspruchsvoller multiple-choice-Aufgaben aufzeigt bestehen die Bedenken weiterhin. VanSledright, Bruce A.: Assessing Historical Thinking and Understanding. Innovative Designs for New Standards, New York/London 2014, S. 58 – 66.
    [6] Waldis Monika, Hodel Jan, Thünemann Holger, Zülstorf-Kersting Meik, Ziegler Beatrice (2015). Material-based and open-ended writing tasks to assess narrative competence among students. In: Seixas, Peter & Ercikan Kadriye (eds.): New Directions in Assessing Historical Thinking, Chapter 8. Routeledge (2015), S. 119 – 133; hier S. 128.

  3. Author’s Reply

    Thanks for these thoughtful comments. I believe the first thing that the comments demonstrate is that we agree that assessing historical understanding and thinking is a multi-faceted and complex issue that is engaging many in our field. A short blog cannot address all these, but all three of the writers here point to the volume edited by Professors Ercikan and Seixas to go deeper and broader into this issue.

    First, let me agree with Professor Meyer-Hamme that there are multiple ways to assess historical understanding and that the purposes of a test matter to a judgment of its worthiness. While my original question may “irritate,” it does not suggest there is only ONE worthy kind of test—that is a myopic answer that would irritate me as well. However, can we agree that the impact a test can have on instruction and curriculum and in turn, student learning, should matter to our design and selection of tests? Should tests support quality instruction and an authentic history curriculum? I believe so.

    This may be the question that matters more. The U.S. is just beginning to emerge from a somewhat test-crazed period where a narrowed curriculum, exhausted students, and punitive policy were the norm. History was not central to this test craze but the question of whether to advocate for more history testing as the “what gets tested gets taught” crowd suggested, or to reject standardized tests has been a conundrum in the U.S. Large-scale standardized history testing in the U.S. predominantly focuses on multiple choice questions and yes, while purpose matters, using these as the only item format does not support nor encourage quality history instruction. (Yes, some multiple choice questions are better than others, and yes, I can live with them as one of several item types, but they tell us little, if anything, about what a student actually knows or can do.) And unfortunately, there is not a robust culture of “curriculum-embedded” tests in the U.S as Professor Waldis claims. More likely students take a standardized history test filled with multiple-choice questions that span a curriculum and that is administered at the end of the academic year. There are exceptions to this routine, but they are not common. (See my recent analysis of sample higher quality items on released history tests in the U.S. here.[1])

    And this partly explains why I share the skepticism of large-scale standardized test mentioned by Professor Waldis. However, I have not yet fallen into complete cynicism. In fact, I proposed DBQs as an item type that could be worthy and are being used currently in multiple national contexts which, in turn, increases the likelihood of lessons we can learn from administering them. I also suggested that our practice and vision of how to assess historical thinking could be broader and more creative, suggesting that we may find ideas in teachers’ practice. And while I agree with Professor Waldis’ reminder of the costs in resources of assigning teachers to the role of assessment developers, we also agree that engaging in such activity can be a source for significant professional learning. What might be the balance here? If large-scale standardized tests used more worthy item types such as DBQs, could we tighten connections between teaching, learning, professional development and assessment? I believe so.

    But, I don’t mean to argue for the proliferation and use of large-scale standardized history tests. While they can serve multiple purposes, currently, in the states, these tests often work against quality teaching and learning with their reliance on decontextualized multiple-choice items. However, these tests are not going away anytime soon in the U.S. and, as Professor Meyer-Hamme points out, there is interest in international comparisons concerning students’ historical understanding and thinking. So rather than argue for or against large-scale tests, I support breaking down some conceptual boundaries between the standardized testing approach and classroom-based assessments. Could similar worthy item types be used in both these contexts? Could DBQs be one item type that fits this bill? Are there other item types that that both support quality instruction and learning while also meeting comparison and accountability purposes of large-scale tests? I believe so and we need to ensure the latter set of goals does not trump the former.

    Footnotes
    [1] https://scale.stanford.edu/sites/default/files/Evaluating%20Item%20Quality%20in%20Large-Scale%20Assessments_FINAL_0.pdf

Pin It on Pinterest