ToolKit; ontwikkelen, vaststellen, analyseren en borgen van toetsen

Een praktische ToolKit met 180 gevalideerde richtlijnen op kaartjes en met kaarthouders.

Het ontwikkelen van kwalitatieve toetsen is complex

Het ontwikkelen van kwalitatief goede toetsen, bestaande uit gesloten vragen, open vragen of opdrachten (zoals beroepsproducten of proeven) is complex. Daarnaast blijkt dat docenten weinig tijd hebben voor de ontwikkeling van toetsen. Ook al zijn trainingen gevolgd, dan nog blijkt dat docenten door tijdgebrek moeite houden met het ontwikkelen van toetsen (Draaijer, 2016).

Ontwikkelen van vragen en opdrachten is ‘most fundamental’

Volgens Welch (2006, p. 306 ) ‘Vormen vragen en opdrachten de ruggengraat van toetsing’. Haladyna en Downing (1989, p. 37) geven aan dat ‘In the development of any achievement test, one of the most fundamental steps is writing the test items’. Draaijer (2016, p. 14) citeert Haladyna met ‘Good tests consist of good test items’. Om tot ‘good test items’ te komen is het zaak dat vragen en opdrachten aan toetstechnische kwaliteitseisen voldoen. Door vragen en opdrachten aan veelal eenvoudige, maar helaas vele ontwikkelrichtlijnen te laten voldoen, is de kans groot dat aan die kwaliteitseisen wordt voldaan.

Beperkte en ongestructureerde beschikbaarheid van richtlijnen

Richtlijnen voor het ontwikkelen van toetsen bestaan in veel varianten. In verschillende bronnen ligt de nadruk op richtlijnen voor het ontwikkelen van gesloten vragen. Er is minder aandacht voor richtlijnen voor het ontwikkelen van leerdoelen, open vragen en opdrachten en voor toets- en itemanalyse, en nog minder voor andere fasen van het ontwikkelproces zoals het samenstellen van een toets, het bepalen van de cesuur en het geven van een waardering in bijvoorbeeld een cijfer. Richtlijnen komen voor in hoofstukken van boeken, in gepubliceerde artikelen of in de vorm van losse lijstjes. Het ontbreekt echter aan een gestructureerd overzicht van richtlijnen die het ontwikkelproces van toetsen volgen. Dat werkt weinig uitnodigend om richtlijnen te gebruiken. De 180 richtlijnen in de ToolKit, geordend op basis van twaalf toetsonderwerpen, bieden toets-ontwikkelaars, vaststellers, degenen die analyses uitvoeren en borgers (zoals leden van examencommissies) handvatten om hun werk gestructureerd uit te voeren.

Haladyna, Downing en Rodriguez (2002, p. 326) schreven het volgende:
‘The use of a toolbox full of validated item-writing guidelines and MC item formats serve item writers well, particularly teachers who traditionally have had difficulty writing items measuring complex student learning’.

Een ToolKit vol richtlijnen

Bureau voor Toetsen & Beoordelen heeft de ‘toolbox’ van Haladyna, Downing en Rodriguez (2002) inmiddels letterlijk opgevat en heeft een ToolKit ontwikkeld met richtlijnen voor het basisontwerp van een toets (11), taalaspecten (5), leerdoelen (9), toetsmatrijzen (4), casussen (6), gesloten vragen, vooral de meerkeuze-vraag (32), ‘andere’ gesloten vraagvormen (16), open vragen (22), opdrachten (35), cesuur- en normeren (5), de toets als geheel (25) en toets- en itemanalyse (10). Dus niet alleen voor vragen en opdrachten, maar voor bijna alle fasen binnen de toetscyclus.

180 richtlijnen zijn veel richtlijnen! Minder richtlijnen was prettiger geweest, maar …
‘Minder is alleen meer, waar meer niet goed is!’
(Frank Lloyd Wright (Amerikaans architect, 1869-1959))

Ontstaan en validatie van 180 richtlijnen

Uit zestig (wetenschappelijke) bronnen zijn 1.513 richtlijnen voor het ontwikkelen en analyseren van toetsen overgenomen. Deze richtlijnen zijn geordend over de twaalf toetsonderwerpen. Na het ontdubbelen, waar nodig aanvullen en herformuleren, bleven 371 richtlijnen over. Deze richtlijnen zijn ter validatie (vaststellen van de geldigheid van de resultaten) voorgelegd aan twaalf ter zake kundige en ervaren toetsdeskundigen, waarvan zes gepromoveerd. Deze twaalf toetsdeskundigen waren: Jan Adema, Monique Altemühl-Booltink, Irene Biemond, Joost Dijkstra, Silvester Draaijer, Tom Erkens, drie samenwerkende toetsdeskundigen van Examenservices, Desirée Joosten-ten Brinke, George Moerkerke, Bart Roosenboom, Gerard Straetmans en Tamara van Schilt-Mol.

De validatie vroeg naar relevantie en duidelijkheid van de 371 richtlijnen. Er is gebruik gemaakt van intraclass correlatieberekeningen om inzicht te krijgen in de overeenstemming tussen toetsdeskundigen. Door de toets-deskundigen werden totaal 1.905 opmerkingen geplaatst. De verwerking van de verkregen informatie uit de validatie heeft geleid tot 208 richtlijnen. Vervolgens zijn deze 208 richtlijnen in een bespreking doorgenomen door drie toetsdeskundigen (Irene Biemond, Gerard Straetmans en Harry Molkenboer). Dit heeft uiteindelijk geleid tot de 180 gevalideerde richtlijnen.

Klik op de afbeeldingen voor een vergroting

Toolkit voor het ontwikkelen, vaststellen, analyseren en borgen van toetsen

De ToolKit met de gevalideerde richtlijnen op 180 kaartjes verdeeld over twaalf toetsonderwerpen, apart geordend in plastic doosjes, met gekleurde kaarthouders voor de beoordeling, inclusief een beoordelingsformulier.

A0-poster met 180 gevalideerde richtlijnen voor toetsen

Ook onderdeel van de ToolKit; een A0-poster 180 gevalideerde richtlijnen voor toetsen.

Ook onderdeel van de ToolKit; een boek met het overzicht van de 180 gevalideerde richtlijnen.

De ToolKit inclusief de A0-poster en het boek met het overzicht van de 180 gevalideerde richtlijnen kost € 279,95 inclusief 21% BTW (geen verzendkosten).
Bestellen

Er zijn alleen richtlijnen verzameld en gevalideerd die betrekking hebben op een concreet toetsproduct, zoals leerdoelen, een toetsmatrijs, open vragen of een toets. Er zijn geen richtlijnen verzameld en gevalideerd die te maken hebben met het proces om te komen tot toetsen, zoals het laten beoordelen van een toets door een collega of de organisatie van een afname. Processen dragen wel bij aan de kwaliteit van toetsing, maar vooral in tweede instantie. De meeste winst valt te behalen met richtlijnen voor het ontwikkelen van toetsproducten.

ToolKit met gedrukte kaartjes met richtlijnen en gekleurde kaarthouders

Alle 180 richtlijnen zijn afgedrukt op kaartjes (één richtlijn per kaartje). Per toetsonderwerp (twaalf) zijn de kaartjes in twaalf stevige plastic doosjes samengevoegd. Voor de opslag van de verschillende doosjes is een speciale doos ontwikkeld. Naast de doosjes met de kaartjes bevat de doos gekleurde kaarthouders. In deze houders kan een gebruiker de kaartjes plaatsen. Begonnen wordt met het kiezen van een set richtlijnen (toetsonderwerp), bijvoorbeeld open vragen die in de zwarte kaarthouder wordt geplaatst. Uit deze houder wordt het eerste kaartje met richtlijn gepakt. Wordt aan een richtlijn voldaan, dan wordt het kaartje in de groene houder met het opschrift Voldoet geplaatst. Daarnaast is er een rode houder met Voldoet niet, een oranje houder met Twijfel en een blauwe houder met Niet van toepassing, want ook dat zal voorkomen. De ToolKit bevat verder nog een doosje met acht lege kaartjes om bijvoorbeeld eigen richtlijnen te noteren.

Beoordelingsformulier

Ook een beoordelingsformulier maakt onderdeel uit van de ToolKit. Bij bijvoorbeeld een vaststellingsvergadering of de beoordeling van een leerdoel of vraag, kan op het beoordelingsformulier met een code worden aangegeven welke richtlijn in het geding is en een opmerking worden gemaakt of verbetersuggestie worden gegeven. Op een bijgevoegde USB-stick staat een MS Word-versie van het beoordelingsformulier om het formulier eventueel aan te passen aan eigen wensen. Daarnaast bevat de USB-stick een korte videotoelichting voor het gebruik van de ToolKit.

A0-poster met alle richtlijnen en een boek met een overzicht van de 180 gevalideerde richtlijnen

Bij de ToolKit hoort een A0-poster met een overzicht van alle richtlijnen. De poster wordt apart in een koker geleverd met posterstrips. Op de poster zijn alle richtlijnen in één oogopslag zichtbaar. Handig om op een centrale plaats op te hangen. Hierdoor komen de richtlijnen steeds onder de aandacht.

Voordelen van de verzamelde en samengebrachte richtlijnen in een ToolKit

De ToolKit bestaat uit veel richtlijnen. Doordat de richtlijnen zijn geordend per toetsonderwerp zijn de richtlijnen per toetsonderwerp goed te hanteren. Daarnaast heeft het gebruik van losse kaartjes als voordeel, dat alleen díé kaartjes worden gebruikt die van toepassing zijn. Het is immers niet zo dat alle richtlijnen per toetsonderwerp altijd relevant zijn. Hiermee stelt de gebruiker als het ware zijn eigen set van richtlijnen efficiënt samen.

Het is mogelijk om ook eventuele eigen richtlijnen aan de ToolKit toe te voegen. De ToolKit bevat hiertoe een plastic doosje met acht lege kaartjes.

Het gebruik van de gekleurde kaartjes met de gekleurde kaarthouders nodigt uit tot actief gebruik. Door het toetsonderwerp met de kaartjes in de hand langs te lopen kan snel, objectief en onderbouwd worden beoordeeld of aan de richtlijnen wordt voldaan. Op het beoordelingsformulier kan gericht worden aangeven voor welke richtlijnen nog eventueel aanpassingen gewenst zijn. Dit leidt tot zeer gestructureerd werken.

Door het herhaald gebruik van de richtlijnen in de tijd (bij elke toets bijvoorbeeld) ontstaat een blijvend leereffect bij de gebruikers (Murre, 2010), waardoor de richtlijnen op den duur onbewust automatisch worden toegepast.

Doelgroepen

De ToolKit is niet alleen bedoeld voor de ontwikkelaars van vragen en opdrachten. Juist bij vaststellingsvergaderingen kunnen de leerdoelen, toetsmatrijs, vragen en opdrachten snel aan de hand van de kaartjes met de richtlijnen worden langsgelopen. Vervolgens kan precies en onderbouwd worden aangegeven waar iets niet voldoet of twijfel over is. Door alle relevante richtlijnen langs te lopen wordt geen richtlijn vergeten. Ook voor leden van examencommissies die verantwoordelijk zijn voor de borging van de kwaliteit van toetsen, kan op deze wijze steekproefsgewijs snel een toets op toetstechnische kwaliteit worden beoordeeld. Zeker omdat het borgen geen dagelijkse taak is, is het gebruik van de kaartjes erg handig. Ook voor het geven van feedback, doordat eenvoudig naar een richtlijn kan worden verwezen.

Kosten

De ToolKit inclusief de A0-poster en het boek met het overzicht van de 180 gevalideerde richtlijnen kost € 279,95 inclusief 21% BTW (geen verzendkosten).
Bestellen

Geraadpleegde bronnen

Draaijer, S. (2016). Supporting Teachers in Higher Education in Designing Test Items (proefschrift Vrije Universiteit). Opgevraagd van https://research.vu.nl/en/publications/supporting-teachers-in-higher-education-in-designing-test-items.
Haladyna, T. M., & Downing, S. M. (1989). A taxonomy of multiple-choice item-writing rules. Applied measurement in education, 2(1), pp. 37-50.
Haladyna, T. M., Downing, S. M., & Rodriguez, M. C. (2002). A review of multiple-choice item-writing guidelines for classroom assessment. Applied measurement in education, 15(3), pp. 309-333.
Murre, J. (2010). De psychologie van het leren. In Lazeron, N. (red) & Van Dinteren, R. (red), Brein@work. Breinkennis voor organisaties. Houten: Springer Uitgeverij B.V.
Welch, C. (2006). Item and prompt development in performance testing. In Haladyna, T. M. (red.), & Downing, S. M. (red.). Handbook of test development. pp. 303-327. New York, NY: Routledge.

'Serve item writers well’ (Haladyna, Downing & Rodriguez, 2002, p. 326)