Vergelijking Schobl normen 1978-1993

Posted by in Normen, on 27-06-2012

1. Inleiding

Er is in de afgelopen 20 jaar veel veranderd in het Nederlands onderwijs. Het kan haast niet anders of dat moet zijn effect hebben op hoe kinderen zich op school gedragen en anders is er in de maatschappij en in het bijzonder het gezin wel zoveel veranderd, dat langs die weg effecten op het schoolgedrag niet uit kunnen blijven. Als dat soort invloeden zich inderdaad voordoen dan moeten de normen van de Schobl-R verouderd zijn en is de test niet langer bruikbaar. Maar is dat ook gebleken uit wetenschappelijk onderzoek?

Psychologische tests die wat langer meegaan, en daar zijn er in Nederland in de loop van de jaren steeds meer van, worden vroeg of laat geconfronteerd met de vraag of de normen die indertijd zijn bepaald nog wel adequaat zijn voor het actuele gebruik. Als de uitgever en of de auteurs niet op die gedachte komen is daar nog altijd de Cotan om hen daar aan te herinneren in de vorm van een gevoelige afwaardering bij de periodieke keuring van de test. Veroudering van normen voor psychologische test en vragenlijsten is een van de aspecten die bij de beoordeling van haar kwaliteit aan de orde komt. (COTAN beoordelingssysteem voor de kwaliteit van Tests. Evers. A, Lucassen. W, Meijer. R, en Sytsma. K. NIP, gewijzigde druk 2010).

Algemeen gesteld is validiteit (in haar verschillende aspecten) bepalend voor de psychologische betekenis van de testuitslag en betrouwbaarheid (idem) voor de meet nauwkeurigheid. Voor de kwantitatieve nauwkeurigheid is een adequate normering zeker zo belangrijk. Verwonderlijk is dat niet omdat voor veel psychologische tests geldt dat de betekenis van de uitslag, het meer of minder, vooral een kwestie is van meer of minder ten opzichte van de resultaten van een vergelijkingsgroep en veel minder van de optelsom van de antwoorden op vragen en opgaven. De vergelijkingsgroep bestaat bij voorkeur uit een representatieve landelijke steekproef, maar ook specifieke groepen zoals sollicitanten of patiƫnten al dan niet uitgespitst naar kenmerken als functie, aandoening, leeftijd, sexe en elk ander relevant kenmerk, kunnen in aanmerking komen .

Is er onderzoek gedaan naar de omvang en de effecten van veroudering? Wat intelligentie tests betreft is er veel (buitenlands) onderzoek gedaan naar het z.g. Flynn effect, genoemd naar de Nieuw Zeelandse onderzoeker, dat staat voor het verschijnsel dat de testprestaties in de loop van de jaren verbeteren. Het gevolg is dat op den duur de gemiddelde intelligentie beduidend boven het gemiddelde uitkomt dat bij de normering indertijd werd vast gesteld. Een serieus dilemma voor tests gebaseerd op meten op basis van normen. Dat gemiddelde lengte van mensen in (westerse landen) is toegenomen, wil niet zeggen dat iets dergelijks zich ook voordoet met intelligentie. De omvang van dit effect wordt geschat op een standaard meetfout in 10 jaar (ongeveer 4,5 IQ-punt).

Voor zover mij bekend is dat effect niet onderzocht bij in Nederland gereviseerde en gehernormeerde intelligentie tests (GATB, DAT, Wisc, SON, R-Akit.). De COTAN neemt een termijn van 20 jaar in acht om de normen af te waarderen na een waarschuwing vijf jaar eerder dat normen verouderd zijn. Los van de vraag of de termijn te streng of te soepel is en of de afwaardering niet te abrupt en te generiek verloopt, is de vraag of verouderingseffecten in gelijke mate en ernst op treden bij test en vragenlijsten die kwalitatieve kenmerken meten zoals persoonlijkheidsvragenlijsten Volgens de Evers et al. , 2010, pag 21, is hier in zijn algemeenheid geen onderzoek naar gedaan. Gegevens die bekend zijn voor de BIV (beroepinteresses) duiden op aanmerkelijke verouderingseffecten die kunnen oplopen tot 2 standaard meetfouten (sem) over een periode van 10 jaar (o.c. ). Op zich niet verwonderlijk. Bepaalde beroepen kunnen uit de gratie raken Ook bepaalde, attituden, belevingen en psychologisch stoornissen zouden in zekere mate tijdsgebonden kunnen zijn, maar zou dat ook opgaan voor persoonlijkheidskenmerken en daarmee verwant gedrag zoals dat gemeten wordt door de Schobl-R. De verschillen voor sommige persoonlijkheidsschalen van de NPV blijken na een periode van 20 jaar op te kunnen lopen tot 1.4 (selectiesituatie) en 1,2 sem. Kan daarmee voor NPV schalen in zijn algemeenheid gesproken worden van slijtage van normen? Die conclusie wordt ook niet als zodanig vermeldt. Niettemin hanteert de COTAN voor alle test identieke verouderingscriteria. Voorbarig lijkt me en daarmee worden gebruikers van dergelijke tests onnodig benadeeld. Er wordt wel bij opgemerkt dat het aan de auteur is om het tegendeel aan te tonen dat die slijtage processen niet zijn opgetreden. Die handschoen wordt in deze notitie opgepakt, zij het met betrekking tot de eventuele veroudering die optrad voor de Revisie van 1993. Onderzoek naar de situatie van nu is in voorbereiding.

Het hernormeren van een instrument is meestal een onderdeel van een revisie proces. De reden voor een hernormering is met andere woorden niet beperkt tot het al dan niet verouderen van de normen. Veroudering van een instrument is overigens niet beperkt tot de normering. Ook gegevens over validiteit in brede zin en betrouwbaarheid kunnen aan slijtage onderhevig zijn. Taalgebruik en vormgeving zijn zeker zo belangrijk bij het besluit tot een revisie over te gaan. Dat gaat zeker op voor de huidige ontwikkeling van de schobl.nl, de internetversie van de schobl-R . Voor De Schobl_R was bijvoorbeeld de uitbreiding van de leeftijdsrange en de bruikbaarheid voor leerlingen in het speciaal onderwijs en leerlingen van allochtone herkomst een belangrijk motief. De gebruiker treft in de handleiding van de Schobl-R geen gegevens aan over een eventuele veroudering. Toch is het voor de gebruiker van nu interessant om alsnog kennis te nemen van die gegevens omdat nu weer voor de Schobl-R de vraag actueel is of de normen over hun houdbaarheidsdatum zijn.

We beperken ons in deze aflevering tot het verouderen van de normen. Aspecten van validiteit en betrouwbaarheid komen aan de orde bij een volgende gelegenheid.

In het geval van de Schobl_R luidt de vraag derhalve of kinderen in de jaren daarvoor vrijmoediger (extraverter) zijn geworden , meer afleidbaar, plezieriger in de omgang of juist niet en of ze emotioneel kwetsbaarder zijn geworden of juist steviger. Daar komt nog bij dat om beoordelingen gaat. Verschillen tussen toen en nu (later) kunnen ook samenhangen met een nieuwe generatie onderwijzers die een andere referentie kaders hanteren bij het beoordelen van schoolgedrag.

Gegevens uit het verleden kunnen ons helpen die vraag te beantwoorden nu er nog geen actuele onderzoeksresultaten beschikbaar zijn. Vergelijkend onderzoek is mogelijk gebleken door het beschikbaar stellen van de onderzoeksgegevens uit 1993, die gebruikt zijn voor de revisie van de Schobl (1981).

2. Herberekening

Om een vergelijking mogelijk te maken zijn op de gegevens van de Schobl-R de schaalscores berekend met de sleutel van de Schobl (1981). Enkele items die zijn toegevoegd in 1993 werden vervangen door de oorspronkelijke items: Extraversie A 4 items, B: geen , Werkhouding A: 3 items, ,B: geen en Emotionaliteit A: 2 items en B geen. Voorts moesten de schalen Werkhouding (hoge score= slechte werkhouding) en Aangenaam gedrag ( hoge score= Onaangenaam) worden omgepoold.

3. Onderzoeksgroepen

Onderzoeksgroepen Kleuterschool en begin basisschool uit 1978 corresponderen met leeftijdsgroep 4, respectievelijk 6 jarigen uit steekproef II van 1993 (Bleichrodt, Resing, Zaal, 1993, pag. 14). Het betreft de afname van beide parallelvormen a+b bij in totaal 369 leerlingen. Daarvan behoren 89 leerlingen tot de4 jarigen en 94 tot de groep 6 jarigen.

4. Resultaten

In de onderstaande tabel staan de gemiddelde en spreiding van de Schobl schalen uit het onderzoek van Zaal (1978) en de herberekening op de zelfde schalen op basis van steekproef ii uit het onderzoek van Bleichrodt, Resing & Zaal, 1993.De bovensten helft bevat de gegevens voor kleuters respectievelijk 4-jarigen en de onderste helft voor leerlingen van de eerste klas basis school respectievelijk 6 jarigen.

Tabel 1: Gemiddelde en spreiding van beoordelingen op de factorschalen vorm A en B, apart voor 4 jarigen (boven ) en 6 jarigen (onder); gegevens jongens en meisjes kleuter- en basisschool uit Zaal, 1978, pag 243 en herberekening op databestanden Schobl-R ( 1993; VU, Peter Dekker). *: significant verschillend t.o.v. 1978 : 5% of lager.

jongens meisjes
1978 1993 (n=39) 1978 1993 (n=44)
M Sd M Sd M Sd M Sd
IA 43.6 14.0 42.3 13.4 40.8 13.1 38.3 12.6
IIA 44.2 11.3 41.5* 12.6 33.9 10.5 35.6 10.8
IIIA 34.5 9.8 32,9 7.2 33.6 8.3 31.0* 7.1
IVA 28.3 6.2 26.8 5.1 26.3 6.1 26.5 5.4
IB 43.9 13.1 43.9 13.4 43.4 12.3 41.2 12.0
IIB 41.6 10.9 38,9 11.3 32.6 9.7 33.9 10.6
IIIB 35.8 8.7 33,1* 7,4 32.9 7.6 30.4* 5.5
IVB 22.9 5.3 25.4* 5.5 21.4 5.3 24.6* 6.3
IA 44.0 13.3 44.9 12.0 40.0 12.3 38.4 9.6
IIA 43.3 11.2 38.3* 11.7 36.7 11.8 35.0 10.3
IIIA 34.2 7.3 33.5 7.3 32.9 6.7 29.9 7.8
IVA 28.1 5.2 27.4 5.4 26.9 5.5 26.6 4.9
IB 44.8 13.1 47.0 10.0 42.3 12.0 44.5 9.6
IIB 41.6 11.0 36.8* 10.6 35.0 11.1 32.6 11.6
IIIB 35.5 7.2 34.4 7.0 31.9 6.6 30.3 7.8
IVB 23.6 5.2 26.2* 5.9 22.2 5.1 25.1* 5.6

I: Vrijmoedig/Extravert; II Werkhouding (Neg.); III: Sociale Omgang/ Aangenaam Gedrag (onaangenaam); IV: Emotionaliteit/Emotionele Stabiliteit.

Er zijn in totaal 10 significante verschillen gevonden verspreid over schalen en sexe groepen over een totaal van 32. Bij zoveel vergelijkingen doen zich onvermijdelijk ook incidentele toevallige verschillen voor. Om van een systematisch verouderingseffect te kunnen spreken zal bij de gevonden verschillen dan ook een duidelijke patroon zichtbaar moeten zijn. Een voor de handliggende voorwaarde is dat dergelijke verschillen zich in beide parallel vormen A en B moeten voordoen. Slechts een tweetal verbanden voldoet aan deze voorwaarde. Deze zijn in de tabel gemarkeerd in het rood. Er is een verschil gevonden bij 4jarige meisjes voor Sociale Omgang, gedrag dat in 1993 als positiever (aangenamer) wordt beoordeeld dan in 1978 (M= 33.6 om 31.0 voor vorm A en voor de B- vorm m=32.9 resp. 30.4). Het tweede systematische verschil doet zich voor bij jongens van 6 jaar, waarvan de Werkhouding in 1993 is verbeterd (m= 43.3 om 38.3 vorm A, resp. 41.6 om 36.6 vorm B). Er kan wel aan worden toegevoegd dat de verschillen voor deze schalen bij de andere schooltypen/groepen (leeftijdsgroepen), hoewel niet significant wel in de zelfde richting wijzen, met uitzondering van de Werkhouding van de jongste meisjes. Voor de voormalige kleuterschoolgroep is de werkhouding van meisjes juist verslechterd (zowel op de a- als op de b-vorm). Kijken we naar factor III (Aangenaam Gedrag), dan blijken zowel meisje en jongens zich volgens de leerkrachten aangenamer te gedragen, maar alleen voor de jongste meisjes (groep 1) is dat verschil voor beide vormen significant.

Verder valt op dat vier van de vijf overige significanties uitsluitend te maken hebben met de B-vorm van Emotionaliteit. Effecten voor de A-vorm ontbreken zoals gezegd en de waarden zijn nagenoeg gelijk of zelfs tegengesteld aan die voor de B-vorm.

Significanties die hier gerapporteerd zijn berusten uiteraard op toetsing waarin steekproeffluctuaties de foutenbron vormen. De sterkte van dat effect is sterk afhankelijk van de steekproefgrootte. Hoewel meetfouten als gevolg van onbetrouwbaarheid te maken hebben met het instrument en niet met de (grootte) van de steekproef wordt de veroudering van normen in het COTAN beoordelingssysteem (o.c. 2011) wel afgemeten aan de sem. De sem is afhankelijk van de spreiding (van in dit geval de ruwe scores) en de betrouwbaarheid. Beide gegevens verschillen voor de verschillende schalen en groepen. Bovendien doen zich steekproefverschillen voor. Een exacte vergelijking vraagt dus nogal wat rekenwerk. Om het niet te ingewikkeld te maken geeft tabel 2 de sem waarden voor vier niveaus van de spreiding (13, 10., 7 en 5.5) voor drie betrouwbaarheidsniveau’s (.90, .80 en .70)

Tabel 2: Standaardmeetfouten (sem) gegeven 3 betrouwbaarheidsniveau; s en 4 waarden van de standaarddeviatie (spreiding).

spreiding R=.90 R=.80 R=.70
13 4,2 5,9 7
10 3,2 4,5 5,5
7 2,2 3,2 3,9
5,5 1.8 2,5 3,0

Het systematisch effect van de Werkhouding van 6 jarige jongens (groep 3) is het grootste effect dat is aangetroffen en komt afgemeten naar een representatieve sem waarde voor Werkhouding van 3,2 overeen verschil in de buurt van 1,5 tot 2 sem. Voor sociale Omgang/Aangenaam Gedrag is het gevonden effect kleiner dan 1 sem.

5. Conclusie

Voorlopige conclusie kan zijn dat er geen algemeen en systematisch verouderingseffect is opgetreden. De verschillen die gevonden zijn beperken zich tot een van beide sexe groepen en het gaat om verschillende schalen. Deze veranderingen zijn interessant, maar ook dusdanig beperkt in omvang dat het nogal voorbarig lijkt om normen van een instrument als de Schobl 1981 in 1993 als verouderd af te stempelen. Dat argument doortrekkend zou dat dus ook gelden voor de normen van de Schobl-R uit 1993. Eventuele verouderingsprocessen verlopen voor normen van een test als de schobl R dus genuanceerd en voltrekken zich in een dusdanig tempo dat een onderscheiden behandeling ten opzichte van op presstatie gebaseerde tests in het beoordelingsmethodiek van de Cotan op zijn plaats zou zijn. Deze resultaten bieden geen onderbouwing voor het afwaarderen van de kwaliteit van de normen tot een generieke onvoldoende en daarmee het ontraden van het gebruik van de schobl-R .

De gevonden verschillen nodigen overigens wel uit voor vervolgonderzoek. Niet primair omdat de normen verouderd zouden zijn maar omdat het voor het inzicht in de ontwikkeling van het sociaal emotioneel gedrag interessant is om na te gaan of de gevonden verschillen een trend aankondigen waarin de Werkhouding van leerling beter wordt, het sociaalgedrag aangenamer en de emotionele weerbaaarheid verbeterd. Voorts de vraag of daarbij of de verschillen voor jongens en meisjes wijst op toenemende sexe verschillen (zoals het Aangename gedrag van meisjes) dan wel afnemende verschillen (zoals de inhaalslag van jongens wat betreft Werkhouding) en of deze effecten zich ook vertalen naar soortgelijke veranderingen (verbetering) in schoolprestaties en ander criterium gedrag w.o. probleemgedrag.