Samenvatting Testtheorie en Testgebruik - Samenvatting Testtheorie en Testgebruik Hoofdstuk 1

Uitgebreide samenvatting van het vak testtheorie en testgebruik, hoofd...

Vak

Testtheorie en testgebruik (PSBA2-06)

204Documenten

Studenten deelden 204 documenten in dit vak

Universiteit

Rijksuniversiteit Groningen

Studiejaar: 2021/2022

Boek in lijstTesttheorie

Geüpload door:

Merel

Rijksuniversiteit Groningen

0volgers

4Uploads10upvotes

Aanbevolen voor jou

66Samenvatting Testtheorie Test- en toetstheorieSamenvattingen100% (32)
53Samenvatting Boek Testtheorie - Drenth en SijtsmaTest- en toetstheorieSamenvattingen100% (19)
42Een samenvatting van het boek van TesttheorieTesttheorie en testgebruikSamenvattingen100% (13)
55Samenvatting Testtheorie P. J. D. Drenth; K. SijtsmaTesttheorieSamenvattingen93% (43)
71Testtheorie en Testgebruik - SamenvattingTesttheorie en testgebruikSamenvattingen100% (8)

Reacties

inloggen of registreren om een reactie te plaatsen.

Andere studenten bekeken ook

Samenvatting Testtheorie boek
Samenvatting Testtheorie: inleiding in de theorie van de psychologische test en zijn toepassingen. P.J.D. Drenth en K. Sijtsma hoofdstukken 2 tot 8
Samenvatting testtheorie H6-7
Samenvatting testtheorie en testgebruik H2-8
Samenvatting: "Testtheorie"
Samenvatting Testtheorie: Inleiding in de theorie van de psychologische test en zijn toepassingen - H2-4

Gerelateerde documenten

Samenvatting testtheorie en testgebruik
Een samenvatting van het boek van Testtheorie
Testtheorie en Testgebruik - Samenvatting
Samenvatting boek
Validiteit en betekenis
Document Factoranalyse

Gerelateerde Studylists

Testtheorie en Testgebruik PSBA2-06

Preview tekst

Samenvatting Testtheorie en Testgebruik

Hoofdstuk 1 – De definitie, kenmerken en toepassingen van een test

2 Wat is een test?Welke onderdelen bevat een test?Een test bestaat uit 3 onderdelen: 1. Testmateriaal Schriftelijke intelligentietest -> testmateriaal = boekje met opgaven die opgelost moeten worden. 2. Testformulieren Worden gebruikt om de resultaten van de test op te schrijven om hieruit conclusies/interpretaties te trekken. 3. Testhandleiding Deze geeft aan hoe de test gebruikt dient te worden. Een testhandleiding moet aan 4 eisen voldoen: 1) Goede testinstructie : er moet duidelijk zijn hoe de test verloopt.  Testprocedure, uitleg, proefopgaven, ... 2) Verwerkingsprocedure : instructies over hoe de test gescoord en verwerkt moet worden.  Sleutels van opgaven zijn nodig: aanwijzingen welke antwoorden (on)juist of (contra)indicatief zijn voor een bepaald verschijnsel en hoe deze van scores voorzien moeten worden. 3) Normtabellen : hiermee worden de scores vergeleken met die van de representatieve normgroep.  Voorwaarde voor nadere interpretatie en evaluatie. 4) Wetenschappelijke kwaliteit van de test : gaat om de betrouwbaarheid van de test, wat de test betekent en wat het voorspelt.Bij een test gaat het om een systematisch onderzoek met een bepaald doel. -> Doel kan zijn: het voorspellen,classificeren of beschrijven van een individu in vergelijking met andere mensen.

Kenmerken van een test waardoor het te onderscheiden is van het voorwetenschappelijk oordeelPsychologische test : een systematisch onderzoek van gedrag mbv speciaal geselecteerde vragen of opgaven, ominzicht te krijgen in een kenmerk van de onderzochte in vergelijking met anderen.Het gebruik van een psychologische test heeft 6 voordelen tov het voorwetenschappelijk oordeel:

EfficiëntieIntelligentietests zijn speciaal samengesteld, niet afhankelijk van toeval en storende invloeden kunnen geweerdworden binnen de testsituatie.
StandaardisatieStandaardiseren van de situatie: de test op precies dezelfde manier, onder precies dezelfde condities bij iedereenafnemen. -> Maakt een test betrouwbaar en vergelijkbaar.
NormeringOm de resultaten van personen te vergelijken, moet je weten hoe groot de afstand tussen de resultaten ongeveer is.Dit moet zo exact mogelijk worden geschat -> kleinere verschillen vaststellen.

Vaak kunnen afstanden tussen testscores in de normering worden opgenomen -> kan weergegeven worden in eendiscrete verdeling. Soms kan die discrete verdeling als een normaalverdeling worden benaderd. Je moet dan eengeschikt gemiddelde en standaarddeviatie kiezen en de schaal van testscores omzetten naar die onder denormaalverdeling.  Schaal verandert, rangorde blijft gelijk.

ObjectiviteitObjectiviteit : wie het onderzoek ook doet, het resultaat moet steeds hetzelfde zijn. Openheid, reproduceerbaarheidvan de test en evaluatie moeten mogelijk zijn.Als je 2 personen dezelfde test laat doen onder dezelfde omstandigheden, kun je de resultaten met elkaar vergelijkendmv correlatieonderzoek. Je kan zo de objectiviteit toetsen -> interbeoordelaarsbetrouwbaarheid.De interbeoordelaarsbetrouwbaarheid kan worden uitgedrukt in een statistische maat die afhankelijk is van debeschikbare gegevens:  Rangordecorrelatie : als beide beoordelaars een rangorde produceren  Product-momentcorrelatie : als beoordelingen niet alleen een rangorde vormen, maar de afstanden tussende plaatsen op de rangorde ook betekenis hebben

 Cohen’s Kappa : als de personen ingedeeld worden in categorieën is er geen rangorde of afstand, maar kan de mate waarin de beoordelaars tot dezelfde indeling komen worden berekend.

Cohen’s kappa berekenen: - Bereken de kans dat persoon A en persoon B bij een aselect gekozen proefpersoon het met elkaar eens zijn -> overeenstemmingskans P 0. - Dan kijk je wat de statistische onafhankelijkheid is: de overeenstemming die er zou zijn als de beoordelaars hun eigen frequentieverdeling aanhouden -> de toevalskans: Pt. - Dan bereken je Cohen’s kappa met de volgende formule:

Het is mogelijk bij observaties en projectietests om een verantwoorde mate van objectiviteit te bereken door: - Het waarneembare gedrag te beschrijven (niet interpreteren) -> Verhoogd objectiviteit, verlaagd subjectiviteit. - Registratie ipv evaluatie van het gedrag. Door inbreng van de verwerker worden resultaten subjectiever. - Een duidelijk voorgeschreven verwerkingsprocedure. - Objectiviteit als grondhouding van de wetenschapsbeoefenaar. Dus geen invloeden van buitenaf -> maatschappij, organisatie, onderzoeker, ...

BetrouwbaarheidAls we een meting nog een keer doen op dezelfde manier, moeten de uitkomsten hetzelfde zijn. Metingen moetenonder dezelfde condities plaatsvinden (standaardisatie) maar er zijn altijd toevalsinvloeden.  Lastig om 2onafhankelijke metingen te krijgen.Betrouwbaarheid is noodzakelijk -> meetresultaten moeten herhaalbaar zijn: het moet nauwelijks uitmaken wanneeriemand getest wordt.
ValiditeitEen goede test heeft een vaststaande psychologische betekenis -> de betekenis is aan de praktijk getoetst.Valide testen moeten altijd gebaseerd zijn op empirisch onderzoek, waarin samenhang is aangetoond.

Eigenschappen meten dmv testsMeetniveaus en toegestane operatiesDmv tests kunnen we allerlei eigenschappen meten. Meten: zodra getallen volgens een consistente procedure aanobjecten worden toegekend. Dit leidt tot 4 meetschalen, van laag naar hoog:

1. Nominale schaalOp deze schaal gebruikt men getallen om de categorieën te onderscheiden en objecten in te delen. Er is geenrangorde -> het gaat slechts om de verschillende getallen. Op de nominale schaal is geen wiskundige berekeningmogelijk. Geslacht, groep

2. Ordinaire schaalHier is er sprake van een rangorde, dus van meer of minder. Getallen worden gebruikt om categorieën of objecten teordenen. Het is mogelijk om rangordes met elkaar te vergelijken -> rangordecorrelatie. Niet alle wiskundigeberekeningen zijn toegestaan. Hoe goed ben jij in voetbal? Goed – matig – slecht

3. IntervalschaalEr is een rangorde van meer of minder en de afstanden tussen de verschillende posities zijn belangrijk en hebbenbetekenis. De afstanden tussen de verschillende posities zijn gelijk.Er is een arbitrair nulpunt : geen echt nulpunt, de verhoudingen tussen de afstanden blijven gelijk als je het nulpuntverschuift.

Er zijn wiskundige berekeningen toegestaan -> lineaire transformaties van het type Y = a + bX

 Temperatuur, IQ-test.

Kwalitatief gegeven reacties (verbaal of gedrag) worden geregistreerd en moeten gekwantificeerd worden (= omgezetnaar getallen). Bij een item heeft 1 antwoord vaak een hoger niveau op de achterliggende eigenschap -> krijgt eennumerieke waarde: score.

4. Terugkoppeling naar de theorieDe uitkomsten van statistische analyse hebben gevolgen voor de theorie over de gemeten uitkomst -> kanaanvullende ondersteuning geven.Zo’n theorie bestaat vaak uit een nomologisch netwerk : een theorie ter verklaring van waarneembareverschijnselen, waarbinnen de gemeten eigenschap een plaats heeft.Deze procedure sluit aan bij de statistische methoden om tests te construeren en meeteigenschappen vast te stellen. Klassieke testtheorie : nadruk op betrouwbaarheid Item-responstheorie : nadruk op hoe de testprestatie tot stand komt Representional measurement : er is alleen sprake van een meting als de formele relaties tussen de testscoresovereenkomen met de relaties die in de empirie bestaan.Voorbeeld in JOHO

Definitie van een testTest : een systematische meetprocedure om uitspraken te doen over een individu, die reageert opgestandaardiseerde stimuli in vergelijking met de reactie van anderen.

Toepassingsmogelijkheden van testsEr zijn 3 toepassingsmogelijkheden van de psychologische test:

Beoordeling van individuenDe beoordeling van individuen kan op 6 verschillende manieren, afhankelijk van het doel van het onderzoek: 1) CriteriumAls er sprake is van een criterium waaraan het individu wel/niet aan kan voldoen. De test correleert met hetcriterium -> bijv. wel/niet een bepaalde opleiding volgen. 2) Meerdere criteriaAls er een keuze gemaakt moet worden uit meerdere criteria die verschillen qua niveau/kwaliteit. Bijv. hetkiezen van een studierichting. De test moet correleren met het criterium en differentiatie moet mogelijk zijn. 3) Onderlinge verhoudingen van testscores bij 1 persoon: ipsatieve scoresAls je iemands zwakke en sterke punten en zijn interesse wil meten, is de onderlinge verhouding van deverschillende scores in een testscore belangrijk en niet de hoogte.Ipsatieve scores : de testscores van 1 persoon worden met elkaar vergeleken en niet met een externestandaard. 4) Ontwikkelingen van een persoonAls je de ontwikkeling van iemand wilt volgen wordt hetzelfde onderzoek herhaald op een ander tijdstip.Doel: erachter komen of de persoon zich op een bepaald gebied ontwikkeld heeft. Bijv longitudinaalonderzoek. 5) Beschrijving van het onderzochteBijv. in de hypothesevormende fase van het onderzoek kan er een beschrijving van het onderzochte gegevenmoeten worden. Er zijn verschillende vormen van beschrijven: - Intern rapport : de psycholoog geeft een subjectieve beschrijving van het gedrag van de onderzochte of een beschrijving van de testprestaties - Extern rapport : een verklarende beschrijving aan bijv de ouders van de onderzochte. -> Kan ook pedagogische adviezen en psychologische uitspraken bevatten. 6) CounselingCounseling : een niet-directieve vorm van therapie. Het testonderzoek wordt gebruikt als startpunt en daaruitgaat de hulpverlener samen met de cliënt de problemen van hem analyseren, bewust maken enherformuleren.
Beoordeling van groepenBij de beoordeling van groepen worden verschillen tussen groepen onderzocht -> vooral vergelijkend onderzoek. Jebent geïnteresseerd in de grootte van het verschil van een bepaalde eigenschap tussen groepen.
De beoordeling van situaties en methodenMethoden : bijv behandeling, opleiding en beïnvloeding. Situaties : bijv stress of participatief leiderschap.Een manier is om bij groepen dezelfde methoden in verschillende situaties te gebruiken en dan kijken naar deresultaten. Of je gebruikt in dezelfde situatie andere methoden. Het gaat niet om groepsverschillen maar om de situaties en de methoden.Voorbeeld : een schoolvorderingstoets is een evaluatie van het kennisniveau van individuele leerlingen en hetfunctioneren van de docent.Averechtse diagnostiek ( Hofstee ): als een test een bepaalde correlatie heeft met een criterium, kan men ditgebruiken om voorspellingen te doen over de kansen op criteriumscores. Maar deze correlatie zegt ook veel over hetcriterium zelf.

Hoofdstuk 3 – Indelingen, onderscheidingen en begrippen omtrent testtheorie

Tests indelen obv testgedragBijna alle overzichten van tests gaan uit van de indeling naar testgedrag. Er wordt onderscheid gemaakt tussen: - Tests voor prestatieniveau – gaat om de maximale prestatie, duidelijk wat goed en fout is - Tests voor gedragswijze – het is belangrijk hoe iemand iets doet en op welke wijze de reactie/prestatie plaatsvindt, er is geen goed of fout

Visser maakte een indeling obv het gebruiksdoel of de meetpretentie. Groot bezwaar: in verschillendegebruikssituaties zijn er heel verschillende meetpretenties (doelen).Ook de indeling obv gedrag heeft nadelen -> het aangeven in welke categorie een psychologische eigenschap hoort isniet altijd ondubbelzinnig.

Tests voor prestatieniveau – 4 soorten

Enkelvoudige algemene niveautestEnkelvoudige algemene niveautests zijn de grootste en belangrijkste tests. Het gaat om een meetbepaling vanintelligentie. Er zijn 3 enkelvoudige algemene niveautests:
See Also
Wat zijn LVS-toetsen?
1. Individuele intelligentietests voor volwassenen : het intelligentieniveau wordt vastgesteld als de intelligentieals ongeveer volgroeid wordt gezien -> va 15-17 jaar. WAIS, GIT, Terman-Merrill -> Deze tests hebben intelligentienormen voor alle leeftijden.
2. Individuele ontwikkelingstests voor kinderen : doel = het meten van de intelligentie tijdens de ontwikkeling.De intelligentiescore wordt vergeleken met die van leeftijdsgenoten of de chronologische leeftijd. WISC-R en Rakit.
3. Algemene collectieve intelligentietests : vaak schriftelijk en groepsgewijs. De tests zijn breed en gevarieerdsamengesteld. Er zijn collectieve intelligentietests voor volwassenen en voor kinderen en collectieve non-verbale intelligentietests -> Handig bij het testen van niet-geletterden en bij populaties met een verschillendeculturele en taalkundige achtergrond.
Veelvoudige algemene niveautestsEr zijn 2 categorieën veelvoudige algemene niveautests: 1) Testbatterijen voor intelligentiefactorenDe verschillende items in een test worden samengevoegd tot enkele factoren. De meest bekende factorenzijn die van Thurnstone : - Verbal - Word fluency - Number - Memory - Spatial - ReasoningDe PMA , een testbatterij samengesteld door Thurstone , probeert deze factoren zuiver te meten. Eenalternatief voor dit systeem is het factoranalytische systeem van Guilford -> leidde uit de praktijk een aantalfactoren af en noemde het de structure of intellect theory.
1. Testbatterijen voor geschiktheid – multiple aptitude tests : het gaat om het meten van vermogens waarmeeiemand zich voor een maatschappelijke taak of schoolopleidingdeisen kan bekwamen -> leergeschiktheid.Leerfactoren kunnen hetzelfde maar ook heel anders zijn dan intelligentiefactoren. Leerpotentiaaltests, DAT, GATB
Speciale niveautests

Een groep mensen die met een opdracht bezig zijn wordt geobserveerd. Deze tests komen voor in‘assessment centers’ voor de selectie van managers.Andere vorm: deelnemers moeten elkaar beoordelen en de psycholoog verwerkt de beoordelingen verder.-> peer rating of buddy rating.Voorbeeld sociogram : ieder groepslid moet aangeven wie sympathiek is, wie leider is etc. Op basis van dezekeuzes wordt een patroon van relaties in de interacties zichtbaar.

Somato-fysiologische methodenMen gaat ervanuit dat er een verband is tussen fysieke/fysiologische aspecten en gedragskenmerken. Dmv metingenvan lichamelijke kenmerken of processen probeer je uitspraken te doen over de psychologische kwaliteiten van deonderzochte. Er zijn 2 soorten: 1) Morfologisch onderzoekMbv somatische kenmerken (hele lichaam, hoofd of gezicht) probeert men iets te zeggen overpersoonlijkheidskenmerken. De validiteit is laag. 2) Fysiologisch onderzoekVoorbeelden: biochemische indices, EEG, elektrocardiogram, bloeddruk en -volume, oogbewegingen,oogposities en pupildiameter, elektrodermale verschijnselen.Deze fysiologische maten blijken een verband te hebben met psychologische variabelen die belangrijk zijnvoor het persoonlijkheidsonderzoek.
ZelfbeoordelingenZelfbeoordelingen worden meestal afgenomen dmv vragenlijsten. Andere vorm is empirisch onderzoek: er wordtgekeken of er een bepaald patroon is in de wijze van beantwoorden. Op basis daarvan kan aan elke vraag eenpsychologische interpretatie gegeven worden. -> meer valide conclusies.Er zijn 4 soorten zelfbeoordelingen: 1) InteressetestHebben betrekking op interesses en kunnen gebruikt worden bij het bepalen van school- of beroepskeuzes 2) Waarde- en attitudetestsDeze onderzoeken waarden en attituden (houdingen). - California-F-Scale : geeft aan in hoeverre iemand dogmatisch, conservatief en bevooroordeeld staat tegenover staat tegenover politiek, cultuur en sociale factoren. - Schaal voor Interpersoonlijke Waarden : meet 6 waarden -> sociale steun, erkenning, altruïsme, conformiteit, onafhankelijkheid en leiderschap 3) Biografische vragenlijstenDit zijn systematische anamneses, vragenlijsten over biografische gegevens. De te voorspellen criteria zijnvaak specifiek en het aantal biografische gegevens is groot en complex. -> Er wordt hiervoor meestal eenspecifieke vragenlijst gemaakt. 4) PersoonlijkheidsvragenlijstenHet gaat om persoonlijkheidsvragenlijsten zoals neuroticisme en extraversie. De proefpersoon krijgteenvoudige vragen die met deze persoonlijkheidstrekken samenhangen. Er zijn 3 soorten constructies: - Zuiver empirisch samengestelde vragenlijsten obv hun relatie met een relevant geacht criterium. PMT meet bijv. 1 trek, MMPI meet een aantal trekken. - Via factoranalyse of cluseranalyse. De items worden samengesteld uit een groot aantal persoonlijkheidstests. Bijv. 16PF en GZTS - Vanuit een theorie over persoonlijkheid of temperament. Bijv. Amsterdamse Biografische Vragenlijst, NEO-PI-R of NEO-FFI

Er zijn ook beoordelingsmethoden die anders werken dan met vragenlijsten:  De Osgoodschalen of de methode van de semantische differentiaal De proefpersoon moet een aantal objecten, gebeurtenissen of een serie eigenschappen beoordelen op een aantal bipolaire dimensies, zoals mooi/lelijk, sterk/zwak. Door factoranalyse kwamen er drie significante dimensies waarop de antwoorden van de proefpersonen gescoord kunnen worden. Deze zijn: 1. Evaluatie (goed/slecht) 2. Activiteit (actief/passief) 3. Potentie (sterk/zwak)

Deze dimensies bleken niet sterk cultuurgebonden. Door de beoordelingen van de respondenten over tebrengen op deze 3 dimensies, krijg je een indruk van hun beleving van bepaalde verschijnselen (zoalshuwelijk, liefde, rechtvaardigheid, hun beroep of zichzelf). De Role Construct Repetoire van Kelly (de Rep-test)Proefpersonen beoordelen zichzelf, hun leraar, vader of andere relevante personen op een checklist metadjectiva over persoonlijkheidsontwikkeling. Op deze manier ontstaan constructen over persoonlijkheid. Q-technique of Q-sortIemand wordt gevraagd een serie uitspraken te sorteren obv de gelijkenis met bijv zichzelf, het ideaal of degemiddelde mens. Absolute scores + afwijkingsscores worden geïnterpreteerd -> blijken diagnostischebetekenis te hebben.

Kwalitatieve prestatietestsBij kwalitatieve prestatietests wordt het resultaat (prestatie) van de onderzochte anders beoordeeld ofgeïnterpreteerd -> als indicatie voor een persoonlijkheidstrek of een klinisch syndroom. De onderzochte weet nietwat de beoordeling is van de test. Er zijn 2 soorten: 1) Niveautests voor gedragswijzeDe prestatie wordt beoordeeld adhv een duidelijke norm voor wat goed/fout is. Men gaat ervanuit dat descore samenhangt met een persoonlijkheidstrek of een klinisch diagnostische categorie. Het gaat in eersteinstantie niet om een capaciteit of vaardigheid. Er zijn 5 categorieën: I. Experimentele tests : onderzoeksresultaten uit het lab blijken bruikbaar te zijn voor persoonlijkheidsdiagnostiekII. Motoriektests : motorische verschijnselen vertonen samenhang met persoonlijkheidsaspecten zoalsbijv. coördinatieproevenIII. Intelligentietests : de totaalscore wordt gebruikt voor klinische- of persoonlijkheidsdiagnostiek. Bijv.intelligentietests voor de diagnostiek van disfuncties in de hersenen en hersenbeschadigingen ->Bender Gestalt TestIV. Karaktertests : proberen karakter, de zedelijke aspecten of wilskracht te meten. De tests zijn vaakonbetrouwbaar en afhankelijk van de specifieke tijd in de geschiedenis. Bijv. Volhardingstest.V. Cognitieve of perceptuele stijlen : een cognitieve stijl is de manier waarop iemand informatieorganiseert. Perceptuele stijl gaat om waarnemingsgegevens die subjectief worden opgenomen enverwerkt. Bijv. RFT, EFT, BAT 2) ProjectietestsVaak ambigue opdrachten waarop een persoon vrij mag reageren. In zijn reactie laat de persoon iets zien vanzijn motieven. De psycholoog gebruikt coderings- en interpretatiecategorieën gebaseerd op kwalitatievekenmerken van de reacties op de testopgaven. Er zijn 6 categorieën: I. Perceptietests : de onderzochte reageert op ongestructureerde (inkt)vlekken. Elke zingeving en duiding wordt door de psycholoog geïnterpreteerd. Bijv. Rorschachtest of Holtzman Inkblot TestII. Interpretatietests : je moet vanuit persoonlijke interpretatie de afgebeelde situatie interpreteren ofmet elkaar in verband brengen. Bijv. Thematic Apperception Test of de Vier-Platen-test.III. ExpressietestsIV. ConstructietestsV. AssociatietestsVI. Keuzetests

Voorbeelden van tests – voldoen ze aan de 6 kenmerken van tests?RAKIT – algemene intelligentietestDe test bestaat uit 12 deeltests die samen de algemene intelligentie meten van kinderen van 4-11 jaar. Er is een korteen lange versie van de test. Hij sluit aan bij Thurstone (7 intelligentiefactoren) en Guilford (3 dimensies). Het wordtdoor COTAN beoordeeld als een goede test.De test voldoet aan de 6 kenmerken van een test (H2): 1. Efficiëntie : door het groot aantal gevarieerde taken kan in relatief korte tijd een volledig beeld gekregen worden van het complexe intelligentiebegrip. 2. Standaardisatie : de test wordt individueel gedaan en duurt 2-2,5 uur. Heeft zeer gedetailleerde richtlijnen voor de proefleider, de handleiding bevat veel aanwijzingen over de procedure en gedetailleerde instructies

Kwetsbaarheid : de mate waarin iemand spanning en stress slecht beheerst

De items zijn uitspraken in de ik-vorm die gaan over een facet van een eigenschap. De respondent geeft per item aanin hoeverre hij het met de uitspraak eens is en krijgt een score van 1-5 punten -> hoge score: hogere positie op deschaal voor die eigenschap.

Voldoet de NEO aan de 6 kenmerken van een test? 1. Efficiëntie : door zich een voorstelling te maken van een groot aantal verschillende situaties kan in korte tijd een indruk verkregen worden van de 5 persoonlijkheidstrekken 2. Standaardisatie : de test kan individueel en groepsgewijs worden afgenomen. NEO-FFI duurt 10-15 minuten. NEO-PI-R duurt 40-50 minuten. 3. Normering : per trek wordt de deelscore berekend door de itemscores bij elkaar op te tellen. Er wordt aangenomen dat de scores in de populatie op een normaalverdeling liggen -> men krijgt een nieuwe score op een schaal van 1-9, die correspondeert met gelijke delen onder de normaalverdeling: stanines. De normen zijn vastgesteld voor diverse deelpopulaties mbv duizenden proefpersonen. 4. Objectiviteit : de scoring is objectief doordat per item is vastgesteld hoe veel punten iemand krijgt bij elk antwoord -> elke psycholoog komt tot hetzelfde antwoord. 5. Betrouwbaarheid : de betrouwbaarheid van de verkorte versie varieert per bevolkingsgroep en per eigenschap van 0.57-0. COTAN beoordeelde de betrouwbaarheid voldoende. 6. Validiteit : van elke eigenschap is de samenhang onderzocht met variabelen die psychisch, sociaal en lichamelijk welbevinden representeren. COTAN: betekenis van de testscores is voldoende aangetoond, maar er is onvoldoende onderzoek geweest naar de voorspellende waarde.

Indeling van tests naar instructie en afnameIndividuele tests & groepstests1. Individuele testBij een individuele test is er sprake van een individuele testsituatie en individuele instructie. Er is een individuelerelatie tussen de testleider en onderzochte. Vragen worden stuk voor stuk geformuleerd/aangeboden enreacties/prestaties worden persoonlijk vastgelegd.Voordelen: - De mogelijkheid om de onderzochte te stimuleren - Controle op de situatie en inhoud - Mogelijkheid tot observatie van de onderzochteNadelen: geringe efficiëntie en info wordt niet op een systematische manier verkregen.

2. GroepstestsBij een groepstest geeft de testleider instructie aan een groep. Bij patiënten, jonge kinderen en inontwikkelingslanden is groepsgewijs testen lastig.Voordelen: efficiëntie en besparing van geld en tijdNadelen: problemen met orde houden en het risico op afkijken -> hebben invloed op de testprestatie.

Snelheidstest & niveautest1. Snelheidstest/speedtest  Veel opgaven -> nooit binnen de toegestane tijd af  De opgaven zijn ongeveer even moeilijk -> bijzonder gemakkelijk  Zo veel mogelijk opgaven maken binnen de tijd  Bij beoordeling worden fouten vaak niet meegerekend

2. Niveautest/powertest  Opgaven zijn niet even moeilijk -> lopen van makkelijk naar moeilijk  Iedereen kan de makkelijkste opgaven maken en vrijwel niemand de moeilijkste  Geen tijdslimiet  Beoordeling obv correcte oplossingenHet lijkt dat snelheidstest samenhangen met kwantiteit en niveautests met kwaliteit.

Meili kwam met 2 hypothesen mbt de verhouding tussen snelheid en niveau: 1. De snelheid waarmee gemakkelijk opgaven worden opgelost geeft geen aanwijzing voor het vermogen om moeilijke opgaven op te lossen 2. De snelheid waarmee moeilijke opgaven worden beantwoord is wel een aanwijzing voor het vermogen als het zodanig is om deze problemen op te lossen. Maar weer niet voor de snelheid waarmee eenvoudige taken worden verricht.Er is een gedeeltelijke bevestiging van beide hypothesen: de snelheid bij makkelijke opgaven stond los van deintelligentie en de snelheid van werken bij moeilijke opdrachten.

Model van Van der Ven : precisiescore = de proportie goede antwoorden. Snelheidsscores = het aantal geprobeerdeitems. De correlatie tussen precisie en snelheid kan door deze twee scores worden verklaard, onder de aannamendat precisie en snelheid onafhankelijk van elkaar zijn.Rasch-model : precisie en snelheid zijn niet helemaal onafhankelijk en er liggen meer eigenschappen ten grondslagaan de testprestatie dan deze 2.

Onderscheid op basis van testvragenCultuurvrije en niet-cultuurvrije testsEen zuivere cultuurvrije test bestaat niet -> de mens wordt altijd beïnvloedt door de omgeving. Ook non-verbale testszijn niet helemaal cultuurvrij.Cultuur kun je beter vervangen door een begrip dat beter omschreven kan worden -> bijv skill. Om mee te kunnendoen aan een test heb je bepaalde skills nodig, zoals het kunnen horen van instructies. Sommige skills zijnfysiologisch bepaald (kunnen horen, zien, ...), anderen worden beïnvloed door cultuur of omgevingsinvloeden(kunnen lezen, schrijven, ...).De invloed van skill-verschillen kan op drie manieren worden verkleind: 1. Het verkleinen van de skill-verschillen zelf -> bijv door de instructie uit te breiden. 2. Interpretaties en testscores te beperken tot slechts dat deel van de populatie dat de vereiste skills bezit. 3. Het ontwikkelen van skill reduced tests -> bijv de Design Construction Test van Ord of de SON (voor doven). Doel: de groep vergroten waarbinnen uit testscores conclusies over de te meten capaciteit kunnen worden getrokken.

Directe en indirecte tests Indirecte tests : de onderzochte weet het doel van de test niet.  Alle projectiemethoden en de meestezelfbeoordelingen en persoonlijkheidsvragenlijsten. Directe tests : de onderzochte weet en begrijpt het doel van de test.  Vorderingstests, biografischeinformatielijsten, opinie- en attitudetests.

Vrije-antwoordtests en keuze-antwoordtestsDeze tests heten ook wel open en gesloten vragen of ongecodeerde en gecodeerde vragen. Het gaat om het verschilin de uitvoering van de test. (-> Verder in H4)

Hoofdstuk 4 – Hoe worden items opgebouwd en reacties gekwantificeerd in tests en vragenlijsten?

Items indelen naar de activiteit die van de respondent wordt gevraagdBij verschillende tests en vragenlijsten stimuleren de items de respondent om te reageren. Uit dit gedrag wordt eenpsychologische eigenschap afgeleid. We maken onderscheid tussen:

 Theoretische opdrachtenHiermee meet je meestal cognitieve capaciteiten en vaardigheden. Voorbeelden: - Verkeersvragen uit het theoretisch rijexamen - Teken en taalopdrachten uit de CITO-toetsDe antwoorden op dit soort opdrachten zijn (gedeeltelijk) goed/fout.

 StellingenHiermee meet je vaak persoonlijkheidstrekken, meningen, houdingen of voorkeuren. De respondent geeft aan inhoeverre hij het met de stelling eens is. De antwoorden zijn niet goed/fout, maar geven aan waar de respondentstaat op de schaal van de eigenschap die gemeten wordt.

RangschikkenDe keuzemogelijkheden moeten in volgorde van juistheid, toepasbaarheid of voorkeur worden geplaatst. Voordeel:er wordt veel info verkregen.
Toeschrijving (matching)2 rijen met begrippen moeten aan elkaar worden gekoppeld -> de juiste combi moet worden gemaakt tussen het enebegrip en het bijbehorende andere begrip.

Voordeel: er kan veel info worden verzameld met 1 opgave.
Nadeel: keuzes zijn niet onafhankelijk van elkaar -> hoe minder onzekere combinaties overblijven, hoe groterde gokkans wordt. Verminderen -> 1 van de rijen verdubbelen.

Items voor tests voor gedragswijzenBij persoonlijkheids- of attitudetests kruist de respondent vaak op een schaal aan in welke mate hij het met eenuitspraak eens is. Het aantal antwoordmogelijkheden kan variëren, maar er moet met een aantal dingen rekeningworden gehouden:  De vorm en instructie moeten voorkomen dat de respondent tussen 2 antwoorden in een kruisje zet  Er moet gekozen worden voor een even of oneven aantal items. o Even aantal -> respondent moet kiezen voor een kant o Oneven aantal -> respondent kan ook het midden kiezen. -> Vaak Likertschaal van 5 mogelijkheden.  Keuze voor het aantal antwoordmogelijkheden: respondenten kunnen meestal niet meer dan 7 verschillende mogelijkheden onderscheiden dus meer keuzes aanbieden is niet zinvol.  De beschrijving van de schaalposities (labels). Het benoemen van de stappen op de schaal kan tot interpretatieverschillen tussen respondenten leiden, maar weglaten zorgt voor meer verschillende interpretaties -> oplossing: alleen uitersten op een schaal zetten zoals geheel eens en geheel oneens.

Antwoorden kwantificerenInformatiebronnen bij de kwantificeringDe kwalitatieve reacties van respondenten op de items uit een test moeten gekwantificeerd worden: in getallenworden omgezet -> zo ontstaat een beeld van de eigenschap die gemeten wordt.Mbv statistiek kun je bepalen of een respondent systematisch gedrag vertoond. -> Als dit zo is heeft de test goedemeeteigenschappen, zo niet dan zijn er geen zinvolle indicaties te geven.

Sommigen vinden dat je door kwantificeren info weglaat, zodat je iemands persoonlijkheid niet zinvol kandiagnosticeren. Maar het gaat er juist om constant en systematisch gedrag op te sporen -> kan alleen doorkwantificeren.

Itemscores vergelijkenOm kwalitatieve reacties op items te kunnen kwantificeren, moeten de antwoordmogelijkheden gerangschikt kunnenworden op een schaal die de eigenschap meet. Aan deze antwoordcategorieën worden scores toegekend. Er wordtonderscheid gemaakt tussen: - Dichotome items : 2 antwoordcategorieën, goede antwoord krijgt meer punten - Polytome items : 3+ antwoordcategorieën, afhankelijk van de ordening worden punten toegekend per antwoord

Scores : de aan de antwoordcategorieën op de items toegekende getallen. Alleen de ordening hierbij is van belang,niet de getallen op zich.De items zouden gewogen kunnen worden -> sommige items wegen zwaarder mee in de uitkomst dan anderen. ->Vaak niet wenselijk: alleen als je alle items uit de test dezelfde scores geeft, zijn de items gelijkwaardig.

Bij het construeren van een test wordt eerst de kwaliteit van de items onderzocht. Bij het vooronderzoek wordt meteen kleine steekproef (20-100) vastgesteld welke items uit de voorlopige testversie slecht werken.

Kwaliteit van items beoordelen in het hoofdonderzoekIn het hoofdonderzoek wordt een grote representatieve steekproef gekozen (500-2000).

Het doel van het hoofdonderzoek is om de kwaliteit van de test te bepalen -> er kunnen nog items wegvallen dieslecht werken. Je kijkt naar betrouwbaarheid, validiteit en normen van de test.

Verloop van het vooronderzoek van dichotome itemsOm bij het vooronderzoek vast te kunnen stellen of een item goed/slecht werkt, kijk je naar de relatieve frequentievan de antwoorden. - P-waarde : relatieve frequentie van het goede antwoord ( gesleutelde respons ) - A-waarden : relatieve frequenties van de foute antwoordmogelijkheden ( afleiders )Als de a-waarden niet veel van elkaar verschillen, heb je sterke aanwijzingen dat je een goed item hebt.Er zijn ook andere mogelijkheden: 1. Alle antwoordmogelijkheden leveren dezelfde relatieve frequentie op -> iedereen heeft waarschijnlijk gegokt. Om dit zeker te weten is aanvullende evidentie nodig: het item mag geen correlaties hebben met andere items en de inhoud van het item moet worden bekeken. 2. Juiste antwoord heeft een erg hoge relatieve frequentie -> item was te makkelijk. Maar er kan ook gewoon goed geleerd zijn of de afleiders waren niet plausibel. 3. Relatieve frequentie is het hoogst bij een afleider -> deze heeft als instinker gewerkt. Of deze was wel het goede antwoord.

Verloop van het vooronderzoek van polytome itemsOok hier kijk je naar de relatieve frequentieverdeling van de scores om te zien of een item goed/slecht werkt.Mogelijke patronen zijn: 1. Alle antwoordcategorieën worden benut, sommige iets meer dan andere. -> Mensen reageerden gematigd op een stelling: er zijn voor- en tegenstanders. Het item werkt goed, want er is een goede spreiding. Her gemiddelde kan berekend worden als de gewogen som van de itemscores: Per item moet de som van de itemscore berekend worden, waarbij elke score wordt gewogen met de relatieve frequentie. 2. De verdeling is uitgesproken scheef -> niemand heeft de laagste en bijna iedereen heeft de hoogste score. Dit maakt geen onderscheid tussen personen. Het kan wel interessant zijn voor opinieonderzoek.

Hoofdstuk 5 – Tests afnemen en verwerken

Tests afnemenBij het afnemen van tests zijn er veel factoren waar rekening mee gehouden moet worden, zoals:  De objectieve testsituatieHierbij is standaardisatie erg belangrijk: de onderzochten moeten in maximaal gelijke omstandigheden wordengetest. Voorwaarden hiervoor: - Standaardisatie en testcondities -> proefleider moet zich zo goed mogelijk aan de instructies houden: de proefpersonen worden in gelijke omstandigheden getest - Omgevingsinvloeden moeten zoveel mogelijk worden voorkomen - Geen storingen tijdens de testafname - Een goede controle zodat afkijken en spieken niet mogelijk isBovenstaande punten spelen vooral een rol in een groepstestsituatie en bij snelheidstests.

 Gedrag van proefpersonenSommige proefpersonen zijn meer gemotiveerd en coöperatief. Door bijv. vermoeidheid kan een pp een slechtereprestatie dan normaal leveren.Standaardisatie van proefpersonen is lastiger te realiseren dan standaardisatie van de testsituatie. Er zijn wel eenaantal factoren waarmee je rekening kan houden: Ervoor zorgen dat de onderzochte fit is Nagaan of er geen sprake is (geweest) van emotionele opwinding Door duidelijke extra instructies wordt de opdracht vaak beter begrepen Ervoor zorgen dat de proefpersonen niet van tevoren weten wat de inhoud van de test is

Er zijn ook andere factoren die van invloed kunnen zijn op testprestatie, zoals: - Voorgaande ervaringen of trainingen -> onderzochte is vertrouwd met testen

De correctieformule bij niet-ingevulde vragen:Xf = aantal fout(1/A)(k-X-Xf) = bij blind gissen, het aantal goed beantwoorde items

Er zijn 4 bezwaren tegen deze correctieformules: 1. De formules zien eruit alsof we precies weten wat correct beantwoord is, maar er is geen scherpe lijn tussen gissen en zeker weten. - Ondercorrectie : door partiële kennis kan de gokkans hoger worden dan de blinde gokkans - Overcorrectie : bij een verleidelijke afleider kan de gokkans juist kleiner zijn. Eigenlijk gelden de formules alleen voor iemand die niks van de stof afweet. 2. Iemand kan ook een fout antwoord geven door de verkeerde info of verkeerd inzicht, niet alleen door verkeerd gokken. 3. Xc heeft een grotere variantie dan X: de gecorrigeerde score (Xc), die gebaseerd is op tweekeuzeitems, heeft een 4x grotere variantie dan de ongecorrigeerde score X -> SD is 2x groter. Dit heeft een ongewenst effect op andere berekeningen: als je de gecorrigeerde testscore optelt bij andere testscores, krijgt de test met gecorrigeerde scores een 2x zo groot gewicht, zonder dat dit te rechtvaardigen is. 4. Bij een lineaire relatie tussen Xc en X geldt dat de correlatie 1 is. Dit heeft 3 belangrijke consequenties: 1) De ordening van personen en de afstand tussen personen volgens Xc is dezelfde als volgens X: de gokcorrectie heeft geen gevolgen daarvoor. Maar sommige personen kunnen daardoor wel onder de aftestgrens vallen, terwijl dat obv de ongecorrigeerde testscore niet was gebeurd. Voor een individu kan een gokcorrectie dus grote gevolgen hebben. Oplossing: aanpassen van de aftestgrens. 2) De correlatie tussen X en een andere testscore Y is gelijk aan de correlatie tussen Xc en Y. dat impliceert dat je met beide scores even goed de criteriumscore Y kan voorspellen. 3) De betrouwbaarheid van X en Xc is gelijk. Maar dat geldt niet voor de formule, omdat in deze formule de relatie tussen Xc en X niet lineair is.

Conclusie: in het algemeen wordt geadviseerd correctieformules niet te gebruiken. Bij keuze-antwoorden is het beterom het aantal goede antwoorden te tellen.Aan respondenten moet de instructie worden gegeven altijd iets in te vullen -> is rendabeler dan niks antwoorden.Positief bijeffect: een uniforme antwoordstrategie wordt bevorderd -> verschillen tussen scores komen niet vanwegehet verschil in wel/niet durven gokken. Als iedereen deze strategie volgt, is de gokcorrectie op individueel niveauoverbodig. De aftestgrens moet wel worden aangepast.

Voorbeeld: k = 32, A = 4. Iemand kan door gissen 8 vragen goed hebben, dus dit moet als ondergrens wordengenomen. Bij een gewenst kennispercentage van 60% moet de aftestgrens zijn:8 + 0,6(32-8) = 22,4 -> 23

De Groot en Van Nearssens bespraken alternatieve scoringsprocedures : als bij alle respondenten de optimaleantwoordstrategie duidelijk is (gissen als je het niet weet), dan neemt de betrouwbaarheid en validiteit van degecorrigeerde testscore niet significant toe boven die van de gewone testscore.De beste scoringsprocedure is dus niet simpelweg het tellen van het aantal goede antwoorden.

Moeten itemscores gewogen worden?Het is een cruciale vraag of alle items even zwaar wegen. Volgens onderzoek is weging niet nodig -> bezorgt erg veelextra werk en uit correlatie-onderzoek blijkt een hoge correlatie tussen wel en niet gewogen totaalscores. - Betrouwbaarheid laten toenemen  Langere testen maken - Validiteit laten toenemen  Goed nadenken over de inhoud van de items

De invloed van computergebruik op testenVeel tests kunnen met de computer worden afgenomen. Er wordt onderscheid gemaakt tussen:  Technologische bijdragen : afneming, opslag en administratie van items, adminstratie van testgegevens en psychologische rapportage.  Wetenschappelijke bijdragen : inhoudelijke psychologische veranderingen en psychometrische veranderingen door het gebruik van de computer.

Technologische bijdragen en veranderingen van de computer op het testen  Administratieve veranderingen – Het gegevensbestand is door de computer geautomatiseerd en de terugkoppeling van de resultaten gebeurt snel. De test is ook eenvoudig te veranderen.  De itembank – In een itembank kan je een grote verzameling items aanleggen en opslaan. -> Vooral nuttig in het onderwijs. Ook andere gegevens worden opgeslagen -> psychometrische gegevens over de moeilijkheid, kwaliteit van de afleiders, administratieve gegevens, het onderwerp waar het item over gaat, of het gaat om kennis of inzicht.  Het geautomatiseerde systeem van Nitko en Hsu voor leerkrachten en scholen – Het systeem bestaat uit 3 componenten: 1. Een bestand met gegevens van leerlingen en van schoolklassen 2. Een onderdeel van de itemanalyse 3. De mogelijkheid om zelf een itembank te maken en de vorige te veranderen. Deze 3 onderdelen kunnen met elkaar communiceren.  Online testing van Baker – Een test waarbij de leerling zelf kan bepalen of hij de stof beheerst en de computer vraagt om een toets. Nadeel: surveillance is nodig om te voorkomen dat items uitlekken of dat iemand anders de toets maakt.  Diagnostisch toetsen – Een andere toepassing in het onderwijs. Deze test ontdekt deficiënties in deelvaardigheden, waaraan gewerkt zou kunne worden.  Aangeboden items – Dit kan nu via bewegende beelden op de computer, je kan kijken naar hoe de proefpersoon daarop reageert.

Wetenschappelijke bijdragen en veranderingen van de computer op het testenVolgens Hunt en Pell kan de computer ingezet worden bij de meting van intelligentiecomponenten, zoals individueleverschillen in ruimtelijk-visueel redeneren, geheugen en aandacht en ook bij individuele verschillen in leerpotentieel. Probleem met het gebruik van computers: men kan door testangst en door ervaring met computers verschillenkrijgen in testprestatie. -> Kun je verminderen door te oefenen met computers.

Uit onderzoek naar de verschillen in testprestatie bij het testen met computers en met de conventionele methodenblijkt dat deze verschillen niet groot zijn. Toch is het raadzaam de normen van conventionele tests niet zomaar toe tepassen bij computergestuurde tests. -> Er zijn een aantal verschillen tussen conventionele en computergestuurdetests: - Het is onmogelijk om bij computergestuurde tests items over te slaan zonder een toets in te drukken ( passive omitting ) -> ontstaat een andere verdeling van itemscores dan bij conventionele tests. - Verschil in presentatie en vormgeving.Deze factoren lijken weinig invloed te hebben op de testprestaties.

Adaptief testenAdaptief testen = testen op maat. -> Iedere respondent krijgt een test op zijn niveau. Dit levert meer info over op hetniveau en de test zal niet te moeilijk/makkelijk zijn waardoor het minder frustrerend is.Als de moeilijkheid van het item en het niveau van de persoon samenvallen, is de meting het meest nauwkeurig -> Desubjectieve kans op een positief antwoord is 0.Volgens Weiss meet een adaptieve test even nauwkeurig als een standaardtest als het ongeveer een half maal delengte van een standaardtest heeft (vuistregel).

Het afstemmen van items op het niveau van de persoon gaat als volgt: - De respondent krijgt 1 of meer items die in de populatie een gemiddelde moeilijkheid hebben, obv zijn itemscores maakt de computer een eerste schatting van de meetwaarde van de persoon.

Dit is niet zo goed bruikbaar bij het vergelijken van proefpersonen. Vergelijkingen met een oude standaard komenvooral voor in de onderwijskunde -> men is bezig met het beoordelen in welke mate leerlingen een bepaald doelhebben bereikt. Dit is onafhankelijk van hoe de medeleerlingen hebben gepresteerd.

Absoluut meten is arbitrair en discutabel, als je niet eerst de doelen van het proces dat je bij de onderzochte wiltevalueren geanalyseerd hebt. En of dat wel op een betrouwbare manier getest kan worden.

Verhoudingsnormen + toepassingDe testscores worden gedeeld door een andere variabele en zo onafhankelijk gemaakt van de betreffende variabele.Bijv. IQ = (mentale leeftijd/chronologische leeftijd) x 100

De mentale leeftijd wordt bepaald door een test, het kind maakt opdrachten met oplopende moeilijkheid. Dehoogste leeftijd waarop in de test nog geen fouten worden gemaakt, heet de mentale leeftijd.Aantal kritische kanttekeningen:  Mentale leeftijd is een testscore, geen leeftijdsmaat. Chronologische leeftijd is eigenlijk ook geen leeftijdsscore, maar de verwachte prestatie van iemand op die leeftijd. Het gaat dus om de vergelijking met prestaties van anderen. V. 15 jaar zijn er geen verschillen meer tussen leeftijden.  Het begrip IQ is geen constante factor. Het blijkt dat: o Sommige vragen afhankelijk zijn van vorming, scholing en intelligentie o Bij sommige kinderen loop de lichamelijke en fysiologische groei (-> invloed op psychologische groei) niet parallel aan de gemiddelde intelligentiegroei o Leermogelijkheden, motivatie en emotionele bereidheid hebben invloed op intelligentie en op de verschillen tussen leeftijdsgenoten  Normaal blijf je bij het berekenen van IQ boven de hoogste leeftijd waarop de test nog onderscheidt, steeds delen door de topleeftijd (vaak 15/16/17 jr). Maar op hogere leeftijd nemen intellectuele prestaties af -> geen correctie hiervoor.  Er is sprake van een evenredige toename van spreiding bij hogere leeftijden. -> Een achterstand van 1 jr op zesjarige leeftijd is 2x zo erg als op twaalfjarige leeftijd.

Vergelijking en normen gebaseerd op een rangordeRangordeDe eenvoudigste manier om testprestaties tussen individuen te analyseren, is dmv rangordening : een bepaalde scorevoor een bepaalde positie wordt gebaseerd op de groep waar men in zit.Nadeel: het betekent niets buiten de bewuste groep.

Percentielscores en percentiele normenEr zijn 99 punten (= percentielen ) die een scoreverdeling opdelen in 100 groepen van gelijke grootte, elk 1% van dewaarneming. Bijv. iemand met een ruwe score met de percentielscore 0 -> percentiel rang van 87 -> 87% van detestscores van de normgroep ligt daarbeneden.Bekendste percentielen: - P 50 = mediaan - P 25 = eerste kwartiel, Q - P 75 = derde kwartiel, QProbleem: bij een relatief grote groep van onderzochten met dezelfde ruwe score is er weinig differentiatie mogelijkin de percentielscores. -> Kun je oplossen met lineaire interpolatie, Bijv:21% van de getesten heeft een ruwe score van 66 of lager en 27% heeft een ruwe score van 67 of lager. Dan heeft 6%een ruwe score gelijk aan 67. De percentielscore die bij deze ruwe score hoort is dan als volgt te berekenen: 21 +0 (27-21) = 24.

Door scores aan te duiden in percentielscores ben je niet meer afhankelijk van de absolute groepsgrootte maar welvan niveau, spreiding en toevallige kenmerken van de groep. Percentiele normen zijn niet afhankelijk vangroepskenmerken. Voordelen van percentiele normen: - Eenvoudig en snel te berekenen - Gemakkelijk toe te passen - Inzichtelijk en ook begrijpelijk voor niet-deskundigen

Rangordes en -normen zijn bruikbaar als je snel een beeld wilt krijgen van de relatieve positie van de onderzochte ineen groep of in de populatie.

Nadeel van percentielscores: het gaat om een ordinale schaal, waardoor: - Er geen deelbewerkingen mogelijk zijn (-> er mogen met percentielscores geen gemiddelden en varianties berekend worden) - Het zinloos is de frequentieverdelingen van percentiele en ruwe scores te vergelijken (-> alle frequentieverdelingen van percentielscores zijn gelijk en rechthoekig van vorm)

 Percentielen verdelen het aantal scores in 100 groepen. Decielen verdelen de scores in 10 gelijke klassen. Vigintielen verdelen scores in 20 gelijke klassen.

Vergelijking en normen gebaseerd op gemiddelde en spreidingStandaardscores en -normen hebben niet dezelfde bezwaren als percentiele normen (ordinale schaal enonvergelijkbaarheid). Er is een verschil tussen standaardscores (ruwe scores onderverdeeld in standaardscore-eenheden) en standaardnormen (bij een representatie van een populatie).

Standaardscores of z-scoresStandaardscore : geeft aan hoeveel standaardafwijkingen een score boven of onder het gemiddelde ligt.Alle oorspronkelijke scores worden uit gedrukt in afwijkingen van het gemiddelde (teller van de formule). Dezeafwijkingen worden uitgedrukt in eenheden van de oorspronkelijke standaarddeviatie, door ze te delen door destandaarddeviatie (noemer van de formule). - zx = standaardscore - X = ruwe score - X = gemiddelde - Sx = standaarddeviatie

Negatieve standaardscores: ruwe scores liggen onder het gemiddelde
Positieve standaardscores: ruwe scores liggen boven het gemiddelde

Omdat kleine of negatieve getallen soms lastig zijn, kun je met lineaire transformaties scores transformeren zodat hetgemiddelde bijv. bij 100 en de SD bij 10 ligt. De onderlinge afstand tussen scores blijft onveranderd. Standaardscoresbehouden dezelfde verdelingskenmerken als de ruwe scores.

Genormaliseerde standaardscoresGenormaliseerde standaardscores worden verkregen uit niet-lineaire transformaties die de verdeling van X zovervormen dat er wel een normale verdeling ontstaat. Er ontstaat een verdeling met percentages die afgeleid zijn uitde eigenschappen van een normaalverdeling:  34% van de groep valt tussen X̄ en (X̄ + 1SX) en tussen X̄ en (X̄ – 1SX) (binnen 1 standaarddeviatie)  13% valt tussen (X̄ + 1SX) en (X̄ + 2SX) en tussen (X̄ – 1SX) en (X̄ – 2SX) (tussen 1 en 2 standaarddeviaties)  2 % valt tussen (X̄ + 2SX) en (X̄ + 3SX) en tussen (X̄ – 2SX) en (X̄ – 3SX) (tussen 2 en 3 standaarddeviaties)

Constructie: uitzoeken welke ruwe scores de percentages aangeven die horen bij de standaardscores in eennormaalverdeling. -> Ruwe scores worden omgezet in genormaliseerde standaardscores.

Samenvatting Testtheorie en Testgebruik - Samenvatting Testtheorie en Testgebruik Hoofdstuk 1 – De - Studeersnel (2024)

Testtheorie en testgebruik (PSBA2-06)

Rijksuniversiteit Groningen

Aanbevolen voor jou

Reacties

Andere studenten bekeken ook

Gerelateerde documenten

Gerelateerde Studylists

Preview tekst

Hoofdstuk 1 – De definitie, kenmerken en toepassingen van een test

Er zijn wiskundige berekeningen toegestaan -> lineaire transformaties van het type Y = a + bX

Hoofdstuk 3 – Indelingen, onderscheidingen en begrippen omtrent testtheorie

Hoofdstuk 4 – Hoe worden items opgebouwd en reacties gekwantificeerd in tests en vragenlijsten?

Hoofdstuk 5 – Tests afnemen en verwerken

References