Psychometrie · 14 min leestijd

Wat maakt een assessment test valide en betrouwbaar?

Niet alle assessments zijn gelijk. Leer het verschil tussen valide en invalide tests, en waarom dat cruciaal is voor je hiring.

Door Ingmar van Maurik · Founder & CEO, Making Moves


Waarom het ertoe doet

Een assessment is alleen waardevol als het meet wat het belooft te meten en consistent resultaten geeft. Klinkt logisch, maar de realiteit is dat veel bedrijven assessments inzetten zonder te weten of ze daadwerkelijk werkprestaties voorspellen.

Het gevolg: hiring beslissingen gebaseerd op ruis. Je denkt dat je datagedreven werft, maar in werkelijkheid gebruik je een instrument dat niet beter voorspelt dan een muntje opgooien — en soms zelfs slechter, doordat het een vals gevoel van zekerheid geeft.

In dit artikel leggen we uit wat validiteit en betrouwbaarheid precies betekenen, hoe je ze meet, en waarom generieke assessments vaak tekortschieten. We laten ook zien hoe je met een eigen systeem assessments kunt bouwen die wél voorspellen wie succesvol wordt.

Validiteit: meet je wat je wilt meten?

Validiteit is het fundament van elk assessment. Het beantwoordt de vraag: voorspelt deze test daadwerkelijk werkprestaties? Er zijn meerdere vormen van validiteit, elk met een specifieke functie.

Predictieve validiteit

Dit is de gouden standaard in assessment psychometrie. Je vergelijkt testscores met latere prestaties in de praktijk:

  • Scoren hoge kandidaten ook hoog op performance reviews na 6 en 12 maanden?
  • Zijn er correlaties tussen specifieke testonderdelen en succes in de rol?
  • Voorspellen de scores retentie — blijven hoog scorende kandidaten langer?
  • Predictieve validiteit wordt uitgedrukt als een correlatiecoëfficiënt (r). In de psychometrie gelden deze benchmarks:

    CorrelatiecoëfficiëntInterpretatie

    |----------------------|---------------|

    r < 0.10Verwaarloosbaar — de test voorspelt niets r = 0.10-0.20Zwak — beperkte waarde r = 0.20-0.30Matig — enige voorspellende waarde r = 0.30-0.50Sterk — goede voorspeller r > 0.50Zeer sterk — uitstekende voorspeller

    De beste generieke cognitieve tests bereiken een r van 0.30-0.50. Maar bedrijfsspecifieke assessments kunnen significant hoger scoren doordat ze zijn afgestemd op wat succes betekent in jouw specifieke context.

    Construct validiteit

    Meet de test het juiste construct? Dit klinkt eenvoudig, maar is in de praktijk complex:

  • Een test voor "analytisch vermogen" moet daadwerkelijk analytisch vermogen meten, niet leesvaardigheid of werkgeheugen
  • Een persoonlijkheidstest die "leiderschap" meet, moet onderscheiden van dominantie en assertiviteit — verwante maar verschillende constructen
  • Een test voor "culturele fit" moet meten wat het beweert, niet gewoon similarity bias formaliseren
  • Construct validiteit wordt gemeten door:

  • Convergente validiteit — correleert de test met andere gevalideerde tests die hetzelfde construct meten?
  • Divergente validiteit — correleert de test niet met tests die een ander construct meten?
  • Factor analyse — laden de testitems op de verwachte factoren?
  • Criterium validiteit

    Hoe goed voorspelt de test een specifiek criterium? Dit kan zijn:

  • Productiviteit — output en kwaliteit van werk
  • Retentie — blijft de medewerker minimaal 12-18 maanden?
  • Klanttevredenheid — scores van klanten die met de medewerker werken
  • Groeisnelheid — hoe snel ontwikkelt de medewerker zich naar het volgende niveau?
  • Teameffectiviteit — draagt de medewerker positief bij aan het team?
  • Het is belangrijk om te beseffen dat verschillende criteria verschillende voorspellers vereisen. Een test die productiviteit voorspelt, voorspelt niet automatisch ook retentie.

    Inhoudsvaliditeit

    Dekt de test de relevante inhoud voor de functie? Een assessment voor een software developer zou moeten toetsen op:

  • Probleemoplossend vermogen in technische context
  • Code review vaardigheden
  • Samenwerking in development teams
  • Omgaan met ambiguïteit en veranderende requirements
  • Niet op: algemene verbale intelligentie of abstracte patronherkenning die geen relatie heeft met de dagelijkse werkzaamheden.

    Betrouwbaarheid: is het consistent?

    Betrouwbaarheid gaat over de vraag: levert de test bij herhaalde afname vergelijkbare resultaten? Een test kan niet valide zijn zonder betrouwbaar te zijn — maar een betrouwbare test is niet automatisch valide.

    Test-hertest betrouwbaarheid

    Scoort dezelfde persoon vergelijkbaar als ze de test op twee verschillende momenten doen? Dit wordt gemeten met de test-hertest correlatie:

  • r > 0.80 — goede test-hertest betrouwbaarheid
  • r = 0.60-0.80 — acceptabel voor sommige constructen
  • r < 0.60 — onvoldoende — de test meet te veel ruis
  • Belangrijk: sommige constructen zijn van nature minder stabiel (bijv. stemming vs. persoonlijkheid), wat de verwachte test-hertest betrouwbaarheid beïnvloedt.

    Interne consistentie

    Meten alle vragen in een onderdeel hetzelfde construct? Dit wordt gemeten met Cronbach's alpha:

  • α > 0.80 — goed
  • α = 0.70-0.80 — acceptabel
  • α < 0.70 — de vragen meten niet consistent hetzelfde
  • Een lage interne consistentie betekent dat sommige vragen iets anders meten dan de rest, wat de totaalscore onbetrouwbaar maakt.

    Inter-beoordelaar betrouwbaarheid

    Bij assessments die menselijke beoordeling vereisen (bijv. simulaties, presentaties, interviews): komen verschillende beoordelaars tot dezelfde conclusie? Dit is cruciaal voor:

  • Assessment centers
  • Gestructureerde interviews
  • Work samples
  • Video-assessments met menselijke scoring
  • De oplossing voor lage inter-beoordelaar betrouwbaarheid: gestructureerde scoringsrubrieken en training van beoordelaars. Of beter nog: waar mogelijk AI-scoring inzetten die inherent consistent is.

    Waarom generieke tests vaak tekortschieten

    De meeste commerciële assessments — van aanbieders als SHL, Harver, TestGorilla en Saville — zijn gevalideerd op generieke populaties. Dit betekent:

    Het normgroep-probleem

    Scores worden vergeleken met duizenden willekeurige personen uit diverse sectoren en rollen. Maar:

  • Wat succes voorspelt bij een bank is fundamenteel anders dan bij een tech startup
  • Een normgroep van 10.000 willekeurige professionals is niet relevant voor jouw specifieke senior developer rol
  • De culturele context van een Nederlands bedrijf verschilt van een Amerikaanse normgroep
  • Het statische model-probleem

    Generieke tests worden om de 5-10 jaar geüpdatet. Jouw bedrijf verandert continu:

  • Nieuwe technologieën, processen en cultuur
  • Veranderende teamdynamiek en leiderschapsstijlen
  • Evolutie van wat "succes" betekent in een rol
  • Een test die in 2020 is gevalideerd, meet in 2026 mogelijk niet meer wat relevant is.

    Het one-size-fits-all probleem

    Dezelfde persoonlijkheidstest wordt gebruikt voor developers, sales managers, finance analisten en klantenservice medewerkers. Maar de competenties die succes voorspellen zijn fundamenteel verschillend per rol.

    Meer hierover in ons artikel over waarom generieke assessments niet werken.

    De oplossing: bedrijfsspecifieke validatie

    Met een eigen assessment systeem kun je de tekortkomingen van generieke tests oplossen:

    Eigen normgroepen opbouwen

    In plaats van scores te vergelijken met een generieke populatie, bouw je normgroepen per rol en afdeling:

  • Je senior developers worden vergeleken met jouw senior developers, niet met de markt
  • De scores van je sales team worden afgezet tegen jouw top performers, niet tegen een generieke sales normgroep
  • Nieuwe hires worden vergeleken met medewerkers die al succesvol zijn in dezelfde rol
  • Predictieve validiteit berekenen met eigen data

    Dit is de ultieme test: voorspellen jouw assessments daadwerkelijk succes? Met eigen data kun je:

  • Assessment scores correleren met performance reviews (6, 12, 18 maanden)
  • Identificeren welke testonderdelen het meest voorspellend zijn voor welke rollen
  • Gewichten aanpassen zodat de meest voorspellende onderdelen zwaarder wegen
  • Een [continue validatiecyclus](/artikelen/continuous-validation-hiring) opzetten die het model steeds accurater maakt
  • Continue kalibratie na elke hire

    Na elke hire wordt het model gevalideerd:

    1. Kandidaat scoort op het assessment

    2. Kandidaat wordt aangenomen (of afgewezen)

    3. Na 6 maanden: performance review

    4. Correlatie berekenen: klopte de voorspelling?

    5. Model bijstellen op basis van de resultaten

    Dit betekent dat je assessment systeem slimmer wordt over tijd — een voordeel dat generieke tests per definitie niet kunnen bieden.

    Bias analyses op eigen populatie

    Met eigen data kun je actief monitoren:

  • Worden bepaalde groepen systematisch hoger of lager gescoord?
  • Zijn er onderdelen met adverse impact die aangepast moeten worden?
  • Is de test even predictief voor alle subgroepen?
  • Het verschil in de praktijk

    AspectGeneriek assessmentBedrijfsspecifiek assessment

    |--------|-------------------|---------------------------|

    Normgroep10.000+ willekeurigJouw medewerkers per rol Predictieve validiteitr = 0.20-0.40r = 0.40-0.60+ ActualisatieOm de 5-10 jaarContinu Bias monitoringLeverancier (generiek)Jij (specifiek voor jouw populatie) Kosten per kandidaat€50-€200Opgenomen in systeem Data-eigendomLeverancierJij

    Samenvatting

    Een assessment zonder validatie is een dure gok. Je geeft het de schijn van objectiviteit, maar in werkelijkheid baseer je beslissingen op onbewezen aannames. Een gevalideerd assessment op maat is daarentegen een strategisch wapen in je hiring.

    De kernpunten:

  • Validiteit gaat over of je meet wat je wilt meten — en of dat werkprestaties voorspelt
  • Betrouwbaarheid gaat over consistentie — krijg je dezelfde resultaten bij herhaalde afname?
  • Generieke tests schieten tekort door generieke normgroepen, statische modellen en one-size-fits-all aanpak
  • Bedrijfsspecifieke validatie lost deze problemen op met eigen normgroepen, continue kalibratie en predictieve validiteit op jouw data
  • Wil je weten hoe valide jouw huidige assessments zijn? Of wil je een systeem dat continu leert en verbetert? Neem contact op of bekijk hoe ons AI hiring systeem assessment validatie inbouwt in het proces.


    Plan een intake gesprek · Bekijk ons AI Hiring Systeem