AI-modellen sterk verdeeld over WK-kansen Oranje; verschillen tonen modelpersoonlijkheden in AI

Geschreven door Constantijn Rijsdijk | 12-jun-2026 8:04:03

Vijf veelgebruikte AI-modellen komen tot duidelijk verschillende uitkomsten voor het WK 2026. Alleen Gemini ziet Nederland de halve finale halen. Andere modellen laten Oranje stranden in de kwartfinale, achtste finale of zelfs de groepsfase. Ook over de uiteindelijke wereldkampioen is geen consensus: Brazilië, Frankrijk, Argentinië en Spanje worden als winnaar genoemd.

Dat blijkt uit een vergelijking van AI-expert Constantijn Rijsdijk van IT-bedrijf Cegeka. Hij legde hetzelfde WK-schema voor aan ChatGPT, Gemini, Claude, Perplexity en DeepSeek en vergeleek zowel de uitkomsten als de onderliggende redeneringen.

Alleen Gemini ziet Oranje in de halve finale

Gemini is het enige model dat Nederland in de halve finale plaatst. In dat scenario wint Oranje in de knock-outfase van Turkije en Canada, waarna Duitsland te sterk is. Claude en Perplexity laten Nederland in de kwartfinale stranden tegen Frankrijk. DeepSeek ziet een kwartfinale-exit tegen Duitsland. ChatGPT is het meest terughoudend en laat Nederland al in de groepsfase uitvallen. “De verschillen zijn opvallend, maar niet onlogisch”, zegt Rijsdijk. “Zelfs met dezelfde prompt werken modellen vanuit verschillende aannames en redeneerpatronen.”

Argentinië als constante, geen gedeelde favoriet voor de titel

Over de wereldkampioen lopen de uitkomsten eveneens uiteen. Een opvallende overeenkomst is dat alle vijf modellen Argentinië in de finale plaatsen. De verwachte winnaar verschilt per model: DeepSeek kiest Brazilië, Perplexity kiest Spanje, ChatGPT en Gemini kiezen Frankrijk en Claude kiest Argentinië.

Niet alle AI werkt hetzelfde: model + productlaag bepalen de uitkomst

Volgens Rijsdijk laat de vergelijking vooral zien dat AI-uitkomsten worden gevormd door meerdere lagen. “Het gaat niet alleen om het basismodel, maar ook om de laag die aanbieders erbovenop bouwen. Die combinatie bepaalt voor een groot deel de stijl van redeneren en presenteren.”

In deze vergelijking viel op dat:

ChatGPT vaker een stapsgewijze analytische redenering geeft.
Claude meer context en nuance meeneemt.
DeepSeek relatief kwantitatief en modelmatig redeneert.
Perplexity sterker leunt op externe, actuele bronnen.
Gemini informatie snel en overzichtelijk structureert.

Van 'goed of fout' naar 'geschikt voor het doel'

“De vraag is niet welk model altijd het beste is”, aldus Rijsdijk. “De vraag is welk model het beste past bij je doel.” Voor pure kansberekeningen met vaste variabelen zijn traditionele machine-learningmodellen vaak geschikt. Voor scenariodenken, uitleg en duiding kunnen taalmodellen juist veel waarde bieden. De vergelijking laat daarmee vooral zien hoe verschillende AI-assistenten met dezelfde opdracht tot andere conclusies komen. “Maar zoals Johan Cruijff ons al leerde: de bal is rond. Ook het beste model blijft een hulpmiddel, geen glazen bol.”

Over de analyse

Voor deze vergelijking kregen vijf taalmodellen dezelfde open opdracht: *”Voorspel deze wedstrijden”*. Er zijn vooraf geen factoren meegegeven, zoals vorm, blessures, historische prestaties, selectiekwaliteit of actuele spelersinformatie. De modellen moesten hun voorspellingen dus zelfstandig opbouwen.

Voor de vergelijking zijn de volgende modellen gebruikt: Gemini 3.5 Flash, Claude Sonnet 4.6, DeepSeek-V3, Perplexity Sonar en ChatGPT-5.5 Thinking.

Hoewel in deze vergelijking geen gebruik is gemaakt van real-time informatie, beschikken sommige systemen, zoals Perplexity en Gemini, van nature over mogelijkheden om externe, actuele bronnen te raadplegen. Rijsdijk voerde alle groepswedstrijden van het WK 2026 per speelronde in vijf afzonderlijke LLM-instanties in. Per model werd een aparte sessie gebruikt om beïnvloeding tussen de modellen te voorkomen. Daarbij werd expliciet meegegeven dat ieder model bij de eigen voorspellingen moest blijven en geen input van andere
modellen mocht gebruiken.

Het volledige toernooischema, inclusief wedstrijdnummering voor de knock-outfase, diende als structuur voor de invoer. De aangeleverde voorspellingen en het wedstrijdschema zijn vervolgens verwerkt en gecontroleerd. De uitkomsten zijn drie keer gevalideerd. Bij één run werd een kleine omwisseling ontdekt en gecorrigeerd.

Na het invullen van de wedstrijden is aan elk taalmodel gevraagd waarop de voorspelling was gebaseerd. Vrijwel alle modellen verwezen daarbij naar historische prestaties, kwaliteit en breedte van de selectie, ervaring in knock-outwedstrijden en onderlinge verhoudingen tussen landen. Ook plaatsen meerdere modellen zelf kanttekeningen bij hun voorspellingen.

In deze opzet is niet gebruikgemaakt van real-time informatie over blessures, schorsingen of actuele spelersvorm. De voorspellingen moeten daarom worden gezien als uitkomsten op basis van modelredeneringen en aannames, en niet als actuele sportanalyses. De analyse is geen voorspelling van het daadwerkelijke WK-verloop, maar een vergelijking van de manier waarop verschillende taalmodellen tot hun voorspelling komen.

Volledig bericht weergeven