LLM’s vs. GTO Wizard: Grote AI-taalmodellen verliesgevend

Grote taalmodellen zoals ChatGPT, Claude, Gemini en Grok blijken voorlopig geen partij voor een optimale pokerstrategie. Uit een benchmark van GTO Wizard blijkt dat alle geteste modellen structureel verlieslatend spelen, zelfs na correctie voor geluk.

INHOUD – LLM’s vs. GTO Wizard

Alle modellen verliezen structureel
Opvallende resultaten en benchmarks
Waarom LLM’s moeite hebben met poker
Menselijke voorsprong blijft voorlopig intact
AI Poker Leaderboard

Alle modellen verliezen structureel

De onderzoekers van GTO Wizard testten diverse toonaangevende modellen, waaronder GPT 5.4, Claude Opus 4.6, Gemini 3.1 en Grok 4. Daarbij speelden de systemen 5.000 handen heads-up No Limit Hold’em tegen een optimale strategie.

Hoewel de steekproef relatief klein blijft door de hoge kosten van simulaties, ontstaat toch een duidelijk beeld: alle modellen verliezen structureel chips. Zelfs na correctie voor variantie slaagt geen enkel model erin om winstgevend te spelen tegen een perfecte tegenstander.

We benchmarked every major AI model at poker.

GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro, Grok 4 and more.

All played 5,000 hands of heads-up no-limit against our state-of-the-art poker agent.

Every single one lost. Here's the full breakdown 🧵 pic.twitter.com/Krbg3VHQjN

— GTOWizard (@GTOWizard) April 9, 2026

Opvallende resultaten en benchmarks

Onder de geteste modellen presteerde GPT 5.3 het best, maar ook dit model verloor gemiddeld 16 big blinds per 100 handen. GPT 5.4 noteerde een vergelijkbaar verlies, terwijl oudere modellen zoals GPT-4 fors slechter presteerden met een verlies van maar liefst 136 BB/100.

Opvallend genoeg eindigde Grok 4 rond de -60 BB/100, wat dicht in de buurt komt van een strategie waarbij een speler simpelweg elke hand foldt (-64,6 BB/100). Daarmee onderstrepen de resultaten hoe beperkt de huidige prestaties van LLM’s in pokercontext zijn. Andere modellen, waaronder varianten van Gemini en Claude, noteerden verliezen tussen circa -20 en -40 BB/100. Onderaan de lijst eindigden eenvoudige bots en experimentele agents met nog aanzienlijk slechtere resultaten.

Waarom LLM’s moeite hebben met poker

Volgens de analyse van GTO Wizard ligt de kern van het probleem bij fundamentele beperkingen van taalmodellen. Zo hebben LLM’s moeite met verborgen informatie, het balanceren van ranges en het maken van lange-termijnstrategieën onder onzekerheid.

Daarnaast blijken de modellen in circa 2% van de gevallen hun eigen kaarten verkeerd te interpreteren. Zulke fouten hebben directe en vaak kostbare gevolgen in een spel waarin elke beslissing telt. Verder ontbreekt het de systemen aan consistente opponent profiling en adaptatie, wat juist cruciaal is in heads-up situaties met diepe strategische lagen.

Menselijke voorsprong blijft voorlopig intact

Hoewel AI in veel domeinen snel terrein wint, tonen deze resultaten aan dat poker voorlopig nog geen speelveld is waarin taalmodellen domineren. Eerdere onderlinge tests tussen LLM’s leverden weliswaar een winnaar op, met ChatGPT als beste, maar dat betrof uitsluitend wedstrijden tussen vergelijkbare systemen.

Door de benchmark open te stellen, nodigt GTO Wizard ontwikkelaars uit om nieuwe modellen te testen tegen een perfecte strategie. Tot die tijd lijkt menselijke creativiteit en strategisch inzicht nog altijd een belangrijke rol te spelen binnen het pokerspel. De gevreesde doorbraak waarbij AI het spel volledig domineert, laat daarmee voorlopig nog op zich wachten.

AI Poker Leaderboard

#	Naam	Bedrijf	BB/100	StdDev	Hands
1	GPT-5.3 (XHigh Reasoning)	OpenAI	-16.0	3.0	5.000
2	Marvel	MIT	-14.0	4.7	5.090
3	GPT-5.4 (XHigh Reasoning)	OpenAI	-17.8	3.7	5.000
4	GPT-5.3 (High Reasoning)	OpenAI	-18.2	3.9	5.000
5	Claude Opus 4.6	Anthropic	-20.4	4.4	5.000
6	Claude Opus 4.5	Anthropic	-22.3	5.1	5.000
7	Gemini 3.1 Pro	Google	-30.8	2.3	5.000
8	Gemini 3 Pro	Google	-30.1	3.8	5.000
9	Gemini 2.5 Pro	Google	-39.2	4.9	5.000
10	Kimi K2.5	Moonshot AI	-41.4	6.4	5.000