Marcel Vonk: Betrouwbaarheid, van heads-up poker tot Higgsdeeltjes

Een van de eerste stukjes die ik over poker schreef, heette “How Big is Big Enough?”. Dat artikel ging over de volgende vraag: als een speler na een bepaald aantal toernooien een bepaalde winst heeft gemaakt, hoe zeker weet hij dan dat hij een winnende speler is? Het wiskundige begrip “betrouwbaarheid” speelt in die vraag een belangrijke rol. In het dagelijks leven ben ik natuurkundige, en eerder deze week was er een hoop ophef rond natuurkundig nieuws waarin datzelfde begrip centraal staat. Een goede aanleiding om het begrip betrouwbaarheid dus nog eens toe te lichten.

Een pokervoorbeeld

Laten we beginnen met een pokervoorbeeld. Je speelt regelmatig heads-upmatches, en hebt op het niveau dat je speelt 550 van de 1000 matches gewonnen. Het lijkt er dus op dat je op dit niveau een winnende speler bent. Maar hoe betrouwbaar is die conclusie? Er bestaat altijd nog een kans dat je helemaal geen winnende speler bent, maar dat je in de duizend matches die je gespeeld hebt gewoon veel geluk hebt gehad.

Je zou naar een wiskundige toe kunnen gaan en hem kunnen vragen hoe groot de kans nu is dat je op dit niveau een winnende speler bent. Maar die vraag is niet erg goed geformuleerd: er bestaat niet zoiets als de kans dat je een winnende pokerspeler bent. Je bent het, of je bent het niet. Als je bij roulette 1000 keer je geld op zwart had gezet, en 550 keer had gewonnen, had je precies dezelfde vraag kunnen stellen. Helaas is en blijft die kans dat je een winnende speler bent in dat geval nul – je hebt gewoon erg veel geluk gehad.

Laten we dus een betere vraag aan de wiskundige stellen. Als je géén winnende pokerspeler zou zijn, maar bijvoorbeeld een breakeven-speler die op de lange duur precies evenveel wint als verliest, hoe groot is dan de kans dat je tóch deze resultaten zou behalen?

Wat rekenwerk

Die vraag valt wel heel precies te beantwoorden. Wie niet van rekenwerk houdt, kan deze alinea zonder problemen overslaan, maar voor wie dat wel doet: wat is bijvoorbeeld de kans dat een breakeven-speler twee van de drie matches wint? Hij kan dat op drie manieren doen: door match 1 en 2 te winnen, door match 2 en 3 te winnen, of door match 1 en 3 te winnen. Voor elke afzonderlijke match is de kans om te winnen 1/2 (dus 50%), en de kans om te verliezen ook 1/2. De kans om bijvoorbeeld match 1 te winnen, match 2 te verliezen en match 3 te winnen, bereken je door de drie kansen voor de afzonderlijke matches met elkaar te vermenigvuldigen. Die kans is dus 1/2 maal 1/2 maal 1/2, dus 1/8. Diezelfde kans is er voor de andere twee manieren om twee van de drie matches te winnen, dus de totale kans op het winnen van twee matches is driemaal 1/8. Dat geeft een einduitkomst van 3/8, oftewel 37,5%.

Op precies dezelfde manier kun je uitrekenen hoe groot de kans is dat een breakeven-speler 550 van de 1000 matches wint. Die kans blijkt ongeveer 0,01% te zijn. Maar nog steeds is de vraag die we gesteld hebben dan niet erg informatief: de kans dat een breakeven-speler precies het verwachte aantal van vijfhonderd van de duizend matches wint, is ook niet zo groot – zo’n 2,5%, om precies te zijn. De breakeven-speler heeft natuurlijk ook een forse kans om 499 of 501 toernooien te winnen. Een betere vraag is dus: hoe groot is de kans dat een breakeven-speler 550 toernooien of meer wint? Die kans krijg je door de kansen op 550 overwinningen, 551 overwinningen, enzovoort op te tellen. Na wat rekenwerk (leve de computer!) vind je dan dat die kans ongeveer 0,09 procent is.

Betrouwbaarheid

Daarmee zijn we uitgekomen bij het wiskundige begrip betrouwbaarheid. We kunnen na het zien van de bovenstaande minieme kans gerust zeggen dat de conclusie dat je een winnende speler bent erg betrouwbaar is. Niet omdat we hebben uitgerekend dat de kans dat je een winnende speler bent erg groot is – zoals gezegd: dat ben je, of dat ben je niet. Maar we hebben uitgerekend dat de kans dat je deze resultaten zou behalen als je geen winnende speler was, extreem klein is. We kunnen er dus veel vertrouwen in hebben dat je wel een winnende speler bent.

Betrouwbaarheid wordt in de wetenschap meestal niet aangegeven in kansen, zoals hierboven, maar in termen van een begrip dat standaardafwijking heet. Het doet er niet heel veel toe hoe dat begrip precies gedefinieerd is, want het valt eenvoudig te vertalen in termen van de bovengenoemde kansen. Eén standaardafwijking betekent bijvoorbeeld dat een breakeven-speler een kans van 16% heeft om de gevonden resultaten te behalen. Twee standaardafwijkingen betekent dat die kans 2,3% is, enzovoort. De precieze vertaling tussen standaardafwijkingen en kansen zie je in de onderstaande tabel:

In ons voorbeeld, waar de kans op een toevallige winnende reeks van 550 toernooien 0,09% was, is dus sprake van iets meer dan drie standaardafwijkingen.

Bankrollmanagement

Wanneer het gaat om bankrollmanagement speelt het begrip betrouwbaarheid een belangrijke rol. Zie voor een veel gedetailleerder voorbeeld (waar ik inga op bankrollmanagement voor Sit&Go-spelers) het artikel wat ik hierboven noemde. Maar er zijn nog allerlei andere toepassingen: als je bijvoorbeeld iemand een backing-deal wilt aanbieden, wil je graag de nodige zekerheid hebben dat die persoon een winnende speler is. Je kunt om die zekerheid te krijgen weer uitrekenen hoe groot de kans is dat de resultaten die hij presenteert gebaseerd zijn op puur toeval. Is die kans erg klein, dan kun je er veel vertrouwen in hebben dat de speler een winnaar is. (Er even van uitgaande dat de speler ook betrouwbaar is in de gebruikelijke zin van het woord, en je dus geen verzonnen resultaten voorschotelt…)

Een laatste pokervoorbeeld: er komt een speler bij je aan tafel zitten die 4 van de eerste 10 handen raiset. Die speler lijkt dus behoorlijk agressief, maar het kan natuurlijk best zo zijn dat hij toevallig vier keer een goede hand heeft gekregen. Heeft diezelfde speler echter na 1000 handen er 400 geraiset, dan valt toeval bijna uit te sluiten, en kun je er behoorlijk zeker van zijn dat we hier echt met een maniak van doen hebben. Ook hier kun je de betrouwbaarheid van de conclusie “deze speler is erg agressief” weer berekenen, door uit te rekenen hoe groot de kans is dat een minder actieve speler (bijvoorbeeld iemand die maar 10% van zijn handen raiset) deze statistieken zou vertonen. Is die kans maar een paar procent, dan kun je er vertrouwen in hebben dat deze speler echt agressief is, en je eigen spel daarop aanpassen. Is die kans groter, dan kan het verstandiger zijn om nog niet direct met aas-tien offsuit tegen deze tegenstander all in te gaan. 

CERN: Large Hedron Collider

Pokertoepassingen te over, dus – en datzelfde geldt voor de natuurkunde. Deze week werd bij het CERN (Centre Européenne pour la Recherche Nucléaire) in Genève een grote persconferentie gehouden over de resultaten van de LHC van het afgelopen jaar. LHC staat voor “Large Hadron Collider”: een enorme ondergrondse ring van maar liefst 27km in doorsnede, waarin elementaire deeltjes versneld worden tot enorme snelheden, om vervolgens met gigantische energie op elkaar te botsen. Bij die botsingen worden de oorspronkelijke deeltjes vernietigd, en ontstaan uit de vrijgekomen energie allerlei nieuwe deeltjes met mooie namen als elektronen, neutrino’s, fotonen en muonen.

De grote vraag die de LHC probeert te beantwoorden, is of er ook een mysterieus deeltje bestaat dat het Higgsdeeltje genoemd wordt. Dit deeltje is, in tegenstelling tot alle hierboven genoemde deeltjes, nog nooit waargenomen, maar er zijn toch allerlei redenen om aan te nemen dat het bestaat – bijvoorbeeld omdat we met behulp van dat deeltje kunnen verklaren waarom allerlei ándere deeltjes een bepaalde massa (een bepaald “gewicht”) hebben.

De energie van de botsingen in de LHC is zó groot dat ook het zeldzame Higgsdeeltje kan ontstaan, maar helaas kunnen we niet een detector bouwen die we in de LHC kunnen neerzetten, en die “piep” zegt zodra er een Higgsdeeltje in terecht komt. De reden daarvoor is dat het Higgsdeeltje erg instabiel is: het valt vrijwel direct nadat het gevormd is weer uiteen in allerlei andere deeltjes, de zogenaamde vervalproducten. Ook die vervalproducten zijn weer elektronen, muonen, enzovoort. Die deeltjes kunnen we wel detecteren, maar we weten natuurlijk niet of die deeltjes dan uit een Higgsdeeltje zijn ontstaan, of dat het vervalproducten zijn van de oorspronkelijke botsende deeltjes.

Wat we echter wel kunnen doen is tellen hoe vaak we bepaalde deeltjes in de detectoren zien. Wat het Higgsdeeltje doet – als het bestaat – is het volgende: het zal ervoor zorgen dat bepaalde vervalproducten net iets vaker gemeten worden dan als er geen Higgsdeeltje was. Nu gaat het hierbij net als in het bovenstaande pokervoorbeeld om een kansproces: als we verwachten dat een bepaald vervalproduct in de helft van de metingen te zien is als er geen Higgsdeelte is, en in 55% van de metingen als er wel een Higgsdeeltje is, dan weten we na een meting of tien natuurlijk nog heel weinig. Als we na duizend metingen het vervalproduct 550 maal gezien hebben, weten we al een stuk meer: de kans dat we die resultaten gekregen zouden hebben als er géén Higgsdeeltje was is, net als in het pokervoorbeeld, maar zo’n 0,09%. De conclusie dat het Higgsdeeltje bestaat is dan dus redelijk betrouwbaar.

Nu spreken natuurkundigen niet erg snel van een “ontdekking”. Er is zelfs heel precies afgesproken wanneer er van de ontdekking van een bepaald deeltje gesproken mag worden: dat is zodra er sprake is van een betrouwbaarheid van vijf standaardafwijkingen of meer. De onderzoekers bij het CERN zullen hun resultaten dus pas als een ontdekking kunnen publiceren als – zie weer de tabel hierboven – de kans dat die resultaten op toeval berusten kleiner is dan 0,000029%.

Propbets

Zover is het op dit moment helaas nog niet. De resultaten die deze week gepubliceerd werden, en die al diverse kranten gehaald hebben, lijken inderdaad te bevestigen dat er een Higgsdeeltje bestaat. Maar heel betrouwbaar zijn die resultaten nog niet: ze hebben standaardafwijkingen van rond de 2, dus er is nog altijd een goede kans (van een paar procent) dat de metingen puur het gevolg zijn van toeval. Over ongeveer een jaar hopen de experimentatoren voldoende data verzameld te hebben om – als het Higgsdeeltje inderdaad bestaat, natuurlijk – de standaardafwijking te hebben opgeschroefd tot rond de 5. Hopelijk weten we dan dus zeker of het deeltje bestaat. De pokerspelers hebben intussen nog een jaar de tijd om hun propbets af te sluiten.

PokerCity Workshops 1000x258

7 Comments

  1. Weer een mooi artikel! ‘In ons voorbeeld, waar de kans op een toevallige winnende reeks van 550 toernooien 0,09% was, is dus sprake van iets meer dan drie standaardafwijkingen.’ De rechtbank noemt pokeren een kansspel. Als dit resultaat in 30 sessies van 1000 hu-toernooien gerealiseerd kan worden, kan een rechtbank dit dan nog een kansspel noemen?

  2. Weer een leuk stukje, hoop ooit is wat meer uitleg te krijgen over wat je nu precies zelf doet .. aangezien ik heb begrepen dat je met een verbinding bezig bent tussen de snaar theorie en de relativiteits theorie. Wat me heel boeiend lijkt om in ‘normale mensentaal’ is over te kunnen lezen! Ook een mooie en duidelijke uitleg over Standard Deviation!

  3. Bedankt voor alle complimenten!

    @Beast: tsja, wie weet kun je straks dus de ontdekking van het Higgsdeeltje wel om precies dezelfde reden voor de rechtbank aanvechten… 🙂 Heads up poker is inderdaad de ideale variant om mee aan te tonen dat het spelletje dat we spelen op de lange duur een behendigheidsspel is – waar het bij Sit&go’s vele duizenden of zelfs tienduizenden toernooien kan duren voor je een dergelijke betrouwbaarheid bereikt, kan dat bij heads-up al na duizend toernooien het geval zijn. Voorwaarde is natuurlijk wel dat je edge groot genoeg is – als je bijvoorbeeld gemiddeld maar 51% wint zal het nog steeds erg lang duren voordat de winst overtuigend boven de “ruis” uitkomt.

    @mmwhops: Nou, een shameless plug dan maar: ik heb daar vorig jaar een populairwetenschappelijk boek over geschreven – misschien een leuk kerstcadeautje. 🙂 Zie mijn website (www.marcelvonk.nl) voor meer info; daar kun je trouwens ook een aantal populairwetenschappelijke artikelen vinden die ik over mijn werk geschreven heb.

  4. Ah, de shameless plug was al niet meer nodig… Dank je, Kracht Tonen! 🙂

Reacties zijn gesloten bij dit onderwerp.