Gå till innehåll

Om poker och varians


Besserwisser

Recommended Posts

Till att börja med kan det vara bra att definiera begreppet varians, som många på detta forum verkar använda utan att ha någon större aning om vad det är. Varians är ett mått på avvikelserna från medelvärdet i en population (en population kan t.ex. bestå av dagliga resultat) och är nära besläktat med den välkända standardavvikelsen, som helt enkelt definieras som roten ur variansen.

 

Rent matematiskt, definierar vi variansen i ett stickprov (och i pokersammanhang har vi alltid stickprov, eftersom varje session vi spelar kan ses som att vi plockar den ur en oändlig mängd resultat vars värden beror på hur bra vi är) som 1/(n -1)*SUMMA(xi – xbar)^2 för i = 1,2, … n, där n är antalet sessions, xi är värdet för session 1, 2, 3 osv. upp till n, och xbar är medelvärdet av alla resultat. Med ord betyder detta att variansen är summan av de kvadrerade avvikelserna från medelvärdet. Om en population består av de tre värdena 3, 7 och 8, blir alltså medelvärdet, variansen och standardavvikelsen följande:

 

Medelvärde = (3 + 7 + 8) / 3 = 6

Varians = 1/(3 – 1) * [(6 – 3)^2 + (6 – 7)^2 + (6 – 8)^2] = 7

Standardavvikelse = sqrt(7) = 2,65

 

Som synes beräknas variansen genom summan av observationernas kvadrerade avvikelser från medelvärdet. Detta medför att variansen alltid är positiv – det finns alltså inte någonting som är ”negativ varians.” Ytterligare en slutsats kan dras utifrån det faktum att variansen mäts genom att beräkna avvikelser från medelvärdet. Detta medför att en spelare som plussar säg 20 inköp om dagen inte nödvändigtvis har högre varians än en som plussar 2 inköp om dagen, eftersom det viktiga är hur stora skillnader det är mellan var dags resultat. Det är alltså ett mycket stort fel att tro att en spelare som har plussat rakt ut i 24 månader i sträck och plötsligt backar 3 raka månader har drabbats av ”den negativa variansen” och att det bara är att rida ut stormen. Visserligen är 24 observationer inte särskilt mycket ur ett statistiskt perspektiv, men låt säga att vi istället har tillgång till dagliga observationer (alltså ung. 24*30 = 720 st) från samma tidsperiod, så skulle vi kunna dra ganska noggranna slutsatser om spelarens faktiska väntevärde (EV) och varians, och därigenom komma fram till bättre slutsatser kring varför en downswing plötsligt infunnit sig.

 

Faktun är att det till och med är ganska lätt att räkna ut hur ”naturlig” en downswing är, eller mer exakt sannolikheten för ett visst resultat givet den information vi har sedan tidigare om väntevärde (medelvärde) och varians. Om beräkningarna visar att resultatet inte stämmer överens med vad vi förväntar oss (ofta drar man den gränsen vid 95 % säkerhet, men det kan man variera som man vill utifrån hur noggrann man vill vara) kan vi förkasta hypotesen att downswingen är ”naturlig” och måste istället försöka förklara downswingen med någon typ av strukturell förändring (spelstil, motstånd, osv). Beroende på vilken slutsats vi drar kan vi avgöra om det bästa är att försöka grinda ut vår negativa trend eller om vi ska försöka förändra någonting i vår spelstil eller liknande (här kan man använda sig av annan statistik ur t.ex. PokerTracker).

 

Jag hoppas med det här inlägget kasta lite mer ljus över variansbegreppet, vad det kan och inte kan användas till, men kanske framförallt påvisa att det använt på rätt sätt, tillsammans med annan statistik, kan tillföra mycket till analyser av resultat kring pokerbordet.

Länk till kommentar
Dela på andra webbplatser

  • Svars 57
  • Created
  • Senaste svar

Top Posters In This Topic

Top Posters In This Topic

Du har missat 1/(n-1), om du menar skattning av variansen.

 

Jag använde mig av populationsvariansen då jag inte hade för avsikt att använda formeln till någonting annat än att illustrera att variansen alltid är positiv och är ett mått på avvikelser från medelvärdet, och dessa slutsatser blir onekligen desamma oavsett om vi använder oss av populations- eller stickprovsvariansen.

 

Å andra sidan har vi ju (i princip) aldrig tillgång till hela populationen - åtminstone inte i pokersammanhang - så det hade kanske varit bättre att använda stickprovsvariansen då det är den som är relevant i dessa sammanhang.

Länk till kommentar
Dela på andra webbplatser

Lite konstruktiv kritik. Texten är ganska svårgenomtränglig som den ser ut nu. Dels är det väldigt tätt mellan "svåra" statistiska begrepp och tunt med förklaringar av dessa, dels är själva språket kryddat med ord som "implicerar", "förvisso" och "deskriptiv". Vilken är målgruppen? Det här skulle antagligen passat bäst i ett PM till ett seminarium i en statistikkurs på högskolan eller liknande, men om målet är att nå ut till dem (oss) som har dålig koll på statistik och slänger sig med ordet varians på felaktiga sätt tror jag du skjuter högt över målet.

 

Jag tror texten skulle vinna väldigt mycket på att utformas mer pedagogiskt. Risken är annars att bara de som redan har koll på begreppen kommer kunna/orka förstå.

Länk till kommentar
Dela på andra webbplatser

Håller med Waggho.

 

Sen tror jag att du skjuter tomma skott i och med att de som använder begreppet "negativ varians" i de flesta fall är väl medvetna om att varians inte kan vara negativ, utan bara menar att man har en dålig period som beror på "slumpfaktorn".

 

Du får gärna gå in mer på hur du ska använda statistiken för att avgöra om en downswing beror på att brusprocessen är förändrad eller inte, d.v.s. om du byter strategi eller inte. Jag tror det är svårt. Vad hade du tänkt använda för brusmodell?

Länk till kommentar
Dela på andra webbplatser

Jag tror texten skulle vinna väldigt mycket på att utformas mer pedagogiskt. Risken är annars att bara de som redan har koll på begreppen kommer kunna/orka förstå.

 

Tack för kommentaren.

 

Jag har nu skrivit om texten och hoppas att den är mer lättläst och förståelig, även för de som inte har läst statistik.

Länk till kommentar
Dela på andra webbplatser

För oss som glömt allt vad statistik heter, har jag någorlunda rätt i följande (med ditt förenklade exempel med tre observationer som exemepel)?

 

Påstående: Mitt förväntade resultat på en pokersittning kommer ligga på mitt medelvärde (6) plus/minus min standardavvikelse (2,65), dvs nästa gång jag gejmar så kommer jag hamna mellan 3,35 och 8,65 enheter plus.

 

Hur ofta kommer jag ligga utanför dessa värden?

 

(Givetvis att mitt urval av statistik omfattar betydligt mer än tre observationer)

Länk till kommentar
Dela på andra webbplatser

För oss som glömt allt vad statistik heter, har jag någorlunda rätt i följande (med ditt förenklade exempel med tre observationer som exemepel)?

 

Påstående: Mitt förväntade resultat på en pokersittning kommer ligga på mitt medelvärde (6) plus/minus min standardavvikelse (2,65), dvs nästa gång jag gejmar så kommer jag hamna mellan 3,35 och 8,65 enheter plus.

 

Hur ofta kommer jag ligga utanför dessa värden?

 

(Givetvis att mitt urval av statistik omfattar betydligt mer än tre observationer)

 

Nej, inte riktigt. Låt oss säga att du har ett stickprov med mycket fler observationer, men att ditt väntevärde fortfarande är 6 och standardavvikelsen 2,65. Då kan man approximera din vinst en viss session med en normalfördelning, och således bestämma sannolikheten att hamna i ett visst intervall.

 

Vi kommer då få följande resultat:

 

Förväntat värde: 6

 

Sannolikhet att värdet ligger mellan 3,35 och 8,65 (dvs 6 +/- 2,65): 68 %

Sannolikhet att värdet ligger mellan 0,7 och 11,3 (6 +/- 2*2,65): 95 %

osv.

 

Intervallen har valts som väntevärde +/- ett visst antal standardavvikelser, men vilka intervall som helst kan väljas (t.ex. sannolikheten att värdet är mindre än 0, sannolikheten att värdet är över 10 etc).

Länk till kommentar
Dela på andra webbplatser

Du får gärna gå in mer på hur du ska använda statistiken för att avgöra om en downswing beror på att brusprocessen är förändrad eller inte, d.v.s. om du byter strategi eller inte. Jag tror det är svårt. Vad hade du tänkt använda för brusmodell?

 

Låt säga att jag har dagliga observationer från 720 dagar (ung. 2 år), justerade för antal händer, tid, nivå o.s.v. så att de är direkt jämförbara. Medelvärdet ligger på 300BB/dag med en standardavvikelse på 400. Sedan kommer en downswing, där jag under två månader endast har 30 plusdagar (jag spelar varje dag).

 

Sannolikheten för en backdag givet statistiken från de två åren är 27,3 % (beräknat med normalfördelning). Vidare kan då sannolikheten att backa 30 dagar av 60 (downswingen) beräknas med binomialfördelningen, och blir någonstans kring 0,02 %. Om jag istället hade backat 35 av de 60 dagarna hade sannolikheten blivit 0,00005 %. I båda fallen är det en ganska rimlig slutsats att spelet inte har följt samma fördelning som tidigare.

 

Exemplet är något förenklat, men visar iaf hur man kan räkna ut sannolikheten för ett visst utfall (i det här fallet ett visst antal backdagar under en period). Man skulle såklart kunna utvidga det hela och titta på andra mått än andelen backdagar, och således även väga in hur storleken av backningar/plussningar under den avvikande perioden.

Länk till kommentar
Dela på andra webbplatser

Spontant känns det som att man måste ha vara rejält långa sessioner om normalapproximation ska funka bra här? Sen är det ju lite vanskligt att prognosticera enskilda sessioner iom att väntevärde o varians skiljer sig en del från session till session.

 

Över ett stort stickprov bör inte sessionernas längd vara av avgörande betydelse, sålänge de viktas så att de är jämförbara (BB/h el. dyl).

 

Förstår inte riktigt vad du menar med att väntevärde och varians skiljer sig från session till session?

Länk till kommentar
Dela på andra webbplatser

Nej, inte riktigt. Låt oss säga att du har ett stickprov med mycket fler observationer, men att ditt väntevärde fortfarande är 6 och standardavvikelsen 2,65. Då kan man approximera din vinst en viss session med en normalfördelning, och således bestämma sannolikheten att hamna i ett visst intervall.

 

Vi kommer då få följande resultat:

 

Förväntat värde: 6

 

Sannolikhet att värdet ligger mellan 3,35 och 8,65 (dvs 6 +/- 2,65): 68 %

Sannolikhet att värdet ligger mellan 0,7 och 11,3 (6 +/- 2*2,65): 95 %

osv.

 

Intervallen har valts som väntevärde +/- ett visst antal standardavvikelser, men vilka intervall som helst kan väljas (t.ex. sannolikheten att värdet är mindre än 0, sannolikheten att värdet är över 10 etc).

 

Fint. Jag skulle gärna se någon metod att göra dessa beräkningar med hjälp av statistiken i pokertrocker. Framförallt är jag intresserad av intervallet +- tre standardavvikelser för dagsresultat, där antalet händer under en dag varierar men kan vara några tusen. En annan mycket intressant sak vore att kunna se hur fördelningen ser ut - det lär ju inte vara en fin normalfördelningskurva utan en med feta sidor.

Länk till kommentar
Dela på andra webbplatser

Över ett stort stickprov bör inte sessionernas längd vara av avgörande betydelse, sålänge de viktas så att de är jämförbara (BB/h el. dyl).

 

Stickprovet som vi beräknar EV och VAR från får ju förutsättas vara stort nog, men frågan är hur lång sessionen som du prognostiserar måste vara för att sessionmedelvärdet ska vara tillräckligt nära normalfördelat för att intervallet ska bli hyggligt. Jag har faktiskt ingen koll själv hur mycket som kan krävas men det känns som att den måste vara hyggligt lång. Det borde man kanske simulera.

 

Förstår inte riktigt vad du menar med att väntevärde och varians skiljer sig från session till session?

 

Iom att ditt medelvärde för en viss session är beroende av vilka du spelar mot följer ju sessionmedelvärdet rimligen nån form av mixad fördelning. Sannolikheten för att hamna riktigt absurdlångt från ditt väntevärde i standardavvikelser räknat torde då vara större än vad du får fram om du gör en prognos utifrån ett genomsnitt från hela din pokerkarriär.

Länk till kommentar
Dela på andra webbplatser

Ibland möter man lagtomtar, ibland hyfsade TAGs, ibland veka tomtar.. etc etc

 

Ja, men detta är ju medtaget i ditt urval som du gjort beräkningarna på.

 

Fast det är klart, har du alltid mött lagtomtar och rätt som det är ska göra en skattning på veka tomtar, så stämmer ju inte statistiken. Ungeär som att göra en beräkning på fotbollsmatcher i div 1 och sedan applicera resultatet i ett ishockeyderby.

Länk till kommentar
Dela på andra webbplatser

Det hjälper inte. Om du, grovt förenklat, möter ett gäng supermaniacs 5% av gångerna t.ex. så kommer sannolikheten att hamna, säg 3 SD från ditt EV vara betydligt större än vad dina beräkningar visar.

Då kanske du inte ska använda fotbollsstatestiken till ishockeyskattningen.

Länk till kommentar
Dela på andra webbplatser

Det hjälper inte. Om du, grovt förenklat, möter ett gäng supermaniacs 5% av gångerna t.ex. så kommer sannolikheten att hamna, säg 3 SD från ditt EV vara betydligt större än vad dina beräkningar visar.

 

Det här är en mycket bra poäng, och påverkar beräkningen av sannolikheten att en session hamnar i ett visst intervall avsevärt, men det borde ha marginell påverkan på sannolikheten att medelvärdet av ett större antal, säg 30, hamnar i ett bestämt intervall, då de avvikande sessionerna bör ta ut varandra något sånär.

 

Frågan är väl hur relevant problemet är. Är det verkligen till någon nytta att beräkna sannolikheten att vinsten i en session hamnar i ett särskilt intervall?

Länk till kommentar
Dela på andra webbplatser

Frågan är väl hur relevant problemet är. Är det verkligen till någon nytta att beräkna sannolikheten att vinsten i en session hamnar i ett särskilt intervall?

 

Nej, det är det väl kanske inte, men eftersom problemet nu togs upp så tyckte jag att ett klargörande var på plats.

 

Vem är det nu som är besserwisser? :mrgreen:

Länk till kommentar
Dela på andra webbplatser

Det hjälper inte. Om du, grovt förenklat, möter ett gäng supermaniacs 5% av gångerna t.ex. så kommer sannolikheten att hamna, säg 3 SD från ditt EV vara betydligt större än vad dina beräkningar visar.

 

Det du har gjort är att du har lagt till extra information. Då skall du skatta dom som separata väntevärden och varianser. Alltså EV_1 ,Var_1 för utan tomtar och EV_2, Var_2 för med tomtar.

 

Vi säger att du har standard aviklse på 8 när du möter supermaniacs. så kommer ditt 95% konf intervall hamna på( samma väntevärde 6 ):

(-9.7,21.6)

Så 5% av gångerna hamnar du utan för detta konfidens intervall. Men detta representrar ju bara 0.05*0.05=0.25% av totala antalet sessioner

 

Vad jag på mitt lite klumpiga sett försöker säga är att normal approximationen nog stämmer (fast antagligen inte för enskild session). Men om du får ytterligare information kan du göra en bättre uppskatning.

Länk till kommentar
Dela på andra webbplatser

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Gäst
Svara i detta ämne...

×   Du har klistrat in innehåll med formatering.   Ta bort formatering

  Endast 75 max uttryckssymboler är tillåtna.

×   Din länk har automatiskt bäddats in.   Visa som länk istället

×   Ditt tidigare innehåll har återställts.   Rensa redigerare

×   You cannot paste images directly. Upload or insert images from URL.


×
×
  • Skapa nytt...