Spelteoretiskt optimalt vs allmänspråkligt optimalt

davvelitoff · 27 Augusti , 2009

Vad man faktiskt normalt pysslar med i spelteori när man optimerar är att optimera resultatet mot värsta möjliga motstrategin.

.

Nja, vad man gör är att optimera mot den värsta möjliga motspelaren, den som kommer att spela optimalt mot alla dina tänkbara strategier.

Ferna · 28 Augusti , 2009

mindfuck

KungKroon · 29 Augusti , 2009

mindfuck

hahaha:mrgreen:

Klyka · 1 Maj , 2010

Minns inte om detta har tagits upp i diskussionen, men gjorde följande edit av första inlägget:

"Man kan också uttrycka det så att en spelteoretiskt optimal strategi maximalt exploaterar motståndaren om han också spelar spelteoretiskt optimalt". Detta är inte riktigt sant. Det implicerar att den spelteoretiskt optimala strategin är en strategi vars syfte är att exploatera sin systerstrategi, vilket är missledande. Iom att den optimala strategin är just oexploaterbar så är den citerade meningen rappakalja.

Vad som däremot är sant är att den spelteoretiskt optimala strategin är bättre eller lika bra som alla andra strategier när den ställs mot sin systerstrategi. Det finns med största sannolikhet suboptimala strategier som klarar sig lika bra mot den optimala strategin, men problemet med dem är att iom deras avsteg från det optimala så öppnar de upp för att exploateras.

Slaktavfall · 2 Maj , 2010

.

Klyka · 2 Maj , 2010

1. Det existerar oftast flera optimala strategier.

Ja.

2. Optimala strategier exploaterar avvikelser olika "hårt".

Mja, det tror jag att man kan säga i de flesta lägen, fast jag har egentligen inga belägg för det heller. Saken är att en optimal strategi gör ju fi indifferent mellan odominerade alternativ, vilket innebär att om han gör jämnviktsavvikelser som dock håller sig inom ramen för de odominerade alternativen så "exploaterar" vår optimala strategi inte dessa avvikelser alls. Iom att han är indifferent, så kvittar det för honom vad han gör, och således kvittar det för oss också.

Det är först när fi börjar göra avvikelser som innebär att han gör dominerade misstag som hans EV minskar gentemot vår strategi, varvid man kan tala om att den optimala strategi vi använder oss av "exploaterar" hans misstag (även om jag inte alls gillar användningen av ordet "exploaterar", men jag förstår vad du menar med det).

Jag skulle snarare säga att hans misstag har ett negativt väntevärde mot en optimal strategi först då han begår dominerade misstag. För att formulera om ditt påstående så skulle man kunna postulera att dominerade misstag har olika stora negativa väntevärden mot olika optimala strategier.

Hur som helst, i verkliga spelsituationer är det ofta så att området för icke-dominerade misstag är ganska litet, och det handlar oftast mest om att göra fi indifferent vid ett gränsvärde - i stort sett alla avvikelser är då dominerade. Därför är dominerade misstag troligen väldigt vanliga.

Jag började fundera lite på om det inte är så att om jämnviktsstrategi A har bättre EV mot vissa dominerade misstag än jämnviktsstrategi B, så är strategi B dominerad av A, och således inte alls en optimal strategi, vilket skulle motsäga ditt påstående. Men så kom jag på att det förutsätter att strategi A är bättre eller lika bra mot alla dominerade misstag - i det fallet domineras B av A, och är således inte optimal. Men de två strategierna kan vara optimala och ändå ha olika värde mot olika dominerade misstag, förutsatt att båda är bäst på något.

Så olika optimala strategier kan vara olika bra mot olika suboptimala motstrategier.

En generell regel som gäller i de flesta pokersituationer är att det är de strategier med högst varians som bestraffar jämviktsavvikelser hårdast (vilket torde tyckas logiskt)

Det där får du gärna utveckla.

3. Antalet möjliga jämviktsstragier är en funktion av stackdjup, antal spelare och antal gator. Mycket förenklat kan man säga att antalet möjliga lösningar för varje nollpunkt ökar exponetiellt med stackdjup och antal spelare samt kvadratiskt med antal gator, där spelarantalets bidrag kräver större och större stackdjup för att "slå igenom".

Att antalet optimala strategier är en funktion av stackdjup och antal gator låter i min mening väldigt rimligt, men jag har själv inga konkreta belägg för det. Har du?

Att antalet optimala strategier ökar med antalet spelare låter knasigt - jag skulle säga att det minskar. Vi kan inte spela GTO, i vart fall i bemärkelsen oexploaterbart, i multiwaypotter. Det går inte att hitta jämnvikt, då vi för att vara oexploaterbara dels måste skydda oss mot avsiktlig exploatering som fi gör för att maximera sitt värde på vår bekostnad, dels mot implicit exploatering genom att motspelares misstag får menliga konsekvenser för oss (vilket inte kan hända i HU, men i multiway kan det ske genom implicit collusion), dels mot explicit collusion. I vår strävan att skydda oss mot den ena så kommer vi alltid att öppna upp för att skadas av den andra. Se denna diskussion:

http://pokerforum.nu/forum/nyboerjarfragor/61123-sng-problem-10.html#post1475493

Skulle vilja ha en utveckling av vad du menar i det ovan citerade stycket. Låter lite taget från luften, om jag ska vara ärlig, men om så inte är fallet så är det mycket intressant och definitivt något jag vill veta mer om. Jag har inte uppfattningen om dig att du är typen av postare som bara tar saker ur luften, så jag menar inte att anklaga dig för det. Jag undrar bara om vi talar om samma sak och isf var du fått denna för mig helt okända - och, så vitt (inte särskilt ) jag kan tänka just nu, oförenliga - information från. Och jag skulle gärna vilja läsa mer om det.

4. Att tala om en optimal strategi, där lösningen är entydig är endast aktuellt vid mycket små stackdjup i extremt förenklade situationer. (t.ex. blind mot blind jam/fold shortstackat beslutsnivå limes ordo)

Ja, jag har ganska konsekvent talat om den optimala strategin, vilket jag håller med om att det är lite knasigt. Jag borde naturligtvis skriva en optimal strategi.

:club: :club: :club:

Mycket av det jag skrivit i denna post tänkte jag ut under skrivandets gång, så stringensen och korrektheten är väl lite shaky. Utmana gärna det jag skrivit, jag kan ju ha fel.

Slaktavfall · 2 Maj , 2010

.

Klyka · 2 Maj , 2010

Hur hårt avvikelser bestraffas avgörs av gradienten (nabla) för ev-fältet. För att maximera bestraffningen vill vi hitta jämvikter där omgivningens laplaceoperator har extremvärden (där nabla förändras maximalt, jmfr standard Minkowski).

[Citat]

Just det, det är därför vi ställer upp fältekvationerna och försöker fastställa nabla.

Du använder ord som jag känner till, vet att de används i spelteori, men inte kan nånting om. Det kan betyda att du sitter inne på en massa kunskap som jag skulle kunna äta upp min moster för att få ta del av i nån (relativt) lättillgänglig form, eller att du namedroppar. Jag tror och hoppas på det förra.

I den andra (ej citerade) delen får jag återkomma. Klart man funderat i de banorna, men exploaterbar är man ju alltid, inte bara pga explicit collusion (som jag håller med om att man för analysens skull kan anta inte förekommer), utan även pga den implicita exploatering som är vanligt förekommande även i CG (och alltså inte bara i turneringssituationer pga ICM-effekter).

(Btw, jag skulle aldrig äta min moster, det var en liten överdrift)

vetgirig · 3 Maj , 2010

Fråga a) Hur ser C:s optimala range ut om vi förutsätter att A, B och C spelar för maximal individuell ev? (7p)

C bör ställa in mörkt. A kommer då ställa in mörkt och B kommer syna mörkt.

För varje spelare så räcker det med runt 1/3-dels chans att vinna när de får chansen att agera och en slumpmässig hand spelar bättre än så.

PS Praktiskt poker är enklare än att räkna ut det matematiskt.

Zyr · 3 Maj , 2010

C bör ställa in mörkt. A kommer då ställa in mörkt och B kommer syna mörkt.

För varje spelare så räcker det med runt 1/3-dels chans att vinna när de får chansen att agera och en slumpmässig hand spelar bättre än så.

PS Praktiskt poker är enklare än att räkna ut det matematiskt.

Varför bör C ställa mörkt? Han lär väl ställa med många händer, men knappast alla, även om han bara har 2bb.

Sen om nu båda ställer alla händer bör väl inte B syna med alla händer bara för han i snitt vinner minst 1/3. Pot-oddsen är ca 0.37, 72o mot 2 motspelare med random handrange är t.ex ca 0.205

Akumila · 3 Maj , 2010

A har 5 bb i stacken, har postat BB

B har 5 bb i stacken, har postat SB

C har 2 bb i stacken (Button)

1.5 bb i potten

C öppningspushar.

Fråga a) Hur ser C:s optimala range ut om vi förutsätter att A, B och C spelar för maximal individuell ev? (7p)

Fråga b) Vi förutsätter att endast A och C spelar för maximal individuell ev. Hur förändras A:s optimala jamrange och ev beroende på B:s action? Kan B medvetet sänka C:s ev med rätt val av range? Kan B medvetet sänka As ev med rätt val av range? (3p)

Fråga c) Vi förutsätter att spelarna B och C spelar för maximal individuell ev. B pushar. Beräkna As ev med optimal range (2p)

Edit: Om du klarar av denna uppgift sam ytterligare 3 liknande samt lämnar in 4 datalabbar kan du få 3 högskolepoäng av mig!

Edit2: Information till turneringsåsnor. Detta är en cashgamesituation, oavsett spelutgång reser sig alla spelarna från bordet direkt efter denna hand. Resonemang av typen "vi måste pusha shorstack atc , vi får ju inte blinda av bla bla) är irrelevanta.

Är det här så lätt att räkna ut?

Jag tänker mig att man får iterera fram. Typ:

1. Anta att C ställer 0%. A ställer 100%.

2. Utifrån de tidigare antagna rangerna, vad blir då B:s callrange?

3. Utifrån de tidigare antagna rangerna, vad blir då C:s pushrange?

4. ...A:s pushrange

5. ...B:s .... osv.

Sen får man se så att det konvergerar. Finns en risk att man hamnar i en periodicitet.

Akumila · 3 Maj , 2010

1. Det existerar oftast flera optimala strategier.

Kan du utveckla detta? Jag tycker inte det känns självklart, snarare motsatsen som känns intuitiv.

Inne på lite samma spår som CopShootCop.

Vilka förändringar från en optimal strategi kan man göra och samtidigt inte vara mål för exploatering?

Zyr · 3 Maj , 2010

Är det här så lätt att räkna ut?

Jag tänker mig att man får iterera fram. Typ:

1. Anta att C ställer 0%. A ställer 100%.

2. Utifrån de tidigare antagna rangerna, vad blir då B:s callrange?

3. Utifrån de tidigare antagna rangerna, vad blir då C:s pushrange?

4. ...A:s pushrange

5. ...B:s .... osv.

Sen får man se så att det konvergerar. Finns en risk att man hamnar i en periodicitet.

frågan är hur och var man ska börja för att få fram ett exakt resultat

ställer C 0%, är det ganska lätt att få fram hur A och B ska spela optimalt

men vart går man sen? C 100% ställ vs A och B på samma ranges, sen får A kontra, sen B, sen C, sen A, sen B osv.. så håller man på tills rangens inte ändras mer.. men det är ju aldrig helt exakt, men ganska nära

Slaktavfall · 3 Maj , 2010

.

Zyr · 3 Maj , 2010

pushrange för C borde va ungefär detta

AA-33,AKs-A2s,KQs-K2s,QJs-Q4s,JTs-J6s,T9s-T7s,98s-97s,87s,AKo-A2o,KQo-K5o,QJo-Q8o,JTo-J8o,T9o

43,4%

Lobo · 3 Maj , 2010

pushrange för C borde va ungefär detta

AA-33,AKs-A2s,KQs-K2s,QJs-Q4s,JTs-J6s,T9s-T7s,98s-97s,87s,AKo-A2o,KQo-K5o,QJo-Q8o,JTo-J8o,T9o

43,4%

Min linje hamna på T2s eller bättre.

Zyr · 3 Maj , 2010

Min linje hamna på T2s eller bättre.

vilka händer exakt?

Lobo · 3 Maj , 2010

vilka händer exakt?

Räknade fel ändå. :oops:

Zyr · 3 Maj , 2010

Det här är en tentauppgift, studenterna hade inte tillgång till datorer utan beräknade uppgiften för hand (de hade dock tillgång till tabeller för jam/fold och approximationer av linjärfördelningskoefficienter).

Tanken är att studenten ska ställa upp ev-fältet och SVD:a och lösa.

Lösningen ges av spåret i matrisen, tr[A], tr U[sum]V^T

A = UΣV *

För att lösa uppgiften på detta sätt behöver du ha lite mattekunskaper, främst inom vektorfält, linjär algebra och numerisk analys.

Du kan också använda en vanlig lagrangevandring typ

$880f8711e3512c8f3320c472b7fe9a16.png$

kan du inte posta tabellerna?

Ignatius · 3 Maj , 2010

Slaktis, riktigt läsvärt till yta och innehåll, men vad betyder "limes ordo"?

Akumila · 3 Maj , 2010

Det här är en tentauppgift, studenterna hade inte tillgång till datorer utan beräknade uppgiften för hand (de hade dock tillgång till tabeller för jam/fold och approximationer av linjärfördelningskoefficienter).

Tanken är att studenten ska ställa upp ev-fältet och SVD:a och lösa.

Lösningen ges av spåret i matrisen, tr[A], tr U[sum]V^T

A = UΣV *

För att lösa uppgiften på detta sätt behöver du ha lite mattekunskaper, främst inom vektorfält, linjär algebra och numerisk analys.

Du kan också använda en vanlig lagrangevandring typ

$880f8711e3512c8f3320c472b7fe9a16.png$

Hänger inte med på hur ev-fältet ställs upp. Blir det inte en vektorvärd 3D-matris? Eller åtminstone en skalärvärd 3D-matris om man räknar på en spelare i taget.

Det känns också som ett väldigt jobb att fylla i den.

Klyka · 4 Maj , 2010

Slaktavfall &CO, jag ska göra ett försök att sätta mig in i det ni diskuterar här, för detta är över mitt huvud och definitivt en utmaning som jag vill ta mig an. Jag brukar sköta mina självstudier på så sätt att jag läser saker som är över mitt huvud, alltid är det någon pollett som trillar ned efter ett tag. Det är tex så jag tillgodogjort mig typ all matematik och statistik jag kan. Tex gav jag mig rakt i kast med denna bok, men insåg att den får vänta tills jag har en bättre förståelse för bland annat set theory:

http://www.amazon.com/First-Look-Rigorous-Probability-Theory/dp/9812703713/ref=sr_1_1?ie=UTF8&s=books&qid=1272986987&sr=8-1

Hur som helst, jag skulle verkligen uppskatta lite hjälp med att peka mig i rätt riktning. vad behöver jag kunna för att kunna förstå det ni pratar om? Har ni några tips på bra självstudiekällor?

Edit: Jag undrar också vad limes ordo betyder. En snabb wikiflickning gav inget omedelbart lightbolt moment.

Klyka · 4 Maj , 2010

För att lösa uppgiften på detta sätt behöver du ha lite mattekunskaper, främst inom vektorfält, linjär algebra och numerisk analys.

Där var ju åtminstone en del av svaret på en av mina frågor. :mrgreen:

Slaktavfall · 4 Maj , 2010

.

Akumila · 5 Maj , 2010

limes ordo är ett slarvigt matematiskt uttryck som man ibland använder (särskilt gamla teknologer). Limes är ett gränsvärdesbegrepp.

Det är t.ex. vanligt bland teknologer att säga "jag skrev limes på tentan" vilket betyder att man precis fick godkänt (vanligtvis 20 av 50 på mattetentor). Det är väldigt ovanligt att man ger en teknolog 19 eller 19.5 poäng på en tenta utan att man "rättar upp" eller limesrättar för att antingen ge godkänt eller (om tentamens allmänna intryck visar att teknologen inte förstått begreppen) ge 18p för underkänt.

Ordo används främst för att beskriva hur mycket en term eller storhet inverkar på en sammansättning. Exempel:

$0de31c2abec589ea121d0d09ec4a0168.png$

Betyder strikt matematiskt att:

$e418486b6cb0531f03b70e43030b54d0.png$

Eller på ren svenska att funktionen f växter högst lika snabbt som g. I texten avsåg det beskriva att termens allmänna inverkan på slutsatsen är av liten eller mycket liten ordning.

Ska det inte finnas ett annat C så att det omvända också gäller, dvs.

|g(n)| < |C_2 f(n)|

Fast nu glider vi ifrån ämnet lite. Vill du vara snäll och svara på mitt förra inlägg?

Logga in

Spelteoretiskt optimalt vs allmänspråkligt optimalt

Recommended Posts

davvelitoff

Top Posters In This Topic

Popular Days

Top Posters In This Topic

Popular Days

Ferna

KungKroon

Klyka

Slaktavfall

Klyka

Slaktavfall

Klyka

vetgirig

Zyr

Akumila

Akumila

Zyr

Slaktavfall

Zyr

Lobo

Zyr

Lobo

Zyr

Ignatius

Akumila

Klyka

Klyka

Slaktavfall

Akumila

Join the conversation

Members

Bläddra

Aktivitet