Gå till innehåll

LÄNK: Datorn besegrar oss i Poker!


bob_beach

Recommended Posts

Datorn besegrar oss i Poker

(Från Illustrerad vetenskap av Gorm Palmgren)

 

År 1997 lyckades för första gången en dator slå den regerande världsmästaren i schack. Nu arbetar forskarna på att upprepa succén med det största spelet av dem alla poker. Snart kommer varken bluff eller intuition att räcka för en mänsklig seger.

 

När IBMs dator Deep Blue i maj 1997 flyttade sin c-bonde två fält framåt och tvingade den regerande världsmästaren i schack, Garry Kasparov, att ge upp efter bara 19 drag i den sjätte och avgörande matchen, skickade det chockvågor genom hela schackvärlden.

 

Förödmjukelsen över att människan blev besegrad av en dator i det klassiska strategispelet är dock nu på god väg att överskuggas av ytterligare en ännu större förödmjukelse. Kanadensiska programmerare har nämligen utvecklat ett program som spelar poker i toppklass. Det har redan satt några av det populära spelets stora mästare på plats.

 

Poker är svårare än schack

Poker är en mycket större utmaning för datorn än schack, eftersom det inte bara kräver logiskt tänkande och strategi utan även ett stort psykologiskt sinne-lag. Medan båda spelarna i schack har tillgång till precis samma information om ställningen i spelet, så känner den enskilde pokerspelaren bara till korten i sin egen hand och är tvungen att gissa vilka kort motståndaren har.

 

Därför är det viktigt för en pokerspelare att kunna bluffa, så att motståndaren får helt fel uppfattning om hans kort. Har man bra kort, gäller det att få motståndaren att tro att de är dåliga. Då kommer han nämligen att stanna kvar i spelet och fortsätta att lägga pengar i potten, så att man kan inkassera en stor vinst på sina fina kort.

 

Har man däremot dåliga kort, skall motståndaren helst tro att de är så bra att han förlorar hoppet om att själv vinna och därför ge upp sina kort och därmed potten. I poker är det nämligen inte alltid de bästa korten som vinner, vilket ju inte är vidare logiskt.

 

Det gör spelet mycket svårt för en dator, som just är mästare på logik. Även om det länge existerat pokerprogram, så har de hittills varit minst sagt dåliga, eftersom de har haft svårt att vinna över andra än nybörjare.

 

Nu har emellertid Darse Billings och hans kolleger från datafakulteten vid University of Alberta i Kanada gjort ett nytt program, som är mycket bättre än föregångarna. Programmet har spelat flera tusen spel mot mer än 100 spelare på olika nivåer, och allt som oftast har datorn tagit hem de flesta segrarna. Så gott som alla nybörjare förlorade, och även några mycket rutinerade spelare fick se sig besegrade av pokerprogrammets artificiella intelligens.

 

Endast en enda professionell spelare klarade att med nöd och näppe vinna de flesta av de allt som allt 569 spelen, men den största överraskningen var att en av världens allra bästa pokerspelare mötte stort motstånd från speldatorn.

 

Proffsspelare fick problem

Gautam Rao är den som vunnit flest pokerspel någonsin vid Internets virtuella spelbord, och han gick förra året med på att mäta sig mot Billings program. Minsta insats var tio dollar, och efter de första 500 spelen hade maskinen tjänat 1500 dollar.

 

Därefter fick Rao övertaget och ledde 2000 spel senare betryggande med cirka 2800 dollar. Sedan gick det helt fel. Rao förlorade över 3000 dollar under de följande 400 spelen, och även efter att han hade sovit lite så fortsatte maskinen att vinna, tills Rao låg 2000 dollar back.

 

Rao har rykte om sig att ha en mycket aggressiv spelstil, som sätter motståndaren under stor psykisk press, men den strategin misslyckades inför datorn, som förhöll sig iskall.

 

Det fick Rao att tappa fattningen, och han fick ta en lång paus. Därefter bytte han stil och spelade mer dämpat. Det fungerade; sakta men säkert gick det bättre, och efter totalt 7030 spel slutade han som segrare med en förtjänst på 3230 dollar. Segern var ändå blygsam - i genomsnitt hade Rao bara vunnit knappt en halv dollar per spel, trots att potten mycket väl kunde uppgå till över 100 dollar i vart och ett av spelen.

 

Mannen bakom pokerprogrammet, Darse Billings, är inte bara filosofie doktor i datalogi utan är även före detta professionell pokerspelare. Den kombinationen har gjort det möjligt för honom att skapa nya matematiska modeller, som är kärnan i programmet.

 

Modellerna bygger på den matematiska spelteori som skapades under 1940-talet och som är hörnstenen i komplicerade ekonomiska, meteorologiska och biologiska modeller, där man försöker hitta den optimala lösningen bland ett otal möjligheter.

 

Enkelt uttryckt försöker spelteorier räkna ut alla tänkbara möjligheter för att sedan analysera dem, jämföra dem och sedan välja ut den bästa. I poker fungerar detta dock inte. En möjlighet i poker är nämligen inte bara betingad av de kort som varje spelare har utan även av de insatser som var och en lägger i potten.

 

Den variant som Billings program spelar heter Texas Holdem. Även med bara två spelare finns det över en miljard miljarder - 1000000000000000000 - olika möjligheter för hur ett spel kan utveckla sig. Att analysera alla dessa

möjligheter är en hopplös uppgift även för nutidens datorer.

 

Med sin unika insikt i pokerspelet har dock Darse Billings lyckat förenkla uppgiften genom att strunta i de möjligheter som bara har ett litet inflytande på slutresultatet.

 

Billings har exempelvis förenklat sättet som spelarna bjuder på. Enligt de normala reglerna får varje spelare i en runda högst bjuda fyra gånger, men eftersom det ändå är ovanligt att spelarna höjer insatsen så många gånger, har Billings matematiska modeller skurit ned antalet till högst tre bud per runda.

 

Tack vare några ytterligare förenklingar nådde Billings och hans kollegor ned till bara 30000000 olika slutliga resultat.

 

Strategin beräknas på förhand

Det tog forskarnas avancerade dator en hel vecka att analysera alla dessa möjligheter. När det var gjort, skrevs alla in i en stor tabell. När datorn mitt i ett spel funderar över om den skall slänga korten eller höja insatsen, slår den upp i tabellen och ser vad den bästa strategin är ut-ifrån de aktuella korten, och utifrån vad spelarna dittills bjudit. På så sätt kan den även bluffa, eftersom den i tabellen kan se att det ibland är den bästa strategin.

 

I sin nuvarande form har programmet dock två stora begränsningar: dels medför de förenklade begränsningarna en viss osäkerhet, vilket gör att datorn inte alltid väljer den bästa lösningen. Dels saknar programmet förmågan att lura sin motspelares psyke och strategi.

 

En god pokerspelare anpassar alltid sitt spel efter motståndarens spelstil, och det var också just det som fick Gautam Rao att vända sitt hotade nederlag till en seger.

 

Därför är forskarna i Alberta nu i full gång med att förbättra pokerprogrammet, så att det i framtiden i sina beräkningar även kommer att inkludera utfallen av alla de tidigare spelen. Den första prototypen av det nya programmet vann en guldmedalj i poker under Datorolympiaden i Österrike förra året.

 

Darse Billings har nu själv svårt att slå datorn, och han tvivlar inte på att den nya versionen pokerprogram med tiden kommer att upprepa Deep Blues seger och erövra titeln som världsmästare.

 

Källa: http://www.illustreradvetenskap.com/polopoly.jsp?d=147&a=1914

 

* Pillar lite, länkar och flyttar till Pokerstuider, tack bob_beach :) - QoS *

Länk till kommentar
Dela på andra webbplatser

Även med bara två spelare finns det över en miljard miljarder - 1000000000000000000 - olika möjligheter för hur ett spel kan utveckla sig.

 

Nonsens.

 

Vad det stora talet innefattar är (troligen) antalet möjliga starthänder multiplicerat med antalet motståndarens möjliga starthänder multiplicerat med antalet olika floppar multiplicerat med antalet olika möjliga "actions". Javisst.

 

Men 99,999% av dessa kan klumpas ihop till samma action.

 

Jagskulle mycket hellre skriva ett program som spelade felfri h2h limit texas (som detta program gör) än ett schackprogram.

 

No-limit holdem full ring game vore en annan sak.

 

/Ola

Länk till kommentar
Dela på andra webbplatser

Vad det stora talet innefattar är (troligen) antalet möjliga starthänder multiplicerat med antalet motståndarens möjliga starthänder multiplicerat med antalet olika floppar multiplicerat med antalet olika möjliga "actions". Javisst.

 

Men 99,999% av dessa kan klumpas ihop till samma action.

Jo talet innebär vad du tror att det innebär. Inte för att jag förstår vad du menar när du säger att 99,999% kan klumpas ihop till samma action, men förenkla var ju precis vad de gjorde. Och detta fick ju också till konsekvens att programmet är hyffsat slagbart. Att göra ett program som spelare helt felfritt är i praktiken lika långt bort som ett som spelar felfritt schack. Att göra ett program som spelar bra är ju mycket enklare, jag räknar med att ett program bättre än någon människa dykt upp inom en sådär 20 år.

 

No-limit holdem full ring game vore en annan sak./Ola

 

Jag misstänker att limit fullbord är svårare att spela optimalt än no-limit med 50-100bb i stacken. No-limit överlag är ju rätt mycket mer anpassad till spelteoretiska lösningar eftersom sökträden inte blir så stora så länge pengarna hålls på en begränsad nivå. Men optimal fullbordsstrategi är ju bara att glömma eftersom kombinatoriken verkligen lever fan med beräkningarna med 10 spelare.

Länk till kommentar
Dela på andra webbplatser

99,999% kan klumpas ihop till samma action

 

 

Jag menade att händer som 72, 83, 94, osv spelas på exakt samma sätt preflop, och lika från gång till gång. Likaledes gör 98s, 87s mm det också. I själva verket har man ett mindre antal handtyper som spelas exakt lika preflop från gång till gång i ett h2h-scenario (har man knappen så tittar man nästan alltid på floppen, beroende på aggressivitetsgrad hos fi).

Länk till kommentar
Dela på andra webbplatser

Precis, man kan ju jobba med ganska grova schabloner. Ganska få kategorier av starthänder, floppade händer osv. Sen har ju datorn en fördel i att den kan minnas alla motspelares tidigare givar, så den borde kunna anpassa sig. En dator vid bordet i WSOP:s finaltävling? 10 år?

Länk till kommentar
Dela på andra webbplatser

Jag är nästan hundra på att den här artikeln handlar om poki (eller någon av dess kusiner). ursäkta om någon nämnt det förr och jag missat det.

 

Artikeln påminner starkt om någon rapport jag läste för ett tag sedan som tog upp hur de utvecklade poki och testkörde den h2h mot bla en näthaj ("TheCount" el. liknande finns det något i mitt bakhuvud som säger att han hette).

 

som sades i artikeln hade han svårt innan han hunnit anpassa sitt spel efter datorn. sedan tog han den ganska lätt. Att tjäna 50 cent per hand i ett 10/20 hu spel är lika med 0.025 BB per hand eller ca 100 bucks i timmen om man hinner med 200 händer. inte så pjåkigt, tycker jag.

 

"Datorn besegrar oss i poker" är nog en lite stark rubrik om inte "besegrar" betyder att få på moppo.

Länk till kommentar
Dela på andra webbplatser

Blir nog tråkigt att spela poker på Internet i framtiden när det kommer finnas massor med pokerbots som spelar bättre än människor. Då blir det tråkiga och långsamma kasinon som folk spelar på istället, men sen kommer fuskarna med sina små pokerdatorer som får plats i en klocka att fuska sig till pengar där med. Förhoppningsvis händer det långt fram i tiden...

Länk till kommentar
Dela på andra webbplatser

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Gäst
Svara i detta ämne...

×   Du har klistrat in innehåll med formatering.   Ta bort formatering

  Endast 75 max uttryckssymboler är tillåtna.

×   Din länk har automatiskt bäddats in.   Visa som länk istället

×   Ditt tidigare innehåll har återställts.   Rensa redigerare

×   You cannot paste images directly. Upload or insert images from URL.

×
×
  • Skapa nytt...