Tennismodellen II : En undersökning om fördelaktiga odds och spelstrategi för spel på tennismatcher med hjälp av en statistisk modell

(1)

Örebro Universitet

Handelshögskolan

Statistik avancerad nivå, HT 2015

D-uppsats 10 poäng/15 högskolepoäng

Handledare: Niklas Karlsson

Tennismodellen II

En undersökning om fördelaktiga odds och spelstrategi för spel på tennismatcher

med hjälp av en statistisk modell

Författare:

(2)

2 Sammanfattning

Uppsatsen syftade till att undersöka huruvida det är möjligt att identifiera överodds på

tennismatcher med hjälp av en statistisk modell samt undersöka huruvida förutsättningarna

för att tillämpa Kelly’s kriterium på ett framgångsrikt sätt är uppfyllda.

Odds för 5 544 stycken tennismatcher samlades in genom ett script skrivet i programspråket

Perl. Genom att automatisera hämtningen av odds kunde mer tid ägnas till att granska urvalet

av tennismatcher.

Skattningar av sannolikhet genomfördes i en probitmodell. De prediktorer som ingick i den

slutgiltiga modellen utgick alla från spelbolagens sannolikhetsbedömning. Spelbolagens

medelsannolikhetsbedömning samt medelvärde för förändring i sannolikhetsbedömning var

de variabler som ingick i den slutgiltiga modellen. Även en transformation av spelbolagens

medelsannolikhetsbedömning ingick i den slutgiltiga modellen. Transformationen

genomfördes genom tillämpning av polynom av ordningen kubik.

Genom att utgå från skaspelttade sannolikheter identifierade modellen 5 189 överodds av

5 544 stycken totalt. En insats placerades då ett överodds identifierades.

Två olika spelstrategier för att bestämma insatsen formulerades. En där insatsen var fixerad

till en viss andel av spelkapitalet och en där andelen som skulle investeras i ett överodds

beräknades enligt Kelly’s kriterium. Förutsättningarna för Kelly’s kriterium undersöktes

genom att testa hypotesen att sambandet mellan förväntad vinst och faktisk vinst är perfekt.

De förutsättningar som krävdes för en tillämpning av Kelly’s kriterium ansågs vara uppfyllda

och insatser bestämdes även efter Kelly’s kriterium. För att undvika allt för stor volatilitet

prövades även en faktor på de insatser Kelly’s kriterium föreslog. Ett intressant resultat var att

den högsta avkastningen kunde nås då faktorn sattes till 1, det vill säga att insatsen bestämdes

helt efter Kelly’s kriterium.

(3)

3

INNEHÅLLSFÖRTECKNING 1 INLEDNING ...4 1.2SYFTE ... 5 1.3FRÅGESTÄLLNING ... 5 1.4AVGRÄNSNING ... 5 1.5DISPOSITION ... 6 2 METOD ...7 2.1MODELL ... 7 2.1.1HETETEROSKEDASTICITET I PROBITMODELLEN ... 7 2.2ANPASSNING AV MODELL ... 8 2.3PREDIKTORER ... 9 2.3.1 LNP ... 9 2.3.2 PDIFFA ... 9 2.3.3 GEM ... 11 2.3.4 Konstant ... 12 2.3.5 SDP ... 12 2.4SKATTNING AV SANNOLIKHET ... 13 2.5VARIABELN VINST ... 13

2.6FÖRUTSÄTTNINGAR FÖR KELLY´S KRITERIUM ... 14

2.7SPELSTRATEGIER ... 15

2.7.1 Spelstrategi: fixerad andel ... 15

2.7.2 Spelstrategi: Kelly´s kriterium ... 16

3 DATA ... 17

3.1TIP-EX ... 17

3.2STATFETCH ... 17

4 RESULTAT ... 19

4.1TILLÄMPNING AV POLYNOM FÖR PREDIKTORN LNP ... 19

4.2SLUTGILTIG MODELL ... 19

4.2.1 Heteroskedasticitet i probitmodell ... 20

4.3FÖRUTSÄTTNINGAR KELLY´S KRITERIUM ... 21

4.4UTVÄRDERING SPELSTRATEGIER ... 22

4.4.1 Vinst fixerad andel ... 22

4.4.2 Vinst Kelly ... 23

5 SLUTSATSER ... 25

APPENDIX A ... 26

(4)

4 1 Inledning

I slutet av 90-talet förändrades förutsättningarna för människor som gillar att spela på idrottsevenemang [1]. Förändringen ligger främst i att spelen har blivit mer lättillgängliga för en spelare då spelen har kunnat erbjudas via internet och spel har kunnat placeras hemmifrån. Med namn på spelbolag som Bet24h, Bet365, bet24/7 och att spel erbjuds över Internet antyds det hur en spelare idag kan placera spel dygnet och året runt hemma från tv-soffan. De spelare som tidigare varit begränsade till ett spelbolag, genom ett monopol är inte heller längre begränsade, en spelare kan fritt välja spel från de spelbolag som erbjuder sina spel över Internet. Förutsättningar för ett framgångsrikt spelande bör ha förbättrats i samband med ökningen av antal spelbolag. För populära idrotter, som till exempel tennis, erbjuds det odds från flera spelbolag och det är möjligt för en spelare att skapa en syntetisk återbetalning för ett spel, som i de flesta fall är nära 100 procent, se appendix A.1. Att systematiskt söka efter det högsta oddset bland alla spelbolag är ett tidskrävande och besvärligt jobb, mot en avgift kan en spelare istället få ta del av sammanställningar av erbjudna odds. Sammanställningar finns att tillgå hos vissa företags hemsidor, vars idé är just att sammanställa och jämföra odds mellan olika spelbolag.

Redovisning av statistik för tennismatcher från tv-bolag och Internetsidor har de senaste åren ökat och utvecklats, det ges information om andelen lyckade förstaservar, dubbelfel, serveretur, bara för att nämna ett fåtal egenskaper för en tennisspelare [2]. Dock redovisas sällan, den för spelaren, mest relevanta statistiken av alla, sannolikheten för att en tennisspelare vinner en match. Sannolikhetsbedömning från ett spelbolag för en tennismatch ges emellertid alltid implicit av de erbjudna oddsen för ett spel, se appendix A.2. Utifrån de listor som sammanställer tillgängliga odds är det således möjligt att beräkna vilken sannolikhetsbedömning ett spelbolag gör för en given match

.

Utifrån listor som sammanställer erbjudna ges även en uppfattning hur väl olika spelbolags sannolikhetsbedömning överensstämmer. Ett rimligt antagande är att skattningar av sannolikhet bör påverkas då spelbolagen går isär i sannolikhetsbedömning i jämförelse mot de matcher där spelbolagen är överens i sannolikhetsbedömning. Skattningar av sannolikhet antas vara heteroskedastict mot ett variansmått i spelbolagens sannolikhetsbedömning.

Som C-uppsats genomförde jag ett liknande arbete där spelbolagens sannolikhetsbedömning, i form av odds, tilläts vara med som förklarande variabel. I uppsatsen kunde slutsatsen att spelmarknaden tenderar underskatta favoriter i tennismatcher dras. Missbedömning i sannolikhet som ett spelbolag gör för en tennismatch anses främst bero av två anledningar, dels kan det vara en faktisk felbedömning av ett spelbolag men det kan också vara en felbedömning av spelarpopulationen [2]. Ett spel där fördelning av sannolikhetsbedömning och insatser kraftigt skiljer sig åt blir ett spelbolag tvingat att justera oddsen för att inte exponera sig mot allt för stora risker [2]. Då implicit sannolikhetsbedömning ges av odds och odds påverkas av risker kan en intressant utvidgning av studien vara att med ett större urval utreda huruvida underskattning av favorit är beroende av vilken grad en tennisspelare är favorit, det vill säga huruvida ett icke-linjärt förhållande råder mellan skattade sannolikheter för att en tennisspelare vinner och spelbolagens sannolikhetsbedömning.

Den faktiska missbedömning som ett spelbolag gör för en tennisspelare kan också misstänkas upprepas i en turnering. Som en ytterligare utvidgning tillkommer en variabel som är tänkt att mäta huruvida spelbolagen

(5)

5

värderar en tennisspelares möjligheter för vinst korrekt då tennisspelaren felbedömdes i en tidigare omgång av samma turnering.

Sannolikhetsbedömningar ett spelbolag gör för en tennismatch är föränderliga inför matchen, spelbolagen höjer och sänker odds beroende på information om matchen samt beroende av hur spelare väljer att placera sina insatser. Spelrummet för förändringar av odds bör dock vara begränsade då en alltför stor förändring kan försätta ett spel till ett ”surebet”, vinst är då möjlig för en spelare oavsett utfall i matchen. Det finns därför anledning att misstänka att en förändring i odds, därmed sannolikhetsbedömning, kan svara mot en en förändring i sannolikhet som är större än vad som antyds av justeringen i oddset.

Genom att kombinera egenskaper för en tennismatch är det möjligt att skatta sannolikheten för att en

tennisspelare vinner en given match. En spelare kan då enkelt beräkna huruvida en positiv vinst kan förväntas för ett spel. Spel där en positiv vinst kan förväntas, betecknas som värdespel. Förväntad och möjlig vinst för ett värdespel varierar för olika spel och kan utnyttjas för att öka en spelares ackumulerade vinst. Kelly visade hur egenskaperna för ett värdespel kan utnyttjas för att maximera den förväntade tillväxttakten i kapitalet, en förutsättning för Kelly’s kriterium skall fungera på ett framgångsrikt sätt är att de skattade sannolikheterna sammanfaller väl med de sanna [3].

1.2 Syfte

Uppsatsen syftar till att undersöka huruvida det är möjligt att med en statistisk modell identifiera värdespel på tennismatcher så att en positiv förväntad vinst kan uppnås genom att systematiskt satsa på sådana spel samt att undersöka om förutsättningarna är uppfyllda för att tillämpa Kelly’s kriterium på ett framgångsrikt sätt.

1.3 Frågeställning

 Är spelbolagens underskattning i sannolikhetsbedömning för en favorit i en tennismatch oberoende av vilken grad tennisspelaren är favorit?

 Speglar förändring i spelbolagens sannlikhetsbedömning, inför en tennismatch, en verklig förändring i sannolikhet för att tennisspelare vinner en given match?

 Är variansen för skattningar av sannolikhet beroende av variansen i spelbolagens sannolikhetsbedömning?

 Är förutsättningar för att tillämpa Kelly’s kriterium uppfyllda?

 Värderar spelbolagen en tennisspelares möjligheter för vinst korrekt då samma spelare felbedömdes föregående omgång i samma turnering?

1.4 Avgränsning

I tennis förekommer det både herr, dam och mix i både singel- och dubbelmatcher. Det är inte orimligt att spelarpopulationen förhåller sig olika gentemot typ av match. Då spelarpopulationens insatser kan prägla odds är

(6)

6

det av betydelse att avgränsa undersökningen till en typ av match. Då herrtennis singelmatcher är den mest frekventa typen avgränsas undersökningen till singelmatcher i herrtennis [4].

Spelmarknaden är en massiv marknad med hög omsättning. Stora marknader är sällan helt befriade ifrån tvivelaktiga aktörer, detta är inte något undantag för spelmarknaden [1]. Det finns därför anledning att avgränsa materialet till ett utvalt antal spelbolag som betraktas som seriösa aktörer. Internetsidan

www.bookmakersreview.com tillhandahåller omdömen för spelmarknadens bolag. Spelbolagen tilldöms betygen 1 till 5 beroende på hur pålitligt bolaget anses vara, där 5 är högst betyg. Spelbolag med betyg 3 och högre har tillåtits att vara med i undersökningen.

1.5 Disposition

Uppsatsens huvudel disponeras till fem olika kapitel, inledning, data, metod, resultat och slutsats. Exempel för hur centrala begrepp beräknas återfinns i ett appendix, allt för att inte inkräkta på arbetets naturliga gång. Tanken är att förenkla för läsaren.

Inledningsvis ges en kort redogörelse för arbetets bakgrund som förhoppningsvis ger läsaren förståelse för undersökningen och fångar dennas intresse. Därefter ges arbetets syfte och en mer konkret frågeställning. Även avgränsningar för undersökningen presenteras här.

I avsnittet metod presenteras val av modell, här föreslås och beskrivs undersökningens spelstrategier.

I resultatdelen ges erhållna resultat. Avslutningsvis i avsnittet slutsats så diskuteras resultat och de slutsatser som kan dras.

(7)

7 2 Metod

Arbetsgång för att besvara undersökningens syfte ges nedan, inledningsvis redovisas den modell som tillämpats. Därefter förklaras de variabler som skall ingå som prediktorer i vald modell. I texten ges även ett exempel för hur sannolikhet skattas utifrån modell. I slutet ges exempel och förklaringar av spelstrategier.

2.1 Modell

Vid spel som tennis där endast två utfall är möjliga, vinst eller förlust för tennisspelare A kodas responsvariabeln till 1 och 0 enligt följande:

annars

vinner

A

spelare

tennis

om

Y









0

1

Då responsvariabeln är binär ansätts en probitmodell.

)

1 (

Y

_j



P





(

x

j



)

Där

x

_j



(

x

₁_j

,

x

₂_j

,...,

x

_kj

)

är en radvektor med förklarande variabler för den j:e tennismatchen och

















k



.

1

är en kolumnvektor av parametrar,



är kumulativ fördelningsfunktion för en standardiserad normalfördelad slumpvariabel, det vill säga en slumpvariabel med väntevärde = 0 och varians = 1.



j

x

är det skattade z-värdet i standardnormalfördelningen.

2.1.1 Heteteroskedasticitet i probitmodellen

Om data är heteroskedastiskt mot spelbolagens sannolikhetsbedömning generas ej väntevärdesriktiga skattningar av modellens parametrar [5]. För att undersöka sambandet mellan varians och spelbolagens

sannolikhetsbedömning ansätts en heteroskedastisk probitmodell. En heteroskedastisk probitmodell är en generalisering av den vanliga probitmodellen. Generaliseringen sker genom att anta



som en kumulativ fördelningsfunktion med en normalfördelad slumpvariabel med en varians som inte längre är fixerad till 1, utan kan istället variera som en funktion av förklarande variabler. Variansen modelleras nu som en multiplikativ funktion av förklarande variabler:

(8)

8 

2 j







2

)

exp(

z

_j



där

z

_j



(

z

₁_j

,

z

₂_j

,...,

z

_mj

)

är en radvektor med förklarande variabler för den j:e tennismatchen och

















m



.

1 är enkolumnvektor av parametrar.

Sannolikheten för att

Y



1

är en funktion av förklarande variabler som ges av:

)

1 (

Y



P







x

_j



exp(

z

_j



)



För att testa huruvida den heteroskedastiska probitmodellen tillför någon ytterligare information genomförs ett likelihoodkvottest. Teststatistikan beräknas enligt:

)

(

2 L

2

L

1

LR





där

L

₂ är loglikelihood från den heteroskedastiska probitmodellen och

L

₁ är loglikelihood från den vanliga probitmodellen. Teststatistikan

LR

är



2- fördelad med samma antal frihetsgrader som antalet parametrar som testas [6].

2.2 Anpassning av modell

Målet med att skapa en statistisk modell är att välja och anpassa den modell som för sammanhanget löser problemet bäst. För denna undersökning är ”bästa modell” den modell som beskriver och skattar förväntad vinst bäst. För att uppnå detta mål ansätts först en univariat probitmodell för respektive prediktor. Syftet är att identifiera vilka variabler som anses förklara utfallet i en tennismatch, samt att erhålla skattningar för koefficienter och standardavvikelser av modellens parametrar. De prediktorer med parameterskattningar med

25 ,

0 



värde

p

från univariata probitmodeller betraktas som en kandidat för den senare multivariata modellen. Signifikansgränsen med p-värde på 0,25 används då lägre gränser, som till exempel 0,05, har visats sig att ofta misslyckas med att identifiera variabler som anses viktiga för att beskriva utfallet [6].

Som ett sista led i anpassning av vald modell ansätts en multivariat probitmodell med de prediktorer som utsågs som lämpliga kandidater från det univariata testet. I den multivariata modellen prövas variablers signifikans med likelihoodkvottest. En serie av simulerade spel genomförs sedan utifrån skattade sannolikheter av den

(9)

9 2.3 Prediktorer

Nedan ges en kort beskrivning av de variabler som tillåtits ingå i undersökningen, det ges även exempel löpande i texten för hur respektive prediktor beräknas.

2.3.1 LNP

Variabeln utgår från spelbolagens implicita sannolikhetsbedömning givet av slutodds. Den naturliga logartimen av kvoten för respektive spelares sannolikhet för att vinna bestämmer värdet på variabeln. Sannolikhet beräknas som ett medelvärde av sannolikhetsbedömning utifrån undersökningens spelbolag. Värdet 0 indikerar således två, enligt marknaden, jämbördiga spelare.

Inledningsvis diskuterades huruvida förhållande mellan spelbolagens bedömning och utfall i en tennismatch är linjärt, om graden av favorit har betydelse för hur stor spelbolagens underskattning är. Höga absoluta värden för prediktorn LNP talar för att en av spelarna är storfavorit, av prediktorns fördelning framgår att ett stort urval är nödvändigt för att fånga eventuella mönster i prediktorns ytterligheter. För att testa huruvida underskattning beror av graden en tennisspelare är favorit ansätts en probitmodell med polynom på prediktorn och signifikans för polynomets parameter prövas.

Antag att 5 spelbolag erbjuder odds för en tennismatch mellan tennisspelare A och B. I tabell 1 ges implicit sannolikhetsbedömning samt värden för prediktorn LNP.

Tabell 1. Slutodds samt implicit sannolikhetsbedömning för tennisspelare A och B utifrån 5 hypotetiska spelbolag.

Spelbolag

Slutodds

_A

Slutodds

_B

P

_A

P

_B

i

LNP

1 3,50 1,30 0,27 0,73 -0,99 2 3,40 1,35 0,28 0,72 -0,94 3 3,60 1,25 0,26 0,74 -1,05 4 3,50 1,30 0,27 0,73 -0,99 5 3,40 1,30 0,28 0,72 -0,94 En beräkning för prediktorn LNP ges därmed av:









5 1

982 ,

0

5

1

i i j

LNP

2.3.2 PDIFFA

I ett spelbolags slutodds ryms det av naturliga orsaker mer information än vad det gör i initialoddset. Från det att odds för en match har presenterats sker förändringar i odds löpande fram till matchstart. Information om match och hur spelarpopulationen väljer att placera insatser skapar förändringar i odds, och därmed förändringar i sannolikhetsbedömning [2]. Då syntetisk återbetalning är nära 1 för tennisspel och surebets skapar en ineffektiv marknad, i den bemärkelse att spelare kan vinna pengar riskfritt, är det rimligt att anta att ett spelbolag har

(10)

10

restriktioner för hur mycket ett odds kan förändras. Ett spelbolag bör helst undvika med att försätta ett spel till ett ”surebet”. Förändring i sannolikhet kan således vara större än förändring som odds antyder, utan bara den förändring som är möjlig för att inte skapa ett ”surebet”.

PDIFFA är medelvärdet för förändringar i implicit sannolikhetsbedömning för respektive spelbolag.

Utgå från samma 5 spelbolag som gavs i exemplet ovan.

Tabell 2 Slut- och initialodds samt implicit sannolikhetsbedömning för tennisspelare A utifrån 5 hypotetiska spelbolag.

Spelbolag

Slutodds

_A

Slutodds

_B

P

_A

Initialodd

s

_A

Initialodd

s

_B

Initial

P

_A

PDIFFA

i

1 3,50 1,30 0,27 4,00 1,25 0,24 0,03

2 3,40 1,35 0,28 3,40 1,35 0,28 0,00

3 3,60 1,25 0,26 4,50 1,17 0,21 0,05

4 3,50 1,30 0,27 5,00 1,17 0,19 0,08

5 3,40 1,30 0,28 3,00 1,37 0,31 -0,04

En beräkning för PDIFFA ges nu av:





5 5

024

0

5

1

i i j

PDIFFA

,

PDIFFA

Tennisspelare A bedöms således ha 2,4 procentenheter högre chans att vinna matchen precis innan matchen skall börja i jämförelse mot när oddsen först presenterades av marknaden . Misstanken är att denna förändring i sannolikhetsbedömning skall, i snitt, spegla en högre förändring i sannolikhet för vinst för tennisspelare A.

(11)

11 2.3.3 GEM

Värdet på variabeln är en differens av prestation mellan två tennisspelare. Utifrån implicit

sannolikhetsbedömning förväntas en tennisspelare att prestera olika bra. Här antas att en spelares prestation kan mätas som andel vunna gem i en match. Den förväntade prestationen är då möjlig att skatta utifrån spelbolagens sannolikhetsbedömning för att en tennisspelare vinner en match. Då prestation mäts som andelar ansätts en logistisk regressionsmodell för att skatta förväntat andel vunna gem.

)

exp(

1 )

exp(

1 0 1 0

x

gem

vunna

andel

förväntad







där

x

är medelvärde i

Sannolikhetsbedömning från spelbolag för tennisspelare A.

Differens mellan observerad andel vunna gem och skattat förväntad andel vunna gem utgör avvikelse i

prestation. På motsvarande sätt är det möjligt att skatta avvikelse i prestation för den tennisspelare som skall stå som motståndare för tennisspelare A nästkommande omgång. En differans av respektive spelares avvikelse i prestation bestämmer GEM-variabelns värde.



j

GEM

avvikelse

A



avvikelse

B

Antag en match mellan tennisspelare A och B där 5 spelbolag gör sannolikhetsbedömningen enligt tabell 3 för en match. Den hypotetiska matchen slutar 6-2 6-3, där tennisspelare A vinner 12 av 17 gem, det vill säga prestation = 0,71 för tennisspelare A.

Tabell 3 Slutodds samt implicit sannolikhetsbedömning för tennisspelare A och B utifrån 5 hypotetiska spelbolag.

Spelbolag

Slutodds

_A

Slutodds

_B

P

_A

P

_B

1 3,50 1,30 0,27 0,73

2 3,40 1,35 0,28 0,72

3 3,60 1,25 0,26 0,74

4 3,50 1,30 0,27 0,73

5 3,40 1,30 0,28 0,72

Antag nu att utifrån den logistiska regressionsmodellen skattades tennisspelare A vinna 0,2 av gemen, Tennisspelare A:s avvikelse i prestation mäts då som:

51 ,

0

2 ,

0

71 ,

0 



A

prestation

avvikelse

Märk här att det är endast intressant att beräkna avvikelse i prestation för den tennisspelare som vinner matchen då denna kommer att fullfölja till nästa omgång. Antag att en skattning på motsvarande sätt görs för den

(12)

12

tennisspelare som skall stå som motståndare mot tennisspelare A nästkommande omgång och att värdet 0,3 erhålls. En beräkning för

GEM

-variabeln ges därmed av:

21

0

3

0

51

0 ,

,

GEM

j







2.3.4 Konstant

Då två jämbördiga tennisspelare möts antar modellens prediktorer värdet 0 det är då rimligt att modellen skattar sannolikheten att tennisspelare A vinner till 0,5, vilket endast är möjligt då konstanten sätts till 0. Konstant kommer således ej tas i beaktning vid skattningar av sannolikheter.

2.3.5 SDP

Variabeln anger standardavvikelsen i spelbolagens sannolikhetsbedömning för en given tennismatch. Här antas att variansen för skattningar av sannolikhet kan modelleras som en funktion mot spelbolagens

sannolikhetsbedömning. Då spelbolagens bedömningar går isär antas en högre varians för skattningar av sannolikhet.

(13)

13 2.4 Skattning av sannolikhet

Efter att modellen anpassats och det har erhållits signifikans och skattningar av modellens parametrar är det möjligt att skatta sannolikheten för att en tennisspelare vinner en given match.

Antag att följande prediktorer ansågs förklara utfallet i en tennismatch och utgå från följande parameterskattningar:

25 ,

0 ˆ

,

00 ,

4 ˆ

,

65 ,

0 ˆ

3 2 1













Vidare antag följande värden för modellens prediktorer för en given tennismatch:

17 ,

0 ,

02 ,

0 ,

85 ,

0

2 3 1



x

PDIFFA

x

GEM

x

LNP

Det är nu möjligt att skatta hur sannolikt det är att tennisspelare A vinner matchen givet prediktorernas värden. Skattning av sannolikheten för att tennisspelare A vinner ges av:

75 ,

0 )

68 ,

0 (

)

17 ,

0 *

25 ,

0

02 ,

0 *

4

85 ,

0 *

65 ,

0 (

)

1 (

ˆ

_Y

_

_

_

_

_

_

P

Skattad sannolikhet för att A vinner matchen beräknas till 0,75.

2.5 Variabeln vinst

Jag definierar den stokastiska variabeln

V

j



vinst

vid

spel

j

,

j



1 ,

2 ,...,

n

och

n



antal

spel

. Vinst kan vid ett spel anta följande värden då odds definieras som spelets odds och insats är normerad till en krona.

Tabell 4 Sannolikhetsfördelning för variabeln vinst vid spel j

j

v

P

(

V

j



v

j

)

1 

j

odds



(

x

_j



)

-1

1 



(

x

j



)

Förväntade vinst för spelet ges därmed av:



)

(

V

_j

(14)

14

Antag nu att odds för spelet är 1,5 och sannolikhet för att aktuell tennisspelare vinner matchen skattas till 0,75. Den skattade förväntade vinsten för spelet ges nu av:



)

(

V

_j

E



0 ,

75 *

1 ,

5 

1 

0 ,

125 2.6 Förutsättningar för Kelly´s kriterium

Kelly [3] visade hur stor andel av en spelares kapital som skall investeras i ett spel för att maximera den förväntade tillväxttakten i kapitalet. Andel som skall investeras enligt Kelly´s kriterium ges av:

* j j

odds

)

V

(

E







1

Notera här att förväntad vinst beräknas utifrån en sann sannolikhet. En förutsättning för att tillämpa Kelly´s kriterium på ett framgångsrikt sätt blir därför att skattade sannolikheter sammanfaller väl med observerade sannolikheter.

Som en kontroll för huruvida förutsättningarna är uppfyllda för att tillämpa Kelly´s kriterium slumpas spel på tennisspelare A och B med lika sannolikhet. Insats är här normerad till en krona och vinst och skattat förväntad vinst för slumpspelet beräknas därmed som i avsnitt 2.5. Därefter tillämpas den linjära regressionsmodellen:

j j j

E

(

V

)

e

V





 1 0



och följande hypoteser prövas:

1 ,

0 :

0 1 0









H

:

A

H

Minst en av restriktionerna i nollhypotesen gäller ej

Hypotesen prövas i ett F-test med signifikansnivån 0,05. Teststatistikan beräknas enligt:







1 

/





k

n

SSR

q

SSR

F

ur ur r

där

SSR

_r är summan av kvadrerade residualer från modellen med restriktioner och

SSR

_ur är summan av kvadrerade residualer från modellen utan restriktioner.

q

är antal restriktioner och

k

är antalet parametrar som

(15)

15

prövas. Teststatistikan är F-fördelad

q

frihetsgrader i täljaren och

n



k



1

frihetsgrader i nämnaren och skrivs som

F

_q_,_n__k_₁.

Vid en eventuell förkastelse av nollhypotesen antas förutsättningar för en tillämpning av Kelly´s kriterium ej vara uppfyllda.

2.7 Spelstrategier

Två spelstrategier föreslås. Den första spelstrategin syftar till att investera en fixerad andel av spelkapitalet för alla spel med en skattad positiv förväntad vinst. I den andra spelstrategin beräknas andel som skall investeras enligt Kelly´s kriterium.

Tanken är att den spelstrategi med en fixerad andel som insats skall fungera som en referensram för strategi med Kelly´s kriterium, den enkla strategin med en normerad insats blir inte jämförbar då tidigare vinster ej utnyttjas vid satsning på ett spel. En spelstrategi där insats är en andel av spelkapital antar tillväxttakten för spelkapitalet en exponentiell form, insatser blir högre i takt med det växande spelkapitalet.

2.7.1 Spelstrategi: fixerad andel

Spelstrategin syftar till att investera andelen



av spelkapital då skattad förväntad vinst är positiv för ett spel. Spelstrategi med en fixerad andel som insats kan således uttryckas som:

0 





E

(

V

j

)

j



Insats i kronor för en spelare som besitter kapitalet

K

_jvid det j: te spelet och har spelat enligt föreslagen strategi med andelen



ges av:

spelet

te

:

j

det

vid

kronor

i

insats

K

*

_j





Antag nu en spelare som tillämpar strategin ovan och att denna spelare har identifierat ett värdespel. Vidare antag att spelare tillämpar



=0,03 samt att dennas spelkapital uppgår till 100 kr vid det aktuella spelet. Insats i kronor ges därmed av:

3

100 *

03 ,

0 *

K

_j





(16)

16 2.7.2 Spelstrategi: Kelly´s kriterium

Till skillnad från en spelstrategi med fixerad andel tar Kelly´s kriterium hänsyn till ett värdespels egenskaper, i form av värde och sannolikhet för spelet. Kelly´s formel eftersträvar att maximera den förväntade tillväxttakten i en spelares kapital. Märk att Kelly´s formel, given i avsnitt 2.6, endast kommer att förslå en positiv andel då skattad förväntad vinst är positiv. Kelly förslår således att en spelare skall investera i de spel med en skattad positiv förväntad vinst och spelstrategin kan uttryckas som:





0

1 









 

)

V

(

E

odds

)

V

(

E

j * j j j



Insats i kronor för en spelare som besitter kapitalet

K

*_jvid det j: te spelet och har spelat enligt Kelly´s kriterium ges av:

spelet

te

:

j

det

vid

kronor

i

insats

K

*

*j * j





Antag en spelare som identifierat värdespelet som gavs som exempel i avsnitt 2.5, andel som skall investeras i spelet beräknas till:









0

25

1

5

1

125

0

1 ,

,

odds

)

v

(

E

j j











Vidare antag att spelaren besitter 100 kr i spelkapital vid det aktuella spelet, insats i kronor beräknas nu till:

0,25*100 = 25

Spelaren skall således investera 25 kronor i det aktuella spelet. En utvidgning av Kelly´s kriterium kommer även prövas genom att påföra restriktioner i form av en faktor av olika grad för Kelly´s andel. En spelstrategi som tillämpar Kelly´s kriterium har visats sig vara en extremt volatil spelstrategi [7], varför det kan vara intressant att undersöka då spelstrategin begränsas med en faktor.

Antag en spelare som tillämpar Kelly´s kriterium med faktorn



=0,3. Insats i kronor för exemplet ovan då en faktor på 0,3 tillämpas ges av:

5

7

100

25

0

3

0 ,

*

,

*

,

K

*



*_j _j





(17)

17 3 Data

Nedan ges först en presentation av källan för datamaterialet samt en kort redogörelse för tillvägagångssättet av datainsamlingen. Därefter ges en mer teknisk förklaring för det script som utvecklades för att underlätta datainsamlingen.

3.1 Tip-Ex

Bolag som Tip-Ex sammanställer tillgängliga odds mot en avgift. På www.tip-ex.com finner man dels en lista över tillgängliga spel men också historik av erbjudna odds för tennismatcher. Genom spelbolagens odds är det enkelt att beräkna den sannolikhetsbedömning ett bolag gör för ett spel. Tip-Ex redovisar respektive spelbolags initial- och slutodds, därmed är det också enkelt att beräkna förändring i sannolikhetsbedömning som ett spelbolag gör för ett spel. Tyvärr presenteras inte data på ett sådant sätt att det är möjligt att utföra beräkningar direkt. I programspråket Perl [8] utvecklades därför ett script, STATFETCH, framställt för att exportera nödvändig data till lämpligt behandlingsprogram där beräkningar kunde utföras.

Av de aktörer på spelmarknaden som dels erbjuder odds för tennismatcher och dels förekom i anslutning till Tip-Ex ansågs 43 stycken vara seriösa enligt www.bookmakersreview.com.

Datamaterialet bestod slutligen av odds för 5 543 tennismatcher i herrtennis genomförda under åren 2004 – 2007. Utfallet för tennismatcherna har hämtats från Internetsidan www.atptennis.com, då resultatet saknades på Tip-Ex, och matats in manuellt i programmet Excel där data har bearbetats. Skattningar av modellens parametrar har däremot skett i programmet STATA.

3.2 STATFETCH

För den som intresserar sig mer för den tekniska aspekten av datainsamling nämner jag här något om scriptet som utvecklades i Perl för att möjliggöra bearbetning av data. Inledningsvis vill jag nämna att framställningen av scriptet har skett i samråd med en, för området, kunnig person.

Tip-ex presenterar oddsdata i html och txt-format. Oddsdata i html-format uppvisar även initialodds för

majoriteten av matcherna, vilket saknades helt i txt-filerna. Av denna anledning valde jag att inrikta mig på html koden.

Det som blev nödvändigt var att extrahera informationen av intresse ur källkod från html-formatet och presentera data i ett format där beräkningar var möjliga. Jag ansåg att Excel var det mest fördelaktiga behandlingsprogram för behandling av data.

För ändamålet valdes att formulera förfarandet i Perl, som både har en välutvecklad textsökfunktion och enkla metoder för att kommunicera med andra programvaror.

(18)

18

Alla html-filer innehållandes data från en turnering eller del av den, var strukturerat på samma sätt. Detta var givetvis en förutsättning för att snabbt kunna utarbeta en lösning. Efter att ha undersökt strukturen var det möjligt att låta vissa teckensekvenser fungera som start- ochstopp markörer för olika typer av data.

För kommunikationen mot Excel nyttjades Win32:OLE, en klass funktioner för så kallad ’Office Automation’, som gav metoder för att mer eller mindre fjärrstyra Excel.

Dessvärre visade det sig problematiskt att automatisera extraheringav data genom fjärruppkoppling mot webbsidan. Av en anledning, som fortfarande är okänd, var det inte möjligt att få upp nedladdningen i en tillräckligt hög hastighet. Det blev därför nödvändigt att plocka bort den i slutversionen och istället arbeta mot lokala filer, vilket medförde en del extra arbete.

Förutom den tidigare nämnda granskning av källmaterialet, gjordes även en slutkontroll genom att kontrollera respektive matchs återbetalning utifrån initial samt slutodds. En återbetalning högre än 1 ansågs orimlig och det högsta oddset för respektive utfall i en tennismatch ströks.

(19)

19 4 Resultat

Nedan ges först en presentation av parameterskattningar från univariata modeller, därefter redovisas slutgiltig modell med parameterskattningar. En prövning av heteroskedasticitet genomförs enlig avsnitt 2.1.1.

Hypotesprövning för sambandet mellan förväntad och faktisk vinst ges. Därefter presenteras de resultat som erhållits av föreslagna spelstrategier, även en illustration av utveckling i ackumulerat spelkapital ges här.

4.1 Tillämpning av polynom för prediktorn LNP

I uppsatsens inledning klargjordes misstanken om ett icke-linjärt förhållande mellan spelbolagens bedömning och utfall i tennismatcher. Nedan i tabell ges parameterskattningar av modell där polynom tillämpats. Endast den modell med polynomet som genererat högst log-likelihood värde redovisas.

Tabell 7 Parameterskattningar av modell med polynom för prediktorn LNP

Prediktor Koefficient SE Koefficient

Z

P-värde

LNP

0,64

0,037

17,43

< 0,0005

3

LNP

0,032

0,015

2,15

0,032

Log-likelihood = -3166,25

Då koefficient för

LNP

3 skattas till 0,032 med en standardavvikelse på 0,015 tillåts

LNP

3 ingå i den multivariata modellen och förhållandet mellan respons och spelbolagens sannolikhetsbedömning antas vara icke-linjärt.

4.2 Slutgiltig modell

Den slutgiltiga modellen består endast av prediktorer med utgångspunkt från spelbolagens

sannolikhetsbedömning. Prediktorerna är LNP, PDIFFA samt en transformation av LNP, transformationen har skett genom att inkludera prediktorns värde i kubik. En eliminering av någon av de övriga prediktorerna har alltså inte orsakade en signifikant förändring i log-likelihood. Nedan i tabell 7 ges den slutgiltiga modell som erhållits genom backward elimination.

(20)

20

Tabell 7 Parameterskattningar av slutgiltig modell

Prediktor Koefficient SE Koefficient

Z

P-värde

LNP

0,613

0,038

16,12

< 0,0005

LNP3

0,034

0,015

2,21

0,027

PDIFFA

2,851

0,907

3,14

0,002

Log-likelihood = -3161,29

4.2.1 Heteroskedasticitet i probitmodell

Då en misstanke om heteroskedasticitet mot spelbolagens sannolikhetsbedömning ansattes en probitmodell där variansen modellerades som en funktion mot standardavvikelse i spelbolagens sannolikhetsbedömning. I Tabell 8 ges skattningar för parameter som gavs i avsnitt 2.1.1.

Tabell 8: Parameterskattning för modellering av heteroskedasticitet i probitmodellen

Prediktor

Koefficient SE Koefficient

Z

P-värde

SDP

2,81

2,714

1,03

0,301

Log-likelihood = -3160,57

Parameterns signifikans prövas genom ett likelihood kvottest och teststatistikan beräknas till:

44 ,

1 ))

29 ,

3161

(

57 ,

3160

(

2 





LR

då

LR



1 ,

44

som är



₍2₁₎-fördelad med en frihetsgrad har ett p-värde = 0,1151 ges ej stöd för att variansen i skattningar av sannolikhet skulle kunna modulleras som en funktion mot standardavvikelsen i spelbolagens sannolikhetsbedömning. Slutgiltig modell är således den modell som anges i 4.2.

(21)

21 4.3 Förutsättningar Kelly´s kriterium

För att pröva förutsättningar för en tillämpning av Kelly´s kriterium användes en strategi där spel för tennisspelare A och B slumpades med lika sannolikhet och med en fixerad insats till en krona. Antalet spel uppgick till 5 544, vilket alltså motsvarar samtliga matcher i data. En enkel linjär regressionsmodell tillämpades för att beskriva sambandet mellan skattad förväntad vinst och observerad vinst.

Tabell 9 Parameterskattningar från linjär regressionsmodell med förväntad vinst för spel som förklarande variabel och observerad vinst för samma spel som beroende variabel

Prediktor Koefficient SE Koefficient T P-värde Konstant 0,008 0,186 0,41 0,682 

)

V

(

E

j 1,025 0,242 4,24 < 0,000

För att testa huruvida förutsättningarna för Kelly’s kriterium antas vara uppfyllda genomförs ett F-test enligt avsnitt 2.6.

10515



r

SSR

5544

2

2 10514



n

k

q

SSR

_ur

Teststatistikan beräknas enligt:







1 

/





k

n

SSR

q

SSR

F

ur ur r









0 ,

26

9 ,

1

5 ,

0

1

2 5543

/

10514

2 /

10514

10515







Nollhypotesen kan således ej förkastas då ignifikansnivån bestämdes till 0,05 och kritiskt värde för

F

2,5540



3

(22)

22 4.4 Utvärdering spelstrategier

För att utvärdera spelstrategi där Kelly´s kriterium tillämpats först en spelstrategi där spel slumpades med lika stor sannolikhet för spel på tennisspelare A som B, förväntad vinst beaktades ej. En enkel linjär

regressionsmodell anpassades där observerad vinst antogs förklaras av förväntad vinst, hypotesen att sambandet är perfekt kunde ej förkastas. Förutsättningar för Kelly´s kriterium antogs därmed vara uppfyllda.

Nedan ges resultat från spelstrategier enligt avsnitt 2.7.

4.4.1 Vinst fixerad andel

Av slutgiltig modell identifierades 5 189 spel av 5 544 möjliga som värdespel. Nedan i tabell ges resultat där olika andelar av spelkapital tillämpats vid satsningar.

Tabell 10 Resultat från 5 189 simulerade spel med olika andelar av spelkapital som insats.



,

Andel

Tillväxtta

kt

Ack

.

insats

Ack

.

kapital

,

K

0,01 5 3730 127 0,02 19 20607 407 0,03 33 57652 683 0,04 29 91819 606 0,05 13 90071 289 0,06 3 61731 74

Av Tabell 10 framgår det att andelen 0,03 var den som gav högst ackumulerat kapital och därmed högst ackumulerad vinst.

(23)

23 4.4.2 Vinst Kelly

Nedan ges en tabell där Kelly´s kriterium begränsas med en faktor av olika grad. Spelkapitalets utveckling illustreras i diagram 4 och 5 då faktorn 0,1 och 1 har tillämpats på Kelly´s föreslagna andel.

Tabell 11 Resultat från 5 189 simulerade spel med insats beräknad efter Kelly´s kriterium med begräsningar i form av en faktor av olika grad.



,

Kelly

av

Andel

Tillväxtta

kt

Ack

.

insats

*

K

,

kapital

.

Ack

0,1 3 1803 75 0,2 12 10156 250 0,3 35 42550 728 0,4 92 151207 1860 0,5 207 470832 4160 0,6 405 1302097 8120 0,7 688 3224801 13787 0,8 1013 7198754 20270 0,9 1282 14566662 25660 1 1387 26854531 27759 1,1 1270 45308322 25417 1,2 968 70219973 19376 1,3 598 99999077 11970 1,4 285 130907001 5729 1,5 96 158161242 1938

Nedan ges en illustration över utveckling av spelkapitalet då en faktor på 0,1 har tillämpats på insatser beräknade efter Kelly´s kriterium.

0 10 20 30 40 50 60 70 80 90 100 1 476 951 1426 1901 2376 2851 3326 3801 4276 4751 5226 Antal spel A c k um ul e ra d v ins t

Figur 4 utveckling ackumulerat kapital över 5 189 spel där andel av spelkapital beräknas genom Kelly´s kriterium med en faktor på 0,1

(24)

24

Nedan ges en illustration över utveckling av spelkapitalet då alla spel beräknats enligt Kelly’s formel.

0 200000 400000 600000 800000 1000000 1200000 1 513 1025 1537 2049 2561 3073 3585 4097 4609 5121 Antal spel A c k um ul e ra d v ins t

Figur 5 utveckling ackumulerad vinst över 5 189 spel där andel av spelkapital beräknas genom Kelly´s kriterium med en faktor på 1.

(25)

25 5 Slutsatser

Uppsatsen syftar till att undersöka huruvida det är möjligt att med en statistisk modell identifiera värdespel på tennismatcher så att en positiv förväntad vinst kan uppnås genom att systematiskt satsa på sådana spel samt att undersöka om förutsättningarna är uppfyllda för att tillämpa Kelly’s kriterium på ett framgångsrikt sätt. Skattningar för möjliga utfall i en tennismatch gjordes i en probitmodell. Prediktorer som ingick i den slutgiltiga modellen utgick samtliga från spelbolagens medelsannolikhetsbedömning, övriga prediktorer som redovisades uteslöts således från den slutgiltiga modellen. Prediktorerna som ingick beräknades genom att kombinera respektive tennisspelares medelsannolikhet, LNP, samt genom att beräkna medelförändring i

sannolikhetsbedömning, PDIFFA.

Det erhölls signifikans för parametern framför prediktorn LNP då en transformation av prediktorn genomförts genom att tillämpa polynom av ordningen kubik. Då signifikans gavs för parametern framför LNP då polynom av ordningen kubik tillämpats tolkas detta som att förhållandet mellan utfall och sannolikhetsbedömning ej är konstant. Slutsatsen att en tennisspelare som är stor favorit, i sannolikhet mätt, underskattas i högre grad av marknaden än vad en tennisspelare som är mindre favorit gör. Underskattning av en favorit i en tennismatch är således ej konstant.

Det är erhölls även signifikans för parametern framför prediktorn PDIFFA vilket tolkas som att den förändring i sannolikhet som görs för en tennisspelare inte riktigt speglar den förändringen som en justering av odds antyder. Slutsatsen som kan dras av detta är att betydelsen av den information som tillkommer till marknaden

underskattas i snitt.

Förutsättningar för Kelly’s kriterium undersöktes genom att ansätta en enkel linjär regressionsmodell med förväntad vinst som förklarande variabel och observerad vinst som beroende variabel. Hypotesen att sambandet är perfekt prövades i ett F-test och hypotesen kunde ej förkastas på en 5 % signifikansnivå. Detta tolkades som att förutsättningar för en framgångsrik tillämpning av Kelly’s kriterium var uppfyllda. Av de två föreslagna spelstrategierna var Kelly den som gav högs avkastning, dock mot en högre risk. Risken med en spelstrategi där Kelly’s formel tillämpades kunde dämpas genom att tillämpa en faktor på den föreslagna andelen. Reducering av risk skedde dock på bekostnad av tillväxttakt i spelkapitalet. Av tabell 11 framgår det att högst tillväxt av spelkapitalet nås genom att inte införa några begränsningar för Kellys andel, vilket är helt i linje med att förutsättningarna skulle vara uppfyllda för en tillämpning med Kellys kriterium.

(26)

26 Appendix A

A.1 Teoretisk återbetalning för ett spel:

Den teoretiska andel av spelarnas insatser som återbetalas av ett spelbolag. Om en spelare väljer högst odds för respektive utfall i händelse hos olika bolag skapar spelaren en sammansatt payout utifrån de högsta oddsen.

Ett spelbolags återbetalning beräknas enligt:

ing

återbeta

teoretisk

odds

_A _B

ln

1

1 



I tennis är utfallet dikotomt och det finns således endast två odds i spelet, spel A och spel B, skulle ett spel omfatta fler möjliga utfall utökas nämnaren med de ytterligare utfallen.

A.2 Implicit sannolikhetsbedömning

Den sannolikhetsbedömning ett spelbolag gör för att en tennisspelare vinner en match ges implicit av odds för de möjliga utfall. I tennis där utfallet är dikotomt beräknas den implicita sannolikhetsbedömningen enligt:

vinner

A

are

tennisspel

att

för

ten

Sannolikhe

odds

B A

















1

(27)

27 Källförteckning

Artiklar

[1]

Jones P, Clarke-Hill C M, Hillier D. Backstreet to side street to high street

to e-street: sporting betting on the Internet. International Journal of Retail

& Distribution Management 2000; 28: 222-227

[2]

Klaassen F, Magnus J. R. Forecasting the winner of a Tennis match.

European Journal of Operational Research 2003; 148: 257-267.

[4]

Kelly J. A New Interpretation of Information Rate. The Bell system

technical journal 1956; 35: 917-926.

[5]

Davidsson R, MacKinnon J G. Convenient Specification Tests for Logit and

Probit Models. Journal of Econometrics 1984; 25: 241-262.

[6]

Haigh J. The Kelly Criterion and bet comparisons in spread betting. The

Statistician 2000; 49: 531-539.

[7]

Finkelstein M, Whitley R. Optimal strategies for repeated games. Advances in

applied probability 1981; 13: 415-428.

[8]

L. C. MacLean; W. T. Ziemba; G. Blazenko

Growth versus security in dynamic investment analysis. Management science

1992; 38: 1562-1582

[9]

Ericsson Tomas, Espinoza Rodrigo (2007). Tennismodellen, Örebro Universitet.

Litteratur

[10]

David W. Hosmer & Stanley Lemeshow (1989) Applied Logistic Regression, John

Wiley & Sons Inc, New York.

[11]

Wall Larry, Christiansen Tom, Schwartz Randal L (1991). Programming Perl,

O’Reilly & Associates inc, Sebastopol.

Internetkällor

[12]

http://www.atptennis.com/5/en/vault/