Vi er nået til tredje artikel i serien om "Expected goals model." Denne gang skal vi helt konkret kigge på, hvordan får sine data fra ExpG sat ind i en brugbar chancevurdering, og så lærer vi også, hvorfor man som udgangspunkt altid skal spille over 2,5 mål frem for "begge hold scorer." 

Vi tager endnu et kapitel om den avancerede skudstatistik "Expected goals model." De to tidligere artikler skulle gerne have givet læseren et nogenlunde indblik i konceptet og metoden, der ligger bag. Det blev en anelse langhåret og teknisk til tider, men jeg håber ikke, at det skræmte folk væk.

Nu er vi kommet til tredje artikel i serien, hvor vi helt konkret skal kigge på, hvordan vi får vores viden fra ExpG bygget ind i chancevurderingerne.

Formålet er kort sagt at give dig kære læser en fornemmelse for, hvordan man rent praktisk kan anvende ExpG i sin betting. Metoden bag at bygge en realistisk chancevurdering op er ikke kun forbeholdt ExpG, men kan overføres til de fleste stats i fodbold. Det er derfor interessant for alle, der vil lære at sætte en chancevurdering, der ikke bygger på mavefornemmelser.

Læs de to første artikler her:

Expected goals model: Det nye sort inden for betting-stats

Expected goals model: Skud på mål vs. hovedstød

Fra ExpG til chancevurdering

De fleste ser chancevurderinger som en blanding af noget abstrakt og et kvalificeret gæt. Vi mennesker er nemlig ikke særlig dygtige til at regne i sandsynligheder. Vores hjerner kan simpelthen ikke vurdere, hvorvidt et hold skal have 60% eller 62% for at vinde en fodboldkamp. Derfor anvender man ofte avancerede matematiske modeller, hvis man ønsker at finde sandsynligheden for et eller andet.

Jeg vil i denne artikel beskrive en af de mere simple modeller, der anvendes i fodboldbetting. Modellen er et godt redskab, hvis man ønsker at beregne chancevurderingen for 1X2 og over/under i en fodboldkamp. Modellen kaldes ofte Dixon & Coles, da mændene bag hed Mark Dixon og Stuart Coles.*

Modellen består af tre faser:

1) Bestem holdenes offensive og defensive styrke ift. ligagennemsnittet.

2) Beregn det forventede antal mål i kampen af de to hold på baggrund af deres offensive og defensive styrker.

3) Sæt de to holds forventede antal mål for kampen ind i matematisk model, der bygger på poisson-fordeling.

Fase 1: Bestem offensiv og defensiv styrke

Holdenes offensive og defensive styrker er tal, der har til formål at rangere holdene i forhold til et gennemsnitligt hold i ligaen. Denne rangering kan ske på baggrund af mange forskellige stats. I dette tilfælde vil jeg benytte ExpG, da det er artiklens tema. Man kunne dog lige så godt benytte rå målstats, simple skudstats eller en blanding af dem alle.

Det første man gør er at finde det gennemsnitlige antal ExpG per kamp for sæsonen. Dette tal divideres med to, hvilket giver ExpG scoret og indkasseret for et gennemsnitligt hold per kamp.

I dette tilfælde siger vi, at der har været 2,7 ExpG per kamp i ligaen, hvilket giver 1,35 ExpG, når det divideres med to. Det vil sige, at et gennemsnitligt hold i ligaen scorer og indkasserer 1,35 ExpG per kamp. Dette tal er udgangspunktet, når man beregner holdenes offensive og defensive styrke ift. ligagennemsnittet.

Derefter finder man ExpG (scoret og indkasseret per kamp) for de to hold, der deltager i den kamp, hvor man ønsker at beregne chancevurderingen.

I dette eksempel vil jeg tage udgangspunkt i en fiktiv kamp mellem Hold A og Hold B.

Hold A (hjemmehold)

Expected Goals scoret per kamp for sæsonen = 1,6

Expected Goals indkasseret per kamp for sæsonen = 1,1

Hold B (udehold)

Expected Goals scoret per kamp for sæsonen = 1,2

Expected Goals indkasseret per kamp for sæsonen = 1,5

Derefter dividerer man holdenes ExpG (scoret og indkasseret) med tallet for et gennemsnitligt hold. Dette giver henholdsvis holdets offensive og defensive styrke. Jo højere den offensive styrke er, desto bedre er holdet offensivt. Jo lavere den defensive styrke er, desto bedre er holdet defensivt. Hvis holdene har en defensiv- eller offensiv styrke på præcis 1, så svarer det til et gennemsnitligt hold.

I dette tilfælde vil jeg dividere Hold A og Hold B’s ExpG (scoret og indkasseret) med 1,35.

Hold A

Offensive styrke = 1,6/1,35 = 1,19

Defensive styrke 1,1/1,35 = 0,81

Hold B

Offensive styrke = 1,2/1,35 = 0,89

Defensive styrke = 1,5/1,35 = 1,11

Man kan se, at Hold A er bedre offensivt og defensivt end ligagennemsnittet, da den offensive styrke er højere end 1, mens den defensive styrke er lavere end 1. Det er modsat for Hold B, der er dårligere offensivt og defensivt end et gennemsnitligt hold. Disse tal skal man anvende i næste fase af modellen.

Fase 2: Beregn forventede antal mål

Det forventede antal mål af de to hold i kampen er altafgørende, når man skal beregne chancevurderingen for 1X2 og over/under. Man prøver kort sagt at finde det antal mål, som de to hold i gennemsnit ville score, hvis man gennemspillede kampen 1.000 gange. Disse tal beregner man på baggrund af holdenes offensive og defensive styrker.

Indledningsvis skal man bestemme det antal mål et gennemsnitligt hjemme- og udehold har scoret historisk set i den pågældende liga. Anvendelsen af ligagennemsnittet for ude- og hjemmebanehold er sjældent retvisende for den enkelte kamp. Det er nemlig lidt mere kompliceret, hvis det skal gøres præcist. Jeg vil forklare hvorfor i en kommentar til artiklen, men jeg holder det simpelt i denne omgang.

I dette fiktive eksempel har hjemmeholdene for de seneste tre sæsoner scoret 1,6 mål per kamp, og udeholdene har scoret 1,2 mål per kamp.

Derefter finder man holdenes forventede antal mål i kampen med baggrund i førnævnte tal. Det sker ved hjælp af nedenstående formler:

Hjemmeholdets forventede antal mål i kampen = Hjemmeholdets offensive styrke * Udeholdets defensive styrke * Antal mål for et hjemmehold

Udeholdets forventede antal mål i kampen = Udeholdets offensive styrke * Hjemmeholdets defensive styrke * Antal mål for et udehold

I kampen mellem Hold A og Hold B giver det følgende:

Hold A's forventede mål i kampen = 1,19 * 1,11 * 1,6 = 2,11

Hold B's forventede mål i kampen = 0,89 * 0,81 * 1,2 = 0,87

Vi forventer herved, at Hold A scorer 2,11 mål og Hold B scorer 0,87 mål i gennemsnit i kampen. Disse tal er afgørende for den næste fase af modellen.

Fase 3: Antal mål sættes på matematisk model

Målene i fodbold følger i udpræget grad omtalte poisson-fordeling. Det vil sige, at hvis man kender et holds forventede antal mål i en kamp, så kan man beregne sandsynligheden for, at de scorer ét mål, to mål, tre mål, fire mål eller ingen mål overhovedet.

Eksempelvis har vi beregnet, at Hold B skal score 0,87 mål i gennemsnit i kampen mod Hold A, hvis man gennemspillede kampen 1.000 gange. Ved hjælp af formlen ”poisson-fordeling” i Excel kan jeg regne mig frem til, at Hold B skal score nul mål 41% af gangene, ét mål 36% af gangene, to mål 16% af gangene, tre mål 5% af gangene og fire mål 1% af gangene.

Jeg kan gøre det samme for Hold A, hvor vi forventer, at de skal score 2,11 mål i gennemsnit i kampen. Herved scorer de nul mål 12% af gangene, ét mål 26% af gangene, to mål 27% af gangene, tre mål 19% af gangene og fire mål 10% af gangene. Der er omkring 6% sandsynlighed for, at de scorer fem mål eller mere i kampen.

De her tal skal vi bruge, da vi ønsker at beregne sandsynlighederne for samtlige cifre i kampen. Disse sandsynligheder er nemlig hele fundamentet i Dixon & Coles’ model. Det skyldes, at markeder som 1X2 og over/under er bygget op omkring slutresultatet i kampen. Det vil sige, at hvis man beregner sandsynligheden for samtlige cifre, så kan man finde sandsynligheden for disse markeder. Det lyder måske lidt kompliceret, men det er faktisk ikke så avanceret.

Jeg vil eksempelvis beregne sandsynligheden for, at kampen ender 2-2. I dette tilfælde ganger jeg Hold A’s chance for to mål med Hold B’s chance for to mål, hvilket giver sandsynligheden for cifrene 2-2. Vi ved fra tidligere, at Hold A scorer to mål 27% af gangene, mens Hold B scorer to mål 16% af gangene. Hvis jeg ganger 27% med 16%, så får jeg sandsynligheden for cifrene 2-2, hvilket er 4,3% (0,27*0,16 = 4,3%).

Hvis det var sandsynligheden for cifrene 3-0, jeg ønskede at finde, så gangede jeg Hold A’s chance for tre mål med Hold B’s chance for ingen mål. Eftersom Hold A scorer tre mål 19% af gangene og Hold B scorer nul mål 41% af gangene, så vil kampen ende 3-0 omkring 7,8% af tiden (0,19*0,41=7,8%). Disse beregninger foretager man for samtlige mulige cifre i kampen, hvilket strækker sig fra 0-0 til 8-0.

Derefter tager man sandsynligheden for alle de cifre, hvor hjemmeholdet vinder, og lægger sammen, hvilket giver sandsynligheden for en hjemmesejr. Altså den samlede sandsynlighed for cifrene 1-0, 2-0, 2-1, 3-0, 3-1, 3-2 osv. Det samme gør man med cifrene for henholdsvis uafgjort og udesejr, hvortil man har en chancevurdering for 1x2. Man kan også finde sandsynligheden for over 2,5 mål, hvis man sorterer cifrene med færre end 2,5 mål fra.

Disse beregninger kan man selv foretage i Excel, men man kan også benytte et værktøj på nettet: sinceawin.com/data/tools/poisson

I kampen mellem Hold A og Hold B får man følgende chancevurderinger, hvis man forventer 2,11 mål af Hold A og 0,87 mål af Hold B:

1X2: 66-20-14

Over/under 2,5 mål: 57-43

Dixon & Coles’ modifikation

Man skal dog være opmærksom på, at modellen har én systematisk fejl. Modellen tager udgangspunkt i, at holdenes antal mål er uafhængige af hinanden. Det vil sige, at Hold A’s sandsynlighed for at score et mål i kampen er uafhængig af, hvor mange mål Hold B scorer.

Det er ikke helt korrekt, da der er en lille sammenhæng mellem holdenes antal mål. Hvis Hold A ikke scorer i kampen, så øger det sandsynligheden for, at Hold B heller ikke scorer. Derfor øges chancen for 0-0 ift. de tal poisson-fordeling spytter ud. Den samme tendens ses ved 1-1 og 2-2, hvorfor uafgjort bliver undervurderet.

Det skyldes, at holdene er mindre angrebsivrige, når kampen står uafgjort, hvorfor der er færre mål. Kampene åbner derimod mere op, når et af holdene fører.

Generelt kan man sige, at der skal omkring en ekstra procent fra både hjemme- og udesejr over på uafgjort. Det er dog en anelse forsimplet, hvorfor Dixon & Coles fandt på en justering. Man laver simpelthen en modifikation i sit regneark, når det kommer til visse resultater.

Man finder i første omgang de forskellige sandsynligheder for samtlige cifre i kampen som beskrevet i fase 3 af modellen. Derefter ganger man sandsynligheden for nedenstående cifre med følgende modifikationer:

”Sandsynligheden for 0-0” * (1-A*B*X)

”Sandsynligheden for 1-1” * (1-X)

”Sandsynligheden for 1-0” * (1+B*X)

”Sandsynligheden for 0-1” * (1+A*X)

A = Hjemmeholdets forventede antal mål i kampen

B = Udeholdets forventede antal mål i kampen

X = Afhængigheds-parameteret

Afhængigheds-parameteret er tallet, der afgør hvor mange procenter, der flyttes fra hjemme- og udesejr over på uafgjort. Jo højere tallet er (numerisk), desto flere procenter flyttes over på uafgjort. Tallet ligger gerne omkring (-0,08) for en gennemsnitlig kamp. Det er dog ikke helt korrekt at benytte det samme tal for samtlige kampe.

Tallet afhænger nemlig af holdenes tilgang til kampen. Tallet vil være lavt (numerisk), hvis holdene ikke stiller sig tilfredse med uafgjort. Hvis holdene derimod kan nøjes med ét point, så vil tallet være højere. En tommelfingerregel er, at tallet er omkring (-0,05) i kampe med en storfavorit. Det er derimod tættere på (-0,10), hvis der er tale om en målfattig affære mellem to jævnbyrdige hold.

Jeg vil komme et eksempel med baggrund i vores fiktive kamp mellem Hold A og hold B. Indledningsvis finder man sandsynligheden for cifrene 0-0, 1-1, 1-0 og 0-1 med udgangspunkt i poisson-fordeling.

Hold A’s forventede antal mål = 2,11

Hold B’s forventede antal mål = 0,87

Det giver følgende sandsynligheder for de fire cifre:

0-0  = 5,08%

1-1 = 9,32%

1-0  = 10,72%

0-1 = 4,42%

Derefter foretager vi Dixon & Coles’ modifikation. I dette tilfælde siger vi, at afhængigheds-parameteret er (-0,06), da Hold A er pæn favorit. Det giver følgende:

0-0 = 5,08% * (1-2,11*0,87*(-0,06)) = 5,64%

1-1 = 9,32% * (1-(-0,06)) = 9,88%

1-0 = 10,72% * (1+0,87*(-0,06)) = 10,16%

0-1 = 4,42% * (1+2,11*(-0,06)) = 3,86%

Herved bliver der flyttet 1,12%-point over på uafgjort, mens der fjernes 0,56%-point fra både hjemme- og udesejr. Det skulle gerne give en mere præcis chancevurdering for 1X2.

Lappeløsning

Det skal siges, at Dixon & Coles’ modifikation er en lappeløsning, hvis formål er at præcisere chancevurderingen for 1X2. De små justeringer giver ikke nødvendigvis det retvisende billede for samtlige cifre i kampen. Man vil rent faktisk overvurdere 1-1, når man foretager denne justering.

Man skal derfor være påpasselig med at anvende modellen på markeder som asian handicap, begge hold scorer og clean sheet. Sandsynlighederne vil ofte være én procent eller to skæv på disse markeder. Modellen passer til gengæld næsten perfekt på 1X2 og de forskellige over/under markeder.

Præcisionen af ens beregninger afhænger selvfølgelig af de data, der ligger til grund. Mangelfuldt input giver mangelfuldt output. Det er derfor afgørende, at man anvender stats, der fortæller noget meningsfuldt om holdene.

Vigtig viden om mindre markeder 

Jeg håber, at artiklen har givet dig en forståelse for, hvordan man kan gå fra ExpG til chancevurderinger på fodboldkampe. Det kan blive langt mere avanceret, hvis det skal gøres helt nøjagtigt**, men Dixon & Coles er en god model for os dødelige. Det er i hvert fald et solidt værktøj, hvis man planlægger at lave chancevurderinger på fodbold.

Det er ikke nødvendigvis noget, man skal give sig i kast med selv, men forståelsen alene kan faktisk hjælpe ens betting. Det er nyttigt med lidt indsigt i, hvordan oddsene hos bookmakerne er bygget op.

Det er især relevant, hvis man gør sig på mindre markeder (eksempelvis "begge hold scorer"). Man skal nemlig være opmærksom på, at der er en indbyrdes sammenhæng i oddsene, da de bygger på de samme tal.

Når bookmakerne har beregnet sandsynlighederne for samtlige cifre i kampen, så har de samtidig sandsynlighederne for alle de underliggende markeder (1X2, over/under, begge hold scorer, asian handicap, clean sheets osv). Det er faktisk også muligt at beregne oddsene for alle de underliggende markeder, hvis man har opgivet nogle odds for 1X2 og over/under.

Hellere "over" end "begge hold scorer"

Dette er grunden til, at bookmakerne kan udbyde alverdens markeder på de fleste fodboldkampe. Oddsene for de mindre markeder kan nemlig udregnes automatisk, når man alligevel sætter oddsene for 1X2 og over/under. Bookmakerne har simpelthen udviklet nogle værktøjer, der gør, at oddsene på de mindre markeder bliver prissat med en utrolig præcision.

Eftersom bookmakernes tilbagebetalingsprocenter er væsentligt lavere på disse mindre markeder, så burde man som udgangspunkt holde sig fra dem. Hvis man finder værdi på "begge hold scorer," så vil man sandsynligvis finde endnu højere værdi på over 2,5 mål, da tilbagebetalingsprocenten er højere. Det er sjældent, at oddsene for over 2,5 mål og begge hold scorer ikke stemmer overens med hinanden, hvorved der opstår højere værdi på begge hold scorer.

Det er muligt, at man er klogere end bookmakerne, når det kommer til styrkeforholdet i en fodboldkamp. Man kan dog være sikker på, at bookmakerne har styr på, hvordan mål fordeler sig i fodboldkampe. Bookmakerne er simpelthen nødsaget til at udvikle avancerede værktøjer, hvis de skal udbyde alle de her mindre markeder på en fodboldkamp.

Det var egentlig sidste artikel, men...

Det var oprindeligt planen, at denne artikel skulle være den sidste i serien og slutte af med et kig på fejl og mangler ved ExpG, fremtidsudsigterne for stats i fodboldbetting og egne erfaringer med ExpG.

Det viste sig dog, at artiklen ville blive for lang, hvorfor vi nupper en fjerde (og sidste) artikel i serien om Expected Goals. Den skulle gerne komme op inden længe, da den er tæt på færdigskrevet.

www.math.ku.dk

** Den hardcore version, hvis man skal beregne chancevurderinger: wwwf.imperial.ac.uk