Vi er nået til tredje artikel i serien om "Expected goals model." Denne gang skal vi helt konkret kigge på, hvordan får sine data fra ExpG sat ind i en brugbar chancevurdering, og så lærer vi også, hvorfor man som udgangspunkt altid skal spille over 2,5 mål frem for "begge hold scorer."
Vi tager endnu et kapitel om den avancerede skudstatistik "Expected goals model." De to tidligere artikler skulle gerne have givet læseren et nogenlunde indblik i konceptet og metoden, der ligger bag. Det blev en anelse langhåret og teknisk til tider, men jeg håber ikke, at det skræmte folk væk.
Nu er vi kommet til tredje artikel i serien, hvor vi helt konkret skal kigge på, hvordan vi får vores viden fra ExpG bygget ind i chancevurderingerne.
Formålet er kort sagt at give dig kære læser en fornemmelse for, hvordan man rent praktisk kan anvende ExpG i sin betting. Metoden bag at bygge en realistisk chancevurdering op er ikke kun forbeholdt ExpG, men kan overføres til de fleste stats i fodbold. Det er derfor interessant for alle, der vil lære at sætte en chancevurdering, der ikke bygger på mavefornemmelser.
Læs de to første artikler her:
Expected goals model: Det nye sort inden for betting-stats
Expected goals model: Skud på mål vs. hovedstød
Fra ExpG til chancevurdering
De fleste ser chancevurderinger som en blanding af noget abstrakt og et kvalificeret gæt. Vi mennesker er nemlig ikke særlig dygtige til at regne i sandsynligheder. Vores hjerner kan simpelthen ikke vurdere, hvorvidt et hold skal have 60% eller 62% for at vinde en fodboldkamp. Derfor anvender man ofte avancerede matematiske modeller, hvis man ønsker at finde sandsynligheden for et eller andet.
Jeg vil i denne artikel beskrive en af de mere simple modeller, der anvendes i fodboldbetting. Modellen er et godt redskab, hvis man ønsker at beregne chancevurderingen for 1X2 og over/under i en fodboldkamp. Modellen kaldes ofte Dixon & Coles, da mændene bag hed Mark Dixon og Stuart Coles.*
Modellen består af tre faser:
1) Bestem holdenes offensive og defensive styrke ift. ligagennemsnittet.
2) Beregn det forventede antal mål i kampen af de to hold på baggrund af deres offensive og defensive styrker.
3) Sæt de to holds forventede antal mål for kampen ind i matematisk model, der bygger på poisson-fordeling.
Fase 1: Bestem offensiv og defensiv styrke
Holdenes offensive og defensive styrker er tal, der har til formål at rangere holdene i forhold til et gennemsnitligt hold i ligaen. Denne rangering kan ske på baggrund af mange forskellige stats. I dette tilfælde vil jeg benytte ExpG, da det er artiklens tema. Man kunne dog lige så godt benytte rå målstats, simple skudstats eller en blanding af dem alle.
Det første man gør er at finde det gennemsnitlige antal ExpG per kamp for sæsonen. Dette tal divideres med to, hvilket giver ExpG scoret og indkasseret for et gennemsnitligt hold per kamp.
I dette tilfælde siger vi, at der har været 2,7 ExpG per kamp i ligaen, hvilket giver 1,35 ExpG, når det divideres med to. Det vil sige, at et gennemsnitligt hold i ligaen scorer og indkasserer 1,35 ExpG per kamp. Dette tal er udgangspunktet, når man beregner holdenes offensive og defensive styrke ift. ligagennemsnittet.
Derefter finder man ExpG (scoret og indkasseret per kamp) for de to hold, der deltager i den kamp, hvor man ønsker at beregne chancevurderingen.
I dette eksempel vil jeg tage udgangspunkt i en fiktiv kamp mellem Hold A og Hold B.
Hold A (hjemmehold)
Expected Goals scoret per kamp for sæsonen = 1,6
Expected Goals indkasseret per kamp for sæsonen = 1,1
Hold B (udehold)
Expected Goals scoret per kamp for sæsonen = 1,2
Expected Goals indkasseret per kamp for sæsonen = 1,5
Derefter dividerer man holdenes ExpG (scoret og indkasseret) med tallet for et gennemsnitligt hold. Dette giver henholdsvis holdets offensive og defensive styrke. Jo højere den offensive styrke er, desto bedre er holdet offensivt. Jo lavere den defensive styrke er, desto bedre er holdet defensivt. Hvis holdene har en defensiv- eller offensiv styrke på præcis 1, så svarer det til et gennemsnitligt hold.
I dette tilfælde vil jeg dividere Hold A og Hold B’s ExpG (scoret og indkasseret) med 1,35.
Hold A
Offensive styrke = 1,6/1,35 = 1,19
Defensive styrke 1,1/1,35 = 0,81
Hold B
Offensive styrke = 1,2/1,35 = 0,89
Defensive styrke = 1,5/1,35 = 1,11
Man kan se, at Hold A er bedre offensivt og defensivt end ligagennemsnittet, da den offensive styrke er højere end 1, mens den defensive styrke er lavere end 1. Det er modsat for Hold B, der er dårligere offensivt og defensivt end et gennemsnitligt hold. Disse tal skal man anvende i næste fase af modellen.
Fase 2: Beregn forventede antal mål
Det forventede antal mål af de to hold i kampen er altafgørende, når man skal beregne chancevurderingen for 1X2 og over/under. Man prøver kort sagt at finde det antal mål, som de to hold i gennemsnit ville score, hvis man gennemspillede kampen 1.000 gange. Disse tal beregner man på baggrund af holdenes offensive og defensive styrker.
Indledningsvis skal man bestemme det antal mål et gennemsnitligt hjemme- og udehold har scoret historisk set i den pågældende liga. Anvendelsen af ligagennemsnittet for ude- og hjemmebanehold er sjældent retvisende for den enkelte kamp. Det er nemlig lidt mere kompliceret, hvis det skal gøres præcist. Jeg vil forklare hvorfor i en kommentar til artiklen, men jeg holder det simpelt i denne omgang.
I dette fiktive eksempel har hjemmeholdene for de seneste tre sæsoner scoret 1,6 mål per kamp, og udeholdene har scoret 1,2 mål per kamp.
Derefter finder man holdenes forventede antal mål i kampen med baggrund i førnævnte tal. Det sker ved hjælp af nedenstående formler:
Hjemmeholdets forventede antal mål i kampen = Hjemmeholdets offensive styrke * Udeholdets defensive styrke * Antal mål for et hjemmehold
Udeholdets forventede antal mål i kampen = Udeholdets offensive styrke * Hjemmeholdets defensive styrke * Antal mål for et udehold
I kampen mellem Hold A og Hold B giver det følgende:
Hold A's forventede mål i kampen = 1,19 * 1,11 * 1,6 = 2,11
Hold B's forventede mål i kampen = 0,89 * 0,81 * 1,2 = 0,87
Vi forventer herved, at Hold A scorer 2,11 mål og Hold B scorer 0,87 mål i gennemsnit i kampen. Disse tal er afgørende for den næste fase af modellen.
Fase 3: Antal mål sættes på matematisk model
Målene i fodbold følger i udpræget grad omtalte poisson-fordeling. Det vil sige, at hvis man kender et holds forventede antal mål i en kamp, så kan man beregne sandsynligheden for, at de scorer ét mål, to mål, tre mål, fire mål eller ingen mål overhovedet.
Eksempelvis har vi beregnet, at Hold B skal score 0,87 mål i gennemsnit i kampen mod Hold A, hvis man gennemspillede kampen 1.000 gange. Ved hjælp af formlen ”poisson-fordeling” i Excel kan jeg regne mig frem til, at Hold B skal score nul mål 41% af gangene, ét mål 36% af gangene, to mål 16% af gangene, tre mål 5% af gangene og fire mål 1% af gangene.
Jeg kan gøre det samme for Hold A, hvor vi forventer, at de skal score 2,11 mål i gennemsnit i kampen. Herved scorer de nul mål 12% af gangene, ét mål 26% af gangene, to mål 27% af gangene, tre mål 19% af gangene og fire mål 10% af gangene. Der er omkring 6% sandsynlighed for, at de scorer fem mål eller mere i kampen.
De her tal skal vi bruge, da vi ønsker at beregne sandsynlighederne for samtlige cifre i kampen. Disse sandsynligheder er nemlig hele fundamentet i Dixon & Coles’ model. Det skyldes, at markeder som 1X2 og over/under er bygget op omkring slutresultatet i kampen. Det vil sige, at hvis man beregner sandsynligheden for samtlige cifre, så kan man finde sandsynligheden for disse markeder. Det lyder måske lidt kompliceret, men det er faktisk ikke så avanceret.
Jeg vil eksempelvis beregne sandsynligheden for, at kampen ender 2-2. I dette tilfælde ganger jeg Hold A’s chance for to mål med Hold B’s chance for to mål, hvilket giver sandsynligheden for cifrene 2-2. Vi ved fra tidligere, at Hold A scorer to mål 27% af gangene, mens Hold B scorer to mål 16% af gangene. Hvis jeg ganger 27% med 16%, så får jeg sandsynligheden for cifrene 2-2, hvilket er 4,3% (0,27*0,16 = 4,3%).
Hvis det var sandsynligheden for cifrene 3-0, jeg ønskede at finde, så gangede jeg Hold A’s chance for tre mål med Hold B’s chance for ingen mål. Eftersom Hold A scorer tre mål 19% af gangene og Hold B scorer nul mål 41% af gangene, så vil kampen ende 3-0 omkring 7,8% af tiden (0,19*0,41=7,8%). Disse beregninger foretager man for samtlige mulige cifre i kampen, hvilket strækker sig fra 0-0 til 8-0.
Derefter tager man sandsynligheden for alle de cifre, hvor hjemmeholdet vinder, og lægger sammen, hvilket giver sandsynligheden for en hjemmesejr. Altså den samlede sandsynlighed for cifrene 1-0, 2-0, 2-1, 3-0, 3-1, 3-2 osv. Det samme gør man med cifrene for henholdsvis uafgjort og udesejr, hvortil man har en chancevurdering for 1x2. Man kan også finde sandsynligheden for over 2,5 mål, hvis man sorterer cifrene med færre end 2,5 mål fra.
Disse beregninger kan man selv foretage i Excel, men man kan også benytte et værktøj på nettet: sinceawin.com/data/tools/poisson
I kampen mellem Hold A og Hold B får man følgende chancevurderinger, hvis man forventer 2,11 mål af Hold A og 0,87 mål af Hold B:
1X2: 66-20-14
Over/under 2,5 mål: 57-43
Dixon & Coles’ modifikation
Man skal dog være opmærksom på, at modellen har én systematisk fejl. Modellen tager udgangspunkt i, at holdenes antal mål er uafhængige af hinanden. Det vil sige, at Hold A’s sandsynlighed for at score et mål i kampen er uafhængig af, hvor mange mål Hold B scorer.
Det er ikke helt korrekt, da der er en lille sammenhæng mellem holdenes antal mål. Hvis Hold A ikke scorer i kampen, så øger det sandsynligheden for, at Hold B heller ikke scorer. Derfor øges chancen for 0-0 ift. de tal poisson-fordeling spytter ud. Den samme tendens ses ved 1-1 og 2-2, hvorfor uafgjort bliver undervurderet.
Det skyldes, at holdene er mindre angrebsivrige, når kampen står uafgjort, hvorfor der er færre mål. Kampene åbner derimod mere op, når et af holdene fører.
Generelt kan man sige, at der skal omkring en ekstra procent fra både hjemme- og udesejr over på uafgjort. Det er dog en anelse forsimplet, hvorfor Dixon & Coles fandt på en justering. Man laver simpelthen en modifikation i sit regneark, når det kommer til visse resultater.
Man finder i første omgang de forskellige sandsynligheder for samtlige cifre i kampen som beskrevet i fase 3 af modellen. Derefter ganger man sandsynligheden for nedenstående cifre med følgende modifikationer:
”Sandsynligheden for 0-0” * (1-A*B*X)
”Sandsynligheden for 1-1” * (1-X)
”Sandsynligheden for 1-0” * (1+B*X)
”Sandsynligheden for 0-1” * (1+A*X)
A = Hjemmeholdets forventede antal mål i kampen
B = Udeholdets forventede antal mål i kampen
X = Afhængigheds-parameteret
Afhængigheds-parameteret er tallet, der afgør hvor mange procenter, der flyttes fra hjemme- og udesejr over på uafgjort. Jo højere tallet er (numerisk), desto flere procenter flyttes over på uafgjort. Tallet ligger gerne omkring (-0,08) for en gennemsnitlig kamp. Det er dog ikke helt korrekt at benytte det samme tal for samtlige kampe.
Tallet afhænger nemlig af holdenes tilgang til kampen. Tallet vil være lavt (numerisk), hvis holdene ikke stiller sig tilfredse med uafgjort. Hvis holdene derimod kan nøjes med ét point, så vil tallet være højere. En tommelfingerregel er, at tallet er omkring (-0,05) i kampe med en storfavorit. Det er derimod tættere på (-0,10), hvis der er tale om en målfattig affære mellem to jævnbyrdige hold.
Jeg vil komme et eksempel med baggrund i vores fiktive kamp mellem Hold A og hold B. Indledningsvis finder man sandsynligheden for cifrene 0-0, 1-1, 1-0 og 0-1 med udgangspunkt i poisson-fordeling.
Hold A’s forventede antal mål = 2,11
Hold B’s forventede antal mål = 0,87
Det giver følgende sandsynligheder for de fire cifre:
0-0 = 5,08%
1-1 = 9,32%
1-0 = 10,72%
0-1 = 4,42%
Derefter foretager vi Dixon & Coles’ modifikation. I dette tilfælde siger vi, at afhængigheds-parameteret er (-0,06), da Hold A er pæn favorit. Det giver følgende:
0-0 = 5,08% * (1-2,11*0,87*(-0,06)) = 5,64%
1-1 = 9,32% * (1-(-0,06)) = 9,88%
1-0 = 10,72% * (1+0,87*(-0,06)) = 10,16%
0-1 = 4,42% * (1+2,11*(-0,06)) = 3,86%
Herved bliver der flyttet 1,12%-point over på uafgjort, mens der fjernes 0,56%-point fra både hjemme- og udesejr. Det skulle gerne give en mere præcis chancevurdering for 1X2.
Lappeløsning
Det skal siges, at Dixon & Coles’ modifikation er en lappeløsning, hvis formål er at præcisere chancevurderingen for 1X2. De små justeringer giver ikke nødvendigvis det retvisende billede for samtlige cifre i kampen. Man vil rent faktisk overvurdere 1-1, når man foretager denne justering.
Man skal derfor være påpasselig med at anvende modellen på markeder som asian handicap, begge hold scorer og clean sheet. Sandsynlighederne vil ofte være én procent eller to skæv på disse markeder. Modellen passer til gengæld næsten perfekt på 1X2 og de forskellige over/under markeder.
Præcisionen af ens beregninger afhænger selvfølgelig af de data, der ligger til grund. Mangelfuldt input giver mangelfuldt output. Det er derfor afgørende, at man anvender stats, der fortæller noget meningsfuldt om holdene.
Vigtig viden om mindre markeder
Jeg håber, at artiklen har givet dig en forståelse for, hvordan man kan gå fra ExpG til chancevurderinger på fodboldkampe. Det kan blive langt mere avanceret, hvis det skal gøres helt nøjagtigt**, men Dixon & Coles er en god model for os dødelige. Det er i hvert fald et solidt værktøj, hvis man planlægger at lave chancevurderinger på fodbold.
Det er ikke nødvendigvis noget, man skal give sig i kast med selv, men forståelsen alene kan faktisk hjælpe ens betting. Det er nyttigt med lidt indsigt i, hvordan oddsene hos bookmakerne er bygget op.
Det er især relevant, hvis man gør sig på mindre markeder (eksempelvis "begge hold scorer"). Man skal nemlig være opmærksom på, at der er en indbyrdes sammenhæng i oddsene, da de bygger på de samme tal.
Når bookmakerne har beregnet sandsynlighederne for samtlige cifre i kampen, så har de samtidig sandsynlighederne for alle de underliggende markeder (1X2, over/under, begge hold scorer, asian handicap, clean sheets osv). Det er faktisk også muligt at beregne oddsene for alle de underliggende markeder, hvis man har opgivet nogle odds for 1X2 og over/under.
Hellere "over" end "begge hold scorer"
Dette er grunden til, at bookmakerne kan udbyde alverdens markeder på de fleste fodboldkampe. Oddsene for de mindre markeder kan nemlig udregnes automatisk, når man alligevel sætter oddsene for 1X2 og over/under. Bookmakerne har simpelthen udviklet nogle værktøjer, der gør, at oddsene på de mindre markeder bliver prissat med en utrolig præcision.
Eftersom bookmakernes tilbagebetalingsprocenter er væsentligt lavere på disse mindre markeder, så burde man som udgangspunkt holde sig fra dem. Hvis man finder værdi på "begge hold scorer," så vil man sandsynligvis finde endnu højere værdi på over 2,5 mål, da tilbagebetalingsprocenten er højere. Det er sjældent, at oddsene for over 2,5 mål og begge hold scorer ikke stemmer overens med hinanden, hvorved der opstår højere værdi på begge hold scorer.
Det er muligt, at man er klogere end bookmakerne, når det kommer til styrkeforholdet i en fodboldkamp. Man kan dog være sikker på, at bookmakerne har styr på, hvordan mål fordeler sig i fodboldkampe. Bookmakerne er simpelthen nødsaget til at udvikle avancerede værktøjer, hvis de skal udbyde alle de her mindre markeder på en fodboldkamp.
Det var egentlig sidste artikel, men...
Det var oprindeligt planen, at denne artikel skulle være den sidste i serien og slutte af med et kig på fejl og mangler ved ExpG, fremtidsudsigterne for stats i fodboldbetting og egne erfaringer med ExpG.
Det viste sig dog, at artiklen ville blive for lang, hvorfor vi nupper en fjerde (og sidste) artikel i serien om Expected Goals. Den skulle gerne komme op inden længe, da den er tæt på færdigskrevet.
** Den hardcore version, hvis man skal beregne chancevurderinger: wwwf.imperial.ac.uk
Bruger
http://www.betxpert.com/artike…
Bruger
Jeg har et forståelsesspørgmål - hvorfor er det egentlig nødvendigt at beregnes holdets styrke ud fra ligagennemsnittet? Hvorfor ikke bare benytte de rå Expg mål for og imod, som et udtryk for styrke? Jeg er med på at det skal gøres og at det "dæmper" forskellen, men jeg er ikke helt sikker på, at jeg forstår hvorfor det er nødvendigt...
Any way - god læsning og jeg ser frem til nr 4:-)
Ekspert
Tilbagebet.: 176%
Profit: +183,13
Hitrate: 92/241
Det er til at forstå for de fleste.
Jeg tænker at tidlige røde kort og menneskellige faktorer måske kan undervurdere især de yderlige cifre lidt. Poisson er jo "farveblind".
Dette har dog, grundet små procenter, nok ikke den store betydning for 1x2, men måske mere på ciffertips og fx o/u 4,5.
Bruger
Det er et godt spørgsmål, hvorfor ligagennemsnit er vigtigt. Man kan sagtens ignorere det, men det kræver lidt ændringer i sin tilgang.
Jeg vil dog hurtigt lige forklare ideen bag ligagennemsnit, hvis andre sad og undrede sig. Man skal forestille sig to hold i en fiktiv liga, der skal møde hinanden:
Hold A har 2,0 ExpG scoret per kamp.
Hold B har 1,5 ExpG indkasseret per kamp.
Hvis du udelukkende kiggede på de rå tal, så vil Hold A skulle score 1,75 mål i kampen, da det er gennemsnittet af de to. Man har nemlig ikke noget at holde tallene op imod.
Nu fortæller jeg dig, at ligagennemsnittet er 1,5 ExpG scoret/indkasseret per kamp.
Herved er Hold B et gennemsnitligt hold defensivt, da de indkasserer ExpG tilsvarende et gennemsnitligt hold.
Hold A har derimod scoret mere end gennemsnitligt i deres kampe, hvor vi antager, at de har mødt gennemsnitlige hold.
Hvis Hold B er gennemsnitligt og Hold A scorer 2 ExpG mod gennemsnitlige hold, så må Hold A skulle score 2 mål mod hold B.
Formel:
Hold A ExpG scoret * Hold B ExpG indkasseret / ligagennemsnittet = Hold A's antal ExpG mod Hold B
Det håber jeg giver mening.
Ligagennemsnit er dog en tricky størrelse, hvorfor jeg personligt har rodet med to andre tilgange. Man kan nemlig også opgive holdenes styrke på følgende to måder:
1) Holdenes andel af ExpG i deres kampe (ratio).
Eksempel:
Hvis Hold A har 2,0 ExpG scoret og 1,0 ExpG indkasseret, så er deres andel 0,667 udtrykt som ratio. De står altså for 66,7% af ExpG i deres kampe.
Formel: ExpG scoret / (ExpG scoret + ExpG indkasseret)
2) Holdenes ExpG-difference per kamp.
Eksempel:
Hvis Hold A har 2,0 ExpG scoret og 1,0 ExpG indkasseret, så er deres difference 1,0 ExpG per kamp.
Formel: ExpG scoret per kamp - ExpG indkasseret per kamp
De her to styrkeforhold har dog en bagside. De fortæller ikke noget om holdenes antal mål (om der er få eller mange mål i deres kampe). Man ved kun, hvordan et hold har gjort det mod deres modstandere udtrykt i ratio og forskel.
Det er mindre anvendeligt, hvis man vil beregne chancevurderinger, men det giver ofte et lidt bedre billede af holdenes styrke. Det er dog fint at kigge på flere ting samtidig, når man vurderer holdenes stats.
Bruger
Man ville skulle have en kæmpe database af kampresultater, hvis man vil vurdere poissons præcision på de yderlige cifre. Det er meget få kampe, der ender 4-0, 5-0, 5-1 osv, hvorfor tilfældigheder vil spille ind, selvom man havde en database på 10.000 kampe.
Man kunne selvfølgelig samle data fra alle de større ligaer de sidste 10 år, men man skal være opmærksom på, at der er små ligaforskelle. Det ses i hvert fald på de sandsynlige cifre (0-0, 0-1 osv). Derfor vil der også eksistere forskelle mellem ligaerne på de usandsynlige cifre.
Jeg har selv kigget lidt på det, hvor jeg kom frem til, at de små forskelle i de yderlige cifre har mest betydning for asian handicap på storfavoritter. Jeg kan umiddelbart se, at topholdene i Frankrig vinder færre storsejre end poisson angiver. Jeg er dog ikke sikker på, at det er samme tilfælde i Spanien.
Modellen er dog utrolig præcis på over/under fra 2 mål og op. Jeg har dog ikke lige kigget på over/under 4,5 :-)
Bruger
Bruger
Super fed artikel.
Jeg har selv arbejdet med netop denne model, som du beskriver, og den har givet mig et bedre indblik i det at sætte en chancevurdering. Jeg kigger dog kun på de offensive og defensive styrker på henholdsvis hjemme- og udebane. Er det helt forkert?
For eksempel er der en kamp som i dag, hvor Silkeborg møder AC Horsens. Her giver modellen en cv på 21-39-40. Den undervurderer således Silkeborg kraftigt efter deres trænerskift, da de her har vundet fire kampe på udebane, som modellen således ikke fanger. Det taler for at kigge på offensiv og defensiv styrke for alle kampe (som du beskriver) og ikke kun hjemme og ude (som jeg gør).
Mvh
Mads
Bruger
Det optimale ville være at opdele holdenes kampe i ude- og hjemmekampe. Problemet er, at man får en alt for lille sample, da der ikke spilles nok kampe. Jeg anbefaler derfor, at man samler tallene, men det skaber lidt komplikationer.
Hjemmebanefordelen svinger nemlig fra hold til hold, hvilket man skal tage højde for. Eksempelvis vil jeg tro, at FCK har en større hjemmebanefordel end FCM. De har flere tilskuere og lidt mere "storholds"-mentalitet over sig. Der får spillerne til at yde lidt ekstra, og dommeren bliver lagt under pres.
Det ville modellen (Dixon & Coles) ikke tage højde for, da den ser FCM og FCK som omtrent lige gode, hvortil de skal have samme hjemmebanefordel.
Jeg har ikke lige løsningen på problemet, men jeg vil beskrive problematikken lidt nærmere i en kommentar til artiklen, der skulle komme op senere i dag. Hjemmebanefordel er nemlig noget jeg roder lidt med for tiden. Jeg vil gerne have en bedre forståelse for hjemmebanefordelen, før jeg hopper på CV-eventyret igen.
Bruger
Tak for svar. Jeg må så overveje at lave modellen lidt om eller alternativt bruge flere sæsoner. Men i en række som 1. division kommer der bare så meget støj, da 33 % af holdene udskiftes hvert år.
Mvh
Mads
Bruger
Modeller fungerer elendigt på de mindre rækker af netop den årsag. Det vil jeg også komme ind på i den næste artikel i rækken :)
Generelt indeholder de sidste par sæsoner tit nyttig viden. Holdene har en underliggende styrke, hvilket ofte afspejles i resultaterne over et par sæsoner. Man vil fejlvurdere mange hold, hvis man ikke kender til deres historiske styrke.
Det kunne eksempelvis være Chelsea i denne sæson, der fremadrettet må forventes at forbedre sig. Det ville man dog aldrig kunne aflæse af deres stats fra denne sæson.
Bruger
Der er tre ting man skal være opmærksom på:
1) Antallet af mål svinger i løbet af en sæson i de nordeuropæiske ligaer.
Der er eksempelvis færrest mål i vintermånederne. Det kolde vejr sænker tempoet i kampene, da banerne tit er dårlige og ting bevæger sig langsommere igennem luften i kulden. Derfor kan man ikke bare benytte ligagennemsnittet for en hel sæson, når man laver en CV i december måned.
Derudover er der klart flest mål i slutningen af sæsonen. Når holdene ikke har noget at spille for, så åbner kampene gerne op, da man vil tilfredsstille fansene. Man kan heller ikke afvise, at de offensive spillere sløser med deres defensive pligter, da de vil forbedre deres stats.
Derfor vil jeg foreslå, at man sætter et lidt lavere ligagennemsnit for de kolde måneder, mens man holder sig fuldstændig væk fra kampe, hvor holdene intet har at spille for. Det er umuligt at beregne CV's på disse kampe, da holdenes stats bliver mindre afgørende.
2) Kampe mellem storhold indeholder færre mål end stats ville antyde.
Når kampenes betydning stiger, så falder antallet af mål. Der spilles mere forsigtigt, kampene bliver taktiske og holdene stiller sig tit tilfredse med uafgjort. Dette sænker antallet af mål i forhold til, hvad man kunne forvente, hvis man udelukkende så på holdenes offensive styrker.
Man skal derfor sætte et betydeligt lavere ligagennemsnit for disse kampe. Det er svært at sige, hvordan det skal gøres helt præcist, da det kommer meget an på taktikken fra de to trænere.
3) Hjemmebanefordelen i fodbold er en besværlig størrelse.
Hjemmebanefordelen i fodbold har en kæmpe betydning. De seneste 5 sæsoner har hjemmeholdet i Premier League vundet 45% af gangene, mens udeholdet har vundet 31% af gangene. Det er alligevel en pæn forskel, hvorfor det er noget man skal have styr på.
Hjemmebanefordelen er dog ikke den samme fra liga til liga. Den er ikke heller den samme holdene imellem i en liga. Den er endda forskellig fra kamp til kamp for det samme hold. Dette komplicerer tingene, da man herved er nødsaget til at vurdere hjemmebanefordelen fra kamp til kamp. Det er nemlig ikke ligegyldigt om et hold skal have en fordel på 0,3 mål eller 0,4 mål for at spille på hjemmebane.
Jeg kan komme med et eksempel:
Hold A tager hjemme imod Hold B. Holdene er fuldstændig ens i styrke og forventes at score 1,2 mål hver, hvis man ser bort fra hjemmebanefordelen.
I det første eksempel sætter jeg Hold A's hjemmebanefordel til 0,3 mål. De får altså 0,3 mål mere for at spille på hjemmebane (Hold A = 1,5 mål & Hold B = 1,2 mål). Det giver en CV på omkring 43-27-30.
Hvis jeg i stedet sætter hjemmebanefordelen til 0,4 mål, så hedder CV'en 46-26-28. Denne lille forskel flytter altså små 3%-point over på hjemmeholdet. Det kan sagtens betyde forskellen på værdi eller ej på et hold.
Man vil blive overrasket over, hvor svært det er at vide, hvorvidt et hold skal have 0,3 eller 0,4 mål i hjemmebanefordel i en kamp. Det er nemlig ikke noget, der kan udregnes med en simpel ligning.
Dixon & Coles' model er eksempelvis en anelse forsimplet. Den bestemmer hjemmebanefordelen ud fra hjemmeholdets forventede antal mål. Jo flere mål hjemmeholdet forventes at score, desto større er deres hjemmebanefordel. Man kan sige, at de bedre hold har en større hjemmebanefordel end de dårlige hold. Dette er generelt set korrekt, men det er ikke præcist for hvert enkelt hold.
Modellen vil nemlig fejlvurdere visse holds hjemmebanefordel, da to hold med den samme styrke ikke nødvendigvis har den samme hjemmebanefordel. Hjemmebanefordelen afhænger af mange forskellige ting ud over holdenes styrke; eksempelvis tilskuertallet, deres engagement og rejsedistancen for udeholdet.
Jeg tror eksempelvis, at Monaco har en mindre hjemmebanefordel end de andre hold i ligaen med samme styrke. Der er nemlig ikke særlig god opbakning til holdet på deres hjemmebane, hvilket betyder mindre pres på dommeren og mindre boost til hjemmeholdets spillere.
Jeg læser for tiden en del om konceptet 'hjemmebanefordel', da det er noget jeg gerne vil have en bedre forståelse for. Det har simpelthen en alt for stor betydning, hvorfor man ikke kan tage let på det.
Egentlig vil jeg råde folk fra at udregne chancevurderinger på fodboldkampe, før de har fået en forståelse for hjemmebanefordelen i fodbold. Det er simpelthen ikke tilstrækkeligt at benytte den metode, der anvendes i Dixon & Coles' model.
Bruger
Jeg tror det ville være tæt på umuligt at lave en præcis objektiv vurdering af hver enkelt holds hjemmebanefordel.
Sample size vil være alt for lille = meget varians
Serie A
2013-2014 - 48% Hjemmesejre
2014-2015 - 40% Hjemmesejre
Selv over 380 kampe kan der være meget varians.
Bruger
Bruger
Jeg har selv erfaret at det tager 7 lange og 7 brede, hvis man ikke gør det på fuld tid ;)
Jeg har selv brugt et par måneder nu, bare på at indsamle data, og er slet ikke færdig. :(