Hvordan vægter afslutninger fra det lille felt kontra afslutninger uden for feltet? Og hvor stor fordel skal man tillægge hjemmebanen? Vi nørder videre i 2. del af serien om Expected goals model, hvor BetXpert-brugeren zAAz også kigger på indsamling og behandling af data.

Expected goals model er ny, avanceret form for skudstatistik, der på sin vis har revolutioneret måden at anskue et holds præstation på. "Tabellen lyver aldrig," siger man, når en klub fuld af kvalitetsspillere hænger i den tungere ende af ligaen. Men det kan den nu sagtens gøre. Og er man i stand til at skære gennem støjen og komme 2-3 lag dybere ned i et holds præstationer, så optimerer man muligheden for at spotte fejlodds og kan langt mere kritisk forholde sig til, om der er værdi eller minus-værdi.

I første del af serien om expected goals model beskrev jeg metoden, der ligger til grund for beregningen af ExpG. Det handler i grove træk om at give hvert enkelt skudforsøg en sandsynlighed for at gå i mål. Man placerer i teorien skuddene i forskellige kasser, hvor hver enkelt kasse udtrykker en sandsynlighed for, at skuddet går i mål. Denne opdeling sker på baggrund af nogle udvalgte parametre, der eksempelvis omfatter skuddets afstand til målet eller om afslutningen er et hovedstød eller et spark.

I denne anden del vil jeg grave lidt dybere i de forskellige parametre og deres betydning. Derefter vil jeg kigge nærmere på efterbehandlingen af ExpG. De tal man kommer frem til på baggrund af holdenes skudstats er rå data, der skal efterbehandles. Afslutningsvis vil artiklen beskrive, hvorledes man selv kan indsamle den data, der ligger til grund for ExpG. Der bliver nemlig offentliggjort en del data om holdenes skudforsøg, som man kan indsamle på forskellige måder.

Første del: Expected goals model: Det nye sort inden for betting-stats 

Parametre: Assist-type, afstand og game state

Der kan vælges mellem rigtig mange parametre, når man skal vurdere kvaliteten af det enkelte skud. Hovedreglen er, at jo flere parametre, desto mere præcis bliver ExpG. Der er varianter af ExpG, hvor der tages højde for en del forhold, mens andre er langt mere simple. De forskellige varianter af ExpG svinger derfor en del i kvalitet.

Hvis man selv vil udregne ExpG, er det vigtigt at vælge de parametre, der har afgørende betydning for præcisionen. Arbejdsbyrden øges i takt med antallet af parametre, hvorfor det kan betale sig at være selektiv i udvælgelsen. Djævlen ligger dog i detaljen, hvorfor bestemte forhold er vigtige, selvom de kun har betydning for få hold.

Hvis man lader andre om udregningen af ExpG er det vigtigt, at der er tale om en præcis variant. Det kræver dog en vis forståelse for de forskellige parametre, hvis man skal være i stand til at identificere de varianter af ExpG, der er præcise. Det er derfor nyttigt at kende til de forskellige parametre, selvom man ikke skal foretage beregningerne selv. Jeg har nedenfor beskrevet forskellige parametre, og deres betydning for præcisionen af ExpG.

Afstand til mål

Skuddets afstand til målet er det vigtigste parameter, når man skal bedømme kvaliteten af et skud. Det er selve fundamentet i ExpG, da der er en klar sammenhæng mellem afstanden til målet og scoringsprocenten. Den simple udgave er at opdele skuddene i kategorierne "lille felt", "resten af feltet" og "uden for feltet." De mere avancerede varianter kigger på skuddets afstand og vinkel fra midten af målet. Sidstnævnte giver det mest præcise billede, men førnævnte er lettere tilgængeligt.

Fod eller hovedstød

Dette er ligeledes et vigtigt parameter, da den anvendte kropsdel har afgørende betydning for udfaldet af afslutningen. Skud med foden går langt oftere i mål end et hovedstød, hvis de foretages fra samme afstand. Det er logisk nok, da fodboldspillere kan få mere kraft og præcision i afslutningerne, når de anvender fødderne. Dette er en grundsten i enhver ExpG-model.

Assist-type

Det har stor betydning, hvordan bolden kom frem til skytten. Chancer skabt fra bolde i dybden er langt større end chancer fra indlæg. Det har ligeledes betydning, hvorvidt der var en assist eller ej. Assist-type er et afgørende forhold, da den tilgodeser hold, der spiller bolden langs jorden. Hold der smider indlæg ind i feltet scorer færre mål på deres chancer end de hold, der spiller sig igennem. Dette er en af grundene til, at de bedste hold skaber større chancer end de dårlige hold.

Situation

Dødbolde er mindre farlige, end de fleste tror. Der scores eksempelvis kun på cirka 6% af alle direkte firspark. Skud fra direkte frispark har dog en større chance for at gå i mål end et skud fra åbent spil, hvis de har samme afstand til målet. Chancer skabt fra omstillinger er ligeledes farligere end normalt, da forsvaret ikke er på plads. Disse ting skal man tage højde for i sin model, hvorfor situation er et væsentligt forhold at inddrage i sin ExpG-model.

Afleveringens oprindelse

Man kigger kort sagt på, hvorfra assisten kom. Afleveringer inde fra feltet fører nemlig til langt farligere afslutninger end normalt. Det er kendetegnende for visse hold, at de spiller chancerne store, inden de afslutter. Det vil ofte give sig til udtryk ved, at de laver en ekstra aflevering inde i feltet til en spiller, der er endnu mere fri end dem selv. Denne type hold omfatter bl.a. Barcelona, Bayern München og Swansea. Disse hold vil blive undervurderet af ExpG, hvis man ikke inkluderer dette parameter.

Situationen er desværre den, at data om afleveringens oprindelse ikke er frit tilgængelig, hvorfor det ikke er aktuelt for os dødelige. Det skaber et problem, da man herved vil undervurdere bestemte hold. Dette er en af manglerne, hvis man laver sin egen ExpG-model.

Game state

Dette refererer til stillingen i kampen, når skuddet indtræffer. Når holdene er foran sent i kampen, så scorer de flere mål på deres chancer, end ExpG ellers ville indikere. Det skyldes, at modstanderen ofte vil satse mere eller mindre hovedløst og give store åbne chancer med dertilhørende højere scoringsprocent. Ligeledes vil hold score mindre på deres chancer, når de er bagud sent i kampen, da de ofte vil møde en forsvarsmur.

Derfor anbefales det at tilføje et parameter, hvor skud fra anden halveg bliver bedømt afhængigt af stillingen. Dette er dog en smule besværligt, hvorfor det ofte udelades. Man vil dog fejlvurdere enkelte hold, hvis det ikke inkluderes.

Spillerens afslutningsfærdigheder

Dette er et af de mest komplicerede parametre, da man prøver at tage højde for spillernes individuelle færdigheder. Det er næsten umuligt at bedømme, hvorvidt en spiller er en bedre afslutter end gennemsnittet, hvis man ikke har rigtig mange skudforsøg fra vedkommende. Generelt er de bedste spillere i verden bedre afsluttere, men forskellen er mindre, end man skulle tro. Ligeledes er offensive spillere bedre afsluttere end defensive spillere. Det kræver dog en del arbejde, hvis man vil tage højde for den enkelte spillers kvalitet. Man vil undervurdere topholdene, hvis dette parameter udelades.

Ovenstående er eksempler på væsentlige parametre, der øger præcisionen af ExpG. Der findes mange flere, men de er generelt ikke tilgængelige for os dødelige. Derudover mangler parameteret for forsvarsspillernes position i skudøjeblikket, men dette registreres ikke af Opta, der er firmaet bag disse skudstats. Det skaber en systematisk fejl, da hold som Atletico Madrid og Mönchengladbach bliver undervurderet. De er simpelthen bedre til at positionere sig i forsvaret, hvilket ExpG ikke tager højde for.

Man skal ligeledes være opmærksom på, at de forskellige ligaer er forskellige. Et skud med foden fra midten af feltet vil eksempelvis have mindre chance for at gå i mål i Premier League end i Bundesligaen. Det skyldes, at skuddene i langt højere grad bliver blokeret i Premier League, da holdene forsvarer mere kompakt end i Bundesligaen.

Disse forskelle er man nødt til at tage højde for, hvis det skal gøres præcist. Det er derfor vigtigt, at de sandsynligheder, der ligger til grund for ens ExpG-variant er beregnet hver liga for sig. Der skal altså laves en skud-database for hver enkelt liga, hvor man undersøger de forskellige skudmuligheders sandsynligheder for at gå i mål.

Efterbehandling: Straffespark og hjemmebanefordel

Man skal se ExpG fra skudstats som værende en råvare, der skal bearbejdes, inden det kan anvendes i betting. ExpG udtrykker nemlig kun holdenes forventede antal scorede og indkasserede mål i deres foregående kampe. Dette er ikke nødvendigvis retvisende for styrkeforholdet, hvorfor der skal tages højde for enkelte faktorer. Statistikker har det nemlig med at være upræcise tidligt på sæsonen, hvis man ikke efterbehandler dem.

Principperne for efterbehandling gælder ikke kun for ExpG, men kan ligeledes overføres til målstats. Det er generelt en god ide at kende til konceptet, hvis man anvender stats i sin fodboldbetting. Jeg har nedenfor beskrevet de faktorer, der er relevante for os bettere.

Straffespark

Det er normal procedure at udelade straffespark, når man analyserer holdenes skudforsøg. Det skyldes, at straffespark i høj grad er et udtryk for tilfældigheder. De bedste hold scorer generelt flere straffesparksmål end ligagennemsnittet, men de fordeler sig sjældent retvisende for samtlige hold. Derfor kan det anbefales at indregne ExpG fra straffespark i efterbehandlingen af holdenes skudstats.

Der findes en metode til efterbehandling af straffespark, hvor det ikke bliver alt for kompliceret. Man sorterer i første omgang straffesparkene fra sine skudstats. Derefter finder man det antal straffesparksmål et gennemsnitligt hold scorer per kamp. Dette tal lægger man oveni holdenes ExpG (både scoret og indkasseret) for hver kamp de har spillet.

Denne metode er desværre ikke helt præcis, da den undervurder de gode hold og overvurderer de dårlige. Eksempelvis tildeles Barcelona og Real Madrid forholdsvis mange straffespark ift. ligagennemsnittet. Det kan man dog korrigere for, hvis man ændrer lidt på fordelingsnøglen, så de bedste hold tildeles flere straffesparksmål per kamp end de dårlige hold.

Selvmål

Det forholder sig på samme måde med selvmål, der ligeledes skal udelades i analysen af skudstats. Selvmål i fodbold er en sjælden begivenhed, der næsten udelukkende styres af tilfældigheder. Der er praktisk talt ingen sammenhæng mellem et holds styrke og antallet af selvmål. Derfor kan man benytte den simple metode fra efterbehandlingen af straffespark, når man indregner selvmål i sin ExpG-model.

Man finder kort sagt det antal selvmål et gennemsnitligt hold scorer per kamp. Dette tal lægger man oveni holdenes ExpG (både scoret og indkasseret) for hver kamp de har spillet. Det vil give et ret præcist billede, da selvmål fordeler sig nogenlunde ligeligt på lang sigt.

Hjemmebanefordel

Hold skaber flest chancer på hjemmebane, hvorfor andelen af ude- og hjemmekampe kan påvirke holdenes ExpG-stats. Tallene vil ikke give det retvisende styrkeforhold, hvis holdene ikke har spillet lige mange ude- og hjemmekampe. Betydningen af dette bliver mindre i takt som sæsonen skrider frem, men efter 8-10 kampe kan det sagtens gøre en forskel.

Selvom de expected goals man regner sig frem til er retvisende for de givne kampe, så er det ikke nødvendigvis anvendeligt i betting, hvis styrkeforholdet er misvisende. Man er derfor nødt til at tage højde for hjemmebanefordelen, hvis man vil sammenligne tallene for de forskellige hold tidligt på sæsonen. Man kunne selvfølgelig opgøre ExpG for henholdsvis ude- og hjemmekampe, men det anbefales at samle tallene. Det giver nemlig en større sample, hvilket er en klar fordel tidligt på sæsonen.

Det tyder på, at holdene i en liga har den nogenlunde samme hjemmebanefordel uanset styrke. Der skal nok være undtagelser, men det er svært at identificere. Hjemmebanefordelen bliver generelt større jo længere afstanden er mellem klubberne, men derudover er det svært at undersøge nærmere. Hjemmebanefordelen svinger dog fra liga til liga.

Det er ikke en eksakt videnskab at tage højde for hjemmebanefordelen, men det kan gøres nogenlunde præcist. Formålet er at omregne holdenes ExpG fra ude- og hjemmekampe til neutral bane, hvilket er sammenligneligt. Der findes en simpel måde, hvor det ikke bliver alt for avanceret.

Metoden

I Bundesligaen scorer hjemmeholdene historisk set 27% flere mål end udeholdene. Hvis man tager halvdelen af hjemmebanefordelen, så ender man op med fordelen for neutral bane, hvilket er 13,5%. Tallet udtrykker fordelen ved at spille på neutral bane ift. udebane. De to tal omskrives til 1,27 og 1,135 til brug i den efterfølgende udregning.

Hvis man vil finde holdenes ExpG på neutral bane, så foretager man følgende beregninger på baggrund af holdenes ExpG (scoret og indkasseret):

ExpG scoret på neutral bane = (ExpG scoret hjemme / 1,27 + ExpG scoret ude) * 1,135

ExpG indkasseret på neutral bane = (ExpG indkasseret ude / 1,27 + ExpG indkasseret hjemme) * 1,135

Dette giver sammenlignelige tal, hvilket er afgørende, når man senere hen skal lave chancevurderinger på baggrund af ExpG.

Kampprogrammets sværhedsgrad

Det giver sig selv, at kvaliteten af modstanderne påvirker holdenes ExpG. Der er trods alt forskel på at møde Eibar og Real Madrid. Denne forskel giver sig især til udtryk i holdenes ExpG tidligt på sæsonen, da holdenes kampprogram er vidt forskellige i sværhedsgrad. Det udligner sig i takt med antallet af spillerunder, men i starten af sæsonen gør det en stor forskel. Derfor bliver man nødt til at tage højde for kamprogrammets sværhedsgrad, når man vurderer styrkeforholdene.

Det er desværre ikke helt ligetil, hvis det skal gøres nøjagtigt. Der findes ikke nogen simpel måde, hvorfor det er en smule tidskrævende, hvis man ikke bygger nogle smarte formler i Excel, der gør hele arbejdet for én. Jeg vil nedenfor komme med et eksempel på en metode, men det kræver minimum 8 spillerunder, før det er anvendeligt.

Man finder i første omgang det gennemsnitlige antal ExpG, der er blevet scoret per kamp indtil videre i sæsonen. Derefter dividerer man tallet med to, hvilket svarer til det antal mål et gennemsnitligt hold kunne have forventet at score og indkassere per kamp indtil videre i sæsonen. Dette tal er ens reference for en gennemsnitlig modstander.

Eksempel (nu bliver det teknisk, men hæng på)

Bundesligaen har der indtil videre i sæsonen været 2,96 ExpG per kamp. Det svarer til, at et gennemsnitligt hold scorer og indkasserer 1,48 mål per kamp. 
 
I dette fiktive eksempel vil jeg korrigere for sværhedsgraden i Dortmunds kampprogram. Dortmunds rå stats for sæsonen er 16 ExpG scoret og 7 ExpG indkasseret.
 
Herefter identificerer man samtlige modstandere til det hold, hvor man vil bedømme kampprogrammets sværhedsgrad.
 
Dortmund har spillet 8 kampe i sæsonen, hvor de har mødt følgende hold:
Mainz, Wolfsburg, Schalke, Mönchengladbach, Augsburg, Stuttgart, Hoffenheim og Bayer Leverkusen.
 

Herefter noterer man hver enkelt modstanders antal ExpG (scoret og indkasseret) per kamp for sæsonen. Man kigger altså på, hvordan modstanderne har præsteret i alle deres kampe i sæsonen. 

Da Dortmund eksempelvis har mødt Mainz, så dividerer man deres ExpG (scoret og og indkasseret) med antal spillede kampe. Det kunne være, at Mainz havde 12 ExpG scoret og 11,2 ExpG indkasseret for deres 8 kampe i sæsonen. Herved ville deres ExpG scoret og indkasseret per kamp være henholdsvis 1,5 og 1,4.

I dette tilfælde har de otte hold scoret og indkasseret følgende ExpG per kamp:

Scoret ExpG per kamp: 1,5 – 1,8 – 1,6 – 1,7 – 1,3 – 1,2 – 1,5 – 1,9

Indkasseret ExpG per kamp: 1,4 - 1,2 – 1,3 – 1,4 – 1,6 – 1,9 – 1,5 – 1,1

Disse tal dividerer man med ens reference for en gennemsnitlig modstander. Herved får man holdenes offensive og defensive styrke ift. ligagennemsnittet. En offensiv styrke over 1 er udtryk for en offensiv, der er bedre end ligagennemsnittet, mens under 1 er dårligere. Omvendt udtrykker en defensiv styrke under 1, at holdet har en bedre defensiv end ligagennemsnittet, hvor over 1 er dårligere.

I eksemplet vil man dividere tallene fra før med 1,46, hvilket giver følgende:

Offensive styrke: 1,03 – 1,23 – 1,1 – 1,16 – 0,89 – 0,82 – 1,03 – 1,3

Defensive styrke: 0,96 – 0,82 – 0,89 – 0,96 – 1,1 – 1,3 – 1,03 – 0,75

Herefter finder man gennemsnittet af de tal man ender op med for henholdsvis ExpG scoret og ExpG indkasseret. Dette gøres ved at lægge tallene sammen og dividere med antal modstandere.

Gennemsnitlig offensive styrke = (1,03+1,23+1,1+1,16+0,89+0,82+1,03+1,3) / 8 = 1,07

Dortmund har herved gennemsnitligt mødt hold, der er bedre offensivt end ligagennemsnittet, da tallet er over 1.

Gennemsnitlig defensive styrke = (0,96+0,82+0,89+0,96+1,1+1,3+1,03+0,75) / 8 = 0,98

Modstanderne har ligeledes haft en bedre defensiv end ligagennemsnittet, da den defensive styrke er under 1.

Afslutningsvis dividerer man holdets ExpG scoret og indkasseret for sæsonen med henholdsvis modstandernes gennemsnitlige defensive styrke og modstandernes gennemsnitlige offensive styrke.

Dortmunds ExpG scoret korrigeret for kampprogram = 16 / 0,98 = 16,3

Dortmunds ExpG indkasseret korrigeret for kampprogram = 7 / 1,07 = 6,5

Dortmunds ExpG scoret er herved 16,3 og ExpG indkasseret er 6,5, når man har korrigeret for kampprogrammets sværhedsgrad. Dortmund blev altså undervurderet af deres rå ExpG-stats, eftersom de har mødt bedre modstandere end ligagennemsnittet.

Dette var et eksempel på en metode, hvis man ønsker at korrigere for kampprogrammets sværhedsgrad. Det kan blive endnu mere præcist, men det kræver en mere avanceret tilgang.

Dataindsamling: Her finder du gratis info

Expected goals bygger på skudstats, hvilket bl.a. bliver indsamlet af firmaet Opta. De gør i et vis omfang deres data frit tilgængeligt på forskellige hjemmesider, men generelt er deres data forbeholdt fodboldklubber, medier, bookmakere og bettingsyndikater.

Der findes ikke frit tilgængeligt Opta-stats på Superligaen, men de fleste store ligaer er dækket på diverse hjemmesider. De mest avancerede data om skuddene er ikke tilgængelige, men de mere almindelige forhold er inkluderet.

Hjemmesider som whoscored.com og squawka.com offentliggør en del skudstats. Man kan eksempelvis på whoscored.com finde skudstats ved at gå ind i deres match centre for hver enkelt kamp.

Problemet er at få disse data ned i et format, hvor man kan arbejde med det. Indsamlingen af data er den mest tidskrævende del af ExpG, da det tager ret lang tid at opbygge en skuddatabase. Det skal nemlig gøres manuelt, hvilket jeg fraråder folk at begive sig ud i, hvis de værdsætter deres tid.

Der findes dog en smart løsning, hvis man er teknisk dygtig. Det kaldes web-scraping. Web-scraping er en metode, der gør det muligt at hente data ned fra hjemmesider automatisk og hurtigt. Det kræver som sagt lidt teknisk snilde, men forskellige guides på nettet kan forklare fremgangsmåden.

Problemet er, at den pågældende data ikke må være fremstillet i javascripts, da det umuliggør web-scraping. Whoscored.com opstiller selvfølgelig deres data i javascripts. Man skal derfor finde hjemmesider, hvor det ikke bliver opstillet i javescripts, hvis man vil hente det nogenlunde smertefrit. 

Den gode nyhed er, at disse hjemmesider eksisterer. Den dårlige nyhed er, at web-scraping fra disse sider langt fra er smertefrit. Det kræver nemlig et rigtig godt kendskab til et program kaldet R. Jeg vil fraråde alle at begive sig ned af den vej, hvis de ikke roder med programmet til daglig. Eftersom fremgangsmåden er relativt kompliceret, vil jeg ikke beskrive den nærmere. Hvis man er interesseret i metoden, så forklarer jeg den gerne i en kommentar til artiklen, hvis der anmodes om det.

Jeg vil afslutningsvis sige, at indsamlingen af data er det største problem ved ExpG. Det er et stort omfattende arbejde, hvis man skal gøre det selv. Har du lyst, så gå i krig med det - ellers  vil jeg råde de fleste til at vente tålmodigt. Der skal nok være nogle, der på et tidspunkt offentliggør ExpG for de forskellige ligaer. Det findes allerede i dag for Premier League og MLS, så det er kun et spørgsmål om tid. Alternativt skal man håbe, at de avancerede skudstats på et tidspunkt bliver offentligt tilgængelige, hvor det er muligt at hente ned uden besvær. 

To be continued

I den næste artikel i serien om expected goals vil jeg beskrive, hvordan man går fra ExpG til en chancevurdering mellem to hold. Metoden er relevant, selvom man ikke er interesseret i ExpG, da det kan overføres til de fleste stats i fodbold. Det giver samtidig en bedre forståelse for oddssætning, da man får indsigt i det tekniske ved fodboldbetting.

Jeg vil ligeledes komme ind på fejlene og manglerne ved expected goals, hvilket er en længere liste, da ExpG stadig er i den tidlige fase. Jeg vil derudover kigge på fremtidsudsigter for ExpG, da konceptet rummer store muligheder på længere sigt.

Afslutningsvis vil jeg beskrive, hvordan jeg benytter ExpG i min egen betting. Selvom jeg er mindre optaget af expected goals i dag end tidligere, så har jeg fået et andet syn på fodbold, hvilket unægteligt har haft positiv indflydelse på min betting.