Onkel ELO gør status: Elendige, men støjende tal

Igennem hele Superliga-foråret leverede Teoretikeren spilforslag til Superligaen baseret på systemet ELO-rating. Nu er det tid til at gøre status. Umiddelbart ser tallene mildest talt elendige ud, men hvad kan vi så konkludere ud fra det? Med lommeregner i hånden knuser vi her ELO's tal og tager en tur gennem sandsynlighedsberegningens ABC.

Vi er godt nok allerede i gang med den nye Superliga-sæson, men det forhindrer os altså ikke i at kigge lidt bagud.

Vi skal nemlig have evalueret Onkel ELO's præstation for sidste sæson. De fleste BetXpert-brugerne er uden tvivl bekendt med den fiffige onkel, der har grebet bettingen noget anderledes an end den gængse tipper.

ELO baserer sig kort sagt på et gammelt rating-system kendt fra skakkens verden. Gennem ELO-rating har skribenten Teoretikeren gennem dele af sidste sæson forsøgt sig med systemet, der rater de enkelte hold indbyrdes, og som automatisk kan konverteres til en sandsynlighed for de forskellige udfald. Vil du læse mere om ELO-rating så læs denne gamle artikel.

Der var nogle få ELO-spil fra efteråret '14, men vi har valgt at analysere på forårssæsonen, da vi derved har datamængder, som går igen runde efter runde.

Lad os først prøve at kigge på, hvordan det gik for ELO-ratingen i Superligaen, og hvad vi kan lære på trods af den meget lille test (set med statistikerens øjne). Vi gør os også nogle betragtninger og kigger på, hvordan man kan finjustere systemet forud for 2015-16 sæsonen.

Som altid – start med data

Onkel ELO leverede spilforslag udfra følgende device:

Iført den iskolde værdi-kasket har ELO snuppet den højeste betvalue (forudsat at den er over 100) i den givne kamp.
Iført Money Management-cykelhjelmen har han anbefalet mindre risikable, men stadig værdiholdige halvgarderinger. Krav til sandsynlighed har her været mindst 40% - ellers bliver det vurderet som for risikabelt for den forsigtige spiller.

Der er spillet 1 enhed på alle kampe. Samlet ser resultatet for de 2 spilleprofiler ud som følger:

Profil	Antal kampe	Samlet resultat	TB%	TB% teoretisk
Højest værdi	88	-25,26	71%	98,3
Værdi og mindst 40% chance	70	-19,55	72%	Lidt lavere

For nogle enkelte kampe blev odds opdateret på BetXpert efter, at de havde forladt min hånd. Det skyldtes, at odds havde ændret sig, før artiklen var blevet redigeret og havde nået BetXperts netspalter. Derfor kan der være enkelte afvigelser mellem de data, der findes i artikelarkivet og de data, der er arbejdet med her, men billedet er det samme.

Resultatet er virkelig ikke imponerende.

En tilbagebetaling på omkring 71% er da helt til rotterne! Så herved kan vi konkludere, at ELO-rating ikke kan bruges i Superligaen. Eller kan vi? Nej, så simpelt er det ikke. For der er simpelthen for få data til, at vi kan sætte to streger under facit.

Hør efter - vigtig pointe

Lad mig slå fast endnu engang. Et tilfældigt system - og andre veludførte tests - vi lande inden for plus minus få procent (lad os sige 5%) af den teoretiske tilbagebetalingsprocent. Er dette ikke tilfældet, er man enten blandt de ekstremt få, der har et system, der kan slå markedet markant, eller også har man ikke haft data nok. Dvs. for ovenstående kan alle resultater uden for 103,3% til 93,3% forkastes, da der ikke er data nok.

Lad os tage et pædagogisk eksempel. Vi har opfundet et nyt system, der spiller på udfaldet 6 på en terning. En bookie er villig til at give os odds 6 på dette udfald. Vi beslutter gennem foråret at spille 6 gange hver weekend og samler resultatet sammen i en artikel, hvor det skal vurderes, om vi skal tage lån i banken og spille efter 6'er-systemet for store beløb.

Resultatet for 20 tilfældige gennemløb med 100 terningkast forløber, som følger (prøv selv hvis du vil tjekke, jeg har brugt excel). Vi finder en anden bookie, der vil give odds 2 for plat i en serie plat og krone spil på deres hjemmeside. Ligeledes spiller vi som test 6 gange hver weekend for at tjekke, om dette system vil gøre os rig.

System	Min TB% på 20 gennemløb af 100 spil	Max TB% på 20 gennemløb af 100 spil	Standardafvigelse	Sandsynlighed for udfald
Terning slå 6	48	126	19%-point	16,7%
Plat eller krone	88	122	8%-point	50%

Vi kan her lære noget om test af systemer og hvor mange kampe, der skal til at bevise, om systemet virker udfra, hvad den gennemsnitlige sandsynlighed for hver spil er. Ovenstående test er her gentaget, men nu er der kastet 100, 1.000 og 10.000 terninger - dette er gentaget 20 gange. Og så ses et klart billede på spredningen af resultatet mellem de 20 tests

Terningspil på 6	Min TB% på 20 gennemløb	Max TB% på 20 gennemløb	Standardafvigelse
100 kast per test	48	126	18,7-point
1.000 kast per test	89	115	6,4-point
10.000 kast per test	96,5	105,2	2,3-point

Jo flere kast der er med i testen, jo tættere kommer de naturlige udsving på sandheden. Inden vi konkluderer så lad os lige se på plat eller krone på samme måde.

Plat eller krone	Min TB% på 20 gennemløb	Max TB% på 20 gennemløb	Standardafvigelse
100 kast per test	88	122	18,7-point
1.000 kast per test	93,4	106,8	6,4-point
10.000 kast per test	98,7	101,9	2,3-point

Igen, jo flere kast jo tættere på sandheden. Hvis man kaster en mønt 10.000 gange, vil man, hvis dette gentages 20 gange i bedste gennemløb ende på 101,9% i TB og i ringeste gennemløb på 98,7 i TB. Man kan anvende statistik til at afgøre, om et resultat er signifikant, men lad os bruge ovenstående til lidt logiske konklusioner, inden det bliver for teoretisk. Af ovenstående kan man blandt andet konkludere følgende.

Jo højere sandsynlighed per spil i det system man vil teste, jo hurtigere vil man nærme sig den teoretiske TB% for ens system.
Jo flere spil man tester, jo tættere kommer man på systemets sande TB%.
Hvis man tester et system med odds omkring odds 6, vil det skulle tage op mod 30.000-50.000 spil, før man med sikkerhed kan afsløre, om man har et system, der kan slå den teoretiske TB% baseret på odds. Det vil måske tage 75.000-100.000 spil for at bevise. at systemet vil kunne skabe overskud, altså slå TB% nok til at komme fra de 97-98 i teoretisk TB% og op over de 100%.
Hvis man spiller omkring odds 2, og man spiller på et gennemsnitlig teoretisk TB% på 98%, så vil man, hvis man intet system har, andet end en abe med en mønt lande ca. mellem 96.5% og 99,5% efter 10.000 spil.
Kan man i umiddelbart nævnte eksempel slå 99.5% efter 10.000 spil til ca odds 2, så har man et system, der med stor sandsynlighed virker. Man skal dog stadig lidt over 100%, for at timelønnen bliver god nok.
Og her et kærligt klap til Betxperts eksperter og undertegnede, der selv elsker at påstå, jeg kan skabe langsigtet overskud. Hvis der findes eksperter, der har lagt under 2.000 spil ud og de i snit er omkring odds 2, og de har en TB% ,der lægger over 100%, så har de højst sandsynligt ikke testet nok spil endnu til, at vi ved, om de duer til noget. Eller også er de en af de sande troldmænd.

Husk en vigtig pointe. Hvis nogen kan spille nok gange til at bevise, at de har et system, der er signifikant ringere end teoretisk TB%, så har de ramt en guldmine. For så skal de jo bare starte med at spille på det modsatte udfald af, hvad systemet anbefaler.

Så derfor tror jeg heller ikke på systemer, der med nok spil er eksempelvis 10% ringere end teoretisk TB% baseret på odds.

Tilbage til Onkel ELOs test

Onkel ELO kastede terningen/mønten 88 henholdvis 70 gange og kom ud med et skidt resultat på ca. 71%. Vi har nu lært, at det bare var almindelig variation, og vi kunne lige så godt have endt med 130%. Der var alt alt for få data, især for den aggressive spiller.

Onkel ELO var dog i stand til at bekræfte nogle trends, man kan nikke genkendende til uden at kende til ELO-rating.

Hobros resultater fik ikke den kredit, de fortjente.
Der var ikke den tiltro til FCM, som deres resultater fortjente.
Brøndby var overvurderet det meste af sæsonen.
Sidst på sæsonen hæver bookies odds på kryds, men ELO ved ikke, at sæsonen er ved at være slut, så der spilles massivt på kryds.
ELO anvendt til Monte Carlo simulering kan give et fingerpeg om, hvem man skal spille på som dansk mester.

Kan ELO forbedres?

Ja selvfølgelig. Blandt andet på følgende punkter.

Som beskrevet i nogle af mine debatsvar er der anvendt generelle konstanter, der ikke er optimeret til Superligaen. Eksempelvis bør tillæg i Superligaen for en hjemmekamp være 75 point, og ikke de standard 100 point.
Ligeledes kan andre faktorer tunes, så det afgøres, hvor meget de nyeste resultater skal vejes i forhold til de ældre resultater.
Man kan vælge at holde sig fra de første 5-6 runder, fordi ELO ikke er klar over holdenes reelle styrke, da ELO ikke kender transfers etc.
Man kan vælge at holde sig fra de sidste 5-6 runder, da ELO ikke ved, at holdene bliver mere løsslupne, så kryds er mindre sandsynligt.
Man kan som beskrevet bruge mere krudt på at tjekke skader etc. På de enkelte hold.
Man kunne vælge konsekvent at spille mod Brøndby som et simpelt system.
Læg mærke til trends som Hobro, hvor ELO konsekvent vurderede et hold bedre end markedet. Det er næppe skader og lignende i 10-15 runder i træk, så er der nok en reelt bias i markedet.
Brug ELO på rækker der har endnu bedre odds TB% og bedre mulighed for køb og salg (Betfair*) af odds på mester som eksempelvis den engelske Premier league eller den spanske Primera division.
Helt afgørende vil det også være at gå fra flatbetting til en form for moneymanagement i stil med Kelly eller lignende beskrevet på BetXpert.

Skal ELO spille i den nye sæson?

Som offentliggjort test giver det som beskrevet i artiklen ikke meget mening af lægge spilforslag ud baseret på ELO. Som service og et indspark til debatten og ugens kampe, kunne det give mening, men så skulle det nok automatiseres for, at det ikke var for meget arbejde. Det kan dog være, onkel ELO vil blande sig i debatten omkring Superliga kampene, når han ser lidt value.