Metodologi — Travmaskinens prediktionsmodell

Sammanfattning

Travmaskinen använder en gradient-boosted tree-modell (XGBoost) för att predicera utfallet i svenska travlopp. Modellen tränas på 2,2 miljoner starter från 2012 till idag och analyserar 178 datapunkter per häst. På osedd testdata (2025) uppnår modellen AUC 0.83, Brier score 0.068 och NDCG@3 0.72. En Benter log-odds blend kombinerar modellens prediktion med aktuella poolodds för att producera den slutgiltiga vinstsannolikheten.

1. Dataset

All träningsdata hämtas från ATG:s officiella resultatdata via deras publika API. Datasettet omfattar:

Dimension	Storlek
Tidsperiod	2012 — nuvarande
Antal starter	2 200 000+
Antal lopp	202 000+
Unika hästar	60 000+
Unika kuskar	5 200+
Unika tränare	9 900+
Banor (Norden)	122

Data uppdateras dagligen efter varje tävlingsdag. Ingen manuell filtrering görs — alla lopp inkluderas oavsett fältstorlek eller spelform.

2. Feature engineering

Varje häst i ett lopp representeras av 178 features grupperade i fem kategorier. Vikterna nedan är modellens feature importance (gain-baserad):

Spår & fältkontext31%

Spårposition, fältstorlek, startmetod (auto/volt), distans, underlag

Bana & distans23%

Vinstfrekvens per bana, distanshistorik, bana×distans-interaktion

Kusk & tränare18%

Kuskens vinstprocent, kusk-tränare-kombination, kuskbyte-signal, banform

Utrustning & avel15%

Utrustningsbyten (skor, bett, grimma), avelsindex, släktprestation på distans

Pooldynamik13%

Spelad andel vs modellens bedömning, marknadsöversikt, odds-avvikelse

Features beräknas med rolling windows (senaste 5, 10, 20 starter) för att fånga både kort- och långsiktig form. Saknade värden (t.ex. första start på en bana) fylls med globala medianvärden.

3. Modellarkitektur

3.1 Grundmodell (XGBoost)

En XGBoost-klassificerare tränas med binär loggförlust (logistic objective). Hyperparametrar optimeras via Bayesian optimization på ett hållet valideringsset (2024). Modellen lär sig att rangordna hästar inom varje lopp — inte att predicera exakta vinstmarginaler.

Odds används aldrig i träningen. Grundmodellen ser bara hästens faktiska meriter. Detta är avgörande för att undvika information leakage från marknaden.

3.2 Benter log-odds blend

Efter att grundmodellen producerat en vinstsannolikhet per häst, kombineras den med aktuella poolodds via metoden beskriven av William Benter (1994). Benter-blenden justerar modellens prediktion baserat på marknadens kollektiva information utan att förstöra modellens oberoende signal.

Blandningsvikten (λ) kalibreras på historisk data för att maximera AUC på valideringssettet. Aktuellt λ-värde: 0.65 (modell) / 0.35 (marknad).

4. Valideringsresultat

Modellen utvärderas på osedd data från 2025 (out-of-sample). Inga lopp från valideringsperioden används i träning.

Metrik	Värde	Tolkning
AUC	0.83	Rangordnar vinnare över icke-vinnare i 83% av paren
Brier score	0.068	Lågt = välkalibrerade sannolikheter
NDCG@3	0.72	Topp-3 rankningskvalitet
Top-1 accuracy	~28%	Högst rankade hästen vinner i 28% av loppen
Top-3 accuracy	~62%	Vinnaren i topp 3 i 62% av loppen

För referens: slumpmässig gissning ger AUC 0.5 och top-1 accuracy ca 8–12% beroende på fältstorlek.

5. Begränsningar

Ingen garanti för vinst. AUC 0.83 innebär att modellen är bättre än slumpen, inte att den alltid har rätt.
Realtidsdata saknas delvis. Utrustningsbyten och stallförändringar kan ske på tävlingsdagen utan förvarning.
Distribution shift. Om ATG ändrar spelregler eller banförhållanden kan modellens prestation försämras tillfälligt.
Benter-blenden är marknadsberoende. Om poolmarknaden är kraftigt snedvriden (t.ex. vid mycket små pooler) kan blenden försämra grundmodellens signal.

6. Referenser

Benter, W. (1994). “Computer Based Horse Race Handicapping and Wagering Systems: A Report.” Efficiency of Racetrack Betting Markets, Academic Press.
Chen, T. & Guestrin, C. (2016). “XGBoost: A Scalable Tree Boosting System.” KDD '16.

Relaterade sidor

AI-Modellen — interaktiva grafer, realtidsmätningar och AUC per spelform
Om Travmaskinen — grundaren Kenny Paavola och bakgrunden till projektet
Vanliga frågor — svar på vanliga frågor om AI-tipsen och spelformerna

Se modellen i praktiken

Utforska realtidsmätningar, AUC-grafer per spelform och systemträffsiffror.

AI-Modellen →