Teknisk dokumentation

Metodologi

Teknisk beskrivning av Travmaskinens prediktionsmodell — dataset, feature engineering, modellarkitektur, validering och begränsningar.

Senast uppdaterad: april 2026

Av Kenny Paavola, grundare & AI-utvecklare

Sammanfattning

Travmaskinen använder en gradient-boosted tree-modell (XGBoost) för att predicera utfallet i svenska travlopp. Modellen tränas på 2,2 miljoner starter från 2012 till idag och analyserar 178 datapunkter per häst. På osedd testdata (2025) uppnår modellen AUC 0.83, Brier score 0.068 och NDCG@3 0.72. En Benter log-odds blend kombinerar modellens prediktion med aktuella poolodds för att producera den slutgiltiga vinst­sannolikheten.

1. Dataset

All träningsdata hämtas från ATG:s officiella resultatdata via deras publika API. Datasettet omfattar:

DimensionStorlek
Tidsperiod2012 — nuvarande
Antal starter2 200 000+
Antal lopp202 000+
Unika hästar60 000+
Unika kuskar5 200+
Unika tränare9 900+
Banor (Norden)122

Data uppdateras dagligen efter varje tävlingsdag. Ingen manuell filtrering görs — alla lopp inkluderas oavsett fältstorlek eller spelform.

2. Feature engineering

Varje häst i ett lopp representeras av 178 features grupperade i fem kategorier. Vikterna nedan är modellens feature importance (gain-baserad):

Spår & fältkontext31%

Spårposition, fältstorlek, startmetod (auto/volt), distans, underlag

Bana & distans23%

Vinstfrekvens per bana, distanshistorik, bana×distans-interaktion

Kusk & tränare18%

Kuskens vinstprocent, kusk-tränare-kombination, kuskbyte-signal, banform

Utrustning & avel15%

Utrustningsbyten (skor, bett, grimma), avelsindex, släktprestation på distans

Pooldynamik13%

Spelad andel vs modellens bedömning, marknadsöversikt, odds-avvikelse

Features beräknas med rolling windows (senaste 5, 10, 20 starter) för att fånga både kort- och långsiktig form. Saknade värden (t.ex. första start på en bana) fylls med globala medianvärden.

3. Modellarkitektur

3.1 Grundmodell (XGBoost)

En XGBoost-klassificerare tränas med binär loggförlust (logistic objective). Hyperparametrar optimeras via Bayesian optimization på ett hållet valideringsset (2024). Modellen lär sig att rangordna hästar inom varje lopp — inte att predicera exakta vinstmarginaler.

Odds används aldrig i träningen. Grundmodellen ser bara hästens faktiska meriter. Detta är avgörande för att undvika information leakage från marknaden.

3.2 Benter log-odds blend

Efter att grundmodellen producerat en vinstsannolikhet per häst, kombineras den med aktuella poolodds via metoden beskriven av William Benter (1994). Benter-blenden justerar modellens prediktion baserat på marknadens kollektiva information utan att förstöra modellens oberoende signal.

Blandningsvikten (λ) kalibreras på historisk data för att maximera AUC på validerings­settet. Aktuellt λ-värde: 0.65 (modell) / 0.35 (marknad).

4. Valideringsresultat

Modellen utvärderas på osedd data från 2025 (out-of-sample). Inga lopp från valideringsperioden används i träning.

MetrikVärdeTolkning
AUC0.83Rangordnar vinnare över icke-vinnare i 83% av paren
Brier score0.068Lågt = välkalibrerade sannolikheter
NDCG@30.72Topp-3 rankningskvalitet
Top-1 accuracy~28%Högst rankade hästen vinner i 28% av loppen
Top-3 accuracy~62%Vinnaren i topp 3 i 62% av loppen

För referens: slumpmässig gissning ger AUC 0.5 och top-1 accuracy ca 8–12% beroende på fältstorlek.

5. Begränsningar

  • Ingen garanti för vinst. AUC 0.83 innebär att modellen är bättre än slumpen, inte att den alltid har rätt.
  • Realtidsdata saknas delvis. Utrustningsbyten och stallförändringar kan ske på tävlingsdagen utan förvarning.
  • Distribution shift. Om ATG ändrar spelregler eller banförhållanden kan modellens prestation försämras tillfälligt.
  • Benter-blenden är marknadsberoende. Om poolmarknaden är kraftigt snedvriden (t.ex. vid mycket små pooler) kan blenden försämra grundmodellens signal.

6. Referenser

  • Benter, W. (1994). “Computer Based Horse Race Handicapping and Wagering Systems: A Report.” Efficiency of Racetrack Betting Markets, Academic Press.
  • Chen, T. & Guestrin, C. (2016). “XGBoost: A Scalable Tree Boosting System.” KDD '16.

Relaterade sidor

  • AI-Modellen — interaktiva grafer, realtidsmätningar och AUC per spelform
  • Om Travmaskinen — grundaren Kenny Paavola och bakgrunden till projektet
  • Vanliga frågor — svar på vanliga frågor om AI-tipsen och spelformerna

Se modellen i praktiken

Utforska realtidsmätningar, AUC-grafer per spelform och systemträffsiffror.

AI-Modellen →