Sammanfattning
Travmaskinen använder en gradient-boosted tree-modell (XGBoost) för att predicera utfallet i svenska travlopp. Modellen tränas på 2,2 miljoner starter från 2012 till idag och analyserar 178 datapunkter per häst. På osedd testdata (2025) uppnår modellen AUC 0.83, Brier score 0.068 och NDCG@3 0.72. En Benter log-odds blend kombinerar modellens prediktion med aktuella poolodds för att producera den slutgiltiga vinstsannolikheten.
1. Dataset
All träningsdata hämtas från ATG:s officiella resultatdata via deras publika API. Datasettet omfattar:
| Dimension | Storlek |
|---|---|
| Tidsperiod | 2012 — nuvarande |
| Antal starter | 2 200 000+ |
| Antal lopp | 202 000+ |
| Unika hästar | 60 000+ |
| Unika kuskar | 5 200+ |
| Unika tränare | 9 900+ |
| Banor (Norden) | 122 |
Data uppdateras dagligen efter varje tävlingsdag. Ingen manuell filtrering görs — alla lopp inkluderas oavsett fältstorlek eller spelform.
2. Feature engineering
Varje häst i ett lopp representeras av 178 features grupperade i fem kategorier. Vikterna nedan är modellens feature importance (gain-baserad):
Spårposition, fältstorlek, startmetod (auto/volt), distans, underlag
Vinstfrekvens per bana, distanshistorik, bana×distans-interaktion
Kuskens vinstprocent, kusk-tränare-kombination, kuskbyte-signal, banform
Utrustningsbyten (skor, bett, grimma), avelsindex, släktprestation på distans
Spelad andel vs modellens bedömning, marknadsöversikt, odds-avvikelse
Features beräknas med rolling windows (senaste 5, 10, 20 starter) för att fånga både kort- och långsiktig form. Saknade värden (t.ex. första start på en bana) fylls med globala medianvärden.
3. Modellarkitektur
3.1 Grundmodell (XGBoost)
En XGBoost-klassificerare tränas med binär loggförlust (logistic objective). Hyperparametrar optimeras via Bayesian optimization på ett hållet valideringsset (2024). Modellen lär sig att rangordna hästar inom varje lopp — inte att predicera exakta vinstmarginaler.
Odds används aldrig i träningen. Grundmodellen ser bara hästens faktiska meriter. Detta är avgörande för att undvika information leakage från marknaden.
3.2 Benter log-odds blend
Efter att grundmodellen producerat en vinstsannolikhet per häst, kombineras den med aktuella poolodds via metoden beskriven av William Benter (1994). Benter-blenden justerar modellens prediktion baserat på marknadens kollektiva information utan att förstöra modellens oberoende signal.
Blandningsvikten (λ) kalibreras på historisk data för att maximera AUC på valideringssettet. Aktuellt λ-värde: 0.65 (modell) / 0.35 (marknad).
4. Valideringsresultat
Modellen utvärderas på osedd data från 2025 (out-of-sample). Inga lopp från valideringsperioden används i träning.
| Metrik | Värde | Tolkning |
|---|---|---|
| AUC | 0.83 | Rangordnar vinnare över icke-vinnare i 83% av paren |
| Brier score | 0.068 | Lågt = välkalibrerade sannolikheter |
| NDCG@3 | 0.72 | Topp-3 rankningskvalitet |
| Top-1 accuracy | ~28% | Högst rankade hästen vinner i 28% av loppen |
| Top-3 accuracy | ~62% | Vinnaren i topp 3 i 62% av loppen |
För referens: slumpmässig gissning ger AUC 0.5 och top-1 accuracy ca 8–12% beroende på fältstorlek.
5. Begränsningar
- Ingen garanti för vinst. AUC 0.83 innebär att modellen är bättre än slumpen, inte att den alltid har rätt.
- Realtidsdata saknas delvis. Utrustningsbyten och stallförändringar kan ske på tävlingsdagen utan förvarning.
- Distribution shift. Om ATG ändrar spelregler eller banförhållanden kan modellens prestation försämras tillfälligt.
- Benter-blenden är marknadsberoende. Om poolmarknaden är kraftigt snedvriden (t.ex. vid mycket små pooler) kan blenden försämra grundmodellens signal.
6. Referenser
- Benter, W. (1994). “Computer Based Horse Race Handicapping and Wagering Systems: A Report.” Efficiency of Racetrack Betting Markets, Academic Press.
- Chen, T. & Guestrin, C. (2016). “XGBoost: A Scalable Tree Boosting System.” KDD '16.
Relaterade sidor
- AI-Modellen — interaktiva grafer, realtidsmätningar och AUC per spelform
- Om Travmaskinen — grundaren Kenny Paavola och bakgrunden till projektet
- Vanliga frågor — svar på vanliga frågor om AI-tipsen och spelformerna
Se modellen i praktiken
Utforska realtidsmätningar, AUC-grafer per spelform och systemträffsiffror.
AI-Modellen →
