ATTENTION : les données à prédire sont partiellement accessibles librement. Le challenge consistera bien évidemment à les prédire et non à tenter de les retrouver et les copier. Les algorithmes des gagnants seront demandés.
Description
Competitive challenge
Economic sciences
Industrial
Regression
Time series
Tabular
10MB to 1GB
Basic level
Dates
Started on Jan. 10, 2024
Challenge context
SNCF-Transilien est l’opérateur de trains de banlieue d'Île-de-France. Nous faisons circuler plus de 6 200 trains permettant à 3,2 millions de voyageurs de se déplacer. Ces voyageurs valident leurs cartes à puce sur nos portiques en moyenne 2,3 millions de fois par jour. Le nombre de validations croît de 2015 à 2019 d’environ 6% par an. Mieux anticiper cette augmentation nous aidera à proposer des services plus adaptés et à améliorer la performance de notre exploitation.
Challenge goals
Le but de ce challenge pour SNCF-Transilien est de prédire à moyen-long terme le nombre de validations par jour et par gare.
C'est un problème classique de prévision de séries temporelles. La complexité vient de la multiplicité des séries. L'objectif pour SNCF-Transilien est de pouvoir anticiper les volumes de voyageurs à absorber dans les années à venir. SNCF-Transilien est objectivé sur la croissance du volume de validations sur ses gares, l'anticiper et mieux le comprendre est essentiel pour nous.
Data description
Origine des données
Les données de validations sont issues d’un ensemble de bases de données de validations provenant d’Île-de-France Mobilités.
Structure des données
Nous utilisons la variable
date pour spécifier le jour auquel les validations sont comptabilisées et
station pour spécifier la gare donnée. La variable
y donne le nombre de validations par jour et par gare.
- Un jeu de données train.csv avec 1 237 971 lignes et 6 colonnes. Il s’agit des données quotidiennes de validations des 448 stations du réseau SNCF-Transilien (comprenant toutes les gares du RER A et du RER B) entre le 1er janvier 2015 et le 31 décembre 2022 (soit 2922 jours).
- Un jeu de données test.csv avec 78 652 lignes et 6 colonnes. Il s’agit des données quotidiennes de validations des 448 stations du réseau SNCF-Transilien (comprenant toutes les gares du RER A et du RER B) entre le 1er janvier 2023 et le 30 juin 2023 (soit 181 jours).
Nous vous demandons de prédire le nombre de validations (variable
y) par jour pour toutes les gares de SNCF-Transilien entre le 1er janvier 2023 et le 30 juin 2023.
Nous fournissons quelques variables exogènes qui pourront être enrichies.
Variables contextuelles :
- date : la date du jour où les validations ont été collectées au format YYYY-MM-DD ;
- station : identifiant de la gare anonymisé en 3 caractères (7RP, J3V…) ;
- job : indicatrice valant 1 si le jour est un JOB (Jour Ouvrable de Base), c’est-à -dire un lundi, mardi, mercredi, jeudi ou vendredi, 0 sinon ;
- ferie : indicatrice valant 1 si le jour est férié, 0 sinon ;
- vacances : indicatrice valant 1 si le jour correspond Ă un jour de vacances scolaires, 0 sinon.
Benchmark description
MĂ©trique
La mesure de l'erreur se fera en Mean Absolute Percentage Error (MAPE), c'est-Ă -dire :
$$\frac{1}{n} \sum_{i=1}^n \frac{|y_i - \hat{y_i}|}{y_i}$$
où n correspond au nombre de couples gare x date disponibles dans le jeu de données test (test.csv).
Modèle de référence
Le modèle de référence utilisé dans ce challenge n'est pas vraiment un modèle. C'est une simple copie des données de validation de l’année 2022 transposée à 2023 et calibrée de sorte à ce que les jours de la semaine soient en phase. A titre d'exemple, le nombre de validations du dimanche 1er janvier 2023 correspond à celui du dimanche 2 janvier 2022.
Files
Files are accessible when logged in and registered to the challenge
The challenge provider