Challenge Data


by SNCF-Transilien


ATTENTION : les données à prédire sont partiellement accessibles librement. Le challenge consistera bien évidemment à les prédire et non à tenter de les retrouver et les copier. Les algorithmes des gagnants seront demandés.

Login to your account


Description


NO LOGO FOR THIS CHALLENGE
Competitive challenge
Economic sciences
Industrial
Regression
Time series
Tabular
10MB to 1GB
Basic level

Dates

Started on Jan. 10, 2024


Challenge context

SNCF-Transilien est l’opérateur de trains de banlieue d'Île-de-France. Nous faisons circuler plus de 6 200 trains permettant à 3,2 millions de voyageurs de se déplacer. Ces voyageurs valident leurs cartes à puce sur nos portiques en moyenne 2,3 millions de fois par jour. Le nombre de validations croît de 2015 à 2019 d’environ 6% par an. Mieux anticiper cette augmentation nous aidera à proposer des services plus adaptés et à améliorer la performance de notre exploitation.


Challenge goals

Le but de ce challenge pour SNCF-Transilien est de prédire à moyen-long terme le nombre de validations par jour et par gare.


C'est un problème classique de prévision de séries temporelles. La complexité vient de la multiplicité des séries. L'objectif pour SNCF-Transilien est de pouvoir anticiper les volumes de voyageurs à absorber dans les années à venir. SNCF-Transilien est objectivé sur la croissance du volume de validations sur ses gares, l'anticiper et mieux le comprendre est essentiel pour nous.


Data description


Origine des données

Les données de validations sont issues d’un ensemble de bases de données de validations provenant d’Île-de-France Mobilités.


Structure des données

Nous utilisons la variable date pour spécifier le jour auquel les validations sont comptabilisées et station pour spécifier la gare donnée. La variable y donne le nombre de validations par jour et par gare.
  • Un jeu de donnĂ©es train.csv avec 1 237 971 lignes et 6 colonnes. Il s’agit des donnĂ©es quotidiennes de validations des 448 stations du rĂ©seau SNCF-Transilien (comprenant toutes les gares du RER A et du RER B) entre le 1er janvier 2015 et le 31 dĂ©cembre 2022 (soit 2922 jours).
  • Un jeu de donnĂ©es test.csv avec 78 652 lignes et 6 colonnes. Il s’agit des donnĂ©es quotidiennes de validations des 448 stations du rĂ©seau SNCF-Transilien (comprenant toutes les gares du RER A et du RER B) entre le 1er janvier 2023 et le 30 juin 2023 (soit 181 jours).

Nous vous demandons de prédire le nombre de validations (variable y) par jour pour toutes les gares de SNCF-Transilien entre le 1er janvier 2023 et le 30 juin 2023. Nous fournissons quelques variables exogènes qui pourront être enrichies.


Variables contextuelles :

  • date : la date du jour oĂą les validations ont Ă©tĂ© collectĂ©es au format YYYY-MM-DD ;
  • station : identifiant de la gare anonymisĂ© en 3 caractères (7RP, J3V…) ;
  • job : indicatrice valant 1 si le jour est un JOB (Jour Ouvrable de Base), c’est-Ă -dire un lundi, mardi, mercredi, jeudi ou vendredi, 0 sinon ;
  • ferie : indicatrice valant 1 si le jour est fĂ©riĂ©, 0 sinon ;
  • vacances : indicatrice valant 1 si le jour correspond Ă  un jour de vacances scolaires, 0 sinon.


Benchmark description

MĂ©trique

La mesure de l'erreur se fera en Mean Absolute Percentage Error (MAPE), c'est-Ă -dire :

$$\frac{1}{n} \sum_{i=1}^n \frac{|y_i - \hat{y_i}|}{y_i}$$

où n correspond au nombre de couples gare x date disponibles dans le jeu de données test (test.csv).


Modèle de référence

Le modèle de référence utilisé dans ce challenge n'est pas vraiment un modèle. C'est une simple copie des données de validation de l’année 2022 transposée à 2023 et calibrée de sorte à ce que les jours de la semaine soient en phase. A titre d'exemple, le nombre de validations du dimanche 1er janvier 2023 correspond à celui du dimanche 2 janvier 2022.


Files


Files are accessible when logged in and registered to the challenge


The challenge provider


PROVIDER LOGO

Data scientist