Data Challenge



Le Data Challenge organisé par le "groupe des Jeunes Statisticien.ne.s" est une compétition ouverte à tous visant à étudier des jeux de données mis à disposition par de grandes entreprises ou des entités publiques.

Édition 2018 (voir affiche)
Les deux équipes gagnantes sont LPSM204 (Paris Sorbonne) et Keyrus (UPMC). Le premier prix a été décerné par Francis Bach durant les 50 ièmes Journées de Statistique à EDF Lab Saclay.




L'édition 2018 est organisée en partenariat avec Quantmetry et EDF.



Jeu de données et évaluation des systèmes

Le but de ce challenge est de prévoir la consommation électrique de l’île d'Ouessant à 8 jours, en s’aidant des données suivantes :
- un an de données de consommation historiques, à la maille horaire (conso_train.csv),
- un an de données météorologiques à la maille tri-horaire, issues de la proche station météorologique de Brest (meteo_train.csv),
- une semaine de données météorologiques à la maille tri-horaire, issues de la même station et faisant office de prédiction météorologique (meteo_prev.csv).



Le principe est de considérer les prévisions météorologiques comme parfaites et de se placer dans le cadre défini par la figure ci-dessous pour prédire la consommation horaire sur une semaine :
Le critère d’évaluation de la qualité de prévision sera l’erreur absolue moyenne en pourcentage (MAPE).
En cas d’égalité au niveau de la MAPE, le jury utilisera l’erreur quadratique moyenne (RMSE) pour identifier la solution la plus performante.

L’introduction de jeux de données supplémentaires est autorisée, moyennant l'accord d'un des membres du jury, si cela peut avoir un intérêt dans la modélisation.
L’utilisation d’informations n’étant pas présentes dans les données est autorisée dans la mesure où il s’agit d’informations d’ordre général et publiques, permettant la création ou modification de variables à partir de données fournies.
À titre d’exemple, cela veut dire qu’il sera autorisé d’aller chercher des jours-fériés à la main, mais pas d’ajouter plus de données de consommation pour l’entrainement.

Plus précisément, Dans le cadre de l'utilisation de données externes au jeu de données fourni par le jury, les règles sont les suivantes :

- les données doivent être disponibles publiquement,
- les sources doivent être clairement explicitées dans le notebook
- les données doivent être datées d'avant la semaine à prédire (c'est-à-dire qu'elles devaient être disponibles avant le 13/09/2016).

Ainsi, selon ces règles, les données météo plus fines sont utilisables mais uniquement dans le passé, de même que les données de consommation (locale ou nationale) mais sur la même période de temps que celle de l’échantillon d’apprentissage (entre le 13/09/2015 et le 13/09/2016). Par exemple, les informations connues à l'avance comme les jours fériés, les jours de marée, ou l'heure de coucher du soleil peuvent être utilisés. Mais si vous utilisez des données disponibles jour après jour, il faudra utiliser une prédiction disponible et explicite dans le notebook.

N’hésitez pas à contacter le jury si vous avez un doute sur ce que vous avez le droit d’utiliser ou non.





Règlement et inscription

Les équipes s'inscrivant au data challenge doivent être composées d'une à trois personnes.
Les solutions doivent être constituées d'un fichier intitulé leNomDeVotreEquipe.csv de la forme de sample_solution.csv (également appelé conso_prev.csv  : consommation horaire entre le 13/09/2016 00:00 et le 20/09/2016 23:00) ainsi que d'un notebook avec le code reproductible ayant permis d’obtenir les résultats à partir des données fournies. Le format notebook est encouragé par le jury mais un autre format tutoriel, avec explications à l'appui, sera accepté aussi.
Elles doivent être envoyées par mail à l'adresse suivante datachallenge_jds2018@sfds.asso.fr avec comme objet du mail l'intitulé suivant : [Data Challenge Solution] Nom équipe.

Le jury ne pourra juger que les rapports détaillés (codes fournis : R, python, matlab) et les explications claires.
Les organisateurs s'interdisent de tirer un profit des solutions proposées en les monétisant, autre que l'accroissement de la connaissance scientifique, qui est d'ailleurs à destination de tous ; les solutions restent propriété des auteurs.

Formulaire pour l’inscription ici .
Attention, pour obtenir les données vous devez remplir le formulaire d'inscription.

Dates importantes

La compétition se déroulera de la manière suivante:
  • Début des inscriptions : 30 Janvier 2018
  • Clôture des inscriptions : 12 Février 2018
  • Envoi du jeu de données : 17 Février 2018
  • Début des soumissions : 19 Février 2018
  • Fin des soumissions : 23 Avril 2018
  • Publication des résultats : 14 Mai 2018
  • Présentation : semaine du 28 Mai 2018


Équipes participantes & classement final

BigDataHero : 22
Charo  : 9
DataConso : 13
Datadevil : 23
DataExMAchina  : 5
Datajine  : 20
DataWinner  : 16
DatIMA : 17
DatINSAT : 15
FSSM_Forecasting : 14
Keyrus  : 2
La_Brute_et_le_Truand : 21
Les Expats  : 3
Libellule : 7
LPSM204  : 1
Ouessanest : 4
Precogs  : 11
Rickcornichon : 18
SidRC : 7
STORM : 19
TAT : 10
Team Estia  : 12
Team SCE  : 6



Prix

Un prix sera attribué à la meilleure prédiction et remis par Francis Bach, président du comité scientifique de la conférence des JdS. Les deux meilleures solutions s'engagent à présenter leurs productions lors de la session spéciale groupe "des Jeunes Statisticien.ne.s" organisée durant les 50ièmes Journées de Statistique à EDF Lab Saclay. En outre, les deux meilleurs groupes se verront proposer une soumission d'article résumant les travaux primés destinée à la revue CSBIGS de la SFdS.

Jury


Organisateurs groupe Jeunes : Émilie Devijver et Valérie Robert







 
 
©2018 SFdS
Société Française de Statistique
Institut Henri Poincaré
11 rue Pierre et Marie Curie
75231 Paris cedex 5
Tél. : +33 (0)1 44 27 66 60
Notre site a été supporté par :