Data Challenge



Le Data Challenge organisé par le "groupe des Jeunes Statisticien.ne.s" est une compétition ouverte à tous visant à étudier des jeux de données mis à disposition par de grandes entreprises ou des entités publiques.

Édition 2018 (voir affiche)

Cette année, elle est organisée en partenariat avec Quantmetry et EDF.



Jeu de données et évaluation des systèmes

Le but de ce challenge est de prévoir la consommation électrique de l’île d'Ouessant à 8 jours, en s’aidant des données suivantes :
- un an de données de consommation historiques, à la maille horaire (conso_train.csv),
- un an de données météorologiques à la maille tri-horaire, issues de la proche station météorologique de Brest (meteo_train.csv),
- une semaine de données météorologiques à la maille tri-horaire, issues de la même station et faisant office de prédiction météorologique (meteo_prev.csv).



Le principe est de considérer les prévisions météorologiques comme parfaites et de se placer dans le cadre défini par la figure ci-dessous pour prédire la consommation horaire sur une semaine :
Le critère d’évaluation de la qualité de prévision sera l’erreur absolue moyenne en pourcentage (MAPE).
En cas d’égalité au niveau de la MAPE, le jury utilisera l’erreur quadratique moyenne (RMSE) pour identifier la solution la plus performante.

L’introduction de jeux de données supplémentaires est autorisée, moyennant l'accord d'un des membres du jury, si cela peut avoir un intérêt dans la modélisation.
L’utilisation d’informations n’étant pas présentes dans les données est autorisée dans la mesure où il s’agit d’informations d’ordre général et publiques, permettant la création ou modification de variables à partir de données fournies.
À titre d’exemple, cela veut dire qu’il sera autorisé d’aller chercher des jours-fériés à la main, mais pas d’ajouter plus de données de consommation pour l’entrainement. N’hésitez pas à contacter le jury si vous avez un doute sur ce que vous avez le droit d’utiliser ou non.





Règlement et inscription

Les équipes s'inscrivant au data challenge doivent être composées d'une à trois personnes.
Les solutions doivent être envoyées sous la forme d'un notebook agrémenté d'explications à l'adresse suivante datachallenge_jds2018@sfds.asso.fr. Le format notebook est encouragé par le jury mais un autre format tutoriel, avec explications à l'appui, sera accepté aussi. Il sera demandé en outre aux participants de fournir un code reproductible leur ayant permis d’obtenir leurs résultats à partir des données fournies, ainsi que leur vecteur de solution sous la forme d’un fichier .csv dont la forme est celle de conso_prev.csv (consommation horaire entre le 13/09/2016 00:00 et le 20/09/2016 23:00).

Le jury ne pourra juger que les rapports détaillés (codes fournis : R, python, matlab) et les explications claires.
Les organisateurs s'interdisent de tirer un profit des solutions proposées en les monétisant, autre que l'accroissement de la connaissance scientifique, qui est d'ailleurs à destination de tous ; les solutions restent propriété des auteurs.

Formulaire pour l’inscription ici .
Attention, pour obtenir les données vous devez remplir le formulaire d'inscription.

Dates importantes

La compétition se déroulera de la manière suivante:
  • Début des inscriptions : 30 Janvier 2018
  • Clôture des inscriptions : 12 Février 2018
  • Envoi du jeu de données : 17 Février 2018
  • Début des soumissions : 19 Février 2018
  • Fin des soumissions : 23 Avril 2018
  • Publication des résultats : 14 Mai 2018
  • Présentation : semaine du 28 Mai 2018

Prix

Un prix sera attribué à la meilleure prédiction. Les deux meilleures solutions s'engagent à présenter leurs productions lors de la session spéciale groupe "des Jeunes Statisticien.ne.s" organisée durant les 50ièmes Journées de Statistique à EDF Lab Saclay. En outre, les deux meilleurs groupes se verront proposer une soumission d'article résumant les travaux primés destinée à la revue CSBIGS de la SFdS.

Jury


Organisateurs groupe Jeunes : Émilie Devijver et Valérie Robert







 
 
©2018 SFdS
Société Française de Statistique
Institut Henri Poincaré
11 rue Pierre et Marie Curie
75231 Paris cedex 5
Tél. : +33 (0)1 44 27 66 60
Notre site a été supporté par :