Axe 1 : Valorisation des données pour la prise de décision
L'exploitation de données comporte de nombreux avantages stratégiques. Celles-ci présentent souvent des défis méthodologiques en raison de leur nature ou de leur structure complexe, de leur grande dimension, de leur degré de confidentialité, ou même parfois de leur rareté ou de leur piètre qualité. Cet axe de recherche porte sur la conception d'outils mathématiques, statistiques et d'apprentissage machine pour le traitement, l'analyse et la modélisation de données à des fins descriptives, prédictives et prescriptives.
Membres
Cahiers du GERAD
Planners in different industries use optimization software for decision-making. In numerous practical applications, these optimization tools are often not re...
référence BibTeXOn global fragmentation metrics as proxy for network blocking: Correlation, detection and prediction
Les réseaux optiques élastiques (EON) sont confrontés à la fragmentation du spectre, qui peut entraver l'établissement de nouvelles connexions. Bien que le c...
référence BibTeX
À mesure que le changement climatique s'intensifie, la transition vers des sources d'énergie plus propres devient de plus en plus urgente. Avec l'accélératio...
référence BibTeXPublications
Activités
Ludovic Salomon – Polytechnique Montréal
Mathieu Boudreault – Professeur, Département de mathématiques, Université du Québec à Montréal
Bowen Yi – Professeur adjoint, Département de génie électrique, Polytechnique Montréal
Exemple en économie et finance
L'information implicite dans le prix des options haute fréquence
La plupart des prix des actifs présentent des mouvements volatils et inattendus. Certaines de ces fluctuations sont dues à des corrections soudaines – des sauts –, tandis que d'autres sont associées à des augmentations de la volatilité diffusive et transitoire. Il est cependant difficile de séparer la partie diffusive de la volatilité de sa composante de saut, car il n'y a pas de mesure directe de la volatilité – elle est latente. Cette étude examine ces deux composantes à l'aide de différents ensembles de données.
Historiquement, l'estimation de ces quantités reposait sur des retours quotidiens (basse fréquence) – en utilisant une observation par jour. De nos jours, cependant, des rendements sur des pas de temps plus petits – intrajournaliers – sont disponibles. Depuis plus d'une décennie, les chercheurs et chercheuses dans le domaine de la finance et de l'économétrie utilisent des rendements d'actifs dits à haute fréquence pour mesurer plus précisément le risque financier et comprendre cette décomposition.
En plus de ces rendements d'actifs à basse et à haute fréquence, toute une gamme d'options est négociée chaque jour. Ces options peuvent être considérées comme des contrats d'assurance sur l'actif lui-même : une prime doit être payée à l'achat pour avoir le droit d'exercer l'option à l'échéance. Ces primes dépendent du risque associé à l'assurance intégrée. Inclure le prix des différentes options dans notre échantillon nous aide donc à identifier le comportement des variables non observables : la volatilité et les sauts. En effet, de nombreuses études le font déjà en utilisant les prix des options en fin de journée. Cependant, très peu d'études ont utilisé des variations intrajournalières dans les options, car cela augmente considérablement la taille de l'échantillon et amplifie sensiblement les problèmes de calcul impliqués dans l'estimation des paramètres du modèle.
Cette étude utilise les observations classiques (rendements, variations intrajournalières et prix des options en fin de journée) et ajoute les variations intrajournalières des prix des options. Nous montrons que l'information contenue dans le prix des options à haute fréquence nous permet de mieux comprendre la répartition mentionnée ci-dessus. Par ailleurs, les facteurs inobservables du modèle (volatilité et sauts) sont mesurés plus précisément. Par conséquent, l'omission des informations intrajournalières de l'option pourrait conduire à des décisions d'investissement sous-optimales.
(par Diego Amaya, Jean-François Bégin et Geneviève Gauthier)
Exemple en énergie, environnement, ressources naturelles
Bâtiment intelligent
Le nouveau contexte dans lequel évolue les bâtiments du 21e siècle, impose clairement le développement de nouvelles technologies de l'information et de la communication à la fine pointe afin de constituer des outils d'aide à la décision pour la gestion efficace d'énergie dans les bâtiments. Ainsi, le concept de bâtiment intelligent ne se limite pas à l'installation de divers capteurs, il s'inscrit dans un contexte plus large où il y a intégration des ressources énergétiques distribuées et une participation active des consommateurs à la gestion efficace de la demande à travers le bâtiment. Avec les progrès des infrastructures de compteurs intelligents, la stratégie numérique est devenue cruciale pour la valorisation des données récoltées. L'intelligence artificielle (IA) semble être un choix essentiel pour traiter les données massives, augmenter la performance des modèles de prévisions court-terme de la demande énergétique, mieux saisir la volatilité existante dans chaque profil de consommation et générer des mécanismes d'apprentissage adaptés pour la gestion de la demande dans plusieurs types de bâtiments.
En plus, les récentes avancées de l'internet des objets offrent aux bâtiments des opportunités intéressantes de coopération, permettant ainsi de mutualiser les différentes ressources à l'échelle du quartier et la possibilité d'échange d'énergie pour réduire la demande de pointe. Avec la révolution des mégadonnées (Big data) dû au déploiement généralisé des compteurs, capteurs et technologies intelligentes, il est nécessaire de mieux explorer le potentiel des modèles de prédiction basés sur l'apprentissage profond afin d'améliorer la précision et l'efficacité des prévisions dans le contexte énergétique.
L'équipe de Hanane Dagdougui, professeure au département de mathématiques et de génie industriel et membre du GERAD s'intéresse particulièrement au développement des modèles mathématiques et l'application des techniques d'apprentissage automatique aux problèmes de la gestion de l'énergie dans les bâtiments. Hanane Dagdougui travaille sur le développement d'algorithmes distribués et de nouvelles approches basées sur de l'apprentissage machine ainsi qu'à la mise en œuvre de leurs applications dans les réseaux de bâtiments intelligents. Ces algorithmes de gestion feront appel aux stratégies de réponse à la demande qui permettront d'augmenter la flexibilité du bâtiment et du réseau. Hanane Dagdougui développe actuellement plusieurs projets de grandes envergures avec des partenaires majeurs tels que CanmetÉNERGIE, l'institut de recherche d'Hydro-Québec, Innovée, Hitachi ABB, Fusion Énergie, VadimUS. Elle travaille conjointement en collaboration avec Charles Audet, Sébastien Le Digabel et Antoine Lesage-Landry, professeurs à Polytechnique Montréal et membres du GERAD. La gestion de la demande d'un nombre significatif de bâtiments, lorsqu'elle est contrôlée avec précision par les agrégateurs, peut jouer un rôle croissant sur le marché de gros de l'électricité. Dans ce cas, elle peut aider le gestionnaire du réseau électrique à mieux gérer la demande de pointe tout en exploitant le potentiel de flexibilité et permettant aux consommateurs de bénéficier des récompenses ou de factures d'énergie moins élevées.
Exemple en infrastructures intelligentes
Infrastructures intelligentes
L'entretien et le renouvellement de notre infrastructure vont demander un investissement considérable dans les prochaines décennies. Des changements majeurs sont nécessaires pour nos systèmes de transport ou énergétiques, afin de faire face notamment aux défis environnementaux. En même temps, les progrès des technologies de l'information donnent l'occasion aux membres du GERAD de travailler à améliorer les capacités, l'efficacité et la fiabilité de notre infrastructure au lieu de simplement la réparer.
Plus de données disponibles
Les infrastructures intelligentes visent à améliorer – souvent en temps réel – un service fourni à une population d'usagers, en utilisant diverses données disponibles sur leur propre état ainsi que sur ces usagers eux-mêmes. Par exemple, la gestion d'un réseau de transport en commun ou d'un parc de taxis peut s'appuyer sur le positionnement précis des véhicules, sur le signalement rapide d'incidents, ainsi que sur des prédictions de l'évolution du trafic et de la demande rendues plus fiables par les données de localisation transmises par les téléphones cellulaires des usagers. Plus généralement, avec le développement de l'Internet des objets, on observe dans de nombreux domaines une prolifération des capteurs et des sources de données disponibles. Le GERAD rassemble plusieurs chercheurs et chercheuses qui travaillent à transformer et à fusionner ces données brutes en modèles statistiques qui peuvent ensuite être utilisés à des fins décisionnelles. Ces données peuvent aussi servir à la planification à plus long terme de l'évolution de l'infrastructure.
Dimensions sociales et éthiques
Il y a toutefois des inquiétudes justifiées liées aux pratiques d'utilisation des données personnelles, qui sont un pilier de la notion d'infrastructure intelligente, mais dont la diffusion peut porter atteinte au respect de la vie privée. De nombreuses villes ont développé des programmes de « données ouvertes », mais n'appliquent pas nécessairement les méthodes de pointe nécessaires pour protéger les données personnelles. Par exemple, il est bien documenté que les jeux de données qui enregistrent les mouvements d'individus au cours du temps sont particulièrement difficiles à anonymiser, et pourtant on peut fréquemment retrouver de tels jeux de données en libre accès. Le groupe du professeur Jérôme Le Ny s'intéresse au développement de méthodes d'estimation et de prise de décision qui peuvent utiliser des données personnelles agrégées, tout en fournissant des garanties mathématiques formelles sur la protection de la confidentialité des données (garanties dites de « confidentialité différentielle »). Il s'agit notamment de mettre au point des systèmes qui ne récoltent les données que dans des buts bien définis, et qui appliquent ensuite des méthodes de protection (agrégation, brouillage, etc.) en les adaptant précisément à ces objectifs afin de limiter l'impact sur la précision des statistiques produites. Les applications sont nombreuses, et ces travaux contribueront à renforcer la confiance des usagers dans les infrastructures intelligentes et leur consentement à fournir les données nécessaires.
Exemples de publications :
Le Ny, J., Differential Privacy for Dynamic Data. SpringerBriefs in Control, Automation and Robotics, Springer, 2020.
Le Ny, J., Privacy in Network Systems. In Encyclopedia of Systems and Control, J. Baillieul, T. Samad, Editors, Springer, 2021.
Pelletier, M., Saunier, N., Le Ny, J., Differentially Private Analysis of Transportation Data. In Privacy in Dynamical Systems, F. Farokhi, Editor, pp. 131-155, Springer, 2020.
Exemple en logistique intelligente
L'importance des données dans le transport et la distribution
Les données dans les chaînes d'approvisionnement sont connues pour être très complexes et volumineuses. Ces données, qu'elles soient structurées ou non, sont essentielles dans de nombreuses décisions qui sont prises régulièrement. Par exemple, dans le commerce de détail, les données relatives à la demande, aux marchés, aux engagements des clients, aux prix et à de nombreux autres facteurs pertinents sont constamment collectées et exploitées dans le processus de prise de décision par les planificateurs de la demande et des achats. Dans le domaine des transports, les planificateurs et les répartiteurs s'appuient souvent sur de nombreuses sources de données concernant le trafic en temps réel, les délais, l'état des routes, les coûts, les exigences des clients… dans leurs processus de planification et d'exécution. Il peut s'avérer très difficile de combiner et d'extraire des données provenant de différentes sources, ou encore de générer des informations pertinentes à partir de ces données pour soutenir les processus de prise de décision. En outre, les performances des méthodes de prise de décision basées sur les données dépendent fortement des informations et des représentations créées à partir des données d'origine. Cet axe de recherche vise à aborder l'aspect de la valorisation des données et ses implications dans la prise de décision, soit de manière entièrement automatisée, soit avec des interventions humaines.
Les chercheurs du GERAD ont réalisé un certain nombre d'études qui tentent d'améliorer la qualité et la fiabilité des décisions grâce à différentes approches quantitatives employées pour valoriser les données dans de multiples applications réelles de la chaîne d'approvisionnement et de la logistique. Plusieurs études notables menées par Carolina Osorio, Guy Desaulniers et Andrea Lodi ont spécifiquement abordé la question de l'incertitude existante dans la gestion du trafic et du transport dans le domaine public. Les travaux menés par Okan Arslan et Yichuan Daniel Ding montrent comment l'analyse de données peut améliorer les décisions de planification et d'ordonnancement dans la livraison du dernier kilomètre et l'ordonnancement de la main-d'œuvre. Dans un contexte de vente au détail, Andrea Lodi a proposé une méthode de décomposition efficace pour apprendre les préférences latentes des clients à partir des données de vente au détail. Enfin, la valeur de la disponibilité des données et du partage des informations est également examinée de manière analytique dans un contexte de vente au détail dans les articles de recherche de Georges Zaccour.
Note générale : dans le texte, seuls les membres du GERAD impliqués dans les recherches mentionnées sont indiqués, mais pas leurs co-auteurs qui ne sont pas membres du GERAD. Les informations sur les co-auteurs, ainsi que des informations complémentaires, se trouvent dans les références.
Références :
Arslan, O., Abay, R., Data-driven vehicle routing in last mile delivery, Cirrelt-2021-30, 2021.
Fields, E., Osorio, C., Zhou, T., A data-driven method for reconstructing a distribution from a truncated sample with an application to inferring car-sharing demand. Transportation Science, 55(3), 616-636, 2021.
Jena, S. D., Lodi, A., Palmer, H.,Sole, C., A partially ranked choice model for large-scale data-driven assortment optimization. INFORMS Journal on Optimization, 2(4), 297-319, 2020.
Lu, J., Osorio, C., A probabilistic traffic-theoretic network loading model suitable for large-scale network analysis. Transportation Science, 52(6), 1509-1530, 2018.
Osorio, C., High-dimensional offline origin-destination (OD) demand calibration for stochastic traffic simulators of large-scale road networks. Transportation Research Part B: Methodological, 124, 18-43, 2019.
Ricard, L., Desaulniers, G., Lodi, A., Rousseau, L.M., Predicting the probability distribution of bus travel time to move towards reliable planning of public transport services. arXiv:2102.02292, 2021.
Yu, M., Ding, Y., Lindsey, R., Shi, C., A data-driven approach to manpower planning at US–Canada border crossings. Transportation Research Part A: Policy and Practice, 91, 34-47, 2016.
Zhang, Q., Chen, J., Zaccour, G., Market targeting and information sharing with social influences in a luxury supply chain. Transportation Research Part E: Logistics and Transportation Review, 133, 101822, 2020.