Retour

G-2023-57

Asymmetric actor-critic with approximate information state

et

référence BibTeX

L'apprentissage par renforcement (RL) pour les processus décisionnels de Markov partiellement observables (POMDP) est un problème difficile car les décisions doivent être prises sur la base de l'historique complet des observations et des actions. Cependant, dans plusieurs scénarios, les informations d’état sont disponibles pendant la phase de formation. Nous souhaitons exploiter la disponibilité de ces informations d'état pendant la phase de formation pour apprendre efficacement une politique basée sur l'historique à l'aide de RL. Plus précisément, nous considérons les algorithmes acteur-critique, dans lesquels l’acteur utilise uniquement les informations historiques, mais le critique utilise à la fois l’histoire et l’état. De tels algorithmes sont appelés asymétrique acteur-critique, pour mettre en évidence le fait que l'acteur et le critique ont une information asymétrique. Motivés par le récent succès de l'utilisation des pertes de représentation dans RL pour les POMDPs (Subramanian et al. (2022)), nous obtenons des résultats théoriques similaires pour le cas acteur-critique asymétrique et évaluons l'efficacité de l'ajout de telles pertes auxiliaires dans les expériences. En particulier, nous apprenons une représentation historique -appelée état d'information approximatif (AIS)- et limitons la perte de performances lorsque nous agissant à l'aide de l'AIS.

, 13 pages

Axe de recherche

Application de recherche

Document

G2357.pdf (950 Ko)