Fullscreen
Loading...
 
Tao
Print

Seminar07012019

Monday, 7th of January

10h30 (room R2014, 660 building) (see location )

Jonathan Raiman

(OpenAI)

Title: OpenAI Five: Atteindre un niveau professionnel à Dota en jouant contre soi-même


Abstract

La prochaine grande étape dans l'IA de jeu réside dans la combinaison de la prise de décision dans l'incertitude, au sein d'un monde continu, avec un espace décisionnel de haute dimension (170,000+ actions/décision), en collaborant avec une équipe. Le succès de l'application de recherche et d'apprentissage par renforcement pour atteindre un niveau superhumain dans les jeux de Backgammon, Echec, Go, Poker (Texas Hold 'em), soulève des questions importantes sur l'applicabilité d'un apprentissage tabula-rasa de stratégies long-termes dans des jeux de stratégie en temps réel.
Est-il nécessaire d'avoir des nouvelles techniques ou des architectures de réseaux neuronaux spécifiques pour apprendre? Je présenterai nos résultats en cours, où nous trouvons qu'il est possible d'atteindre un niveau professionnel au jeu de Dota 2 en associant deux éléments-clés à l'apprentissage sans modèle:
1) entrainer des agents en jouant contre eux-mêmes,
2) croître l'échelle du système et de l'optimisation par plusieurs ordres de grandeur (1M d'observations par batch).
Je détaillerais certains détails architecturaux, la structure du système d'apprentissage "Rapid", des stratégies découvertes par "OpenAI Five", ainsi que des éléments de réponse initiaux sur la méthodologie pour apprendre dans un milieu haut-dimensionnel avec des récompenses rares et éparses.
Finalement, je conclurais sur les étapes restantes de notre projet Dota.



Contact: guillaume.charpiat at inria.fr
All TAU seminars: here


Contributors to this page: guillaume .
Page last modified on Wednesday 02 of January, 2019 12:58:13 CET by guillaume.