Proximal Policy Optimization Based on Self-directed Action Selection

The optimization algorithm of monotonous improvement of strategy in reinforcement learning is a current research hotspot,and it has achieved good performance in both discrete and continuous control tasks.Proximal policy optimization(PPO)algorithm is a classic strategy monotonic promotion algorithm,b...

Full description

Bibliographic Details
Main Author:	SHEN Yi, LIU Quan
Format:	Article
Language:	zho
Published:	Editorial office of Computer Science 2021-12-01
Series:	Jisuanji kexue
Subjects:	reinforcement learning\|deep reinforcement learning\|policy gradient\|proximal policy optimization\|self-directed
Online Access:	https://www.jsjkx.com/fileup/1002-137X/PDF/1002-137X-2021-12-297.pdf

Internet

https://www.jsjkx.com/fileup/1002-137X/PDF/1002-137X-2021-12-297.pdf

Proximal Policy Optimization Based on Self-directed Action Selection

Internet

Similar Items