Expected policy gradients for reinforcement learning

We propose expected policy gradients (EPG), which unify stochastic policy gradients (SPG) and deterministic policy gradients (DPG) for reinforcement learning. Inspired by expected sarsa, EPG integrates (or sums) across actions when estimating the gradient, instead of relying only on the action in th...

Ամբողջական նկարագրություն

Մատենագիտական մանրամասներ
Հիմնական հեղինակներ: Ciosek, K, Whiteson, S
Ձևաչափ: Journal article
Լեզու:English
Հրապարակվել է: Journal of Machine Learning Research 2020