Expected policy gradients for reinforcement learning

Expected policy gradients for reinforcement learning

We propose expected policy gradients (EPG), which unify stochastic policy gradients (SPG) and deterministic policy gradients (DPG) for reinforcement learning. Inspired by expected sarsa, EPG integrates (or sums) across actions when estimating the gradient, instead of relying only on the action in th...

Descripción completa

Detalles Bibliográficos
Autores principales:	Ciosek, K, Whiteson, S
Formato:	Journal article
Lenguaje:	English
Publicado:	Journal of Machine Learning Research 2020

Ejemplares similares

Expected policy gradients
por: Ciosek, K, et al.
Publicado: (2018)

Fourier policy gradients
por: Fellows, M, et al.
Publicado: (2018)

OFFER: Off-environment reinforcement learning
por: Ciosek, K, et al.
Publicado: (2017)

Robust reinforcement learning with Bayesian optimisation and quadrature
por: Paul, S, et al.
Publicado: (2020)

Alternating optimisation and quadrature for robust control
por: Paul, S, et al.
Publicado: (2018)

A Policy Gradient Algorithm for Learning to Learn in Multiagent Reinforcement Learning
por: Kim, Dong-Ki, et al.
Publicado: (2022)

Deep reinforcement learning with robust deep deterministic policy gradient
por: Teckchai Tiong, et al.
Publicado: (2020)

Fingerprint policy optimisation for robust reinforcement learning
por: Paul, S, et al.
Publicado: (2019)

Counterfactual multi−agent policy gradients
por: Foerster, J, et al.
Publicado: (2018)

Fast efficient hyperparameter tuning for policy gradient methods
por: Paul, S, et al.
Publicado: (2019)

Mean−variance policy iteration for risk−averse reinforcement learning
por: Zhang, S, et al.
Publicado: (2021)

Exploration in Gradient-Based Reinforcement Learning
por: Meuleau, Nicolas, et al.
Publicado: (2004)

Loaded DiCE: Trading off bias and variance in any-order score function gradient estimators for reinforcement learning
por: Farquhar, G, et al.
Publicado: (2019)

Inverse reinforcement learning from failure
por: Shiarlis, K, et al.
Publicado: (2016)

Distributed Bayesian learning with stochastic natural gradient expectation propagation and the posterior server
por: Hasenclver, L, et al.
Publicado: (2017)

FACMAC: Factored multi−agent centralised policy gradients
por: Peng, B, et al.
Publicado: (2022)

Multileave gradient descent for fast online learning to rank
por: Whiteson, S, et al.
Publicado: (2016)

Deep residual reinforcement learning
por: Zhang, S, et al.
Publicado: (2020)

Learning retrospective knowledge with reverse reinforcement learning
por: Zhang, S, et al.
Publicado: (2020)

Bayesian action decoder for deep multi-agent reinforcement learning
por: Whiteson, S
Publicado: (2019)

Reinforcement Learning by Policy Search
por: Peshkin, Leonid
Publicado: (2004)

Learning to communicate with Deep multi-agent reinforcement learning
por: Foerster, J, et al.
Publicado: (2016)

Deep variational reinforcement learning for POMDPs
por: Igl, M, et al.
Publicado: (2018)

GradientDICE: rethinking generalized offline estimation of stationary values
por: Zhang, S, et al.
Publicado: (2020)

VIREL: A variational inference framework for reinforcement learning
por: Fellows, M, et al.
Publicado: (2019)

Stabilization Policy, Expected Output and Employment.
por: Bond, S
Publicado: (1988)

On Expectations, Government Policy and the Rate of Investment.
por: Nickell, S
Publicado: (1974)

Learning and expectations in macroeconomics /
por: Evans, George W., 1949-, et al.
Publicado: (2001)

Exploration in approximate hyper-state space for meta reinforcement learning
por: Zintgraf, L, et al.
Publicado: (2021)

Transient non−stationarity and generalisation in deep reinforcement learning
por: Igl, M, et al.
Publicado: (2021)

Verifiable reinforcement learning via policy extraction
por: Solar Lezama, Armando, et al.
Publicado: (2021)

Verified probabilistic policies for deep reinforcement learning
por: Bacci, E, et al.
Publicado: (2022)

Off-policy reinforcement learning with Gaussian processes
por: Chowdhary, Girish, et al.
Publicado: (2015)

Nonparametric Bayesian Policy Priors for Reinforcement Learning
por: Doshi-Velez, Finale P., et al.
Publicado: (2011)

Multi-agent common knowledge reinforcement learning
por: de Witt, C, et al.
Publicado: (2019)

Policy gradient methods for linear quadratic problems
por: Yang, H
Publicado: (2022)

TreeQN and ATreeC: differentiable tree planning for deep reinforcement learning
por: Farquhar, G, et al.
Publicado: (2018)

Inflation-Target Expectations and Optimal Monetary Policy.
por: Kapadia, S
Publicado: (2005)

Inflation-target expectations and optimal monetary policy
por: Kapadia, S
Publicado: (2005)

Reinforcement learning enhanced quantum-inspired algorithm for combinatorial optimization
por: Beloborodov, D, et al.
Publicado: (2020)