OFFER: Off-environment reinforcement learning
Policy gradient methods have been widely applied in reinforcement learning. For reasons of safety and cost, learning is often conducted using a simulator. However, learning in simulation does not traditionally utilise the opportunity to improve learning by adjusting certain environment variables - s...
প্রধান লেখক: | Ciosek, K, Whiteson, S |
---|---|
বিন্যাস: | Conference item |
ভাষা: | English |
প্রকাশিত: |
AAAI Press
2017
|
অনুরূপ উপাদানগুলি
অনুরূপ উপাদানগুলি
-
Expected policy gradients for reinforcement learning
অনুযায়ী: Ciosek, K, অন্যান্য
প্রকাশিত: (2020) -
Robust reinforcement learning with Bayesian optimisation and quadrature
অনুযায়ী: Paul, S, অন্যান্য
প্রকাশিত: (2020) -
Expected policy gradients
অনুযায়ী: Ciosek, K, অন্যান্য
প্রকাশিত: (2018) -
Loaded DiCE: Trading off bias and variance in any-order score function gradient estimators for reinforcement learning
অনুযায়ী: Farquhar, G, অন্যান্য
প্রকাশিত: (2019) -
Fourier policy gradients
অনুযায়ী: Fellows, M, অন্যান্য
প্রকাশিত: (2018)