Q-learning with nearest neighbors
© 2018 Curran Associates Inc.All rights reserved. We consider model-free reinforcement learning for infinite-horizon discounted Markov Decision Processes (MDPs) with a continuous state space and unknown transition kernel, when only a single sample path under an arbitrary policy of the system is ava...
প্রধান লেখক: | Shah, Devavrat, Xie, Qiaomin |
---|---|
অন্যান্য লেখক: | Massachusetts Institute of Technology. Laboratory for Information and Decision Systems |
বিন্যাস: | প্রবন্ধ |
ভাষা: | English |
প্রকাশিত: |
2021
|
অনলাইন ব্যবহার করুন: | https://hdl.handle.net/1721.1/137946 |
অনুরূপ উপাদানগুলি
-
Nearest Neighbors for Matrix Estimation Interpreted as Blind Regression for Latent Variable Model
অনুযায়ী: Li, Yihua, অন্যান্য
প্রকাশিত: (2021) -
Simultaneous nearest neighbor search
অনুযায়ী: Kleinberg, Robert, অন্যান্য
প্রকাশিত: (2017) -
Efficient discriminative learning of parametric nearest neighbor classifiers
অনুযায়ী: Zhang, Z, অন্যান্য
প্রকাশিত: (2012) -
Nearest-neighbor methods in learning and vision : theory and practice /
অনুযায়ী: Shakhnarovich, Gregory, অন্যান্য
প্রকাশিত: (2005) -
Nearest neighbor queries in spatial database
অনুযায়ী: Liu, Danzhou.
প্রকাশিত: (2008)