Q-learning with nearest neighbors

© 2018 Curran Associates Inc.All rights reserved. We consider model-free reinforcement learning for infinite-horizon discounted Markov Decision Processes (MDPs) with a continuous state space and unknown transition kernel, when only a single sample path under an arbitrary policy of the system is ava...

সম্পূর্ণ বিবরণ

গ্রন্থ-পঞ্জীর বিবরন
প্রধান লেখক: Shah, Devavrat, Xie, Qiaomin
অন্যান্য লেখক: Massachusetts Institute of Technology. Laboratory for Information and Decision Systems
বিন্যাস: প্রবন্ধ
ভাষা:English
প্রকাশিত: 2021
অনলাইন ব্যবহার করুন:https://hdl.handle.net/1721.1/137946

অনুরূপ উপাদানগুলি