Copeland dueling bandits
A version of the dueling bandit problem is addressed in which a Condorcet winner may not exist. Two algorithms are proposed that instead seek to minimize regret with respect to the Copeland winner, which, unlike the Condorcet winner, is guaranteed to exist. The first, Copeland Confidence Bound (CCB)...
প্রধান লেখক: | Zoghi, M, Karnin, Z, Whiteson, S, Rijke, M |
---|---|
বিন্যাস: | Conference item |
প্রকাশিত: |
2015
|
অনুরূপ উপাদানগুলি
অনুরূপ উপাদানগুলি
-
Melancholic Mem in the Third Life of Grange Copeland
অনুযায়ী: Sedehi, Kamelia Talebian, অন্যান্য
প্রকাশিত: (2015) -
Good Outcome Following Copeland Hemiarthroplasty for Acromegalic Arthropathy
অনুযায়ী: S. E. Johnson-Lynn, অন্যান্য
প্রকাশিত: (2011-01-01) -
Synergy in science: an interview with Neal Copeland and Nancy Jenkins
প্রকাশিত: (2012-11-01) -
Exponential Regret Bounds for Gaussian Process Bandits with Deterministic Observations
অনুযায়ী: de Freitas, N, অন্যান্য
প্রকাশিত: (2012) -
StreamingBandit: Experimenting with Bandit Policies
অনুযায়ী: Jules Kruijswijk, অন্যান্য
প্রকাশিত: (2020-08-01)