Publications

Martin Waltz, and Ostap Okhrin. Addressing maximization bias in reinforcement learning with two-sample testing. Artificial intelligence, (336)Elsevier Science B.V., November 2024. [PUMA: FIS_scads Two-sample bias, learning, Estimation expected testing Reinforcement topic_engineering Maximum Q-learning, value,]