Publications

Martin Waltz, and Ostap Okhrin. Addressing maximization bias in reinforcement learning with two-sample testing. Artificial intelligence, (336)Elsevier Science B.V., November 2024. [PUMA: topic_engineering Estimation FIS_scads Maximum Q-learning, Reinforcement Two-sample bias, expected learning, testing value,]