Preprint modeluje šum v temporal-difference učení cez stochastickú difúziu
Nový arXiv preprint navrhuje SDE aproximáciu pre lineárne TD(0) učenie pod Markovovým šumom. Cieľom je lepšie vysvetliť chybové dno pri konštantnom kroku než klasická ODE analýza.