SWARR skúša dostať sliding-window attention späť do hry pri matematickom uvažovaní
Nový preprint ukazuje dvojstupňový postup, v ktorom sa model so štandardnou pozornosťou prevedie na sliding-window attention a následne doladí posilňovaným učením pre matematické úlohy.