Výskum
Autor: Redakcia AI Feed
EasyRL sľubuje silnejšie post-tréningové učenie aj s malým objemom označených dát
Práca EasyRL spája trochu označených „ľahkých“ dát, pseudo-labeling a postupné zosilňovanie náročnosti. Autori tvrdia, že tým zlepšujú reasoning výkon bez nákladov typických pre plne anotované RL pipeline.